Una tecnica di Schema Matching basata sui duplicati

Migale, Marcello

Il progetto di tesi ha riguardato l'implementazione di una tecnica di Schema Matching basata sui duplicati. Dati due dataset con il relativo schema (insieme di attributi) l'obiettivo dello Schema Matching à¨ quello di individuare coppie di attributi simili nei due schemi; nella tecnica di Schema Matching basata sui duplicati tale similarità tra attributi à¨ calcolata considerando coppie di record duplicati nei due schemi, sfruttando il fatto che due record duplicati tendono ad avere valori uguali o simili in attributi corrispondenti. Un input della tecnica à¨ quindi costituito dal risultato dell'Entity Resolution che individua appunto record duplicati nei due schemi. E' stata estesa una tecnica di Schema Matching basata sui duplicati - denominata DUMAS - sia considerando differenti funzioni per il calcolo di similarità tra valori di attributi corrispondenti, sia considerando differenti tecniche di post processing per ridurre le corrispondenze tra attributi da molti-a-molti a uno-a-uno. La valutazione della tecnica realizzata à¨ stata effettuata sia rispetto a dataset sintetici, allo scopo di provarne la sua efficacia soprattutto in presenza di molti attributi con lo stesso dominio, sia rispetto a dataset reali di cui erano già disponibili risultati di Schema Matching ottenuti con altre tecniche, allo scopo di effettuarne un confronto e mostrare come, nella maggior parte dei casi, l'accuratezza della tecnica realizzata superi quella delle altre tecniche.

Una tecnica di Schema Matching basata sui duplicati

MIGALE, MARCELLO

2020

Abstract

Il progetto di tesi ha riguardato l'implementazione di una tecnica di Schema Matching basata sui duplicati. Dati due dataset con il relativo schema (insieme di attributi) l'obiettivo dello Schema Matching à¨ quello di individuare coppie di attributi simili nei due schemi; nella tecnica di Schema Matching basata sui duplicati tale similarità tra attributi à¨ calcolata considerando coppie di record duplicati nei due schemi, sfruttando il fatto che due record duplicati tendono ad avere valori uguali o simili in attributi corrispondenti. Un input della tecnica à¨ quindi costituito dal risultato dell'Entity Resolution che individua appunto record duplicati nei due schemi. E' stata estesa una tecnica di Schema Matching basata sui duplicati - denominata DUMAS - sia considerando differenti funzioni per il calcolo di similarità tra valori di attributi corrispondenti, sia considerando differenti tecniche di post processing per ridurre le corrispondenze tra attributi da molti-a-molti a uno-a-uno. La valutazione della tecnica realizzata à¨ stata effettuata sia rispetto a dataset sintetici, allo scopo di provarne la sua efficacia soprattutto in presenza di molti attributi con lo stesso dominio, sia rispetto a dataset reali di cui erano già disponibili risultati di Schema Matching ottenuti con altre tecniche, allo scopo di effettuarne un confronto e mostrare come, nella maggior parte dei casi, l'accuratezza della tecnica realizzata superi quella delle altre tecniche.

Scheda breve

Scheda completa

Scheda completa (DC)

	Data di pubblicazione
	
				2020
			
	Lingua
	
				it
			
	Parola chiave
	
				Dipartimento di Ingegneria "Enzo Ferrari"
			
	Nome Editore
	
				Università degli Studi di Modena e Reggio Emilia
			
	Collezione di appartenenza
	
				Università degli Studi di Modena e Reggio Emilia

File in questo prodotto:

File	Dimensione	Formato
Tesi_Marcello_Migale.pdf accesso solo da BNCF e BNCR Tipologia: Altro materiale allegato Licenza: Tutti i diritti riservati Dimensione 1.92 MB Formato Adobe PDF	1.92 MB	Adobe PDF

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14242/305465

Il codice NBN di questa tesi è URN:NBN:IT:UNIMORE-305465