Il progetto di tesi ha riguardato l'implementazione di una tecnica di Schema Matching basata sui duplicati. Dati due dataset con il relativo schema (insieme di attributi) l'obiettivo dello Schema Matching ਠquello di individuare coppie di attributi simili nei due schemi; nella tecnica di Schema Matching basata sui duplicati tale similarità  tra attributi ਠcalcolata considerando coppie di record duplicati nei due schemi, sfruttando il fatto che due record duplicati tendono ad avere valori uguali o simili in attributi corrispondenti. Un input della tecnica ਠquindi costituito dal risultato dell'Entity Resolution che individua appunto record duplicati nei due schemi. E' stata estesa una tecnica di Schema Matching basata sui duplicati - denominata DUMAS - sia considerando differenti funzioni per il calcolo di similarità  tra valori di attributi corrispondenti, sia considerando differenti tecniche di post processing per ridurre le corrispondenze tra attributi da molti-a-molti a uno-a-uno. La valutazione della tecnica realizzata ਠstata effettuata sia rispetto a dataset sintetici, allo scopo di provarne la sua efficacia soprattutto in presenza di molti attributi con lo stesso dominio, sia rispetto a dataset reali di cui erano già  disponibili risultati di Schema Matching ottenuti con altre tecniche, allo scopo di effettuarne un confronto e mostrare come, nella maggior parte dei casi, l'accuratezza della tecnica realizzata superi quella delle altre tecniche.

Una tecnica di Schema Matching basata sui duplicati

2020

Abstract

Il progetto di tesi ha riguardato l'implementazione di una tecnica di Schema Matching basata sui duplicati. Dati due dataset con il relativo schema (insieme di attributi) l'obiettivo dello Schema Matching ਠquello di individuare coppie di attributi simili nei due schemi; nella tecnica di Schema Matching basata sui duplicati tale similarità  tra attributi ਠcalcolata considerando coppie di record duplicati nei due schemi, sfruttando il fatto che due record duplicati tendono ad avere valori uguali o simili in attributi corrispondenti. Un input della tecnica ਠquindi costituito dal risultato dell'Entity Resolution che individua appunto record duplicati nei due schemi. E' stata estesa una tecnica di Schema Matching basata sui duplicati - denominata DUMAS - sia considerando differenti funzioni per il calcolo di similarità  tra valori di attributi corrispondenti, sia considerando differenti tecniche di post processing per ridurre le corrispondenze tra attributi da molti-a-molti a uno-a-uno. La valutazione della tecnica realizzata ਠstata effettuata sia rispetto a dataset sintetici, allo scopo di provarne la sua efficacia soprattutto in presenza di molti attributi con lo stesso dominio, sia rispetto a dataset reali di cui erano già  disponibili risultati di Schema Matching ottenuti con altre tecniche, allo scopo di effettuarne un confronto e mostrare come, nella maggior parte dei casi, l'accuratezza della tecnica realizzata superi quella delle altre tecniche.
2020
it
Dipartimento di Ingegneria "Enzo Ferrari"
Università degli Studi di Modena e Reggio Emilia
File in questo prodotto:
File Dimensione Formato  
Tesi_Marcello_Migale.pdf

accesso solo da BNCF e BNCR

Tipologia: Altro materiale allegato
Licenza: Tutti i diritti riservati
Dimensione 1.92 MB
Formato Adobe PDF
1.92 MB Adobe PDF

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14242/305465
Il codice NBN di questa tesi è URN:NBN:IT:UNIMORE-305465