Il progetto di tesi ha riguardato l'implementazione di una tecnica di Schema Matching basata sui duplicati. Dati due dataset con il relativo schema (insieme di attributi) l'obiettivo dello Schema Matching ਠquello di individuare coppie di attributi simili nei due schemi; nella tecnica di Schema Matching basata sui duplicati tale similarità tra attributi ਠcalcolata considerando coppie di record duplicati nei due schemi, sfruttando il fatto che due record duplicati tendono ad avere valori uguali o simili in attributi corrispondenti. Un input della tecnica ਠquindi costituito dal risultato dell'Entity Resolution che individua appunto record duplicati nei due schemi. E' stata estesa una tecnica di Schema Matching basata sui duplicati - denominata DUMAS - sia considerando differenti funzioni per il calcolo di similarità tra valori di attributi corrispondenti, sia considerando differenti tecniche di post processing per ridurre le corrispondenze tra attributi da molti-a-molti a uno-a-uno. La valutazione della tecnica realizzata ਠstata effettuata sia rispetto a dataset sintetici, allo scopo di provarne la sua efficacia soprattutto in presenza di molti attributi con lo stesso dominio, sia rispetto a dataset reali di cui erano già disponibili risultati di Schema Matching ottenuti con altre tecniche, allo scopo di effettuarne un confronto e mostrare come, nella maggior parte dei casi, l'accuratezza della tecnica realizzata superi quella delle altre tecniche.
Una tecnica di Schema Matching basata sui duplicati
2020
Abstract
Il progetto di tesi ha riguardato l'implementazione di una tecnica di Schema Matching basata sui duplicati. Dati due dataset con il relativo schema (insieme di attributi) l'obiettivo dello Schema Matching ਠquello di individuare coppie di attributi simili nei due schemi; nella tecnica di Schema Matching basata sui duplicati tale similarità tra attributi ਠcalcolata considerando coppie di record duplicati nei due schemi, sfruttando il fatto che due record duplicati tendono ad avere valori uguali o simili in attributi corrispondenti. Un input della tecnica ਠquindi costituito dal risultato dell'Entity Resolution che individua appunto record duplicati nei due schemi. E' stata estesa una tecnica di Schema Matching basata sui duplicati - denominata DUMAS - sia considerando differenti funzioni per il calcolo di similarità tra valori di attributi corrispondenti, sia considerando differenti tecniche di post processing per ridurre le corrispondenze tra attributi da molti-a-molti a uno-a-uno. La valutazione della tecnica realizzata ਠstata effettuata sia rispetto a dataset sintetici, allo scopo di provarne la sua efficacia soprattutto in presenza di molti attributi con lo stesso dominio, sia rispetto a dataset reali di cui erano già disponibili risultati di Schema Matching ottenuti con altre tecniche, allo scopo di effettuarne un confronto e mostrare come, nella maggior parte dei casi, l'accuratezza della tecnica realizzata superi quella delle altre tecniche.| File | Dimensione | Formato | |
|---|---|---|---|
|
Tesi_Marcello_Migale.pdf
accesso solo da BNCF e BNCR
Tipologia:
Altro materiale allegato
Licenza:
Tutti i diritti riservati
Dimensione
1.92 MB
Formato
Adobe PDF
|
1.92 MB | Adobe PDF |
I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/20.500.14242/305465
URN:NBN:IT:UNIMORE-305465