L'obiettivo dell'entity resolution (ER) ਠidentificare i record che si riferiscono alla stessa entità nel mondo reale. In questo lavoro di tesi ਠstata analizzata una nuova classe di regole sviluppata dal professor Jianzhong Li, dalla prof.ssa Hong Gao e dalla dott.ssa Lingli Li dell'Università Harbin Institute of Technology (HIT), in grado di descrivere le complesse condizioni di corrispondenza tra record ed entità . Sulla base di questa classe di regole, ਠstato presentato il problema della Rule-Based Entity Resolution. In questo contesto, ਠstato esaminato un algoritmo di individuazione delle regole efficace ed efficiente che ha permesso di scoprire nuove regole a partire da un dataset di training fornito in ingresso. In seguito, applicando le regole a ciascun record, siamo stati in grado di identificare a quale entità si riferisce il record stesso. Dai risultati sperimentali su un dataset reale si ਠmesso in evidenza quali siano le potenzialità di questo framework e che risultati si possano raggiungere semplicemente modificando dei parametri definiti inizialmente.
Implementazione e testing di algoritmi di Entity Resolution basati su regole
2019
Abstract
L'obiettivo dell'entity resolution (ER) ਠidentificare i record che si riferiscono alla stessa entità nel mondo reale. In questo lavoro di tesi ਠstata analizzata una nuova classe di regole sviluppata dal professor Jianzhong Li, dalla prof.ssa Hong Gao e dalla dott.ssa Lingli Li dell'Università Harbin Institute of Technology (HIT), in grado di descrivere le complesse condizioni di corrispondenza tra record ed entità . Sulla base di questa classe di regole, ਠstato presentato il problema della Rule-Based Entity Resolution. In questo contesto, ਠstato esaminato un algoritmo di individuazione delle regole efficace ed efficiente che ha permesso di scoprire nuove regole a partire da un dataset di training fornito in ingresso. In seguito, applicando le regole a ciascun record, siamo stati in grado di identificare a quale entità si riferisce il record stesso. Dai risultati sperimentali su un dataset reale si ਠmesso in evidenza quali siano le potenzialità di questo framework e che risultati si possano raggiungere semplicemente modificando dei parametri definiti inizialmente.| File | Dimensione | Formato | |
|---|---|---|---|
|
Tesi.pdf
accesso solo da BNCF e BNCR
Tipologia:
Altro materiale allegato
Licenza:
Tutti i diritti riservati
Dimensione
1.37 MB
Formato
Adobe PDF
|
1.37 MB | Adobe PDF |
I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/20.500.14242/297560
URN:NBN:IT:UNIMORE-297560