L'obiettivo dell'entity resolution (ER) ਠidentificare i record che si riferiscono alla stessa entità  nel mondo reale. In questo lavoro di tesi ਠstata analizzata una nuova classe di regole sviluppata dal professor Jianzhong Li, dalla prof.ssa Hong Gao e dalla dott.ssa Lingli Li dell'Università  Harbin Institute of Technology (HIT), in grado di descrivere le complesse condizioni di corrispondenza tra record ed entità . Sulla base di questa classe di regole, ਠstato presentato il problema della Rule-Based Entity Resolution. In questo contesto, ਠstato esaminato un algoritmo di individuazione delle regole efficace ed efficiente che ha permesso di scoprire nuove regole a partire da un dataset di training fornito in ingresso. In seguito, applicando le regole a ciascun record, siamo stati in grado di identificare a quale entità  si riferisce il record stesso. Dai risultati sperimentali su un dataset reale si ਠmesso in evidenza quali siano le potenzialità  di questo framework e che risultati si possano raggiungere semplicemente modificando dei parametri definiti inizialmente.

Implementazione e testing di algoritmi di Entity Resolution basati su regole

2019

Abstract

L'obiettivo dell'entity resolution (ER) ਠidentificare i record che si riferiscono alla stessa entità  nel mondo reale. In questo lavoro di tesi ਠstata analizzata una nuova classe di regole sviluppata dal professor Jianzhong Li, dalla prof.ssa Hong Gao e dalla dott.ssa Lingli Li dell'Università  Harbin Institute of Technology (HIT), in grado di descrivere le complesse condizioni di corrispondenza tra record ed entità . Sulla base di questa classe di regole, ਠstato presentato il problema della Rule-Based Entity Resolution. In questo contesto, ਠstato esaminato un algoritmo di individuazione delle regole efficace ed efficiente che ha permesso di scoprire nuove regole a partire da un dataset di training fornito in ingresso. In seguito, applicando le regole a ciascun record, siamo stati in grado di identificare a quale entità  si riferisce il record stesso. Dai risultati sperimentali su un dataset reale si ਠmesso in evidenza quali siano le potenzialità  di questo framework e che risultati si possano raggiungere semplicemente modificando dei parametri definiti inizialmente.
2019
it
Dipartimento di Ingegneria
Università degli Studi di Modena e Reggio Emilia
File in questo prodotto:
File Dimensione Formato  
Tesi.pdf

accesso solo da BNCF e BNCR

Tipologia: Altro materiale allegato
Licenza: Tutti i diritti riservati
Dimensione 1.37 MB
Formato Adobe PDF
1.37 MB Adobe PDF

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14242/297560
Il codice NBN di questa tesi è URN:NBN:IT:UNIMORE-297560