Entity Resolution ਠun aspetto principale del Data Cleaning e Data Preparation. Oggigiorno, ਠancora pi๠importante considerando la quantità di dati, prevalentemente dal web, con cui lavoriamo quotidianamente. E' l'era dei Big Data. Nel corso degli anni sono stati sviluppati algoritmi con lo scopo di diminuire il tempo richiesto al sistema per pulire tutti i dati al suo interno prima di poterli utilizzare. Gli algoritmi progressivi sono fondamentali per raggiungere l'obiettivo di efficienza: questi algoritmi sono capaci di risolvere entità (identificare record che riferiscono allo stesso oggetto del mondo reale ed unirli) progressivamente, senza aspettare la fine della pulizia completa del dataset. La novità che introduciamo con questa tesi ਠdi indirizzare il processo di Entity Resolution solamente verso i dati che occorrono al nostro scopo. In particolare, abbiamo creato un approccio Query-driven che punta ad ordinare i dati puliti secondo una query impostata dall'utente. I record che ci occorrono sono progressivamente puliti ed ordinati e i risultati sono dati in tempo minore rispetto qualsiasi altro algoritmo di cleaning.
Approccio Query-Driven alla Entity Resolution basato su Data Ordering
2019
Abstract
Entity Resolution ਠun aspetto principale del Data Cleaning e Data Preparation. Oggigiorno, ਠancora pi๠importante considerando la quantità di dati, prevalentemente dal web, con cui lavoriamo quotidianamente. E' l'era dei Big Data. Nel corso degli anni sono stati sviluppati algoritmi con lo scopo di diminuire il tempo richiesto al sistema per pulire tutti i dati al suo interno prima di poterli utilizzare. Gli algoritmi progressivi sono fondamentali per raggiungere l'obiettivo di efficienza: questi algoritmi sono capaci di risolvere entità (identificare record che riferiscono allo stesso oggetto del mondo reale ed unirli) progressivamente, senza aspettare la fine della pulizia completa del dataset. La novità che introduciamo con questa tesi ਠdi indirizzare il processo di Entity Resolution solamente verso i dati che occorrono al nostro scopo. In particolare, abbiamo creato un approccio Query-driven che punta ad ordinare i dati puliti secondo una query impostata dall'utente. I record che ci occorrono sono progressivamente puliti ed ordinati e i risultati sono dati in tempo minore rispetto qualsiasi altro algoritmo di cleaning.| File | Dimensione | Formato | |
|---|---|---|---|
|
Thesis.pdf
accesso solo da BNCF e BNCR
Tipologia:
Altro materiale allegato
Licenza:
Tutti i diritti riservati
Dimensione
408.48 kB
Formato
Adobe PDF
|
408.48 kB | Adobe PDF |
I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/20.500.14242/297597
URN:NBN:IT:UNIMORE-297597