Entity Resolution ਠun aspetto principale del Data Cleaning e Data Preparation. Oggigiorno, ਠancora pi๠importante considerando la quantità  di dati, prevalentemente dal web, con cui lavoriamo quotidianamente. E' l'era dei Big Data. Nel corso degli anni sono stati sviluppati algoritmi con lo scopo di diminuire il tempo richiesto al sistema per pulire tutti i dati al suo interno prima di poterli utilizzare. Gli algoritmi progressivi sono fondamentali per raggiungere l'obiettivo di efficienza: questi algoritmi sono capaci di risolvere entità  (identificare record che riferiscono allo stesso oggetto del mondo reale ed unirli) progressivamente, senza aspettare la fine della pulizia completa del dataset. La novità  che introduciamo con questa tesi ਠdi indirizzare il processo di Entity Resolution solamente verso i dati che occorrono al nostro scopo. In particolare, abbiamo creato un approccio Query-driven che punta ad ordinare i dati puliti secondo una query impostata dall'utente. I record che ci occorrono sono progressivamente puliti ed ordinati e i risultati sono dati in tempo minore rispetto qualsiasi altro algoritmo di cleaning.

Approccio Query-Driven alla Entity Resolution basato su Data Ordering

2019

Abstract

Entity Resolution ਠun aspetto principale del Data Cleaning e Data Preparation. Oggigiorno, ਠancora pi๠importante considerando la quantità  di dati, prevalentemente dal web, con cui lavoriamo quotidianamente. E' l'era dei Big Data. Nel corso degli anni sono stati sviluppati algoritmi con lo scopo di diminuire il tempo richiesto al sistema per pulire tutti i dati al suo interno prima di poterli utilizzare. Gli algoritmi progressivi sono fondamentali per raggiungere l'obiettivo di efficienza: questi algoritmi sono capaci di risolvere entità  (identificare record che riferiscono allo stesso oggetto del mondo reale ed unirli) progressivamente, senza aspettare la fine della pulizia completa del dataset. La novità  che introduciamo con questa tesi ਠdi indirizzare il processo di Entity Resolution solamente verso i dati che occorrono al nostro scopo. In particolare, abbiamo creato un approccio Query-driven che punta ad ordinare i dati puliti secondo una query impostata dall'utente. I record che ci occorrono sono progressivamente puliti ed ordinati e i risultati sono dati in tempo minore rispetto qualsiasi altro algoritmo di cleaning.
2019
it
Dipartimento di Ingegneria "Enzo Ferrari"
Università degli Studi di Modena e Reggio Emilia
File in questo prodotto:
File Dimensione Formato  
Thesis.pdf

accesso solo da BNCF e BNCR

Tipologia: Altro materiale allegato
Licenza: Tutti i diritti riservati
Dimensione 408.48 kB
Formato Adobe PDF
408.48 kB Adobe PDF

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14242/297597
Il codice NBN di questa tesi è URN:NBN:IT:UNIMORE-297597