Approccio Query-Driven alla Entity Resolution basato su Data Ordering

Amici, Giacomo

Entity Resolution à¨ un aspetto principale del Data Cleaning e Data Preparation. Oggigiorno, à¨ ancora pià¹ importante considerando la quantità di dati, prevalentemente dal web, con cui lavoriamo quotidianamente. E' l'era dei Big Data. Nel corso degli anni sono stati sviluppati algoritmi con lo scopo di diminuire il tempo richiesto al sistema per pulire tutti i dati al suo interno prima di poterli utilizzare. Gli algoritmi progressivi sono fondamentali per raggiungere l'obiettivo di efficienza: questi algoritmi sono capaci di risolvere entità (identificare record che riferiscono allo stesso oggetto del mondo reale ed unirli) progressivamente, senza aspettare la fine della pulizia completa del dataset. La novità che introduciamo con questa tesi à¨ di indirizzare il processo di Entity Resolution solamente verso i dati che occorrono al nostro scopo. In particolare, abbiamo creato un approccio Query-driven che punta ad ordinare i dati puliti secondo una query impostata dall'utente. I record che ci occorrono sono progressivamente puliti ed ordinati e i risultati sono dati in tempo minore rispetto qualsiasi altro algoritmo di cleaning.

Approccio Query-Driven alla Entity Resolution basato su Data Ordering

AMICI, GIACOMO

2019

Abstract

Entity Resolution à¨ un aspetto principale del Data Cleaning e Data Preparation. Oggigiorno, à¨ ancora pià¹ importante considerando la quantità di dati, prevalentemente dal web, con cui lavoriamo quotidianamente. E' l'era dei Big Data. Nel corso degli anni sono stati sviluppati algoritmi con lo scopo di diminuire il tempo richiesto al sistema per pulire tutti i dati al suo interno prima di poterli utilizzare. Gli algoritmi progressivi sono fondamentali per raggiungere l'obiettivo di efficienza: questi algoritmi sono capaci di risolvere entità (identificare record che riferiscono allo stesso oggetto del mondo reale ed unirli) progressivamente, senza aspettare la fine della pulizia completa del dataset. La novità che introduciamo con questa tesi à¨ di indirizzare il processo di Entity Resolution solamente verso i dati che occorrono al nostro scopo. In particolare, abbiamo creato un approccio Query-driven che punta ad ordinare i dati puliti secondo una query impostata dall'utente. I record che ci occorrono sono progressivamente puliti ed ordinati e i risultati sono dati in tempo minore rispetto qualsiasi altro algoritmo di cleaning.

Scheda breve

Scheda completa

Scheda completa (DC)

	Data di pubblicazione
	
				2019
			
	Lingua
	
				it
			
	Parola chiave
	
				Dipartimento di Ingegneria "Enzo Ferrari"
			
	Nome Editore
	
				Università degli Studi di Modena e Reggio Emilia
			
	Collezione di appartenenza
	
				Università degli Studi di Modena e Reggio Emilia

File in questo prodotto:

File	Dimensione	Formato
Thesis.pdf accesso solo da BNCF e BNCR Tipologia: Altro materiale allegato Licenza: Tutti i diritti riservati Dimensione 408.48 kB Formato Adobe PDF	408.48 kB	Adobe PDF

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14242/297597

Il codice NBN di questa tesi è URN:NBN:IT:UNIMORE-297597