Metodi di Join scalabili e le loro applicazioni nei Data Integration Systems

Zhu, Song

Ogni secondo produciamo un'enorme quantità di dati, per cui la capacità di trasformare questa mole di dati in informazioni utili è fondamentale per una migliore gestione della società in cui viviamo. I dati che produciamo possono essere in immagazzinati in forme molto diverse ed eterogenee. Per cui, l'operazione di integrazione di tali dati per la visualizzazione ed elaborazione successiva è vitale. In questo contesto anche le tecniche di Data Integration esistenti devono essere aggiornate per poter supportare la grande mole di dati che creiamo. In questo contesto si inserisce questa dissertazione. L'obbiettivo è quella migliore le prestazioni delle operazioni fondamentali nel Data Integration. L'operazione su cui si concentra questo lavoro è l'operatore Join nell'ambito del Big Data Integration. Join è un operatore fondamentale nel contesto del Data Integration. Sono usati principalmente due tipi di join. Il primo è equi-join è usato nel Merge Join Step, ed usato per collegare di due o più dati di sorgenti. Il join usato per fondere i dati di sorgenti differenti, oltre ad essere un join con il predicato di uguaglianza, è solitamente è un outer join, in quando è possibile che i dati presenti su una sorgente non è presente nelle altre. Inoltre se si ha molte sorgenti, usare un solo join binario può essere svantaggioso. In questa ottica, viene presentato un nuovo algoritmo di join, SOPJ, creato appositamente per rendere il Merge Join Step più efficiente, parallelizzabile e scalabile, per poter gestire in maniera efficiente non solo grandi sorgenti dati, ma anche un enorme numero di sorgenti dati. Il secondo tipo di join è similarity join, questo operatore è usato per molti scopi, in Data Integration, soprattutto nelle operazioni di pulizia e di normalizzazione dei dati come duplication detection ed entity resolution. Il similarity join è stato ampiamente studiato in letteratura, con l'introduzione del paradigma Map Reduce, lo studio per rendere questa operazione efficiente e scalabile è diventato nuovamente un tema caldo. In questa dissertazione presentiamo uno dei più popolari algoritmo di similarity join, PPJoin. Inoltre abbiamo implementato questo algoritmo attraverso Apache Spark, e abbiamo introdotto dei miglioramenti per rendere questo algoritmo più performante. E dati sperimentali mostrano l'efficacia delle modifiche proposte. Infine, in questo lavoro, mostriamo un'alternativa al similarity join per l'operazione entity resolution, chiamato metablocking e il nostro contributo è quello di implementare questo metodo attraverso Apache Spark per rendere il metablocking scalabile e usabile per grandi moli di dati. In sintesi, tutto il lavoro svolto ha come obiettivo quello di studiare e rendere scalabile un Data Integration System, come MOMIS, per poter gestire l’enorme quantità di dati che abbiamo a disposizione.

Metodi di Join scalabili e le loro applicazioni nei Data Integration Systems

ZHU, SONG

2018

Abstract

Scheda breve

Scheda completa

Scheda completa (DC)