PDM: Predator Data Mining Un nuovo approccio al Data Mining Unsupervised

Del Mondo, Carmine

Si presenta in questa tesi un nuovo algoritmo adatto alla soluzione di un ampia categoria di problemi di data mining unsupervised: il PDM (Predator Data Mining). Il PDM determina dei buoni centri di aggregazione dell'insieme dei dati classificandoli rispetto ad essi. I centri di aggregazione possono essere i classici centroidi, o strutture pi`u o meno complesse. Queste possono immagazzinare, e quindi permettere di estrarre, maggiori, o comunque diverse informazioni rispetto alla classica operazione di data clustering, che `e comunque un caso particolare del PDM L'algoritmo sfrutta un approccio originale al problema che consiste nell'estrarre informazioni dall'insieme di dati, che vengono considerate come risorse per un insieme parallelo di “predatori”. Gli insiemi di predatori sono generati da un particolare algoritmo evolutivo chiamato Competitive Evoluntion on Data (CED). L'insieme dei dati viene visto dal CED come un insieme di risorse: un ambiente, all'interno del quale popolazioni di predatori competono. Il PDM, tramite tecniche di data clustering, estrae, da alcune delle popolazioni generate dalla dinamica evolutiva del CED, i predatori che ritiene pi`u significativi, la metrica utilizzata tra i predatori à¨ definita intrinsicamente nell'algoritmo ed à¨ indipendente dal particolare predatore adottato. In questa tesi si à¨ rivolta l'attenzione ad un particolare tipo di dati (punti in Rn, si sono fatti vedere alcuni esempi di utilizzo con classe di predatori differente, usandolo come classico algoritmo di Data Clustering lo si à¨ confrontato su alcuni data set che simulano l'espressione genetica dei geni (microarray) con gli algoritmi pià¹ frequentemente usati in quest'ambito, ed infine si `e applicato il PDM su un data base reale confrontando i risultati con quelli ottenuti e pubblicati sullo stesso con altri procedimenti. Inoltre, nell'acquisizione degli strumenti necessari per l'elaborazione dell'algoritmo, si sono fatte alcune considerazioni significative sui coefficienti utilizzati per confrontare classificazioni. In pratica si associa ad un risultato di un operazione di clustering un classificatore booleano, chiamato di accoppiamento, che unifica i coefficienti utilizzati nel confronto tra classificazioni unsupervised con quelli utilizzati tra classificazioni supervised. Questa unificazione permette tra l'altro di definire nuovi coefficienti che hanno interessanti caratteristiche.

PDM: Predator Data Mining Un nuovo approccio al Data Mining Unsupervised

Del Mondo, Carmine

2008

Abstract

Si presenta in questa tesi un nuovo algoritmo adatto alla soluzione di un ampia categoria di problemi di data mining unsupervised: il PDM (Predator Data Mining). Il PDM determina dei buoni centri di aggregazione dell'insieme dei dati classificandoli rispetto ad essi. I centri di aggregazione possono essere i classici centroidi, o strutture pi`u o meno complesse. Queste possono immagazzinare, e quindi permettere di estrarre, maggiori, o comunque diverse informazioni rispetto alla classica operazione di data clustering, che `e comunque un caso particolare del PDM L'algoritmo sfrutta un approccio originale al problema che consiste nell'estrarre informazioni dall'insieme di dati, che vengono considerate come risorse per un insieme parallelo di “predatori”. Gli insiemi di predatori sono generati da un particolare algoritmo evolutivo chiamato Competitive Evoluntion on Data (CED). L'insieme dei dati viene visto dal CED come un insieme di risorse: un ambiente, all'interno del quale popolazioni di predatori competono. Il PDM, tramite tecniche di data clustering, estrae, da alcune delle popolazioni generate dalla dinamica evolutiva del CED, i predatori che ritiene pi`u significativi, la metrica utilizzata tra i predatori à¨ definita intrinsicamente nell'algoritmo ed à¨ indipendente dal particolare predatore adottato. In questa tesi si à¨ rivolta l'attenzione ad un particolare tipo di dati (punti in Rn, si sono fatti vedere alcuni esempi di utilizzo con classe di predatori differente, usandolo come classico algoritmo di Data Clustering lo si à¨ confrontato su alcuni data set che simulano l'espressione genetica dei geni (microarray) con gli algoritmi pià¹ frequentemente usati in quest'ambito, ed infine si `e applicato il PDM su un data base reale confrontando i risultati con quelli ottenuti e pubblicati sullo stesso con altri procedimenti. Inoltre, nell'acquisizione degli strumenti necessari per l'elaborazione dell'algoritmo, si sono fatte alcune considerazioni significative sui coefficienti utilizzati per confrontare classificazioni. In pratica si associa ad un risultato di un operazione di clustering un classificatore booleano, chiamato di accoppiamento, che unifica i coefficienti utilizzati nel confronto tra classificazioni unsupervised con quelli utilizzati tra classificazioni supervised. Questa unificazione permette tra l'altro di definire nuovi coefficienti che hanno interessanti caratteristiche.

Scheda breve

Scheda completa

Scheda completa (DC)

	Data di pubblicazione
	
				2008
			
	Lingua
	
				it
			
	Collezione di appartenenza
	
				BNCF

File in questo prodotto:

File	Dimensione	Formato
tesi_delmondo_carmine.pdf accesso solo da BNCF e BNCR Tipologia: Altro materiale allegato Licenza: Tutti i diritti riservati Dimensione 1.57 MB Formato Adobe PDF	1.57 MB	Adobe PDF

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14242/337456

Il codice NBN di questa tesi è URN:NBN:IT:BNCF-337456