Tecniche di validazione per il Clustering di documenti

Spano, Maria

Classificare i documenti appartenenti ad un determinato corpus, sulla base del loro contenuto, à¨ uno dei compiti pià¹ importanti, se non il pià¹ importante, del Text Mining e dell'Information Retrieval. Quest'obiettivo puà² essere raggiunto facendo riferimento a tecniche di Classificazione automatica. Tali tecniche sono comunemente connotate come parte del pià¹ ampio contenitore dei metodi di tipo esplorativo, in quanto finalizzati a identificare strutture nei dati non note. La validazione dei risultati viene, quindi, a volte, percepita come un'aggiunta onerosa a quello che viene considerato un passo iniziale di un processo di conoscenza. Questa percezione à¨ estremamente pericolosa, perchà© potrebbe indirizzare gli approfondimenti successivi in maniera non corretta. Inoltre, i metodi di Classificazione automatica individuano in ogni caso una partizione dei dati, anche quando i dati stessi non presentano alcun raggruppamento naturale. La motivazione del presente lavoro à¨, quindi, data dalla consapevolezza dell'importanza di disporre di strumenti di valutazione efficaci, cosà¬ da fornire al ricercatore risultati caratterizzati da un certo grado di affidabilità . Questa tesi pone, quindi, in rassegna la vastissima letteratura relativa agli strumenti di validazione, ponendo in particolare l'attenzione sulle misure interne per la validazione, poichà© rappresentano degli strumenti in grado di fornire un'informazione sintetica della qualità della soluzione ottenuta, valutandola in termini di coesione e separazione dei gruppi ottenuti. Cosà¬ come la varietà dei metodi di Clustering discende principalmente dalla loro applicabilità in molti ambiti diversi, cosà¬ diverse misure interne di validazione sono state prodotte in diversi contesti. Questa circostanza rende necessario per i ricercatori avere a disposizione delle linee guida per districarsi al meglio nelle scelte di uno strumento piuttosto che un altro che possa risultare pià¹ idoneo nei diversi contesti. In questo lavoro si propone un confronto dei punti di forza e dei punti di debolezza di numerosi indici, tra i pià¹ utilizzati e pià¹ recenti, valutandone la performance su un gran numero di configurazioni. Ne deriva la consapevolezza che la proposta di un nuovo indice sarebbe una operazione di poca efficacia. Si preferisce piuttosto perseguire l'obiettivo di individuare una strategia integrata che metta in relazione i tre elementi dai quali non si puà² prescindere per eseguire una Cluster Analysis: il tipo di dati, gli algoritmi utilizzati e gli indici di validazione. Questi elementi condizionano in maniera determinante vuoi la qualità dei risultati dell'analisi, vuoi la valutazione che se ne puà² ottenere.

Tecniche di validazione per il Clustering di documenti

Spano, Maria

2015

Abstract

Classificare i documenti appartenenti ad un determinato corpus, sulla base del loro contenuto, à¨ uno dei compiti pià¹ importanti, se non il pià¹ importante, del Text Mining e dell'Information Retrieval. Quest'obiettivo puà² essere raggiunto facendo riferimento a tecniche di Classificazione automatica. Tali tecniche sono comunemente connotate come parte del pià¹ ampio contenitore dei metodi di tipo esplorativo, in quanto finalizzati a identificare strutture nei dati non note. La validazione dei risultati viene, quindi, a volte, percepita come un'aggiunta onerosa a quello che viene considerato un passo iniziale di un processo di conoscenza. Questa percezione à¨ estremamente pericolosa, perchà© potrebbe indirizzare gli approfondimenti successivi in maniera non corretta. Inoltre, i metodi di Classificazione automatica individuano in ogni caso una partizione dei dati, anche quando i dati stessi non presentano alcun raggruppamento naturale. La motivazione del presente lavoro à¨, quindi, data dalla consapevolezza dell'importanza di disporre di strumenti di valutazione efficaci, cosà¬ da fornire al ricercatore risultati caratterizzati da un certo grado di affidabilità . Questa tesi pone, quindi, in rassegna la vastissima letteratura relativa agli strumenti di validazione, ponendo in particolare l'attenzione sulle misure interne per la validazione, poichà© rappresentano degli strumenti in grado di fornire un'informazione sintetica della qualità della soluzione ottenuta, valutandola in termini di coesione e separazione dei gruppi ottenuti. Cosà¬ come la varietà dei metodi di Clustering discende principalmente dalla loro applicabilità in molti ambiti diversi, cosà¬ diverse misure interne di validazione sono state prodotte in diversi contesti. Questa circostanza rende necessario per i ricercatori avere a disposizione delle linee guida per districarsi al meglio nelle scelte di uno strumento piuttosto che un altro che possa risultare pià¹ idoneo nei diversi contesti. In questo lavoro si propone un confronto dei punti di forza e dei punti di debolezza di numerosi indici, tra i pià¹ utilizzati e pià¹ recenti, valutandone la performance su un gran numero di configurazioni. Ne deriva la consapevolezza che la proposta di un nuovo indice sarebbe una operazione di poca efficacia. Si preferisce piuttosto perseguire l'obiettivo di individuare una strategia integrata che metta in relazione i tre elementi dai quali non si puà² prescindere per eseguire una Cluster Analysis: il tipo di dati, gli algoritmi utilizzati e gli indici di validazione. Questi elementi condizionano in maniera determinante vuoi la qualità dei risultati dell'analisi, vuoi la valutazione che se ne puà² ottenere.

Scheda breve

Scheda completa

Scheda completa (DC)

	Data di pubblicazione
	
				2015
			
	Lingua
	
				it
			
	Collezione di appartenenza
	
				BNCF

File in questo prodotto:

File	Dimensione	Formato
tesi%20ultima%20MS.pdf accesso solo da BNCF e BNCR Tipologia: Altro materiale allegato Licenza: Tutti i diritti riservati Dimensione 2.27 MB Formato Adobe PDF	2.27 MB	Adobe PDF

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14242/317191

Il codice NBN di questa tesi è URN:NBN:IT:BNCF-317191