Classificare i documenti appartenenti ad un determinato corpus, sulla base del loro contenuto, ਠuno dei compiti pi๠importanti, se non il pi๠importante, del Text Mining e dell'Information Retrieval. Quest'obiettivo puಠessere raggiunto facendo riferimento a tecniche di Classificazione automatica. Tali tecniche sono comunemente connotate come parte del pi๠ampio contenitore dei metodi di tipo esplorativo, in quanto finalizzati a identificare strutture nei dati non note. La validazione dei risultati viene, quindi, a volte, percepita come un'aggiunta onerosa a quello che viene considerato un passo iniziale di un processo di conoscenza. Questa percezione ਠestremamente pericolosa, perchà© potrebbe indirizzare gli approfondimenti successivi in maniera non corretta. Inoltre, i metodi di Classificazione automatica individuano in ogni caso una partizione dei dati, anche quando i dati stessi non presentano alcun raggruppamento naturale. La motivazione del presente lavoro à¨, quindi, data dalla consapevolezza dell'importanza di disporre di strumenti di valutazione efficaci, cosଠda fornire al ricercatore risultati caratterizzati da un certo grado di affidabilità . Questa tesi pone, quindi, in rassegna la vastissima letteratura relativa agli strumenti di validazione, ponendo in particolare l'attenzione sulle misure interne per la validazione, poichà© rappresentano degli strumenti in grado di fornire un'informazione sintetica della qualità  della soluzione ottenuta, valutandola in termini di coesione e separazione dei gruppi ottenuti. Cosଠcome la varietà  dei metodi di Clustering discende principalmente dalla loro applicabilità  in molti ambiti diversi, cosଠdiverse misure interne di validazione sono state prodotte in diversi contesti. Questa circostanza rende necessario per i ricercatori avere a disposizione delle linee guida per districarsi al meglio nelle scelte di uno strumento piuttosto che un altro che possa risultare pi๠idoneo nei diversi contesti. In questo lavoro si propone un confronto dei punti di forza e dei punti di debolezza di numerosi indici, tra i pi๠utilizzati e pi๠recenti, valutandone la performance su un gran numero di configurazioni. Ne deriva la consapevolezza che la proposta di un nuovo indice sarebbe una operazione di poca efficacia. Si preferisce piuttosto perseguire l'obiettivo di individuare una strategia integrata che metta in relazione i tre elementi dai quali non si puಠprescindere per eseguire una Cluster Analysis: il tipo di dati, gli algoritmi utilizzati e gli indici di validazione. Questi elementi condizionano in maniera determinante vuoi la qualità  dei risultati dell'analisi, vuoi la valutazione che se ne puಠottenere.

Tecniche di validazione per il Clustering di documenti

2015

Abstract

Classificare i documenti appartenenti ad un determinato corpus, sulla base del loro contenuto, ਠuno dei compiti pi๠importanti, se non il pi๠importante, del Text Mining e dell'Information Retrieval. Quest'obiettivo puಠessere raggiunto facendo riferimento a tecniche di Classificazione automatica. Tali tecniche sono comunemente connotate come parte del pi๠ampio contenitore dei metodi di tipo esplorativo, in quanto finalizzati a identificare strutture nei dati non note. La validazione dei risultati viene, quindi, a volte, percepita come un'aggiunta onerosa a quello che viene considerato un passo iniziale di un processo di conoscenza. Questa percezione ਠestremamente pericolosa, perchà© potrebbe indirizzare gli approfondimenti successivi in maniera non corretta. Inoltre, i metodi di Classificazione automatica individuano in ogni caso una partizione dei dati, anche quando i dati stessi non presentano alcun raggruppamento naturale. La motivazione del presente lavoro à¨, quindi, data dalla consapevolezza dell'importanza di disporre di strumenti di valutazione efficaci, cosଠda fornire al ricercatore risultati caratterizzati da un certo grado di affidabilità . Questa tesi pone, quindi, in rassegna la vastissima letteratura relativa agli strumenti di validazione, ponendo in particolare l'attenzione sulle misure interne per la validazione, poichà© rappresentano degli strumenti in grado di fornire un'informazione sintetica della qualità  della soluzione ottenuta, valutandola in termini di coesione e separazione dei gruppi ottenuti. Cosଠcome la varietà  dei metodi di Clustering discende principalmente dalla loro applicabilità  in molti ambiti diversi, cosଠdiverse misure interne di validazione sono state prodotte in diversi contesti. Questa circostanza rende necessario per i ricercatori avere a disposizione delle linee guida per districarsi al meglio nelle scelte di uno strumento piuttosto che un altro che possa risultare pi๠idoneo nei diversi contesti. In questo lavoro si propone un confronto dei punti di forza e dei punti di debolezza di numerosi indici, tra i pi๠utilizzati e pi๠recenti, valutandone la performance su un gran numero di configurazioni. Ne deriva la consapevolezza che la proposta di un nuovo indice sarebbe una operazione di poca efficacia. Si preferisce piuttosto perseguire l'obiettivo di individuare una strategia integrata che metta in relazione i tre elementi dai quali non si puಠprescindere per eseguire una Cluster Analysis: il tipo di dati, gli algoritmi utilizzati e gli indici di validazione. Questi elementi condizionano in maniera determinante vuoi la qualità  dei risultati dell'analisi, vuoi la valutazione che se ne puಠottenere.
2015
it
File in questo prodotto:
File Dimensione Formato  
tesi%20ultima%20MS.pdf

accesso solo da BNCF e BNCR

Tipologia: Altro materiale allegato
Licenza: Tutti i diritti riservati
Dimensione 2.27 MB
Formato Adobe PDF
2.27 MB Adobe PDF

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14242/317191
Il codice NBN di questa tesi è URN:NBN:IT:BNCF-317191