Classificare i documenti appartenenti ad un determinato corpus, sulla base del loro contenuto, ਠuno dei compiti pi๠importanti, se non il pi๠importante, del Text Mining e dell'Information Retrieval. Quest'obiettivo puಠessere raggiunto facendo riferimento a tecniche di Classificazione automatica. Tali tecniche sono comunemente connotate come parte del pi๠ampio contenitore dei metodi di tipo esplorativo, in quanto finalizzati a identificare strutture nei dati non note. La validazione dei risultati viene, quindi, a volte, percepita come un'aggiunta onerosa a quello che viene considerato un passo iniziale di un processo di conoscenza. Questa percezione ਠestremamente pericolosa, perchà© potrebbe indirizzare gli approfondimenti successivi in maniera non corretta. Inoltre, i metodi di Classificazione automatica individuano in ogni caso una partizione dei dati, anche quando i dati stessi non presentano alcun raggruppamento naturale. La motivazione del presente lavoro à¨, quindi, data dalla consapevolezza dell'importanza di disporre di strumenti di valutazione efficaci, cosଠda fornire al ricercatore risultati caratterizzati da un certo grado di affidabilità . Questa tesi pone, quindi, in rassegna la vastissima letteratura relativa agli strumenti di validazione, ponendo in particolare l'attenzione sulle misure interne per la validazione, poichà© rappresentano degli strumenti in grado di fornire un'informazione sintetica della qualità della soluzione ottenuta, valutandola in termini di coesione e separazione dei gruppi ottenuti. Cosଠcome la varietà dei metodi di Clustering discende principalmente dalla loro applicabilità in molti ambiti diversi, cosଠdiverse misure interne di validazione sono state prodotte in diversi contesti. Questa circostanza rende necessario per i ricercatori avere a disposizione delle linee guida per districarsi al meglio nelle scelte di uno strumento piuttosto che un altro che possa risultare pi๠idoneo nei diversi contesti. In questo lavoro si propone un confronto dei punti di forza e dei punti di debolezza di numerosi indici, tra i pi๠utilizzati e pi๠recenti, valutandone la performance su un gran numero di configurazioni. Ne deriva la consapevolezza che la proposta di un nuovo indice sarebbe una operazione di poca efficacia. Si preferisce piuttosto perseguire l'obiettivo di individuare una strategia integrata che metta in relazione i tre elementi dai quali non si puಠprescindere per eseguire una Cluster Analysis: il tipo di dati, gli algoritmi utilizzati e gli indici di validazione. Questi elementi condizionano in maniera determinante vuoi la qualità dei risultati dell'analisi, vuoi la valutazione che se ne puಠottenere.
Tecniche di validazione per il Clustering di documenti
2015
Abstract
Classificare i documenti appartenenti ad un determinato corpus, sulla base del loro contenuto, ਠuno dei compiti pi๠importanti, se non il pi๠importante, del Text Mining e dell'Information Retrieval. Quest'obiettivo puಠessere raggiunto facendo riferimento a tecniche di Classificazione automatica. Tali tecniche sono comunemente connotate come parte del pi๠ampio contenitore dei metodi di tipo esplorativo, in quanto finalizzati a identificare strutture nei dati non note. La validazione dei risultati viene, quindi, a volte, percepita come un'aggiunta onerosa a quello che viene considerato un passo iniziale di un processo di conoscenza. Questa percezione ਠestremamente pericolosa, perchà© potrebbe indirizzare gli approfondimenti successivi in maniera non corretta. Inoltre, i metodi di Classificazione automatica individuano in ogni caso una partizione dei dati, anche quando i dati stessi non presentano alcun raggruppamento naturale. La motivazione del presente lavoro à¨, quindi, data dalla consapevolezza dell'importanza di disporre di strumenti di valutazione efficaci, cosଠda fornire al ricercatore risultati caratterizzati da un certo grado di affidabilità . Questa tesi pone, quindi, in rassegna la vastissima letteratura relativa agli strumenti di validazione, ponendo in particolare l'attenzione sulle misure interne per la validazione, poichà© rappresentano degli strumenti in grado di fornire un'informazione sintetica della qualità della soluzione ottenuta, valutandola in termini di coesione e separazione dei gruppi ottenuti. Cosଠcome la varietà dei metodi di Clustering discende principalmente dalla loro applicabilità in molti ambiti diversi, cosଠdiverse misure interne di validazione sono state prodotte in diversi contesti. Questa circostanza rende necessario per i ricercatori avere a disposizione delle linee guida per districarsi al meglio nelle scelte di uno strumento piuttosto che un altro che possa risultare pi๠idoneo nei diversi contesti. In questo lavoro si propone un confronto dei punti di forza e dei punti di debolezza di numerosi indici, tra i pi๠utilizzati e pi๠recenti, valutandone la performance su un gran numero di configurazioni. Ne deriva la consapevolezza che la proposta di un nuovo indice sarebbe una operazione di poca efficacia. Si preferisce piuttosto perseguire l'obiettivo di individuare una strategia integrata che metta in relazione i tre elementi dai quali non si puಠprescindere per eseguire una Cluster Analysis: il tipo di dati, gli algoritmi utilizzati e gli indici di validazione. Questi elementi condizionano in maniera determinante vuoi la qualità dei risultati dell'analisi, vuoi la valutazione che se ne puಠottenere.| File | Dimensione | Formato | |
|---|---|---|---|
|
tesi%20ultima%20MS.pdf
accesso solo da BNCF e BNCR
Tipologia:
Altro materiale allegato
Licenza:
Tutti i diritti riservati
Dimensione
2.27 MB
Formato
Adobe PDF
|
2.27 MB | Adobe PDF |
I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/20.500.14242/317191
URN:NBN:IT:BNCF-317191