Exploratory Study of Association in  Transaction Data Bases

Iodice Dà¢ Enza, Alfonso

contesto di riferimento del presente lavoro di tesi à¨ il data mining, processo di estrazione di informazioni utili, non ridondanti e incognite a priori, da data base. In particolare, lo strumento di data mining considerato à¨ costituito dalle regole associative, orientate allo studio dell'associazione in data base di tipo transazionale Il record generico di un data base transazionale à¨ una sequenza binaria di p elementi, ciascuno dei quali indica la presenza o meno di un attributo. Un esempio classico di data base transazionale à¨ costituito dalla banca dati di un supermarket: ciascuna transazione riporta gli acquisti fatti da un singolo cliente in una sessione, gli attributi o items sono i prodotti in vendita nel supermarket considerato. Una regola associativa à¨ composta da due parti, una antecedente (corpo) ed una conseguente (testa): entrambe le componenti possono essere rappresentate da singoli attributi (regole semplici) o da insiemi di attributi (regole complesse). L'informazione espressa da una regola à¨ duplice: il supporto, che rappresenta la frequenza relativa con la quale gli item relativi a corpo e testa della regola sono presenti nelle transazioni osservate; la confidenza, che rappresenta la frequenza relativa delle transazioni contenenti gli item testa della regola, posto che queste contengano gli item costituenti il corpo della regola. Limiti all'efficacia di tale strumento sono legati alla grande quantità di dati da analizzare: il numero di regole estratte à¨ spesso enorme, il che rende difficile l'identificazione di strutture interessanti che caratterizzano i dati. L'informazione triviale o ridondante nasconde e/o confonde le strutture di associazione che potrebbero risultare interessanti. Oggetto della proposta à¨ l'analisi preliminare di tipo esplorativo della struttura associativa caratterizzante i dati, al fine dell'identificazione di coppie di attributi il cui grado di associazione sia interessante. In particolare si cercano coppie di item il cui supporto sia elevato rispetto ad un sottoinsieme di transazioni ma non cosà¬ evidente se calcolato rispetto all'intero data set: questo per individuare comportamenti di nicchia, ma anche per evitare di fare riferimento ad associazioni banali. La strategia proposta prevede diverse fasi: in una prima fase viene impiegato un algoritmo di classificazione veloce per individuare gruppi omogenei di transazioni; una volta individuati i gruppi, gli item vengono selezionati attraverso opportuni criteri statistici relativi al confronto del grado di associazione di ciascuna coppia di item nei diversi gruppi e rispetto all'intero data set considerato. Nell'ultima fase si ricorre ad un approccio di tipo geometrico proprio delle tecniche di analisi multidimensionale dei dati (AMD) per l'assegnazione del ruolo di antecedente o conseguente agli item precedentemente selezionati, nonchà© per la visualizzazione della struttura delle relazioni che caratterizza gli item in ciascun gruppo. Il lavoro si chiude con esempi di applicazione della procedura che implementa la strategia proposta. Viene fatto riferimento a dati di tipo reale e a data set sintetici opportunamente generati.

Exploratory Study of Association in Transaction Data Bases

Iodice Dà¢ Enza, Alfonso

2006

Abstract

contesto di riferimento del presente lavoro di tesi à¨ il data mining, processo di estrazione di informazioni utili, non ridondanti e incognite a priori, da data base. In particolare, lo strumento di data mining considerato à¨ costituito dalle regole associative, orientate allo studio dell'associazione in data base di tipo transazionale Il record generico di un data base transazionale à¨ una sequenza binaria di p elementi, ciascuno dei quali indica la presenza o meno di un attributo. Un esempio classico di data base transazionale à¨ costituito dalla banca dati di un supermarket: ciascuna transazione riporta gli acquisti fatti da un singolo cliente in una sessione, gli attributi o items sono i prodotti in vendita nel supermarket considerato. Una regola associativa à¨ composta da due parti, una antecedente (corpo) ed una conseguente (testa): entrambe le componenti possono essere rappresentate da singoli attributi (regole semplici) o da insiemi di attributi (regole complesse). L'informazione espressa da una regola à¨ duplice: il supporto, che rappresenta la frequenza relativa con la quale gli item relativi a corpo e testa della regola sono presenti nelle transazioni osservate; la confidenza, che rappresenta la frequenza relativa delle transazioni contenenti gli item testa della regola, posto che queste contengano gli item costituenti il corpo della regola. Limiti all'efficacia di tale strumento sono legati alla grande quantità di dati da analizzare: il numero di regole estratte à¨ spesso enorme, il che rende difficile l'identificazione di strutture interessanti che caratterizzano i dati. L'informazione triviale o ridondante nasconde e/o confonde le strutture di associazione che potrebbero risultare interessanti. Oggetto della proposta à¨ l'analisi preliminare di tipo esplorativo della struttura associativa caratterizzante i dati, al fine dell'identificazione di coppie di attributi il cui grado di associazione sia interessante. In particolare si cercano coppie di item il cui supporto sia elevato rispetto ad un sottoinsieme di transazioni ma non cosà¬ evidente se calcolato rispetto all'intero data set: questo per individuare comportamenti di nicchia, ma anche per evitare di fare riferimento ad associazioni banali. La strategia proposta prevede diverse fasi: in una prima fase viene impiegato un algoritmo di classificazione veloce per individuare gruppi omogenei di transazioni; una volta individuati i gruppi, gli item vengono selezionati attraverso opportuni criteri statistici relativi al confronto del grado di associazione di ciascuna coppia di item nei diversi gruppi e rispetto all'intero data set considerato. Nell'ultima fase si ricorre ad un approccio di tipo geometrico proprio delle tecniche di analisi multidimensionale dei dati (AMD) per l'assegnazione del ruolo di antecedente o conseguente agli item precedentemente selezionati, nonchà© per la visualizzazione della struttura delle relazioni che caratterizza gli item in ciascun gruppo. Il lavoro si chiude con esempi di applicazione della procedura che implementa la strategia proposta. Viene fatto riferimento a dati di tipo reale e a data set sintetici opportunamente generati.

Scheda breve

Scheda completa

Scheda completa (DC)

	Data di pubblicazione
	
				2006
			
	Lingua
	
				it
			
	Collezione di appartenenza
	
				BNCF

File in questo prodotto:

File	Dimensione	Formato
Tesi_dottorato_Iodice.pdf accesso solo da BNCF e BNCR Tipologia: Altro materiale allegato Licenza: Tutti i diritti riservati Dimensione 472.1 kB Formato Adobe PDF	472.1 kB	Adobe PDF

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14242/336569

Il codice NBN di questa tesi è URN:NBN:IT:BNCF-336569