Negli ultimi anni i modelli grafici, ed in particolare i network Bayesiani, sono entrati nella pratica corrente delle analisi statistiche in diversi settori scientifici, tra cui medi cina e biostatistica. L’uso di questo tipo di modelli è stato reso possibile dalla rapida evoluzione degli algoritmi per apprenderne la struttura, sia quelli basati su test statistici che quelli basati su funzioni punteggio. L’obiettivo principale di questi nuovi algoritmi è la riduzione del numero di modelli intermedi considerati nell’apprendimento; le loro caratteristiche sono state usualmente valutate usando dei dati di riferimento (per i quali la vera struttura del modello è nota da letteratura) e la distanza di Hamming. Questo approccio tuttavia non può essere usato per dati sperimentali, poiché la loro struttura probabilistica non è nota a priori. In questo caso una valida alternativa è costituita dal bootstrap non parametrico: apprendendo un numero sufficientemente grande di modelli da campioni bootstrap è infatti possibile ottenere una stima empirica della probabilità di ogni caratteristica di interesse del network stesso. In questa tesi viene affrontato il principale limite di questo secondo approccio: la difficoltà di stabilire una soglia di significatività per le probabilità empiriche. Una possibile soluzione è data dall’assunzione di una distribuzione Trinomiale multivariata (nel caso di grafi orientati aciclici) o Bernoulliana multivariata (nel caso di grafi non orientati), che permette di associare ogni arco del network ad una distribuzione mar ginale. Questa assunzione permette di costruire dei test statistici, sia asintotici che esatti, per la variabilità multivariata della struttura del network nel suo complesso o di una sua parte. Tali misure di variabilità sono state poi applicate ad alcuni algoritmi di apprendimento della struttura di network Bayesiani utilizzando il pacchetto R bnlearn, implementato e mantenuto dall’autore.

Measures of Variability for Graphical Models

SCUTARI, MARCO
2011

Abstract

Negli ultimi anni i modelli grafici, ed in particolare i network Bayesiani, sono entrati nella pratica corrente delle analisi statistiche in diversi settori scientifici, tra cui medi cina e biostatistica. L’uso di questo tipo di modelli è stato reso possibile dalla rapida evoluzione degli algoritmi per apprenderne la struttura, sia quelli basati su test statistici che quelli basati su funzioni punteggio. L’obiettivo principale di questi nuovi algoritmi è la riduzione del numero di modelli intermedi considerati nell’apprendimento; le loro caratteristiche sono state usualmente valutate usando dei dati di riferimento (per i quali la vera struttura del modello è nota da letteratura) e la distanza di Hamming. Questo approccio tuttavia non può essere usato per dati sperimentali, poiché la loro struttura probabilistica non è nota a priori. In questo caso una valida alternativa è costituita dal bootstrap non parametrico: apprendendo un numero sufficientemente grande di modelli da campioni bootstrap è infatti possibile ottenere una stima empirica della probabilità di ogni caratteristica di interesse del network stesso. In questa tesi viene affrontato il principale limite di questo secondo approccio: la difficoltà di stabilire una soglia di significatività per le probabilità empiriche. Una possibile soluzione è data dall’assunzione di una distribuzione Trinomiale multivariata (nel caso di grafi orientati aciclici) o Bernoulliana multivariata (nel caso di grafi non orientati), che permette di associare ogni arco del network ad una distribuzione mar ginale. Questa assunzione permette di costruire dei test statistici, sia asintotici che esatti, per la variabilità multivariata della struttura del network nel suo complesso o di una sua parte. Tali misure di variabilità sono state poi applicate ad alcuni algoritmi di apprendimento della struttura di network Bayesiani utilizzando il pacchetto R bnlearn, implementato e mantenuto dall’autore.
18-gen-2011
Inglese
graphical models, boostrap, multivariate discrete probability, entropy
Università degli studi di Padova
File in questo prodotto:
File Dimensione Formato  
thesis.pdf

accesso aperto

Dimensione 1.81 MB
Formato Adobe PDF
1.81 MB Adobe PDF Visualizza/Apri

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14242/110453
Il codice NBN di questa tesi è URN:NBN:IT:UNIPD-110453