Negli ultimi anni i modelli grafici, ed in particolare i network Bayesiani, sono entrati nella pratica corrente delle analisi statistiche in diversi settori scientifici, tra cui medi cina e biostatistica. L’uso di questo tipo di modelli è stato reso possibile dalla rapida evoluzione degli algoritmi per apprenderne la struttura, sia quelli basati su test statistici che quelli basati su funzioni punteggio. L’obiettivo principale di questi nuovi algoritmi è la riduzione del numero di modelli intermedi considerati nell’apprendimento; le loro caratteristiche sono state usualmente valutate usando dei dati di riferimento (per i quali la vera struttura del modello è nota da letteratura) e la distanza di Hamming. Questo approccio tuttavia non può essere usato per dati sperimentali, poiché la loro struttura probabilistica non è nota a priori. In questo caso una valida alternativa è costituita dal bootstrap non parametrico: apprendendo un numero sufficientemente grande di modelli da campioni bootstrap è infatti possibile ottenere una stima empirica della probabilità di ogni caratteristica di interesse del network stesso. In questa tesi viene affrontato il principale limite di questo secondo approccio: la difficoltà di stabilire una soglia di significatività per le probabilità empiriche. Una possibile soluzione è data dall’assunzione di una distribuzione Trinomiale multivariata (nel caso di grafi orientati aciclici) o Bernoulliana multivariata (nel caso di grafi non orientati), che permette di associare ogni arco del network ad una distribuzione mar ginale. Questa assunzione permette di costruire dei test statistici, sia asintotici che esatti, per la variabilità multivariata della struttura del network nel suo complesso o di una sua parte. Tali misure di variabilità sono state poi applicate ad alcuni algoritmi di apprendimento della struttura di network Bayesiani utilizzando il pacchetto R bnlearn, implementato e mantenuto dall’autore.
Measures of Variability for Graphical Models
SCUTARI, MARCO
2011
Abstract
Negli ultimi anni i modelli grafici, ed in particolare i network Bayesiani, sono entrati nella pratica corrente delle analisi statistiche in diversi settori scientifici, tra cui medi cina e biostatistica. L’uso di questo tipo di modelli è stato reso possibile dalla rapida evoluzione degli algoritmi per apprenderne la struttura, sia quelli basati su test statistici che quelli basati su funzioni punteggio. L’obiettivo principale di questi nuovi algoritmi è la riduzione del numero di modelli intermedi considerati nell’apprendimento; le loro caratteristiche sono state usualmente valutate usando dei dati di riferimento (per i quali la vera struttura del modello è nota da letteratura) e la distanza di Hamming. Questo approccio tuttavia non può essere usato per dati sperimentali, poiché la loro struttura probabilistica non è nota a priori. In questo caso una valida alternativa è costituita dal bootstrap non parametrico: apprendendo un numero sufficientemente grande di modelli da campioni bootstrap è infatti possibile ottenere una stima empirica della probabilità di ogni caratteristica di interesse del network stesso. In questa tesi viene affrontato il principale limite di questo secondo approccio: la difficoltà di stabilire una soglia di significatività per le probabilità empiriche. Una possibile soluzione è data dall’assunzione di una distribuzione Trinomiale multivariata (nel caso di grafi orientati aciclici) o Bernoulliana multivariata (nel caso di grafi non orientati), che permette di associare ogni arco del network ad una distribuzione mar ginale. Questa assunzione permette di costruire dei test statistici, sia asintotici che esatti, per la variabilità multivariata della struttura del network nel suo complesso o di una sua parte. Tali misure di variabilità sono state poi applicate ad alcuni algoritmi di apprendimento della struttura di network Bayesiani utilizzando il pacchetto R bnlearn, implementato e mantenuto dall’autore.File | Dimensione | Formato | |
---|---|---|---|
thesis.pdf
accesso aperto
Dimensione
1.81 MB
Formato
Adobe PDF
|
1.81 MB | Adobe PDF | Visualizza/Apri |
I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/20.500.14242/110453
URN:NBN:IT:UNIPD-110453