Negli ultimi anni, le tecnologie dei microarray hanno prodotto una grande quantità di dati provenienti da processi di espressione genica. La disponibilità di questi dati ha permesso ai ricercatori di poter approfondire lo studio della funzione dei diversi geni e poter acquisire una più profonda conoscenza sui processi cellulari, utilizzando come strumento di ricerca la teoria dei network. I modelli grafici risultano essere un utile strumento per la modellazione e l'analisi delle strutture dei networks derivanti da dati biologici. Infatti, questi modelli consentono di rappresentare in modo stocastico le associazioni e le strutture di dipendenza tra gli elementi di data set con struttura complessa. Tuttavia, i dati derivanti da profili di espressione genica si presentano con un elevato numero di variabili ma solo poche osservazioni rendendo, perciò, la teoria classica dei modelli grafici inapplicabile. I problemi legati all'utilizzo di dati genetici hanno portato ad estendere la teoria dei modelli grafici per consentire l'impiego di questi modelli anche in questo campo di applicazione. Lo scopo principale di questa tesi è quello di confrontare, attraverso l'utilizzo di dati simulati e reali, recenti procedure sviluppate con lo scopo di stimare matrici di concentazione sparse e ricostruire i networks biologici. Le procedure considerate per il confronto sono: l'algoritmo G-Lasso (Friedman et al., 2008), lo stimatore Shrinkage associato con l'approccio Bayes empirico per la selezione del modello (Schafer and Strimmer, 2005a, 2005b), l'algoritmo PC (Kalisch and Buhlmann, 2007). Quando n > p, consideriamo anche un semplice approccio frequentista basato sullo stimatore ML e l'utilizzo del test t per la selezione del modello (si veda Lauritzen, 1996). Per quanto riguarda i dati simulati, per avere strutture biologiche simili a quelle reali, i dati hanno la peculiarità di riprodurre alcune strutture dei network di regolazione genica e sono ottenuti sfruttando alcune proprieta’ della decomposizione di Cholesky di una matrice. Per il confronto con dati reali, sono stati utilizzati dati derivanti da uno dei sistemi maggiormente studiati: Escherichia coli. Infatti, grand parte del network di regolazione genica di questo battere è noto, quindi può essere utilizzato come riferimento per valutare il rendimento delle diverse procedure poste a confronto.

A comparison of procedures for structural learning of biological networks

ALBIERI, VANNA
2010

Abstract

Negli ultimi anni, le tecnologie dei microarray hanno prodotto una grande quantità di dati provenienti da processi di espressione genica. La disponibilità di questi dati ha permesso ai ricercatori di poter approfondire lo studio della funzione dei diversi geni e poter acquisire una più profonda conoscenza sui processi cellulari, utilizzando come strumento di ricerca la teoria dei network. I modelli grafici risultano essere un utile strumento per la modellazione e l'analisi delle strutture dei networks derivanti da dati biologici. Infatti, questi modelli consentono di rappresentare in modo stocastico le associazioni e le strutture di dipendenza tra gli elementi di data set con struttura complessa. Tuttavia, i dati derivanti da profili di espressione genica si presentano con un elevato numero di variabili ma solo poche osservazioni rendendo, perciò, la teoria classica dei modelli grafici inapplicabile. I problemi legati all'utilizzo di dati genetici hanno portato ad estendere la teoria dei modelli grafici per consentire l'impiego di questi modelli anche in questo campo di applicazione. Lo scopo principale di questa tesi è quello di confrontare, attraverso l'utilizzo di dati simulati e reali, recenti procedure sviluppate con lo scopo di stimare matrici di concentazione sparse e ricostruire i networks biologici. Le procedure considerate per il confronto sono: l'algoritmo G-Lasso (Friedman et al., 2008), lo stimatore Shrinkage associato con l'approccio Bayes empirico per la selezione del modello (Schafer and Strimmer, 2005a, 2005b), l'algoritmo PC (Kalisch and Buhlmann, 2007). Quando n > p, consideriamo anche un semplice approccio frequentista basato sullo stimatore ML e l'utilizzo del test t per la selezione del modello (si veda Lauritzen, 1996). Per quanto riguarda i dati simulati, per avere strutture biologiche simili a quelle reali, i dati hanno la peculiarità di riprodurre alcune strutture dei network di regolazione genica e sono ottenuti sfruttando alcune proprieta’ della decomposizione di Cholesky di una matrice. Per il confronto con dati reali, sono stati utilizzati dati derivanti da uno dei sistemi maggiormente studiati: Escherichia coli. Infatti, grand parte del network di regolazione genica di questo battere è noto, quindi può essere utilizzato come riferimento per valutare il rendimento delle diverse procedure poste a confronto.
1-feb-2010
Inglese
graphical models, comparative study, biological networks
Università degli studi di Padova
File in questo prodotto:
File Dimensione Formato  
Tutto.pdf

accesso aperto

Dimensione 6.59 MB
Formato Adobe PDF
6.59 MB Adobe PDF Visualizza/Apri

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14242/118193
Il codice NBN di questa tesi è URN:NBN:IT:UNIPD-118193