Obiettivo del presente lavoro di tesi è lo sviluppo di tecniche algoritmiche innovative per l’identificazione di relazioni causali fra i geni di un organismo a partire da esperimenti di DNA microarray. Le relazioni causa-effetto fra i geni possono essere apprese a partire dai dati di microarray (Reverse Engineering) e riassunte in una Rete di Regolazione Genica, un grafo i cui nodi rappresentano i geni e i cui archi rappresentano le relazioni causali fra i geni: questa tesi presenta tre algoritmi innovativi di Reverse Engineering, progettati per elaborare diversi tipi di esperimenti di microarray e con diversi livelli di dettaglio nella descrizione dei sistemi biologici, e due studi sulla difficoltà nell'inferire le Reti di Regolazione Genica. Il primo contributo originale della tesi è l'applicazione del Ragionamento Qualitativo all’elaborazione di misurazioni in stato stazionario di esperimenti di perturbazione sistematica dei geni, vale a dire esperimenti nei quali l’espressione di ogni gene a turno viene alterata e un solo campione dell’espressione genica viene misurato ogni volta che il sistema raggiunge lo stato stazionario. Il secondo algoritmo proposto, CNET, è basato su una funzione euristica progettata per identificare relazioni causali a partire da serie temporali di espressione genica, cioè osservazioni ripetute dello stesso sistema biologico in istanti temporali consecutivi. L'algoritmo è costruito in modo tale da riconoscere le relazioni causali anche in presenza di rumore e di ritardi variabili nella regolazione. Successivamente vengono presentati due studi approfonditi, il primo sulle relazioni fra la performance di due algoritmi di Reverse Engineering e le proprietà strutturali e topologiche della Rete di Regolazione Genica da inferire e il secondo sul panorama di fitness attorno alla configurazione ottima dei parametri di una particolare classe di sistemi dinamici non lineari, le Reti Neurali Dinamiche Ricorsive, che descriva un insieme di serie temporali di espressione genica. Entrambi gli studi hanno consentito di ottenere informazioni utili e originali sulla difficoltà nell'inferire Reti di Regolazione Genica a partire da dati di DNA microarray. Infine, viene presentato un algoritmo innovativo di ottimizzazione mista (continua e discreta) per il fit di sistemi di equazioni differenziali non lineari a esperimenti contenenti serie temporali di espressione genica su piccola scala, composto di due moduli interagenti: una procedura di ricerca locale per esplorare lo spazio discreto delle strutture di rete e una procedura di ottimizzazione continua per l’idenficazione dei parametri ottimi del sistema. La performance dei tre algoritmi proposti viene analizzata sia su dati simulati sia, in certi casi, su dati reali di DNA microarray: i metodi si dimostrano competitivi con lo stato dell’arte degli algoritmi di Reverse Engineering.
Advanced Algorithms for Genomic Data Analysis
SAMBO, FRANCESCO
2010
Abstract
Obiettivo del presente lavoro di tesi è lo sviluppo di tecniche algoritmiche innovative per l’identificazione di relazioni causali fra i geni di un organismo a partire da esperimenti di DNA microarray. Le relazioni causa-effetto fra i geni possono essere apprese a partire dai dati di microarray (Reverse Engineering) e riassunte in una Rete di Regolazione Genica, un grafo i cui nodi rappresentano i geni e i cui archi rappresentano le relazioni causali fra i geni: questa tesi presenta tre algoritmi innovativi di Reverse Engineering, progettati per elaborare diversi tipi di esperimenti di microarray e con diversi livelli di dettaglio nella descrizione dei sistemi biologici, e due studi sulla difficoltà nell'inferire le Reti di Regolazione Genica. Il primo contributo originale della tesi è l'applicazione del Ragionamento Qualitativo all’elaborazione di misurazioni in stato stazionario di esperimenti di perturbazione sistematica dei geni, vale a dire esperimenti nei quali l’espressione di ogni gene a turno viene alterata e un solo campione dell’espressione genica viene misurato ogni volta che il sistema raggiunge lo stato stazionario. Il secondo algoritmo proposto, CNET, è basato su una funzione euristica progettata per identificare relazioni causali a partire da serie temporali di espressione genica, cioè osservazioni ripetute dello stesso sistema biologico in istanti temporali consecutivi. L'algoritmo è costruito in modo tale da riconoscere le relazioni causali anche in presenza di rumore e di ritardi variabili nella regolazione. Successivamente vengono presentati due studi approfonditi, il primo sulle relazioni fra la performance di due algoritmi di Reverse Engineering e le proprietà strutturali e topologiche della Rete di Regolazione Genica da inferire e il secondo sul panorama di fitness attorno alla configurazione ottima dei parametri di una particolare classe di sistemi dinamici non lineari, le Reti Neurali Dinamiche Ricorsive, che descriva un insieme di serie temporali di espressione genica. Entrambi gli studi hanno consentito di ottenere informazioni utili e originali sulla difficoltà nell'inferire Reti di Regolazione Genica a partire da dati di DNA microarray. Infine, viene presentato un algoritmo innovativo di ottimizzazione mista (continua e discreta) per il fit di sistemi di equazioni differenziali non lineari a esperimenti contenenti serie temporali di espressione genica su piccola scala, composto di due moduli interagenti: una procedura di ricerca locale per esplorare lo spazio discreto delle strutture di rete e una procedura di ottimizzazione continua per l’idenficazione dei parametri ottimi del sistema. La performance dei tre algoritmi proposti viene analizzata sia su dati simulati sia, in certi casi, su dati reali di DNA microarray: i metodi si dimostrano competitivi con lo stato dell’arte degli algoritmi di Reverse Engineering.File | Dimensione | Formato | |
---|---|---|---|
Francesco_Sambo_Thesis.pdf
accesso aperto
Dimensione
3.64 MB
Formato
Adobe PDF
|
3.64 MB | Adobe PDF | Visualizza/Apri |
I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/20.500.14242/105172
URN:NBN:IT:UNIPD-105172