L’avvento e la rapida evoluzione dei sequenziatori di nuova generazione (NGS) ha abbattuto il costo ed il tempo necessario alla produzione dei dati. La fase di assemblaggio di un genoma che porta ad ottenere la corretta sequenza genomica a partire dalle singole sequenze prodotte dai sequenziatori è sempre stato un processo complesso, e l’aumento della mole di dati prodotti non è corrisposto ad una nostra aumentata capacità di analisi degli stessi. In questa tesi si presenta un approccio misto di sequenziamento che combina i benefici di due sequenziatori di nuova generazione (il 454 di Roche che fornisce le sequenze più lunghe ed il SOLiD di Applied Biosystems che fornisce una massiva produzione di sequenze, ciascuna di lunghezza ridotta) al fine di ottenere le informazioni per il sequenziamento di un genoma. La strategia è stata testata sul genoma della microalga eucariote Nannochloropsis gaditana, un organismo che negli ultimi anni ha ricevuto notevole attenzione dalla comuntità scientifica per la sua capacità di immagazzinare energia luminosa sotto forma di acidi grassi (fino al 70% del suo peso). Questa caratteristica rende Nannochloropsis un valido candidato per le ricerche su fonti di energie alternative a quelle di origine fossile. La stima della dimensione del suo genoma varia tra i 30 ed i 40 milioni di paia di basi. Il rapido miglioramento delle tecnologie di sequenziamento non è corrisposto ad una altrattanto rapida evoluzione dei programmi di analisi dei dati, che spesso risultano indeguati a gestire la nuova mole di dati o a sfruttarne le potenzialità. Per questo ho deciso di progettare ed implementare una collezione di programmi per l’assemblaggio di genomi con dati misti (SOLiD e 454). Le sequenze ottenute da un sequenziamento di tipo shotgun con il 454 vengono assemblate per produrre un insieme di porzioni genomiche denominate contig. Per il genoma di Nannochloropsis ne sono stati prodotti 7 035 di dimensioni superiori alle 500 paia di basi. Sfruttando le informazioni delle librerie “mate-paired” del SOLiD, che prevedono il sequenziamento combinato di paia di sequenze ad una distanza nota nel genoma ho sviluppato un programma (ScaMP) che permette di produrre liste ordinate di contig (dette scaffold). Il programma ha prodotto 95 scaffold di dimensione media pari a 285 594 paia di basi, incorporandovici 26,8 milioni di nucleotide in totale. L’elevato numero di sequenze prodotte con il SOLiD permette anche, una volta ottenuti gli scaffold, di completare le sequenze mancanti fra un contig ed il successivo (dette gap). A tal fine ho sviluppato un ulteriore programma che estrae dall’insieme di sequenze SOLiD il sottoinsieme di quelle adiacenti ad un contig, ed effettua un assemblaggio locale che viene infine utilizzato per colmare gap. Su uno scaffold di 140 contig ha eliminato 106 regioni gap, portando il numero di contig a 36 ed aumentando la dimensione media da 8 300 a 77 400 paia di basi. I risultati ottenuti confermano che l’approccio combinato di SOLiD e 454 permette di ottenere un buon assemblaggio di un genoma eucariotico limitando al contempo i costi di sequenziamento. I risultati ottenuti sono stati validati tramite il sequenziamento di estremità di inserti BAC successivamente allineati contro il dataset di scaffold. I programmi sviluppati hanno dimostrato di essere un valido sistema di assemblaggio affidabile e di colmare una lacuna nel panorama dei programmi bioinformatici per il sequenziamento de novo con tecniche di nuova generazione.

Design and implementation of novel algorithms to integrate different DNA sequencing technologies for de novo genome assembly: Nannochloropsis as a test case

TELATIN, ANDREA
2012

Abstract

L’avvento e la rapida evoluzione dei sequenziatori di nuova generazione (NGS) ha abbattuto il costo ed il tempo necessario alla produzione dei dati. La fase di assemblaggio di un genoma che porta ad ottenere la corretta sequenza genomica a partire dalle singole sequenze prodotte dai sequenziatori è sempre stato un processo complesso, e l’aumento della mole di dati prodotti non è corrisposto ad una nostra aumentata capacità di analisi degli stessi. In questa tesi si presenta un approccio misto di sequenziamento che combina i benefici di due sequenziatori di nuova generazione (il 454 di Roche che fornisce le sequenze più lunghe ed il SOLiD di Applied Biosystems che fornisce una massiva produzione di sequenze, ciascuna di lunghezza ridotta) al fine di ottenere le informazioni per il sequenziamento di un genoma. La strategia è stata testata sul genoma della microalga eucariote Nannochloropsis gaditana, un organismo che negli ultimi anni ha ricevuto notevole attenzione dalla comuntità scientifica per la sua capacità di immagazzinare energia luminosa sotto forma di acidi grassi (fino al 70% del suo peso). Questa caratteristica rende Nannochloropsis un valido candidato per le ricerche su fonti di energie alternative a quelle di origine fossile. La stima della dimensione del suo genoma varia tra i 30 ed i 40 milioni di paia di basi. Il rapido miglioramento delle tecnologie di sequenziamento non è corrisposto ad una altrattanto rapida evoluzione dei programmi di analisi dei dati, che spesso risultano indeguati a gestire la nuova mole di dati o a sfruttarne le potenzialità. Per questo ho deciso di progettare ed implementare una collezione di programmi per l’assemblaggio di genomi con dati misti (SOLiD e 454). Le sequenze ottenute da un sequenziamento di tipo shotgun con il 454 vengono assemblate per produrre un insieme di porzioni genomiche denominate contig. Per il genoma di Nannochloropsis ne sono stati prodotti 7 035 di dimensioni superiori alle 500 paia di basi. Sfruttando le informazioni delle librerie “mate-paired” del SOLiD, che prevedono il sequenziamento combinato di paia di sequenze ad una distanza nota nel genoma ho sviluppato un programma (ScaMP) che permette di produrre liste ordinate di contig (dette scaffold). Il programma ha prodotto 95 scaffold di dimensione media pari a 285 594 paia di basi, incorporandovici 26,8 milioni di nucleotide in totale. L’elevato numero di sequenze prodotte con il SOLiD permette anche, una volta ottenuti gli scaffold, di completare le sequenze mancanti fra un contig ed il successivo (dette gap). A tal fine ho sviluppato un ulteriore programma che estrae dall’insieme di sequenze SOLiD il sottoinsieme di quelle adiacenti ad un contig, ed effettua un assemblaggio locale che viene infine utilizzato per colmare gap. Su uno scaffold di 140 contig ha eliminato 106 regioni gap, portando il numero di contig a 36 ed aumentando la dimensione media da 8 300 a 77 400 paia di basi. I risultati ottenuti confermano che l’approccio combinato di SOLiD e 454 permette di ottenere un buon assemblaggio di un genoma eucariotico limitando al contempo i costi di sequenziamento. I risultati ottenuti sono stati validati tramite il sequenziamento di estremità di inserti BAC successivamente allineati contro il dataset di scaffold. I programmi sviluppati hanno dimostrato di essere un valido sistema di assemblaggio affidabile e di colmare una lacuna nel panorama dei programmi bioinformatici per il sequenziamento de novo con tecniche di nuova generazione.
31-gen-2012
Inglese
genome sequencing, de novo, scaffolding, next generation-sequencing, nannochloropsis, bioinformatics, gap closure
VALLE, GIORGIO
ZANOTTI, GIUSEPPE
Università degli studi di Padova
File in questo prodotto:
File Dimensione Formato  
Thesis_last.pdf

accesso aperto

Dimensione 10.83 MB
Formato Adobe PDF
10.83 MB Adobe PDF Visualizza/Apri

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14242/92898
Il codice NBN di questa tesi è URN:NBN:IT:UNIPD-92898