Le nuove tecnologie di sequenziamento (NGS) consentono di ottenere moltissimi dati a costi contenuti rispetto al tradizionale sequenziamento Sanger. L'enorme mole di dati che recentamente è stata prodotta con le NGS ha portato ad una veloce produzione di bozze di sequenza di molti genomi, sia eucariotici sia procariotici. Il Progetto Genoma Umano fu completato nel 2003, meno di 10 anni fa: costò miliardi di dollari e interessò decine di laboratori in tutto il mondo. Attualmente le NGS consentono di produrre l'equivalente di un genoma umano in poche settimane, al costo di 10000 dollari. L'incredibile aumento di prestazione ha aperto nuove possibilità in campo biologico: ad esempio ora è possibile comparare geneticamente interi organismi, analizzare DNA antico, studiare malattie genetiche ad un livello ritenuto incredibile fino a pochi anni fa. Alcuni dei principali campi che possono essere migliorati con questa tecnologia sono: genomico (ad esempio assemblaggio di genomi e identificazione di variazioni strutturali), trascrittomico (ad esempio predizione genica e splicing alternativi) ed epigenetico. L'enorme mole di data che è stata prodotta deve essere analizzata; è molto improbabile che tale analisi sia fatta manualmente, quindi nuovi metodi bioinformatici sono richiesti per velocizzare il processo. C'è il bisogno di ottimizzare le risorse computazionali per memorizzare efficaciemente i dati NGS, ma anche il bisogno per nuovi algoritmi, concepiti specificatamente per i dati NGS, ad esempio per superare una delle maggiori limitazioni delle nuove tecnologie di sequenziamento: la corta lunghezza delle singole sequenze (in generale chiamate `reads') che può essere prodotta dalle macchine NGS. Da una parte, le NGS possono produrre centinaia di volte più reads del sequenziamento tradizionale, ma dall'altra parte queste reads sono molto più corte: circa 50-100 basi invece che 500-1000 basi del sequenziamento Sanger. Ciò rende più difficoltosa l'analisi dei dati, particolarmente per le repeat genomiche che possono essere risolte solo con read più lunghe. Attualmente le macchine NGS più utilizzate sono il Solexa (Illumina), il 454 (Roche) e il SOLiD (Applied BioSystems). Il primo usa un metodo simile al sequenziamento Sanger, mentre gli altri due usano tecnologie differenti, rispettivamente pyrosequencing e sequencing-by-ligation. La lunghezza delle read è variabile: il 454 produce read di circa $400$ basi, mentre gli altri due producono read di lunghezza compresa tra $35$ e $100$ base. Le tre piattaforme differiscono anche nel rendimento che continuamente migliora nel tempo: attualmente il 454 produce circa un milione di read per corsa, mentre Solexa e SOLiD possono produrre molte centinaia di milioni di read per corsa. Queste piattaforme possono essere usate per sequenziare differenti tipi di librerie, incluse le librerie paired-end e mate-pair. Esse sono librerie che permettono di sequenziare le estremità di una frammento di DNA; come risultato vengono prodotte paia di sequence che devono mappare ad un distanza compatibile con la lunghezza dei frammenti della libreria. Quando usate per ri-sequenziare genomi singoli, queste librerie generano molti link (`archi'), uno per ogni coppia di read mappate, che devono essere compatibili con la lunghezza dei frammenti della libreria. L'obiettivo principale della mia tesi di dottorato è dimostrare che dovrebbe essere possibile identificare con elevata accuratezza qualsiasi variazione strutturale che si presenti nei genomi di singole persone usando i dati di librerie paired-end e mate-pair. L'accuratezza di questa analisi dovrebbe migliorare con la densità di archi che coprono il genoma; quindi, il grande numero di archi che può essere generato dalle piattaforme NGS offre una grande opportunità per gli studi su variazioni strutturali. Le variazioni strutturali sono un aspetto del genoma la cui importanza è diventata evidente solo negli ultimi anni; prima, perfino la loro esistenza era messa in dubbio. Recentemente si è osservato che in genomi adulti sono presenti centinaia di variazioni strutturali che possono essere associate a cancro o altre malattie (per esempio il morbo di Parkinson). Molti strumenti sono stati sviluppato per identificare le variazioni strutturali, basati sulla comparative genome hybridization e, più di recente, sulle NGS. Nell'ultimo caso, gli strumenti disponibili sono molto lontani dall'essere capaci di sfruttare il pieno potenziale dei dati NGS, sia in termini di sensibilità che specificità. Scopo del mio dottorato è esaminare questo problema e creare uno strumento bioinformatico capace di identificare le variazioni strutturali con elevata accuratezza. Inizialmente mi sono concentrato solo sui dati SOLiD, in seguito ho esteso la mia analisi anche ai dati Solexa (e, potenzialmente, 454). Come risultato finale ho ideato SV_finder, un programma capace di funzionare sia in base che color space. Come input richiede una lista delle read paired-end o mate-pair mappate su un genome conosciuto di riferimento; l'output è una lista di variazioni strutturali trovate in base ai dati e parametri usati.

Identification of Structural Variations in Resequenced Genomes using Paired-End or Mate-Pair Sequences

ZAMPERIN, GIANPIERO
2012

Abstract

Le nuove tecnologie di sequenziamento (NGS) consentono di ottenere moltissimi dati a costi contenuti rispetto al tradizionale sequenziamento Sanger. L'enorme mole di dati che recentamente è stata prodotta con le NGS ha portato ad una veloce produzione di bozze di sequenza di molti genomi, sia eucariotici sia procariotici. Il Progetto Genoma Umano fu completato nel 2003, meno di 10 anni fa: costò miliardi di dollari e interessò decine di laboratori in tutto il mondo. Attualmente le NGS consentono di produrre l'equivalente di un genoma umano in poche settimane, al costo di 10000 dollari. L'incredibile aumento di prestazione ha aperto nuove possibilità in campo biologico: ad esempio ora è possibile comparare geneticamente interi organismi, analizzare DNA antico, studiare malattie genetiche ad un livello ritenuto incredibile fino a pochi anni fa. Alcuni dei principali campi che possono essere migliorati con questa tecnologia sono: genomico (ad esempio assemblaggio di genomi e identificazione di variazioni strutturali), trascrittomico (ad esempio predizione genica e splicing alternativi) ed epigenetico. L'enorme mole di data che è stata prodotta deve essere analizzata; è molto improbabile che tale analisi sia fatta manualmente, quindi nuovi metodi bioinformatici sono richiesti per velocizzare il processo. C'è il bisogno di ottimizzare le risorse computazionali per memorizzare efficaciemente i dati NGS, ma anche il bisogno per nuovi algoritmi, concepiti specificatamente per i dati NGS, ad esempio per superare una delle maggiori limitazioni delle nuove tecnologie di sequenziamento: la corta lunghezza delle singole sequenze (in generale chiamate `reads') che può essere prodotta dalle macchine NGS. Da una parte, le NGS possono produrre centinaia di volte più reads del sequenziamento tradizionale, ma dall'altra parte queste reads sono molto più corte: circa 50-100 basi invece che 500-1000 basi del sequenziamento Sanger. Ciò rende più difficoltosa l'analisi dei dati, particolarmente per le repeat genomiche che possono essere risolte solo con read più lunghe. Attualmente le macchine NGS più utilizzate sono il Solexa (Illumina), il 454 (Roche) e il SOLiD (Applied BioSystems). Il primo usa un metodo simile al sequenziamento Sanger, mentre gli altri due usano tecnologie differenti, rispettivamente pyrosequencing e sequencing-by-ligation. La lunghezza delle read è variabile: il 454 produce read di circa $400$ basi, mentre gli altri due producono read di lunghezza compresa tra $35$ e $100$ base. Le tre piattaforme differiscono anche nel rendimento che continuamente migliora nel tempo: attualmente il 454 produce circa un milione di read per corsa, mentre Solexa e SOLiD possono produrre molte centinaia di milioni di read per corsa. Queste piattaforme possono essere usate per sequenziare differenti tipi di librerie, incluse le librerie paired-end e mate-pair. Esse sono librerie che permettono di sequenziare le estremità di una frammento di DNA; come risultato vengono prodotte paia di sequence che devono mappare ad un distanza compatibile con la lunghezza dei frammenti della libreria. Quando usate per ri-sequenziare genomi singoli, queste librerie generano molti link (`archi'), uno per ogni coppia di read mappate, che devono essere compatibili con la lunghezza dei frammenti della libreria. L'obiettivo principale della mia tesi di dottorato è dimostrare che dovrebbe essere possibile identificare con elevata accuratezza qualsiasi variazione strutturale che si presenti nei genomi di singole persone usando i dati di librerie paired-end e mate-pair. L'accuratezza di questa analisi dovrebbe migliorare con la densità di archi che coprono il genoma; quindi, il grande numero di archi che può essere generato dalle piattaforme NGS offre una grande opportunità per gli studi su variazioni strutturali. Le variazioni strutturali sono un aspetto del genoma la cui importanza è diventata evidente solo negli ultimi anni; prima, perfino la loro esistenza era messa in dubbio. Recentemente si è osservato che in genomi adulti sono presenti centinaia di variazioni strutturali che possono essere associate a cancro o altre malattie (per esempio il morbo di Parkinson). Molti strumenti sono stati sviluppato per identificare le variazioni strutturali, basati sulla comparative genome hybridization e, più di recente, sulle NGS. Nell'ultimo caso, gli strumenti disponibili sono molto lontani dall'essere capaci di sfruttare il pieno potenziale dei dati NGS, sia in termini di sensibilità che specificità. Scopo del mio dottorato è esaminare questo problema e creare uno strumento bioinformatico capace di identificare le variazioni strutturali con elevata accuratezza. Inizialmente mi sono concentrato solo sui dati SOLiD, in seguito ho esteso la mia analisi anche ai dati Solexa (e, potenzialmente, 454). Come risultato finale ho ideato SV_finder, un programma capace di funzionare sia in base che color space. Come input richiede una lista delle read paired-end o mate-pair mappate su un genome conosciuto di riferimento; l'output è una lista di variazioni strutturali trovate in base ai dati e parametri usati.
gen-2012
Inglese
structural variation, sequencing
VALLE, GIORGIO
VALLE, GIORGIO
Università degli studi di Padova
155
File in questo prodotto:
File Dimensione Formato  
tesi_dottorato_versione_finale.pdf

accesso aperto

Dimensione 1.61 MB
Formato Adobe PDF
1.61 MB Adobe PDF Visualizza/Apri

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14242/81749
Il codice NBN di questa tesi è URN:NBN:IT:UNIPD-81749