L'avvento dei sequenziatori di ultima generazione (NGS) ha profondamente cambiato il nostro approccio allo studio del genoma e dell'espressione genica: negli ultimi dieci anni è stata prodotta un'incredibile quantità di dati e di evidenze sperimentali riguardanti la complessità del trascrittoma e le interazioni tra specifiche proteine e molecole di DNA o RNA, aprendo così la strada ad entusiasmanti scoperte ed applicazioni tecnologiche. Sfortunatamente, la ridotta lunghezza delle sequenze prodotte dai sequenziatori di seconda generazione limita le potenzialità di questa tecnologia. Nello specifico, alcune interessanti applicazioni quali l'analisi degli splicing alternativi e dell'RNA-editing, l'assemblaggio di genomi ex novo, la caratterizzazione di aplotipi e l'identificazione di variazioni strutturali a livello genomico, beneficerebbero sicuramente di una tecnologia in grado di produrre lunghe sequenze ad alta qualità. Lo studio che ho condotto durante il mio dottorato di ricerca è stato finalizzato alla produzione di lunghe sequenze ad alta qualità utilizzando gli attuali sequenziatori di seconda generazione. La principale motivazione che ha guidato questo studio è stata la volontà di caratterizzare a livello di sequenza nucleotidica le diverse isoforme trascrizionali in modo da poter verificare l'ipotesi di una relazione funzionale tra l'utilizzo di specifici siti d'inizio trascrizione e lo splicing alternativo degli esoni. Un'ulteriore motivazione era rappresentata dalla possibilità di ottenere la sequenza di lunghi frammenti di DNA al fine di facilitare l'assemblaggio di genomi. Non essendo possibile intervenire sulla lunghezza delle sequenze prodotte dai sequenziatori di seconda generazione, ho sviluppato una strategia che permette di ottenere lunghe sequenze nucleotidiche mediante un preciso assemblaggio di sequenze corte derivanti da una singola molecola. Questa strategia si basa sul concetto di “barcoding” molecolare. Un “barcode”, letteralmente “codice a barre”, è un corto frammento di DNA a sequenza nucleotidica nota che viene aggiunto a tutte le molecole di uno specifico campione. In questo modo è possibile sequenziare diversi campioni simultaneamente e associare ogni sequenza al proprio campione di provenienza semplicemente leggendo il “barcode” ad essa associato. Nel mio progetto lo scopo e la natura dei “barcode” è differente: i “barcode” utilizzati hanno sequenza casuale, in moda da poter marcare ogni singola molecola del campione con una sequenza univoca. La presenza di un “barcode” univoco permette l'assegnazione delle sequenze prodotte alla molecola di origine e, quindi, il loro corretto assemblaggio. Una parte considerevole di questo lavoro è stata dedicata allo sviluppo di strategie di ingegneria genetica che permettessero la costruzione di librerie “mate pair” in cui parte della sequenza fosse costituita dal “barcode”, mentre l'altra parte rappresentasse una porzione casuale della molecola di DNA o RNA di origine. Ogni singolo passaggio del protocollo è stato ottimizzato al fine di rendere il metodo più semplice e robusto. Diverse prove di sequenziamento sono state effettuate per poter valutare l'efficienza della metodica; sebbene l'analisi di queste prove sia stata condizionata dal basso “coverage” di sequenziamento, abbiamo dimostrato come le sequenze “mate pair” che condividono lo stesso “barcode” si allineino, come atteso, a livello della stessa posizione genomica. I risultati ottenuti, sebbene siano preliminari, dimostrano che il metodo sviluppato funziona. Nonostante alcuni passaggi del protocollo richiedano un'ulteriore ottimizzazione, il metodo verrà a breve impiegato per la produzione di lunghe sequenze genomiche aumentando il “coverage” di sequenziamento. Nel prossimo futuro l'introduzione di alcune modifiche minori al protocollo permetterà di estendere il suo utilizzo all'analisi di trascrittomi.
A novel method for the production of long DNA sequences from short reads
TARGON, ROBIN
2015
Abstract
L'avvento dei sequenziatori di ultima generazione (NGS) ha profondamente cambiato il nostro approccio allo studio del genoma e dell'espressione genica: negli ultimi dieci anni è stata prodotta un'incredibile quantità di dati e di evidenze sperimentali riguardanti la complessità del trascrittoma e le interazioni tra specifiche proteine e molecole di DNA o RNA, aprendo così la strada ad entusiasmanti scoperte ed applicazioni tecnologiche. Sfortunatamente, la ridotta lunghezza delle sequenze prodotte dai sequenziatori di seconda generazione limita le potenzialità di questa tecnologia. Nello specifico, alcune interessanti applicazioni quali l'analisi degli splicing alternativi e dell'RNA-editing, l'assemblaggio di genomi ex novo, la caratterizzazione di aplotipi e l'identificazione di variazioni strutturali a livello genomico, beneficerebbero sicuramente di una tecnologia in grado di produrre lunghe sequenze ad alta qualità. Lo studio che ho condotto durante il mio dottorato di ricerca è stato finalizzato alla produzione di lunghe sequenze ad alta qualità utilizzando gli attuali sequenziatori di seconda generazione. La principale motivazione che ha guidato questo studio è stata la volontà di caratterizzare a livello di sequenza nucleotidica le diverse isoforme trascrizionali in modo da poter verificare l'ipotesi di una relazione funzionale tra l'utilizzo di specifici siti d'inizio trascrizione e lo splicing alternativo degli esoni. Un'ulteriore motivazione era rappresentata dalla possibilità di ottenere la sequenza di lunghi frammenti di DNA al fine di facilitare l'assemblaggio di genomi. Non essendo possibile intervenire sulla lunghezza delle sequenze prodotte dai sequenziatori di seconda generazione, ho sviluppato una strategia che permette di ottenere lunghe sequenze nucleotidiche mediante un preciso assemblaggio di sequenze corte derivanti da una singola molecola. Questa strategia si basa sul concetto di “barcoding” molecolare. Un “barcode”, letteralmente “codice a barre”, è un corto frammento di DNA a sequenza nucleotidica nota che viene aggiunto a tutte le molecole di uno specifico campione. In questo modo è possibile sequenziare diversi campioni simultaneamente e associare ogni sequenza al proprio campione di provenienza semplicemente leggendo il “barcode” ad essa associato. Nel mio progetto lo scopo e la natura dei “barcode” è differente: i “barcode” utilizzati hanno sequenza casuale, in moda da poter marcare ogni singola molecola del campione con una sequenza univoca. La presenza di un “barcode” univoco permette l'assegnazione delle sequenze prodotte alla molecola di origine e, quindi, il loro corretto assemblaggio. Una parte considerevole di questo lavoro è stata dedicata allo sviluppo di strategie di ingegneria genetica che permettessero la costruzione di librerie “mate pair” in cui parte della sequenza fosse costituita dal “barcode”, mentre l'altra parte rappresentasse una porzione casuale della molecola di DNA o RNA di origine. Ogni singolo passaggio del protocollo è stato ottimizzato al fine di rendere il metodo più semplice e robusto. Diverse prove di sequenziamento sono state effettuate per poter valutare l'efficienza della metodica; sebbene l'analisi di queste prove sia stata condizionata dal basso “coverage” di sequenziamento, abbiamo dimostrato come le sequenze “mate pair” che condividono lo stesso “barcode” si allineino, come atteso, a livello della stessa posizione genomica. I risultati ottenuti, sebbene siano preliminari, dimostrano che il metodo sviluppato funziona. Nonostante alcuni passaggi del protocollo richiedano un'ulteriore ottimizzazione, il metodo verrà a breve impiegato per la produzione di lunghe sequenze genomiche aumentando il “coverage” di sequenziamento. Nel prossimo futuro l'introduzione di alcune modifiche minori al protocollo permetterà di estendere il suo utilizzo all'analisi di trascrittomi.File | Dimensione | Formato | |
---|---|---|---|
Robin_Targon_tesi.pdf
accesso aperto
Dimensione
6.11 MB
Formato
Adobe PDF
|
6.11 MB | Adobe PDF | Visualizza/Apri |
I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/20.500.14242/174658
URN:NBN:IT:UNIPD-174658