A novel method for the production of long DNA sequences from short reads

Targon, Robin

L'avvento dei sequenziatori di ultima generazione (NGS) ha profondamente cambiato il nostro approccio allo studio del genoma e dell'espressione genica: negli ultimi dieci anni è stata prodotta un'incredibile quantità di dati e di evidenze sperimentali riguardanti la complessità del trascrittoma e le interazioni tra specifiche proteine e molecole di DNA o RNA, aprendo così la strada ad entusiasmanti scoperte ed applicazioni tecnologiche. Sfortunatamente, la ridotta lunghezza delle sequenze prodotte dai sequenziatori di seconda generazione limita le potenzialità di questa tecnologia. Nello specifico, alcune interessanti applicazioni quali l'analisi degli splicing alternativi e dell'RNA-editing, l'assemblaggio di genomi ex novo, la caratterizzazione di aplotipi e l'identificazione di variazioni strutturali a livello genomico, beneficerebbero sicuramente di una tecnologia in grado di produrre lunghe sequenze ad alta qualità. Lo studio che ho condotto durante il mio dottorato di ricerca è stato finalizzato alla produzione di lunghe sequenze ad alta qualità utilizzando gli attuali sequenziatori di seconda generazione. La principale motivazione che ha guidato questo studio è stata la volontà di caratterizzare a livello di sequenza nucleotidica le diverse isoforme trascrizionali in modo da poter verificare l'ipotesi di una relazione funzionale tra l'utilizzo di specifici siti d'inizio trascrizione e lo splicing alternativo degli esoni. Un'ulteriore motivazione era rappresentata dalla possibilità di ottenere la sequenza di lunghi frammenti di DNA al fine di facilitare l'assemblaggio di genomi. Non essendo possibile intervenire sulla lunghezza delle sequenze prodotte dai sequenziatori di seconda generazione, ho sviluppato una strategia che permette di ottenere lunghe sequenze nucleotidiche mediante un preciso assemblaggio di sequenze corte derivanti da una singola molecola. Questa strategia si basa sul concetto di “barcoding” molecolare. Un “barcode”, letteralmente “codice a barre”, è un corto frammento di DNA a sequenza nucleotidica nota che viene aggiunto a tutte le molecole di uno specifico campione. In questo modo è possibile sequenziare diversi campioni simultaneamente e associare ogni sequenza al proprio campione di provenienza semplicemente leggendo il “barcode” ad essa associato. Nel mio progetto lo scopo e la natura dei “barcode” è differente: i “barcode” utilizzati hanno sequenza casuale, in moda da poter marcare ogni singola molecola del campione con una sequenza univoca. La presenza di un “barcode” univoco permette l'assegnazione delle sequenze prodotte alla molecola di origine e, quindi, il loro corretto assemblaggio. Una parte considerevole di questo lavoro è stata dedicata allo sviluppo di strategie di ingegneria genetica che permettessero la costruzione di librerie “mate pair” in cui parte della sequenza fosse costituita dal “barcode”, mentre l'altra parte rappresentasse una porzione casuale della molecola di DNA o RNA di origine. Ogni singolo passaggio del protocollo è stato ottimizzato al fine di rendere il metodo più semplice e robusto. Diverse prove di sequenziamento sono state effettuate per poter valutare l'efficienza della metodica; sebbene l'analisi di queste prove sia stata condizionata dal basso “coverage” di sequenziamento, abbiamo dimostrato come le sequenze “mate pair” che condividono lo stesso “barcode” si allineino, come atteso, a livello della stessa posizione genomica. I risultati ottenuti, sebbene siano preliminari, dimostrano che il metodo sviluppato funziona. Nonostante alcuni passaggi del protocollo richiedano un'ulteriore ottimizzazione, il metodo verrà a breve impiegato per la produzione di lunghe sequenze genomiche aumentando il “coverage” di sequenziamento. Nel prossimo futuro l'introduzione di alcune modifiche minori al protocollo permetterà di estendere il suo utilizzo all'analisi di trascrittomi.

A novel method for the production of long DNA sequences from short reads

TARGON, ROBIN

2015

Abstract

L'avvento dei sequenziatori di ultima generazione (NGS) ha profondamente cambiato il nostro approccio allo studio del genoma e dell'espressione genica: negli ultimi dieci anni è stata prodotta un'incredibile quantità di dati e di evidenze sperimentali riguardanti la complessità del trascrittoma e le interazioni tra specifiche proteine e molecole di DNA o RNA, aprendo così la strada ad entusiasmanti scoperte ed applicazioni tecnologiche. Sfortunatamente, la ridotta lunghezza delle sequenze prodotte dai sequenziatori di seconda generazione limita le potenzialità di questa tecnologia. Nello specifico, alcune interessanti applicazioni quali l'analisi degli splicing alternativi e dell'RNA-editing, l'assemblaggio di genomi ex novo, la caratterizzazione di aplotipi e l'identificazione di variazioni strutturali a livello genomico, beneficerebbero sicuramente di una tecnologia in grado di produrre lunghe sequenze ad alta qualità. Lo studio che ho condotto durante il mio dottorato di ricerca è stato finalizzato alla produzione di lunghe sequenze ad alta qualità utilizzando gli attuali sequenziatori di seconda generazione. La principale motivazione che ha guidato questo studio è stata la volontà di caratterizzare a livello di sequenza nucleotidica le diverse isoforme trascrizionali in modo da poter verificare l'ipotesi di una relazione funzionale tra l'utilizzo di specifici siti d'inizio trascrizione e lo splicing alternativo degli esoni. Un'ulteriore motivazione era rappresentata dalla possibilità di ottenere la sequenza di lunghi frammenti di DNA al fine di facilitare l'assemblaggio di genomi. Non essendo possibile intervenire sulla lunghezza delle sequenze prodotte dai sequenziatori di seconda generazione, ho sviluppato una strategia che permette di ottenere lunghe sequenze nucleotidiche mediante un preciso assemblaggio di sequenze corte derivanti da una singola molecola. Questa strategia si basa sul concetto di “barcoding” molecolare. Un “barcode”, letteralmente “codice a barre”, è un corto frammento di DNA a sequenza nucleotidica nota che viene aggiunto a tutte le molecole di uno specifico campione. In questo modo è possibile sequenziare diversi campioni simultaneamente e associare ogni sequenza al proprio campione di provenienza semplicemente leggendo il “barcode” ad essa associato. Nel mio progetto lo scopo e la natura dei “barcode” è differente: i “barcode” utilizzati hanno sequenza casuale, in moda da poter marcare ogni singola molecola del campione con una sequenza univoca. La presenza di un “barcode” univoco permette l'assegnazione delle sequenze prodotte alla molecola di origine e, quindi, il loro corretto assemblaggio. Una parte considerevole di questo lavoro è stata dedicata allo sviluppo di strategie di ingegneria genetica che permettessero la costruzione di librerie “mate pair” in cui parte della sequenza fosse costituita dal “barcode”, mentre l'altra parte rappresentasse una porzione casuale della molecola di DNA o RNA di origine. Ogni singolo passaggio del protocollo è stato ottimizzato al fine di rendere il metodo più semplice e robusto. Diverse prove di sequenziamento sono state effettuate per poter valutare l'efficienza della metodica; sebbene l'analisi di queste prove sia stata condizionata dal basso “coverage” di sequenziamento, abbiamo dimostrato come le sequenze “mate pair” che condividono lo stesso “barcode” si allineino, come atteso, a livello della stessa posizione genomica. I risultati ottenuti, sebbene siano preliminari, dimostrano che il metodo sviluppato funziona. Nonostante alcuni passaggi del protocollo richiedano un'ulteriore ottimizzazione, il metodo verrà a breve impiegato per la produzione di lunghe sequenze genomiche aumentando il “coverage” di sequenziamento. Nel prossimo futuro l'introduzione di alcune modifiche minori al protocollo permetterà di estendere il suo utilizzo all'analisi di trascrittomi.

Scheda breve

Scheda completa

Scheda completa (DC)

	Corso di studio
	
				BIOTECNOLOGIE
			
	Data di pubblicazione
	
				31-gen-2015
			
	Lingua
	
				Inglese
			
	Parola chiave
	
				Next Generation Sequencing, Long sequence, Genetic Engineering, Mate Pair sequencing, Molecular barcode
			
	Relatore, Supervisor, Advisor o Tutor
	
				VALLE, GIORGIO
			
	Correlatore, Controrelatore, Co-Supervisor,  Co-Tutor o Coordinatori
	
				ZANOTTI, GIUSEPPE
			
	Nome Editore
	
				Università degli studi di Padova
			
	Numero di pagine
	
				109
			
	Collezione di appartenenza
	
				Università degli Studi di Padova

File in questo prodotto:

File	Dimensione	Formato
Robin_Targon_tesi.pdf accesso aperto Dimensione 6.11 MB Formato Adobe PDF Visualizza/Apri	6.11 MB	Adobe PDF	Visualizza/Apri

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14242/174658

Il codice NBN di questa tesi è URN:NBN:IT:UNIPD-174658