Improving the RNA-Seq analysis pipeline: read alignment and expression level quantification

Baruzzo, Giacomo

DNA e RNA giocano un ruolo essenziale nelle vita di ogni organismo. Le due molecole hanno differenti caratteristiche e proprietà ma le loro funzioni sono strettamente legate. Il DNA codifica nel genoma tutte le informazioni genetiche necessarie alle principali attività delle cellula. Il DNA è legato all’RNA tramite il processo della espressione genica, processo che trascrive le informazioni codificate dal DNA nel RNA. Diversamente dalle informazioni statiche fornite dal DNA, l’insieme degli RNA trascritti in un certo istante temporale rappresenta lo stato attuale di ogni cellula e fornisce una caratterizzazione dinamica della sua attività. Per questa ragione, l’analisi del trascrittoma rappresenta un potente strumento per identificare il comportamento dinamico di un organismo, come la risposta a stimoli ambientali o i meccanismi patologici alla base di diverse malattie. Negli ultimi anni, le analisi del trascrittoma sono state rivoluzionate dall’avvento dell’RNA sequencing (RNA-Seq), una nuova metodologia che applica le attuali tecnologie di sequenziamento di nuova generazione (NGS) a molecole di RNA. L’RNA-Seq consente di studiare tutte le specie di RNA presenti nel campione in esame, caratterizzando allo stesso tempo a loro sequenza nucleotidica e la loro quantità. In pratica, milioni di sotto sequenze dei trascritti, chiamate read, vengono sequenziate a partire da posizioni casuali dei trascritti presenti nel campione, utilizzando le medesime piattaforme NGS impiegate nel sequenziamento di DNA. Sfortunatamente le tecnologie NGS producono in output le sono read e nessuna informazione viene quindi fornita riguardo a quali trascritti abbiano generato le read o da quale porzione dei trascritti esse provengano. Per questo motivo le read rappresentano allo stesso tempo l’output del processo di sequenziamento e l’input di complesse pipeline di analisi dati RNA-Seq. Il primo passo in molte pipeline consiste proprio nella identificazione della relazione tra l’output del sequenziamento (le read) e i trascritti che sono stati sequenziati. L’approccio più comune alla risoluzione di questo problema è l’allineamento delle read su un genoma di riferimento. Infatti, identificando la posizione di ogni read nel genoma è possibile inferire quale trascritto la abbia originata analizzando la sua posizione all’interno dei geni. L’informazione derivante dalla posizione e dal numero di read può essere poi utilizzata in un ampio spettro di analisi. Ad esempio, il conteggio del numero di read allineate presso un gene può essere utilizzato come misura del suo livello di espressione, mentre lo studio di quali read si trovino a cavallo di una giunzione può permettere l’identificazione di diverse isoforme. A prima vista queste analisi possono sembrare semplici, ma l’implementazione sia della intera pipeline di analisi sia delle singole fasi che la compongono è invece complessa ed ancora non ben definita. Tra tutte le fasi che compongono la pipeline di analisi dati RNA-Seq, questa tesi si focalizza sulla fase di allineamento delle read. L’allineamento delle read costituisce uno dei passi più critici nella intera analisi di dati RNA-Seq, sia per la sua complessità che per la sua diffusione e presenza nella maggior parte delle pipeline di analisi utilizzate. Lo studio di questa fondamentale operazione è stato effettuato attraverso varie fasi. In primo luogo è stata effettuata una completa caratterizzazione del problema dell’allineamento, analizzando gli aspetti critici e i problemi aperti sia dal punto di vista metodologico che computazionale. In secondo luogo, gli algoritmi e le strutture dati utilizzate nel processo di allineamento sono state analizzate insieme alle diverse strategie di modellazione del problema. Successivamente, i metodi stato dell’arte per l’allineamento di read RNA-Seq sono stati individuati attraverso una approfondita analisi della letteratura, la quale ha evidenziato la presenza di molteplici metodi per la risoluzione di questo problema. Contemporaneamente, l’analisi della letteratura ha evidenziato la difficoltà nella scelta del metodo più accurato per il particolare scenario da analizzare. La difficoltà nella individuazione del corretto metodo è dovuta principalmente per la carenza in letteratura di accurate analisi comparative. Per questa ragione, il passo successivo è stato la progettazione ed esecuzione di una approfondita analisi comparativa di 14 metodi per l’allineamento splice aware e di 4 metodi per l’allineamento splice unaware. A questo scopo, è stata effettua la simulazione di diversi dati a descrizione di molteplici scenari reali. In aggiunta, sono state sviluppate diverse metriche per la valutazione della accuratezza ed efficienza dei singoli metodi analizzati. I risultati di questa analisi hanno rivelato considerevoli differenze tra le prestazioni dei singoli metodi, sottolineando spesso uno scarso legame tra popolarità e accuratezza. L’ultimo passo dello studio è stato l’analisi degli effetti delle diverse accuratezze raggiunge in fase di allineamento sulla precisione e affidabilità delle fasi successive nella pipeline di analisi. Nello specifico, sono state studiate le conseguenze dell’uso di un sottoinsieme dei metodi di allineamento sulla accuratezza della quantificazione del livello di espressione. In conclusione, questa tesi analizza il problema dell’allineamento di read RNA-Seq e presenta una approfondita descrizione delle caratteristiche e delle criticità di questa complessa fase della pipeline. In un campo di ricerca dalla veloce evoluzione come l’RNA-Seq, le informazioni risultanti dalla valutazione comparativa dei metodi stato dell’arte fornisce preziose linee guida per l’aggiornamento e la definizione di accurate e affidabili pipeline di analisi.

Improving the RNA-Seq analysis pipeline: read alignment and expression level quantification

BARUZZO, GIACOMO

2017

Abstract

DNA e RNA giocano un ruolo essenziale nelle vita di ogni organismo. Le due molecole hanno differenti caratteristiche e proprietà ma le loro funzioni sono strettamente legate. Il DNA codifica nel genoma tutte le informazioni genetiche necessarie alle principali attività delle cellula. Il DNA è legato all’RNA tramite il processo della espressione genica, processo che trascrive le informazioni codificate dal DNA nel RNA. Diversamente dalle informazioni statiche fornite dal DNA, l’insieme degli RNA trascritti in un certo istante temporale rappresenta lo stato attuale di ogni cellula e fornisce una caratterizzazione dinamica della sua attività. Per questa ragione, l’analisi del trascrittoma rappresenta un potente strumento per identificare il comportamento dinamico di un organismo, come la risposta a stimoli ambientali o i meccanismi patologici alla base di diverse malattie. Negli ultimi anni, le analisi del trascrittoma sono state rivoluzionate dall’avvento dell’RNA sequencing (RNA-Seq), una nuova metodologia che applica le attuali tecnologie di sequenziamento di nuova generazione (NGS) a molecole di RNA. L’RNA-Seq consente di studiare tutte le specie di RNA presenti nel campione in esame, caratterizzando allo stesso tempo a loro sequenza nucleotidica e la loro quantità. In pratica, milioni di sotto sequenze dei trascritti, chiamate read, vengono sequenziate a partire da posizioni casuali dei trascritti presenti nel campione, utilizzando le medesime piattaforme NGS impiegate nel sequenziamento di DNA. Sfortunatamente le tecnologie NGS producono in output le sono read e nessuna informazione viene quindi fornita riguardo a quali trascritti abbiano generato le read o da quale porzione dei trascritti esse provengano. Per questo motivo le read rappresentano allo stesso tempo l’output del processo di sequenziamento e l’input di complesse pipeline di analisi dati RNA-Seq. Il primo passo in molte pipeline consiste proprio nella identificazione della relazione tra l’output del sequenziamento (le read) e i trascritti che sono stati sequenziati. L’approccio più comune alla risoluzione di questo problema è l’allineamento delle read su un genoma di riferimento. Infatti, identificando la posizione di ogni read nel genoma è possibile inferire quale trascritto la abbia originata analizzando la sua posizione all’interno dei geni. L’informazione derivante dalla posizione e dal numero di read può essere poi utilizzata in un ampio spettro di analisi. Ad esempio, il conteggio del numero di read allineate presso un gene può essere utilizzato come misura del suo livello di espressione, mentre lo studio di quali read si trovino a cavallo di una giunzione può permettere l’identificazione di diverse isoforme. A prima vista queste analisi possono sembrare semplici, ma l’implementazione sia della intera pipeline di analisi sia delle singole fasi che la compongono è invece complessa ed ancora non ben definita. Tra tutte le fasi che compongono la pipeline di analisi dati RNA-Seq, questa tesi si focalizza sulla fase di allineamento delle read. L’allineamento delle read costituisce uno dei passi più critici nella intera analisi di dati RNA-Seq, sia per la sua complessità che per la sua diffusione e presenza nella maggior parte delle pipeline di analisi utilizzate. Lo studio di questa fondamentale operazione è stato effettuato attraverso varie fasi. In primo luogo è stata effettuata una completa caratterizzazione del problema dell’allineamento, analizzando gli aspetti critici e i problemi aperti sia dal punto di vista metodologico che computazionale. In secondo luogo, gli algoritmi e le strutture dati utilizzate nel processo di allineamento sono state analizzate insieme alle diverse strategie di modellazione del problema. Successivamente, i metodi stato dell’arte per l’allineamento di read RNA-Seq sono stati individuati attraverso una approfondita analisi della letteratura, la quale ha evidenziato la presenza di molteplici metodi per la risoluzione di questo problema. Contemporaneamente, l’analisi della letteratura ha evidenziato la difficoltà nella scelta del metodo più accurato per il particolare scenario da analizzare. La difficoltà nella individuazione del corretto metodo è dovuta principalmente per la carenza in letteratura di accurate analisi comparative. Per questa ragione, il passo successivo è stato la progettazione ed esecuzione di una approfondita analisi comparativa di 14 metodi per l’allineamento splice aware e di 4 metodi per l’allineamento splice unaware. A questo scopo, è stata effettua la simulazione di diversi dati a descrizione di molteplici scenari reali. In aggiunta, sono state sviluppate diverse metriche per la valutazione della accuratezza ed efficienza dei singoli metodi analizzati. I risultati di questa analisi hanno rivelato considerevoli differenze tra le prestazioni dei singoli metodi, sottolineando spesso uno scarso legame tra popolarità e accuratezza. L’ultimo passo dello studio è stato l’analisi degli effetti delle diverse accuratezze raggiunge in fase di allineamento sulla precisione e affidabilità delle fasi successive nella pipeline di analisi. Nello specifico, sono state studiate le conseguenze dell’uso di un sottoinsieme dei metodi di allineamento sulla accuratezza della quantificazione del livello di espressione. In conclusione, questa tesi analizza il problema dell’allineamento di read RNA-Seq e presenta una approfondita descrizione delle caratteristiche e delle criticità di questa complessa fase della pipeline. In un campo di ricerca dalla veloce evoluzione come l’RNA-Seq, le informazioni risultanti dalla valutazione comparativa dei metodi stato dell’arte fornisce preziose linee guida per l’aggiornamento e la definizione di accurate e affidabili pipeline di analisi.

Scheda breve

Scheda completa

Scheda completa (DC)

	Corso di studio
	
				INGEGNERIA DELL'INFORMAZIONE
			
	Data di pubblicazione
	
				31-gen-2017
			
	Lingua
	
				Inglese
			
	Parola chiave
	
				RNA-Seq, read alignment, expression level quantification
			
	Relatore, Supervisor, Advisor o Tutor
	
				DI CAMILLO, BARBARA
			
	Nome Editore
	
				Università degli studi di Padova
			
	Collezione di appartenenza
	
				Università degli Studi di Padova

File in questo prodotto:

File	Dimensione	Formato
baruzzo_giacomo_tesi.pdf accesso aperto Licenza: Tutti i diritti riservati Dimensione 28.95 MB Formato Adobe PDF Visualizza/Apri	28.95 MB	Adobe PDF	Visualizza/Apri

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14242/97612

Il codice NBN di questa tesi è URN:NBN:IT:UNIPD-97612