From exome to whole genome sequencing: mining for inconsistencies and functional elements in coding and non-coding regions

Ferrarini, Margherita

Nel corso dell’ultimo ventennio l’avanzamento tecnologico nel campo del sequenziamento del DNA ha portato a un enorme aumento della quantità di dati di sequenziamento accessibili a ricercatori e genetisti. Questa crescita è stata accompagnata dallo sviluppo di strumenti necessari all’analisi dei dati; tra questi il genoma umano di riferimento è senza dubbio una risorsa indispensabile. È noto che il genoma di riferimento non sempre rappresenta la reale sequenza consenso della popolazione umana, poiché alleli rari ed errori di sequenziamento sono stati inclusi in essa. Inoltre, duplicazioni genomiche sono spesso mal assemblate e, di conseguenza, possono essere trovate nel genoma di riferimento come collassate, generando così false varianti. In questa tesi è descritta la ricerca approfondita di incongruenze tra il genoma umano di riferimento (GRCh37 e GRCh38) e alcune delle più popolari risorse di genetica umana, come il 1000 Genomes Project, per scovare alleli minori e inconsistenze genetiche. Per identificare duplicazioni genomiche non riportate nel genoma, è stata poi condotta un’ampia ricerca di eterozigosità sbilanciata. Questa analisi ha dimostrato che incongruenze ed errori sono molto più frequenti di quanto atteso. Infatti, alleli minori con una frequenza <10% sono stati trovati in media ogni ~7,000 basi e tra essi sono presenti molte varianti rare mai riportate nei database. Lo screening sistematico per l’eterozigosità sbilanciata ha mostrato inoltre che ~86,000 varianti possono derivare da duplicazioni genomiche non riportate nella sequenza di riferimento e che alcune di esse coinvolgono geni importanti come MAP2K3 e KCNJ12. I risultati descritti in questo lavoro possono contribuire alla definizione di una sequenza di riferimento del genoma umano altamente accurata. Inoltre, questi stessi risultati potranno essere utili ai genetisti umani nel processo di filtraggio e selezione delle varianti potenzialmente associate a malattie. L’avanzamento nel settore del sequenziamento del DNA ha condotto inoltre dell’utilizzo sempre maggiore degli approcci di sequenziamento dell’intero genoma, sia nel campo della ricerca sia nella diagnosi clinica, rivelando così che la gran parte degli SNP associati a malattia è localizzata nelle regioni non codificanti del genoma umano. Tuttavia, l’interpretazione funzionale delle varianti non codificanti è ancora una questione problematica. Parte del mio lavoro ha riguardato anche questo aspetto, con lo scopo di sviluppare un metodo per la prioritizzazione delle varianti non codificanti. Questo metodo, descritto nell’ultimo capitolo della tesi, si basa su un approccio di genomica comparata per l’identificazione di domini funzionali in geni ortologhi di organismi primati. I primi passaggi di questo approccio hanno dimostrato essere molto buoni per l’identificazione dei geni ortologhi, ma ulteriore lavoro è necessario per ottimizzare il processo di allineamento multiplo delle sequenze e l’identificazione dei domini conservati.

From exome to whole genome sequencing: mining for inconsistencies and functional elements in coding and non-coding regions

FERRARINI, MARGHERITA

2018

Abstract

Nel corso dell’ultimo ventennio l’avanzamento tecnologico nel campo del sequenziamento del DNA ha portato a un enorme aumento della quantità di dati di sequenziamento accessibili a ricercatori e genetisti. Questa crescita è stata accompagnata dallo sviluppo di strumenti necessari all’analisi dei dati; tra questi il genoma umano di riferimento è senza dubbio una risorsa indispensabile. È noto che il genoma di riferimento non sempre rappresenta la reale sequenza consenso della popolazione umana, poiché alleli rari ed errori di sequenziamento sono stati inclusi in essa. Inoltre, duplicazioni genomiche sono spesso mal assemblate e, di conseguenza, possono essere trovate nel genoma di riferimento come collassate, generando così false varianti. In questa tesi è descritta la ricerca approfondita di incongruenze tra il genoma umano di riferimento (GRCh37 e GRCh38) e alcune delle più popolari risorse di genetica umana, come il 1000 Genomes Project, per scovare alleli minori e inconsistenze genetiche. Per identificare duplicazioni genomiche non riportate nel genoma, è stata poi condotta un’ampia ricerca di eterozigosità sbilanciata. Questa analisi ha dimostrato che incongruenze ed errori sono molto più frequenti di quanto atteso. Infatti, alleli minori con una frequenza <10% sono stati trovati in media ogni ~7,000 basi e tra essi sono presenti molte varianti rare mai riportate nei database. Lo screening sistematico per l’eterozigosità sbilanciata ha mostrato inoltre che ~86,000 varianti possono derivare da duplicazioni genomiche non riportate nella sequenza di riferimento e che alcune di esse coinvolgono geni importanti come MAP2K3 e KCNJ12. I risultati descritti in questo lavoro possono contribuire alla definizione di una sequenza di riferimento del genoma umano altamente accurata. Inoltre, questi stessi risultati potranno essere utili ai genetisti umani nel processo di filtraggio e selezione delle varianti potenzialmente associate a malattie. L’avanzamento nel settore del sequenziamento del DNA ha condotto inoltre dell’utilizzo sempre maggiore degli approcci di sequenziamento dell’intero genoma, sia nel campo della ricerca sia nella diagnosi clinica, rivelando così che la gran parte degli SNP associati a malattia è localizzata nelle regioni non codificanti del genoma umano. Tuttavia, l’interpretazione funzionale delle varianti non codificanti è ancora una questione problematica. Parte del mio lavoro ha riguardato anche questo aspetto, con lo scopo di sviluppare un metodo per la prioritizzazione delle varianti non codificanti. Questo metodo, descritto nell’ultimo capitolo della tesi, si basa su un approccio di genomica comparata per l’identificazione di domini funzionali in geni ortologhi di organismi primati. I primi passaggi di questo approccio hanno dimostrato essere molto buoni per l’identificazione dei geni ortologhi, ma ulteriore lavoro è necessario per ottimizzare il processo di allineamento multiplo delle sequenze e l’identificazione dei domini conservati.

Scheda breve

Scheda completa

Scheda completa (DC)

	Corso di studio
	
				BIOSCIENZE
			
	Data di pubblicazione
	
				30-nov-2018
			
	Lingua
	
				Inglese
			
	Parola chiave
	
				human reference genome, false positive variants, variant prioritization, DNA sequencing analysis, long non coding RNAs
			
	Relatore, Supervisor, Advisor o Tutor
	
				VALLE, GIORGIO
			
	Correlatore, Controrelatore, Co-Supervisor,  Co-Tutor o Coordinatori
	
				SZABO', ILDIKO'
			
	Nome Editore
	
				Università degli studi di Padova
			
	Collezione di appartenenza
	
				Università degli Studi di Padova

File in questo prodotto:

File	Dimensione	Formato
ferrarini_margherita_thesis.pdf accesso aperto Dimensione 9.55 MB Formato Adobe PDF Visualizza/Apri	9.55 MB	Adobe PDF	Visualizza/Apri

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14242/84186

Il codice NBN di questa tesi è URN:NBN:IT:UNIPD-84186