Development and assessment of bioinformatics methods for personalized medicine

Reggiani, Francesco

Il genoma umano è una risorsa ricca di informazioni per i ricercatori che si dedicano allo studio delle patologie complesse. L’obiettivo di questo genere di ricerche è giungere ad una migliore comprensione di queste malattie e quindi sviluppare nuove strategie terapeutiche per la cura dei pazienti affetti. Dall’inizio di questo secolo, un numero crescente di tecnologie per il sequenziamento del DNA sono state sviluppate, sono conosciute come tecnologie “Next Generation Sequencing” (NGS). Le tecnologie NGS hanno gradualmente diminuito il costo del sequenziamento di un genoma umano fino a circa 1000 dollari, ciò ha consentito l’utilizzo di questi strumenti nella pratica clinica e nella ricerca, in particolare negli studi di associazione genome-wide o “Genome-wide association studies” (GWAS). Questi lavori hanno portato alla luce l’associazione di alcune varianti con alcune patologie o caratteri complessi. Queste varianti potrebbero essere utilizzate per valutare il rischio che un individuo sviluppi una particolare patologia. Sfortunatamente diverse sorgenti di errore sono in grado di ostacolare l’uso e l’interpretazione dei dati genomici: da una parte abbiamo il rumore legato al processo di sequenziamento e gli errori di allineamento delle reads. Dall’altra parte gli SNP non sempre possono essere utilizzati in modo affidabile per predire l’insorgenza della malattia a cui sono stati associati. Il Critical Assessment of Genome Interpretation è stato organizzato con l’obiettivo di definire lo stato dell’arte nei metodi che stimano l’effetto di variazioni genetiche a livello molecolare o fenotipico. Negli anni il CAGI ha dato vita a più competizioni in cui diversi gruppi di ricerca hanno testato i loro metodi di predizione su diversi dataset condivisi. L’assenza di linee generali su come condurre la valutazione delle performance dei predittori, ha reso difficile un confronto fra metodi sviluppati in edizioni diverse del CAGI. In questo contesto, il progetto di dottorato si è focalizzato nello sviluppo di un software per la valutazione di metodi di apprendimento automatici basati sulla regressione o la predizione di fenotipi multipli. Questo strumento si fonda su criteri di analisi della performance, derivanti dalla letteratura e da precedenti esperimenti del CAGI. Questo software è stato sviluppato in R ed utilizzato per ripetere o valutare ex novo la qualità dei predittori in un gran numero di esperimenti del CAGI. Le conoscenze acquisite durante lo sviluppo di questo progetto, sono state utilizzate per valutare due competizioni del CAGI 5: la Pericentriolar Material 1 (PCM1) e il Pannello per le Disabilità Intellettive (ID). L’esperienza derivante dal completamento dei lavori precedentemente elencati, ha guidato lo sviluppo e il miglioramento delle prestazioni di un metodo predittivo. In particolare è stato sviluppato un software per la predizione dei livelli di colesterolo, basato su dati genotipici, di cui è stata testata la validità con criteri matematici allo stato dell’arte. Questo strumento è stato la pietra portante di un progetto fondato dal Ministero della Salute Italiano.

Development and assessment of bioinformatics methods for personalized medicine

REGGIANI, FRANCESCO

2019

Abstract

Il genoma umano è una risorsa ricca di informazioni per i ricercatori che si dedicano allo studio delle patologie complesse. L’obiettivo di questo genere di ricerche è giungere ad una migliore comprensione di queste malattie e quindi sviluppare nuove strategie terapeutiche per la cura dei pazienti affetti. Dall’inizio di questo secolo, un numero crescente di tecnologie per il sequenziamento del DNA sono state sviluppate, sono conosciute come tecnologie “Next Generation Sequencing” (NGS). Le tecnologie NGS hanno gradualmente diminuito il costo del sequenziamento di un genoma umano fino a circa 1000 dollari, ciò ha consentito l’utilizzo di questi strumenti nella pratica clinica e nella ricerca, in particolare negli studi di associazione genome-wide o “Genome-wide association studies” (GWAS). Questi lavori hanno portato alla luce l’associazione di alcune varianti con alcune patologie o caratteri complessi. Queste varianti potrebbero essere utilizzate per valutare il rischio che un individuo sviluppi una particolare patologia. Sfortunatamente diverse sorgenti di errore sono in grado di ostacolare l’uso e l’interpretazione dei dati genomici: da una parte abbiamo il rumore legato al processo di sequenziamento e gli errori di allineamento delle reads. Dall’altra parte gli SNP non sempre possono essere utilizzati in modo affidabile per predire l’insorgenza della malattia a cui sono stati associati. Il Critical Assessment of Genome Interpretation è stato organizzato con l’obiettivo di definire lo stato dell’arte nei metodi che stimano l’effetto di variazioni genetiche a livello molecolare o fenotipico. Negli anni il CAGI ha dato vita a più competizioni in cui diversi gruppi di ricerca hanno testato i loro metodi di predizione su diversi dataset condivisi. L’assenza di linee generali su come condurre la valutazione delle performance dei predittori, ha reso difficile un confronto fra metodi sviluppati in edizioni diverse del CAGI. In questo contesto, il progetto di dottorato si è focalizzato nello sviluppo di un software per la valutazione di metodi di apprendimento automatici basati sulla regressione o la predizione di fenotipi multipli. Questo strumento si fonda su criteri di analisi della performance, derivanti dalla letteratura e da precedenti esperimenti del CAGI. Questo software è stato sviluppato in R ed utilizzato per ripetere o valutare ex novo la qualità dei predittori in un gran numero di esperimenti del CAGI. Le conoscenze acquisite durante lo sviluppo di questo progetto, sono state utilizzate per valutare due competizioni del CAGI 5: la Pericentriolar Material 1 (PCM1) e il Pannello per le Disabilità Intellettive (ID). L’esperienza derivante dal completamento dei lavori precedentemente elencati, ha guidato lo sviluppo e il miglioramento delle prestazioni di un metodo predittivo. In particolare è stato sviluppato un software per la predizione dei livelli di colesterolo, basato su dati genotipici, di cui è stata testata la validità con criteri matematici allo stato dell’arte. Questo strumento è stato la pietra portante di un progetto fondato dal Ministero della Salute Italiano.

Scheda breve

Scheda completa

Scheda completa (DC)

	Corso di studio
	
				BIOINGEGNERIA
			
	Data di pubblicazione
	
				19-nov-2019
			
	Lingua
	
				Inglese
			
	Parola chiave
	
				NGS, Bioinformatics, variant effect prediction methods development and assessment
			
	Relatore, Supervisor, Advisor o Tutor
	
				FERRARI, CARLO
			
	Correlatore, Controrelatore, Co-Supervisor,  Co-Tutor o Coordinatori
	
				NEVIANI, ANDREA
			
	Nome Editore
	
				Università degli studi di Padova
			
	Numero di pagine
	
				175
			
	Collezione di appartenenza
	
				Università degli Studi di Padova

File in questo prodotto:

File	Dimensione	Formato
tesi_definitiva_Francesco_Reggiani.pdf accesso aperto Licenza: Tutti i diritti riservati Dimensione 5.87 MB Formato Adobe PDF Visualizza/Apri	5.87 MB	Adobe PDF	Visualizza/Apri

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14242/86131

Il codice NBN di questa tesi è URN:NBN:IT:UNIPD-86131