Il genoma umano è una risorsa ricca di informazioni per i ricercatori che si dedicano allo studio delle patologie complesse. L’obiettivo di questo genere di ricerche è giungere ad una migliore comprensione di queste malattie e quindi sviluppare nuove strategie terapeutiche per la cura dei pazienti affetti. Dall’inizio di questo secolo, un numero crescente di tecnologie per il sequenziamento del DNA sono state sviluppate, sono conosciute come tecnologie “Next Generation Sequencing” (NGS). Le tecnologie NGS hanno gradualmente diminuito il costo del sequenziamento di un genoma umano fino a circa 1000 dollari, ciò ha consentito l’utilizzo di questi strumenti nella pratica clinica e nella ricerca, in particolare negli studi di associazione genome-wide o “Genome-wide association studies” (GWAS). Questi lavori hanno portato alla luce l’associazione di alcune varianti con alcune patologie o caratteri complessi. Queste varianti potrebbero essere utilizzate per valutare il rischio che un individuo sviluppi una particolare patologia. Sfortunatamente diverse sorgenti di errore sono in grado di ostacolare l’uso e l’interpretazione dei dati genomici: da una parte abbiamo il rumore legato al processo di sequenziamento e gli errori di allineamento delle reads. Dall’altra parte gli SNP non sempre possono essere utilizzati in modo affidabile per predire l’insorgenza della malattia a cui sono stati associati. Il Critical Assessment of Genome Interpretation è stato organizzato con l’obiettivo di definire lo stato dell’arte nei metodi che stimano l’effetto di variazioni genetiche a livello molecolare o fenotipico. Negli anni il CAGI ha dato vita a più competizioni in cui diversi gruppi di ricerca hanno testato i loro metodi di predizione su diversi dataset condivisi. L’assenza di linee generali su come condurre la valutazione delle performance dei predittori, ha reso difficile un confronto fra metodi sviluppati in edizioni diverse del CAGI. In questo contesto, il progetto di dottorato si è focalizzato nello sviluppo di un software per la valutazione di metodi di apprendimento automatici basati sulla regressione o la predizione di fenotipi multipli. Questo strumento si fonda su criteri di analisi della performance, derivanti dalla letteratura e da precedenti esperimenti del CAGI. Questo software è stato sviluppato in R ed utilizzato per ripetere o valutare ex novo la qualità dei predittori in un gran numero di esperimenti del CAGI. Le conoscenze acquisite durante lo sviluppo di questo progetto, sono state utilizzate per valutare due competizioni del CAGI 5: la Pericentriolar Material 1 (PCM1) e il Pannello per le Disabilità Intellettive (ID). L’esperienza derivante dal completamento dei lavori precedentemente elencati, ha guidato lo sviluppo e il miglioramento delle prestazioni di un metodo predittivo. In particolare è stato sviluppato un software per la predizione dei livelli di colesterolo, basato su dati genotipici, di cui è stata testata la validità con criteri matematici allo stato dell’arte. Questo strumento è stato la pietra portante di un progetto fondato dal Ministero della Salute Italiano.
Development and assessment of bioinformatics methods for personalized medicine
REGGIANI, FRANCESCO
2019
Abstract
Il genoma umano è una risorsa ricca di informazioni per i ricercatori che si dedicano allo studio delle patologie complesse. L’obiettivo di questo genere di ricerche è giungere ad una migliore comprensione di queste malattie e quindi sviluppare nuove strategie terapeutiche per la cura dei pazienti affetti. Dall’inizio di questo secolo, un numero crescente di tecnologie per il sequenziamento del DNA sono state sviluppate, sono conosciute come tecnologie “Next Generation Sequencing” (NGS). Le tecnologie NGS hanno gradualmente diminuito il costo del sequenziamento di un genoma umano fino a circa 1000 dollari, ciò ha consentito l’utilizzo di questi strumenti nella pratica clinica e nella ricerca, in particolare negli studi di associazione genome-wide o “Genome-wide association studies” (GWAS). Questi lavori hanno portato alla luce l’associazione di alcune varianti con alcune patologie o caratteri complessi. Queste varianti potrebbero essere utilizzate per valutare il rischio che un individuo sviluppi una particolare patologia. Sfortunatamente diverse sorgenti di errore sono in grado di ostacolare l’uso e l’interpretazione dei dati genomici: da una parte abbiamo il rumore legato al processo di sequenziamento e gli errori di allineamento delle reads. Dall’altra parte gli SNP non sempre possono essere utilizzati in modo affidabile per predire l’insorgenza della malattia a cui sono stati associati. Il Critical Assessment of Genome Interpretation è stato organizzato con l’obiettivo di definire lo stato dell’arte nei metodi che stimano l’effetto di variazioni genetiche a livello molecolare o fenotipico. Negli anni il CAGI ha dato vita a più competizioni in cui diversi gruppi di ricerca hanno testato i loro metodi di predizione su diversi dataset condivisi. L’assenza di linee generali su come condurre la valutazione delle performance dei predittori, ha reso difficile un confronto fra metodi sviluppati in edizioni diverse del CAGI. In questo contesto, il progetto di dottorato si è focalizzato nello sviluppo di un software per la valutazione di metodi di apprendimento automatici basati sulla regressione o la predizione di fenotipi multipli. Questo strumento si fonda su criteri di analisi della performance, derivanti dalla letteratura e da precedenti esperimenti del CAGI. Questo software è stato sviluppato in R ed utilizzato per ripetere o valutare ex novo la qualità dei predittori in un gran numero di esperimenti del CAGI. Le conoscenze acquisite durante lo sviluppo di questo progetto, sono state utilizzate per valutare due competizioni del CAGI 5: la Pericentriolar Material 1 (PCM1) e il Pannello per le Disabilità Intellettive (ID). L’esperienza derivante dal completamento dei lavori precedentemente elencati, ha guidato lo sviluppo e il miglioramento delle prestazioni di un metodo predittivo. In particolare è stato sviluppato un software per la predizione dei livelli di colesterolo, basato su dati genotipici, di cui è stata testata la validità con criteri matematici allo stato dell’arte. Questo strumento è stato la pietra portante di un progetto fondato dal Ministero della Salute Italiano.File | Dimensione | Formato | |
---|---|---|---|
tesi_definitiva_Francesco_Reggiani.pdf
accesso aperto
Dimensione
5.87 MB
Formato
Adobe PDF
|
5.87 MB | Adobe PDF | Visualizza/Apri |
I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/20.500.14242/86131
URN:NBN:IT:UNIPD-86131