Lo sviluppo delle tecnologie di sequenziamento di nuova generazione negli ultimi dieci anni ha profondamente rivoluzionato tutti i rami della genetica, inclusa la genetica di popolazioni. La possibilità di produrre una grande quantità di dati a prezzi ragionevoli ha cambiato l’oggetto degli studi genetici, spostatosi da pochi marcatori a interi genomi o sottorappresentazioni del genoma. Lo sviluppo di nuove tecnologie di sequenziamento è un processo ancora in corso, e le tecnologie di sequenziamento di seconda generazione, il motore di questa decade di forte sviluppo, sono oggi incalzate da una nuova generazione di tecnologie, che promettono una lunghezza maggiore delle letture, una minore quantità di materiale di partenza (approccio a singola molecola) e costi inferiori. Esempi importanti di queste nuove tecnologie, che fanno parte cosiddetta terza generazione, sono le tecnologie Pacific Biosciences SMRT e Oxford Nanopore. Come tutte le innovazioni tecnologiche, i dati genomici prodotti da tecnologie di nuova generazione richiedono lo sviluppo di nuove metodologie per la loro analisi. Ad esempio, quando i genomi sono sequenziati in organismi non modello (dove mancano informazioni sui polimorfismi nella specie) o con un basso livello di copertura, vi è una forte incertezza legata alla chiamata dei genotipi. Questo problema ha portato per esempio allo sviluppo di ANGSD, una suite di software che permette di tenere in considerazione questa incertezza stimando le verosimiglianze dei genotipi dalle letture dirette del genoma. L’enorme quantità di informazione genomica richiede anche lo sviluppo di metodi specifici per l’inferenza della storia demografica o per la ricerca di geni o regioni del genoma implicati in processi adattativi. Questi nuovi metodi prendono in considerazione caratteristiche dell’intero genoma, come lo spettro delle frequenze alleliche, o la densità locale dei siti eterozigoti, o sono in grado di individuare alleli che hanno aumentato la loro frequenza così velocemente che l’associazione a lungo raggio con i polimorfismi vicini non è stata ancora erosa dalla ricombinazione. La valutazione dell’efficacia di questi metodi è necessaria ma difficoltosa, e produce risultati contrastanti. L’analisi dei dati genomici è quindi un’area in forte sviluppo, improntata alla ricerca di nuovi approcci capaci di gestire problemi teoricamente più semplici ma di difficile risoluzione pratica, come la velocità di calcolo di statistiche semplici in grandi dataset, o in grado di rispondere a problemi concettualmente più complessi come la valutazione del tasso di falsi postivi o l’identificazione della miglior statistica per identificare segnali di selezione. In questa tesi ho cercato di rispondere ad alcuni di questi problemi generali in quattro progetti focalizzati su: A) Il calcolo efficiente di statistiche di genetica di popolazione su dataset estesi usando il calcolo parallelo; B) L’identificazione di geni selezionati nel fagiolo comune (Phaseoulus vulgaris) integrando mediante simulazioni l’informazione della storia demografica della specie; C) L’identificazione di geni legati al cambiamento delle modalità riproduttiva in Zootoca vivipara usando un consenso tra diversi metodi; D) L’assemblaggio di una regione genomica complessa usando un approccio sperimentale combinato basato su tecnologie di sequenziamento di seconda e di terza generazione.

Nuove metodologie in genomica di popolazioni, e applicazioni a dati reali

2015

Abstract

Lo sviluppo delle tecnologie di sequenziamento di nuova generazione negli ultimi dieci anni ha profondamente rivoluzionato tutti i rami della genetica, inclusa la genetica di popolazioni. La possibilità di produrre una grande quantità di dati a prezzi ragionevoli ha cambiato l’oggetto degli studi genetici, spostatosi da pochi marcatori a interi genomi o sottorappresentazioni del genoma. Lo sviluppo di nuove tecnologie di sequenziamento è un processo ancora in corso, e le tecnologie di sequenziamento di seconda generazione, il motore di questa decade di forte sviluppo, sono oggi incalzate da una nuova generazione di tecnologie, che promettono una lunghezza maggiore delle letture, una minore quantità di materiale di partenza (approccio a singola molecola) e costi inferiori. Esempi importanti di queste nuove tecnologie, che fanno parte cosiddetta terza generazione, sono le tecnologie Pacific Biosciences SMRT e Oxford Nanopore. Come tutte le innovazioni tecnologiche, i dati genomici prodotti da tecnologie di nuova generazione richiedono lo sviluppo di nuove metodologie per la loro analisi. Ad esempio, quando i genomi sono sequenziati in organismi non modello (dove mancano informazioni sui polimorfismi nella specie) o con un basso livello di copertura, vi è una forte incertezza legata alla chiamata dei genotipi. Questo problema ha portato per esempio allo sviluppo di ANGSD, una suite di software che permette di tenere in considerazione questa incertezza stimando le verosimiglianze dei genotipi dalle letture dirette del genoma. L’enorme quantità di informazione genomica richiede anche lo sviluppo di metodi specifici per l’inferenza della storia demografica o per la ricerca di geni o regioni del genoma implicati in processi adattativi. Questi nuovi metodi prendono in considerazione caratteristiche dell’intero genoma, come lo spettro delle frequenze alleliche, o la densità locale dei siti eterozigoti, o sono in grado di individuare alleli che hanno aumentato la loro frequenza così velocemente che l’associazione a lungo raggio con i polimorfismi vicini non è stata ancora erosa dalla ricombinazione. La valutazione dell’efficacia di questi metodi è necessaria ma difficoltosa, e produce risultati contrastanti. L’analisi dei dati genomici è quindi un’area in forte sviluppo, improntata alla ricerca di nuovi approcci capaci di gestire problemi teoricamente più semplici ma di difficile risoluzione pratica, come la velocità di calcolo di statistiche semplici in grandi dataset, o in grado di rispondere a problemi concettualmente più complessi come la valutazione del tasso di falsi postivi o l’identificazione della miglior statistica per identificare segnali di selezione. In questa tesi ho cercato di rispondere ad alcuni di questi problemi generali in quattro progetti focalizzati su: A) Il calcolo efficiente di statistiche di genetica di popolazione su dataset estesi usando il calcolo parallelo; B) L’identificazione di geni selezionati nel fagiolo comune (Phaseoulus vulgaris) integrando mediante simulazioni l’informazione della storia demografica della specie; C) L’identificazione di geni legati al cambiamento delle modalità riproduttiva in Zootoca vivipara usando un consenso tra diversi metodi; D) L’assemblaggio di una regione genomica complessa usando un approccio sperimentale combinato basato su tecnologie di sequenziamento di seconda e di terza generazione.
2015
Italiano
BERTORELLE, Giorgio
BARBUJANI, Guido
Università degli Studi di Ferrara
File in questo prodotto:
Non ci sono file associati a questo prodotto.

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14242/145615
Il codice NBN di questa tesi è URN:NBN:IT:UNIFE-145615