In the past ten years the field of genetics and genomics underwent a transformative change mostly attributed to advances in bioinformatics and computational methodologies; predominantly, there has been a change in sequencing technologies accompanied by the conception of intrinsically sophisticated data structures to better capture a more representative picture behind what is meant by genetic diversity. This is going to benefit at large specific areas of research mainly implicated with genetic applications to medical treatments; however, also other disciplines in the realm of biology will reap the fruits of this turning point of events. The current project exploits such novel developments and apply them to concrete problems in human population genetics and demographic inference modelling, factually reconstructing individual genomes as the most-closely matching set of haplotypes from a higher order data structure; this idea of personalized references is a long-term goal of any genetic analysis. In particular, I have successfully aligned an entire sequencing panel of 279 human samples to the recently published draft human pangenome reference, resolved their variants content and used this information to explore patterns of genetic diversity within and between populations by means of exploratory population genetics analyses. Additionally, I have integrated such process to work with downstream demographic inference tools designated to operate in linear reference coordinates and provided retrospective insights on this topic. Once more, what is evinced from the findings of this project supports a multiple dispersals hypothesis for the expansion of Homo sapiens out of the African continent. Yet simultaneously, in reason of the time gap between the first and the second out of Africa event being reduced to approximately a third compared to previous estimates according to both the approaches tested for, this work cannot totally confute a single dispersal scenario.
In questa tesi di dottorato ho esplorato le possibili applicazioni, sia nell’ambito della genetica di popolazioni che nel campo dell’evoluzione umana, del pangenoma umano recente- mente messo a disposizione della comunità scientifica dallo Human Pangenome Reference Consortium (HPRC). Questa struttura dati è il culmine di una serie di migliorie ed inno- vazioni dal punto di vista delle tecniche di sequenziamento per acquisire dati genetici, ma anche degli algoritmi utilizzati per processarli. Grazie all’incontro ed all’integrazione dei due filoni di ricerca, nel 2022, si è riusciti per la prima volta a determinare la sequenza completa da telomero a telomero del genoma umano (nota come CHM13) — un progetto che iniziò circa trent’anni fa e che produsse, circa dieci anni dopo nel 2003, la prima bozza di quella che viene comunemente identificato col termine di “genoma di riferimento umano” (con acronimo GRCh38). Sebbene questa sequenza di riferimento fornisca una rappresentazione della sequenza nucleotidica umana per ogni cromosoma, nel corso del tempo sono emersi alcuni limiti di questa risorsa. Per cominciare, malgrado nella nostra specie (Homo sapiens) il livello di diveristà genetica sia estremamente basso, un’unica sequenza non è in ogni caso rappresentativa della variabilità genetica umana su scala globale; se a questo si somma il fatto che, a discapito delle varie revisioni nel corso del tempo, la referenza è ancora parzialmente incompleta e presenta errori intrinseci in regioni del genoma di difficili da ricostruire, si può ragionevolmente concludere che le analisi da essa derivanti possano contenere un certo grado di distorsione, documentato in letteratura come “reference bias”. Per risolvere, o almeno ridurre, questi effetti è stata proposta una rappresentazione alternativa del genoma definita “pangenoma”, costituita da un insieme di aplotipi per la specie di interesse, codificati sotto forma di un’entità matematica nota come grafo. Nel settore informatico i grafi sono strutture dati molto versatili e, traslati a problemi biologici, permettono, col supporto del necessario insieme di programmi, di ricostruire in modo altamente fedele la configurazione di elementi genetici di un individuo della specie di interesse che non è presente nella struttura dati, ma la cui diversità genetica è potenzialmente osservabile nella suddetta specie. Proprio tale qualità è al centro dell’impiego del pangenoma in questo studio. Nello specifico, ho allineato all’attuale versione iniziale del pangenoma 279 campioni umani culturalmente e geograficamente eterogenei appartenenti al Simons Genome Diversity Project (SGDP) per mezzo di vg Giraffe, un algoritmo di allineamento di short reads ad un grafo con prestazioni competitive in termini di velocità ed accuratezza rispetto agli allineatori comunemente utilizzati con il genoma di riferimento; inoltre, ho identificato le varianti genetiche in ogni campione utilizzando Deep Variant, una rete neurale convoluzionale sviluppata per identificare polimorfismi a singolo nucleotide e piccole inserzioni-delezioni – inferiori a 50 paia basi – avente un’abilità superiore rispetto ad altri metodi. Questa pipeline, nel contesto più generale del workflow che ho ideato ed adeguato alle esigenze del progetto, mi ha permesso di processare, per la prima volta, l’insieme di campioni in questione sfruttando il pangenoma come sistema di coordinate. Ho poi esaminato la diversità genomica così ottenuta per condurre analisi esplorative nell’ambito della genetica di popolazioni. L’analisi delle componenti principali si è mostrata concorde con le aspettative ed in linea con quanto precedentemente documentato; in aggiunta, i grafici a dispersione per entrambi i tipi di varianti esibiscono lo stesso pattern di relazioni tra le popolazioni oggetto di studio. Anche la stima della diversità interna alle popolazioni ha evidenziato un pattern concorde con quanto docuentato in letteratura. Infine, mi sono occupato dell’inferenza di modelli demografici per descrivere l’evoluzione umana con l’obbiettivo di individuare lo scenario più verosimile riguardo l’uscita di Homo sapiens dall’Africa sulla base dei dati osservati, fornendo congiuntamente una visione in retrospettiva a confronto con quanto stabilito tramite l’uso di una singola referenza per la scoperta dei polimorfismi. A tal fine, attraverso l’uso dei calcoli bayesiani approssimati, ho stimato i parametri demografici di un modello evolutivo con due eventi di uscita dal continente africano, in linea con i più recenti studi riguardanti le dinamiche di espansione umana. Questi parametri, che includono aspetti chiave come le dimensioni delle popolazioni, i tempi di divergenza ed i tassi di mescolamento, sono stimati con un algoritmo di machine learning di tipo Random Forest, focalizzato sulle regioni neutrali del genoma. Sulla base delle stime ottenute, esiste una differenza temporale tra i due eventi di uscita dall’Africa sebbene gli intervalli di confidenza associati siano parzialmente sovrapposti, evidenziando un supporto per un doppio evento di dispersione datato c. 60 000 e 50 000 anni fa, ma lasciano aperta la possibilità di un unico evento sebbene con minor supporto.
Pangenome-based Inference of human population history
Matteo Tommaso, Ungaro
2024
Abstract
In the past ten years the field of genetics and genomics underwent a transformative change mostly attributed to advances in bioinformatics and computational methodologies; predominantly, there has been a change in sequencing technologies accompanied by the conception of intrinsically sophisticated data structures to better capture a more representative picture behind what is meant by genetic diversity. This is going to benefit at large specific areas of research mainly implicated with genetic applications to medical treatments; however, also other disciplines in the realm of biology will reap the fruits of this turning point of events. The current project exploits such novel developments and apply them to concrete problems in human population genetics and demographic inference modelling, factually reconstructing individual genomes as the most-closely matching set of haplotypes from a higher order data structure; this idea of personalized references is a long-term goal of any genetic analysis. In particular, I have successfully aligned an entire sequencing panel of 279 human samples to the recently published draft human pangenome reference, resolved their variants content and used this information to explore patterns of genetic diversity within and between populations by means of exploratory population genetics analyses. Additionally, I have integrated such process to work with downstream demographic inference tools designated to operate in linear reference coordinates and provided retrospective insights on this topic. Once more, what is evinced from the findings of this project supports a multiple dispersals hypothesis for the expansion of Homo sapiens out of the African continent. Yet simultaneously, in reason of the time gap between the first and the second out of Africa event being reduced to approximately a third compared to previous estimates according to both the approaches tested for, this work cannot totally confute a single dispersal scenario.File | Dimensione | Formato | |
---|---|---|---|
MatteoTommasoUNGARO-PhD_thesis-reviewed.pdf
embargo fino al 01/10/2026
Dimensione
10.48 MB
Formato
Adobe PDF
|
10.48 MB | Adobe PDF |
I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/20.500.14242/192929
URN:NBN:IT:UNIPR-192929