La quantità di dati genomici (ESTs, geni, proteine) disponibili per la vite (Vitis vinifera) è, ad oggi, molto ampia. Il risultato più importante lo si è raggiunto nell’agosto del 2007 con il sequenziamento dell’intero genoma di una linea altamente omozigote, ed appositamente creata, di Pinot Noir (PN40024). Il mio gruppo ha incentrato la sua ricerca su questa cultivar di Pinot con l’intento di completare l’ assemblaggio del genoma, di identificare i geni e annotarli (cioè di descriverne la composizione), di studiarne il trascrittoma e infine di identificare i polimorfismi. I progetti di genomica dipendono fortemente dall’ annotazione e sono vincolati da eventuali carenze nelle predizioni sulla struttura e sulla funzione genica. Per questo motivo, un miglioramento nella fase di annotazione si riflette in una più precisa descrizione dei dati ottenuti dal sequenziamento del genoma e una conseguente pianificazione degli esperimenti più corretta. Inoltre, nell’era della genomica e grazie a dei metodi high-throughput, possono essere sviluppati in parallelo degli esperimenti di identificazione genica e/o tesi a descriverne la loro funzione con un output molto elevato: il sequenziamento di interi genomi o l’analisi del trascrittoma possono venir ottenuti grazie a singoli esperimenti con sequenziatori di seconda generazione (SOLiD (Applied Biosystems) Solexa (Illumina) e 454 (Roche)). Queste metodologie sono adatte per le strategie di ri-sequenziamento di interi genomi, con l’intento di identificare varianti (polimorfismi) genotipiche che potrebbero spiegare le differenze a livello del fenotipo. Durante il mio dottorato, sono stata inizialmente coinvolta nel progetto di sequenziamento del genoma di Vitis vinifera intrapreso da un Consorzio europeo (I.G.G.P.) con l’intento di sequenziare il genoma in modo che ogni base fosse rappresentata 12 volte (12 X coverage per base). Il mio gruppo ha partecipato al progetto di sequenziamento per una quota di 2 genomi equivalenti attraverso l’approccio Sanger. La disponibilità della sequenza genomica di vite potrebbe aiutare i ricercatori a comprendere meglio alcuni caratteri comuni ad altre piante da frutto. In particolare, considerando l’alto tasso di eterozigosità delle varie cultivar di Vitis, le differenze tra le varietà dovrebbero scaturire dalla valutazione dei polimorfismi condivisi e quelli specifici per la singola cultivar. In un secondo momento, con l’introduzione di un sequenziatore di nuova generazione (SOLiDTM, Applied Biosystems che sfrutta il sistema di “sequenziamento per ligazione”) nel mio laboratorio, ho avuto l’opportunità di applicare questa nuova tecnologia nell’identificazione di polimorfismi in due cultivar di Vitis vinifera: Merlot e Prosecco. L’obiettivo del progetto era quello di avere il maggior numero possibile di marcatori al fine di disegnare eventualmente una mappa genetica per la singola cultivar. E’ ben noto che la disponibilità di marcatori genetici offre la possibilità di idagare i genotipi e valutare le differenze tra le specie o le sottospecie. Le mappe genetiche consentono di facilitare le tecniche di allevamento delle piante (breeding) e la ricerca genomica, individuando gli alleli migliori associati a caratteri “positivi” o alleli che portano, ad esempio, alla suscettibilità rispetto ad alcuni patogeni o a determinate condizioni ambientali. Il sequenziamento della linea omozigote di Pinot nero è stato ottenuto attraverso un approccio “Whole genome shotgun” (WGS) che implica la frammentazione casuale del DNA, il clonaggio in un vettore, l’amplificazione e il successivo sequenziamento dell’inserto clonato. Dei tre metodi testati per l’amplificazione (PCR, Tepli 29 kit Millipore e mini-prep),la miniprep è stata scelta per amplificare la maggior parte dei templati. Questo perchè durante lo svolgimento di questa ricerca la tecnica della mini-prep ha prodotto dei risultati molto affidabili sia in termini di riproducibilità che di qualità dell’inserto. Il processo di amplificazione è un passo necessario per il sequenziamento Sanger. I dati (reads) sono prodotti sottoforma di elettroferogrammi, lunghi tra le 900 e le 1000 bp, che sono successivamente raccolti da un software. E’ stato sequenziato un totale di 12 X coverage del genoma, che corrisponde a circa 5,7 Gb di sequenza. Un primo consensus del genoma della vite corrispondente all’ 8,4 X coverage è stato ottenuto nell’agosto del 2007 e un articolo è stato pubblicato su Nature: “The grapevine genome sequence suggests ancestral exaploidization in major angiosperm phyla.” [Nature, 499, 463-468 (2007)]. La disponibilità della piattaforma SOLiD (Applied Biosystems) nel mio laboratorio, mi ha permesso di condurre un esperimento sull’identificazione dei polimorfismi attraverso il re-sequencing delle cultivar di Merlot e Prosecco. Il sequenziamento Sanger del Pinot nero è stato effettuato su un ceppo omozigote in modo da avere una precisa sequenza di riferimento priva (< 3%) di siti in eterozigosi. Il Pinot nero in natura è altamente polimorfico, con due aplotipi ben distinguibili che rivelano milioni di SNP. Questo aspetto della vite rappresenta una potente risorsa per i programmi di miglioramento genetico e molecolare. Una volta che la sequenza di una particolare specie è disponibile, è possibile poi eseguire degli esperimenti di sequenziamento comparativo o ri-sequenziamento di altri genomi correlati per identificare polimorfismi, mutazioni e variazioni strutturali. Questo tipo di studi, però, necessita della disponibilità di una reference (un genoma a cui fare riferimento) ed un sistema ad alta processività che fornisca la copertura numero di reads per base) necessaria per il rilevamento di una variante. Un altro punto critico del re-sequencing è la preparazione delle librerie di DNA che è molto complessa e impegna tanto tempo considerando l’analisi multipla dei genomi da confrontare. Per questi motivi l’uso dei sequenziatori di nuova generazione è innovativo: gli esperimenti di re-sequencing sono eseguiti in parallelo su diversi genomi con un notevole rispormio di tempo. La scelta di queste due cultivar in particolare è dovuta a diversi aspetti: 1. la disponibilità di campioni (fornito dalla prof F. Lo Schiavo e dal prof C. Bonghi - Università degli Studi di Padova); 2. le diverse condizioni di crescita; 3. l’origine autoctona delle cultivar (il Merlot proviene da una coltivazione in campo nei pressi di Monselice e deriva da un clone francese, mentre il Prosecco è un vero e proprio vitigno veneto); 4. l’esiguità di informazioni genomiche su queste due specifiche cultivar. Considerando tutti questi aspetti, due librerie mate-pairs sono state create, una per ogni cultivar a cui è seguita una corsa di sequenziamento standard sulla piatttaforma SOLiDTM 3. Successivamente i dati prodotti sono stati analizzati per l’identificazione di eventuali polimorfismi. Sono state prodotte per il Merlot 8,4 Gb di sequenza genomica, mentre per il Prosecco 6,8 Gb. Grazie all’uso di un software specifico di allinemento di short reads, circa 1,2 milioni di SNP e 2,2 milioni di SNP sono stati identificati rispettivamente. Ulteriori studi sono necessari per approfondire questa prima analisi dei dati. Le varianti individuate saranno inoltre testate mediante una PCR di pool di SNP casuali per confermare le analisi bioinformatiche. L’analisi di specifici set di geni sarà utile per indagare le differenze all’interno di una famiglia genica o tra famiglie. Tutte le variazioni sono state mappate nel GBrowse della vite come SNP di Merlot e SNP di Prosecco. Ciascuna evidenza indica il cambiamento di base, il codone che nel caso viene modificato e l’amminoacido che eventualmente cambia. Durante questo studio ho cercato di identificare anche le variazioni strutturali (SVs). Sono stati ottenuti dei risultati preliminari che portano all’identificazione di alcune “aree” di particolare interesse, soprattutto per quel che riguarda le delezioni definite large. Il limite delle analisi bioinformatiche per il rilevamento delle differenze è spesso dovuto ad una bassa copertura del genoma. In questo caso, prendendo in considerazione solo le coppie corrette della libreria mate-pairs, cioè quelle coppie con corretto orientamento reciproco e che mappano ad una giusta distanza nel genoma di riferimento, si è ottenuta una buona copertura fisica (50 X per il Merlot e 141 X per il Prosecco) e una bassa copertura di sequenza (1,5 X Merlot e 3,5 X Prosecco). Quest’ultimo dato, in ogni caso, se preso in considerazione assieme al coverage fisico, fornisce alcune importanti indicazioni sui riarrangiamenti genomici. Si può quindi affermare che, la grande quantità di dati prodotti dai sequenziatori di nuova generazione offre la possibilità di studiare in parallelo diversi aspetti che riguardano le relazioni tra i geni e i meccanismi che regolano le loro funzioni. Il problema sorge nell’analisi ed interpretazione corretta dei dati stessi; infatti, una pianificazione della ricerca non corretta potrebbe portare ad un grosso spreco di risultati. Per quanto riguarda questo specifico studio, è neccessaria un’analisi più accurata dei riarrangiamenti nelle regioni codificanti per verificare la diversità nucleotidica e il tasso di mutazione tra le cultivar.
Genomic analysis and identification of polymorphisms in grape by second generation sequencing
RIGOBELLO, CHIARA
2010
Abstract
La quantità di dati genomici (ESTs, geni, proteine) disponibili per la vite (Vitis vinifera) è, ad oggi, molto ampia. Il risultato più importante lo si è raggiunto nell’agosto del 2007 con il sequenziamento dell’intero genoma di una linea altamente omozigote, ed appositamente creata, di Pinot Noir (PN40024). Il mio gruppo ha incentrato la sua ricerca su questa cultivar di Pinot con l’intento di completare l’ assemblaggio del genoma, di identificare i geni e annotarli (cioè di descriverne la composizione), di studiarne il trascrittoma e infine di identificare i polimorfismi. I progetti di genomica dipendono fortemente dall’ annotazione e sono vincolati da eventuali carenze nelle predizioni sulla struttura e sulla funzione genica. Per questo motivo, un miglioramento nella fase di annotazione si riflette in una più precisa descrizione dei dati ottenuti dal sequenziamento del genoma e una conseguente pianificazione degli esperimenti più corretta. Inoltre, nell’era della genomica e grazie a dei metodi high-throughput, possono essere sviluppati in parallelo degli esperimenti di identificazione genica e/o tesi a descriverne la loro funzione con un output molto elevato: il sequenziamento di interi genomi o l’analisi del trascrittoma possono venir ottenuti grazie a singoli esperimenti con sequenziatori di seconda generazione (SOLiD (Applied Biosystems) Solexa (Illumina) e 454 (Roche)). Queste metodologie sono adatte per le strategie di ri-sequenziamento di interi genomi, con l’intento di identificare varianti (polimorfismi) genotipiche che potrebbero spiegare le differenze a livello del fenotipo. Durante il mio dottorato, sono stata inizialmente coinvolta nel progetto di sequenziamento del genoma di Vitis vinifera intrapreso da un Consorzio europeo (I.G.G.P.) con l’intento di sequenziare il genoma in modo che ogni base fosse rappresentata 12 volte (12 X coverage per base). Il mio gruppo ha partecipato al progetto di sequenziamento per una quota di 2 genomi equivalenti attraverso l’approccio Sanger. La disponibilità della sequenza genomica di vite potrebbe aiutare i ricercatori a comprendere meglio alcuni caratteri comuni ad altre piante da frutto. In particolare, considerando l’alto tasso di eterozigosità delle varie cultivar di Vitis, le differenze tra le varietà dovrebbero scaturire dalla valutazione dei polimorfismi condivisi e quelli specifici per la singola cultivar. In un secondo momento, con l’introduzione di un sequenziatore di nuova generazione (SOLiDTM, Applied Biosystems che sfrutta il sistema di “sequenziamento per ligazione”) nel mio laboratorio, ho avuto l’opportunità di applicare questa nuova tecnologia nell’identificazione di polimorfismi in due cultivar di Vitis vinifera: Merlot e Prosecco. L’obiettivo del progetto era quello di avere il maggior numero possibile di marcatori al fine di disegnare eventualmente una mappa genetica per la singola cultivar. E’ ben noto che la disponibilità di marcatori genetici offre la possibilità di idagare i genotipi e valutare le differenze tra le specie o le sottospecie. Le mappe genetiche consentono di facilitare le tecniche di allevamento delle piante (breeding) e la ricerca genomica, individuando gli alleli migliori associati a caratteri “positivi” o alleli che portano, ad esempio, alla suscettibilità rispetto ad alcuni patogeni o a determinate condizioni ambientali. Il sequenziamento della linea omozigote di Pinot nero è stato ottenuto attraverso un approccio “Whole genome shotgun” (WGS) che implica la frammentazione casuale del DNA, il clonaggio in un vettore, l’amplificazione e il successivo sequenziamento dell’inserto clonato. Dei tre metodi testati per l’amplificazione (PCR, Tepli 29 kit Millipore e mini-prep),la miniprep è stata scelta per amplificare la maggior parte dei templati. Questo perchè durante lo svolgimento di questa ricerca la tecnica della mini-prep ha prodotto dei risultati molto affidabili sia in termini di riproducibilità che di qualità dell’inserto. Il processo di amplificazione è un passo necessario per il sequenziamento Sanger. I dati (reads) sono prodotti sottoforma di elettroferogrammi, lunghi tra le 900 e le 1000 bp, che sono successivamente raccolti da un software. E’ stato sequenziato un totale di 12 X coverage del genoma, che corrisponde a circa 5,7 Gb di sequenza. Un primo consensus del genoma della vite corrispondente all’ 8,4 X coverage è stato ottenuto nell’agosto del 2007 e un articolo è stato pubblicato su Nature: “The grapevine genome sequence suggests ancestral exaploidization in major angiosperm phyla.” [Nature, 499, 463-468 (2007)]. La disponibilità della piattaforma SOLiD (Applied Biosystems) nel mio laboratorio, mi ha permesso di condurre un esperimento sull’identificazione dei polimorfismi attraverso il re-sequencing delle cultivar di Merlot e Prosecco. Il sequenziamento Sanger del Pinot nero è stato effettuato su un ceppo omozigote in modo da avere una precisa sequenza di riferimento priva (< 3%) di siti in eterozigosi. Il Pinot nero in natura è altamente polimorfico, con due aplotipi ben distinguibili che rivelano milioni di SNP. Questo aspetto della vite rappresenta una potente risorsa per i programmi di miglioramento genetico e molecolare. Una volta che la sequenza di una particolare specie è disponibile, è possibile poi eseguire degli esperimenti di sequenziamento comparativo o ri-sequenziamento di altri genomi correlati per identificare polimorfismi, mutazioni e variazioni strutturali. Questo tipo di studi, però, necessita della disponibilità di una reference (un genoma a cui fare riferimento) ed un sistema ad alta processività che fornisca la copertura numero di reads per base) necessaria per il rilevamento di una variante. Un altro punto critico del re-sequencing è la preparazione delle librerie di DNA che è molto complessa e impegna tanto tempo considerando l’analisi multipla dei genomi da confrontare. Per questi motivi l’uso dei sequenziatori di nuova generazione è innovativo: gli esperimenti di re-sequencing sono eseguiti in parallelo su diversi genomi con un notevole rispormio di tempo. La scelta di queste due cultivar in particolare è dovuta a diversi aspetti: 1. la disponibilità di campioni (fornito dalla prof F. Lo Schiavo e dal prof C. Bonghi - Università degli Studi di Padova); 2. le diverse condizioni di crescita; 3. l’origine autoctona delle cultivar (il Merlot proviene da una coltivazione in campo nei pressi di Monselice e deriva da un clone francese, mentre il Prosecco è un vero e proprio vitigno veneto); 4. l’esiguità di informazioni genomiche su queste due specifiche cultivar. Considerando tutti questi aspetti, due librerie mate-pairs sono state create, una per ogni cultivar a cui è seguita una corsa di sequenziamento standard sulla piatttaforma SOLiDTM 3. Successivamente i dati prodotti sono stati analizzati per l’identificazione di eventuali polimorfismi. Sono state prodotte per il Merlot 8,4 Gb di sequenza genomica, mentre per il Prosecco 6,8 Gb. Grazie all’uso di un software specifico di allinemento di short reads, circa 1,2 milioni di SNP e 2,2 milioni di SNP sono stati identificati rispettivamente. Ulteriori studi sono necessari per approfondire questa prima analisi dei dati. Le varianti individuate saranno inoltre testate mediante una PCR di pool di SNP casuali per confermare le analisi bioinformatiche. L’analisi di specifici set di geni sarà utile per indagare le differenze all’interno di una famiglia genica o tra famiglie. Tutte le variazioni sono state mappate nel GBrowse della vite come SNP di Merlot e SNP di Prosecco. Ciascuna evidenza indica il cambiamento di base, il codone che nel caso viene modificato e l’amminoacido che eventualmente cambia. Durante questo studio ho cercato di identificare anche le variazioni strutturali (SVs). Sono stati ottenuti dei risultati preliminari che portano all’identificazione di alcune “aree” di particolare interesse, soprattutto per quel che riguarda le delezioni definite large. Il limite delle analisi bioinformatiche per il rilevamento delle differenze è spesso dovuto ad una bassa copertura del genoma. In questo caso, prendendo in considerazione solo le coppie corrette della libreria mate-pairs, cioè quelle coppie con corretto orientamento reciproco e che mappano ad una giusta distanza nel genoma di riferimento, si è ottenuta una buona copertura fisica (50 X per il Merlot e 141 X per il Prosecco) e una bassa copertura di sequenza (1,5 X Merlot e 3,5 X Prosecco). Quest’ultimo dato, in ogni caso, se preso in considerazione assieme al coverage fisico, fornisce alcune importanti indicazioni sui riarrangiamenti genomici. Si può quindi affermare che, la grande quantità di dati prodotti dai sequenziatori di nuova generazione offre la possibilità di studiare in parallelo diversi aspetti che riguardano le relazioni tra i geni e i meccanismi che regolano le loro funzioni. Il problema sorge nell’analisi ed interpretazione corretta dei dati stessi; infatti, una pianificazione della ricerca non corretta potrebbe portare ad un grosso spreco di risultati. Per quanto riguarda questo specifico studio, è neccessaria un’analisi più accurata dei riarrangiamenti nelle regioni codificanti per verificare la diversità nucleotidica e il tasso di mutazione tra le cultivar.File | Dimensione | Formato | |
---|---|---|---|
TESI_FINALE.pdf
accesso aperto
Dimensione
63.92 MB
Formato
Adobe PDF
|
63.92 MB | Adobe PDF | Visualizza/Apri |
I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/20.500.14242/110397
URN:NBN:IT:UNIPD-110397