Le tecnologie per il sequenziamento massivo del DNA sono spesso usate per studiare il trascrittoma e ottenre profili d’espressione genica su scala genomica (RNA-seq). Rispetto ad altre tecnologie come i microarray, l’RNA-seq ha una maggiore sensibilità nel campionare e quantificare le molecole espresse e permette inoltre l’identificazione di trascritti sconosciuti o non caratterizzati. Il processamento di dati RNA-seq prevede molteplici passaggi di analisi (preprocessamento degli input per la valutazione della qualità e pulizia, allineamento delle read al genoma di riferimento, identificazione, quantificazione e annotazione dei trascritti, stima di espressione differenziale) che devono essere eseguiti in ordine sequenziale, mediante pipeline computazionali. Ogni singolo esperimento di RNA-seq può produrre grandi quantità di dati che richiedono l’impiego di metodi efficienti per ottenere la caratterizzazione qualitativa e quantitativa del trascrittoma. Esistono diversi metodi che implementano ogni passaggio concettuale di analisi e nuovi ne vengono continuamente proposti. Questo e’ anche dovuto alla varietà dei quesiti biologici e disegni sperimentali a cui gli esperimenti di RNA-seq possono essere applicati. Di converso, non esiste un’implementazione comunemente adottata dello schema di processamento. In questa tesi, abbiamo sviluppato una pipeline computazionale per l’analisi di dati RNA-seq focalizzata sul trascrittoma lineare; abbiamo esteso una pipeline esistente che analizza dati di RNA-seq di microRNA (miRNA) e piccoli RNA simili ai miRNA ed abbiamo iniziato a sviluppare una pipeline computazionale per l’identificazione e la quantificazione di RNA circolari. Gli obiettivi principali delle prime due pipeline sono il profiling dell’insieme dei trascritti (trascrittoma) e piccoli RNA (miRNoma) espressi, con l’identificazione di RNA noti e nuovi. Inoltre, è stato possibile studiare le variazioni di sequenza degli RNA (come gli isomiR dei miRNA), dei livelli di espressione di trascritti e piccoli RNA, e confrontare i profili di espressione tra diversi gruppi di campioni biologici. Il maiale (Sus scrofa) è un organismo modello per numerose malattie o condizioni umane, ma anche molto importante di per sé per l’industria di carne e derivati di alto pregio economicamente importanti. Il tessuto adiposo e il lardo dorsale sono oggetto di attiva ricerca, poichè alcune caratteristiche qualitative e quantitative del grasso e i meccanismi e tassi di deposito e accumulazione del grasso sono in stretta connessione con aspetti tecnologici e risultati qualitativi dei prodotti finali, come il prosciutto crudo. Tuttavia, il quadro complessivo dei processi biologici e molecolari che regolano il deposito del lardo dorsale nei maiali è ancora incompleto. In questa tesi, abbiamo applicato i metodi di analisi sviluppati a dati RNA-seq di RNA poliadenilati e piccoli RNA da campioni di tessuto adiposo sottocutaneo di 20 soggetti di razza Italian Large White (ILW). Gli animali selezionati sono stati allevati in condizioni molto standardizzate, ma presentano, riguardo i tratti del grasso, fenotipi e corrispondenti meriti genetici estremi e divergenti (maiali FAT e LEAN). L’analisi del profilo trascrizionale del lardo dorsale ha identificato l’espressione di 23.483 geni, dei quali solo il 54,1% rappresentato da geni noti. Dei 63.418 trascritti espressi, circa l’80% erano isoforme non precedentemente annotate. Confrontando i livelli di espressione dei maiali FAT contro i maiali LEAN, abbiamo poi identificato, con criteri molto stringenti, 86 trascritti differenzialmente espressi: 72 espressi a livelli più alti nei maiali obesi (tra cui ACP5, BCL2A1, CCR1, CD163, CD1A, EGR2, ENPP1, GPNMB, INHBB, LYZ, MSR1, OLR1, PIK3AP1, PLIN2, SPP1, SLC11A1, STC1) e 14 meno espressi (inclusi ADSSL1, CDO1, DNAJB1, HSPA1A, HSPA1B, HSPA2, HSPB8, IGFBP5, OLFML3). I geni sovraespressi sono implicati in processi del sistema immunitario, di risposta allo stimolo, attivazione cellulare e sviluppo dell’apparato scheletrico. I geni sottoespressi includono cinque proteine heat shock e sono associati a categorie funzionali quali il legame di proteine mal ripiegate, e la risposta allo stress. Nel tessuto adiposo un’eccessiva adiposità combinata a carenze nei meccanismi di risposta allo stress sono collegate ad uno stato infiammatorio del tessuto e, di conseguenza, ad alterazioni dell’attività secretoria del tessuto adiposo, similmente a quanto è stato osservato nell’obesità umana. I miRNA sono importanti regolatori dell’espressione genica nel differenziamento, nell sviluppo e nella fisiologia cellulare dei diversi tessuti. Essi agiscono come regolatori post-trascrizionali dell’espressione genica, silenziando i trascritti bersaglio. Lo studio del miRNoma del lardo dorsale di maiale ha identificato l’espressione di centinaia di piccoli RNA, includendo potenziali nuovi miRNA, nuove isoforme di miRNA (isomiR) e nuovi microRNA-offeset RNA (moRNA), probabilmente prodotti dalle regioni terminali di precursori a forcina processate in modo non canonico. Da uno studio preliminare condotto su due campioni abbiamo rilevato 222 miRNA noti, 68 nuovi miRNA e 17 moRNA espressi da forcine note, e 312 nuovi miRNA espressi da 253 nuove forcine. L’espressione di cinque piccoli RNA, inclusi il moRNA ssc-moR-21-5p e un miRNA prodotto da un precursore da noi predetto, è stata validata mediante qRT-PCR, confermando l’affidabilità dei nostri risultati. In accodo con questi dati, un secondo studio condotto su 18 campioni ha identificato un miRNoma molto simile in termini di elementi espressi e varianti. Questo ha inoltre permesso di identificare miRNA e moRNA differenzialmente espressi tra soggetti FAT e LEAN, potenziali regolatori di trascritti la cui modulazione dell’espressione potrebbe essere implicata nelle variazioni fenotipiche dei soggetti considerati. Abbiamo predetto i potenziali bersagli dei miRNA e dei moRNA (nell ipotesi che i moRNA possano funzionare come miRNA) modulati prendendo in considerazione, per analisi ad hoc le sequenze dei trascritti ricostruite in precedenza e gli isomiR dei miRNA risultati maggiormente espressi e quindi rilevanti. Abbiamo integrato i risultati di queste predizioni con l’analisi combinata dei profili d’espressione di miRNA e trascritti, per selezionare le relazioni miRNA-trascritto maggiormente supportate dai dati d’espressione. La rete di interazioni miRNA-trascritti ottenuta in questo modo è stata arricchita dall’informazione su espressione differenziale, annotazione funzionale e predizioni del potenziale codificante e sovrapposizione dei trascritti con regioni genomiche di QTL di maiale. In questo modo siamo stati in grado di identificare un numero ristretto di interazioni potenzialmente molto significative che necessitano di essere investigate sperimentalmente. Ulteriori considerazioni stanno emergendo dallo studio del potenziale impatto di specifici miRNA differenzialmente espressi su geni appartenenti a pathway molto attinenti alla biologia del tessuto adiposo. I risultati applicativi di questi studi hanno allargato la conoscenza dei trascritti e dei piccoli RNA espressi nel tessuto adiposo di maiale, e anche delle interazioni regolative tra piccoli RNA e trascritti, fornendo utili informazioni per una miglior comprensione del lardo dorsale di maiali ILW e nuove ipotesi per studi futuri sulla regolazione dell’espressione genica in questo tessuto. In aggiunta, stiamo attualmente sviluppando ed estendendo ulteriormente i metodi qui presentati, con applicazioni e obiettivi ulteriori rispetto a quelli descritti in questa tesi.
Development of computational pipelines for transcriptome and miRNome characterization from RNA-seq data applied to swine adipose tissue
GAFFO, ENRICO
2016
Abstract
Le tecnologie per il sequenziamento massivo del DNA sono spesso usate per studiare il trascrittoma e ottenre profili d’espressione genica su scala genomica (RNA-seq). Rispetto ad altre tecnologie come i microarray, l’RNA-seq ha una maggiore sensibilità nel campionare e quantificare le molecole espresse e permette inoltre l’identificazione di trascritti sconosciuti o non caratterizzati. Il processamento di dati RNA-seq prevede molteplici passaggi di analisi (preprocessamento degli input per la valutazione della qualità e pulizia, allineamento delle read al genoma di riferimento, identificazione, quantificazione e annotazione dei trascritti, stima di espressione differenziale) che devono essere eseguiti in ordine sequenziale, mediante pipeline computazionali. Ogni singolo esperimento di RNA-seq può produrre grandi quantità di dati che richiedono l’impiego di metodi efficienti per ottenere la caratterizzazione qualitativa e quantitativa del trascrittoma. Esistono diversi metodi che implementano ogni passaggio concettuale di analisi e nuovi ne vengono continuamente proposti. Questo e’ anche dovuto alla varietà dei quesiti biologici e disegni sperimentali a cui gli esperimenti di RNA-seq possono essere applicati. Di converso, non esiste un’implementazione comunemente adottata dello schema di processamento. In questa tesi, abbiamo sviluppato una pipeline computazionale per l’analisi di dati RNA-seq focalizzata sul trascrittoma lineare; abbiamo esteso una pipeline esistente che analizza dati di RNA-seq di microRNA (miRNA) e piccoli RNA simili ai miRNA ed abbiamo iniziato a sviluppare una pipeline computazionale per l’identificazione e la quantificazione di RNA circolari. Gli obiettivi principali delle prime due pipeline sono il profiling dell’insieme dei trascritti (trascrittoma) e piccoli RNA (miRNoma) espressi, con l’identificazione di RNA noti e nuovi. Inoltre, è stato possibile studiare le variazioni di sequenza degli RNA (come gli isomiR dei miRNA), dei livelli di espressione di trascritti e piccoli RNA, e confrontare i profili di espressione tra diversi gruppi di campioni biologici. Il maiale (Sus scrofa) è un organismo modello per numerose malattie o condizioni umane, ma anche molto importante di per sé per l’industria di carne e derivati di alto pregio economicamente importanti. Il tessuto adiposo e il lardo dorsale sono oggetto di attiva ricerca, poichè alcune caratteristiche qualitative e quantitative del grasso e i meccanismi e tassi di deposito e accumulazione del grasso sono in stretta connessione con aspetti tecnologici e risultati qualitativi dei prodotti finali, come il prosciutto crudo. Tuttavia, il quadro complessivo dei processi biologici e molecolari che regolano il deposito del lardo dorsale nei maiali è ancora incompleto. In questa tesi, abbiamo applicato i metodi di analisi sviluppati a dati RNA-seq di RNA poliadenilati e piccoli RNA da campioni di tessuto adiposo sottocutaneo di 20 soggetti di razza Italian Large White (ILW). Gli animali selezionati sono stati allevati in condizioni molto standardizzate, ma presentano, riguardo i tratti del grasso, fenotipi e corrispondenti meriti genetici estremi e divergenti (maiali FAT e LEAN). L’analisi del profilo trascrizionale del lardo dorsale ha identificato l’espressione di 23.483 geni, dei quali solo il 54,1% rappresentato da geni noti. Dei 63.418 trascritti espressi, circa l’80% erano isoforme non precedentemente annotate. Confrontando i livelli di espressione dei maiali FAT contro i maiali LEAN, abbiamo poi identificato, con criteri molto stringenti, 86 trascritti differenzialmente espressi: 72 espressi a livelli più alti nei maiali obesi (tra cui ACP5, BCL2A1, CCR1, CD163, CD1A, EGR2, ENPP1, GPNMB, INHBB, LYZ, MSR1, OLR1, PIK3AP1, PLIN2, SPP1, SLC11A1, STC1) e 14 meno espressi (inclusi ADSSL1, CDO1, DNAJB1, HSPA1A, HSPA1B, HSPA2, HSPB8, IGFBP5, OLFML3). I geni sovraespressi sono implicati in processi del sistema immunitario, di risposta allo stimolo, attivazione cellulare e sviluppo dell’apparato scheletrico. I geni sottoespressi includono cinque proteine heat shock e sono associati a categorie funzionali quali il legame di proteine mal ripiegate, e la risposta allo stress. Nel tessuto adiposo un’eccessiva adiposità combinata a carenze nei meccanismi di risposta allo stress sono collegate ad uno stato infiammatorio del tessuto e, di conseguenza, ad alterazioni dell’attività secretoria del tessuto adiposo, similmente a quanto è stato osservato nell’obesità umana. I miRNA sono importanti regolatori dell’espressione genica nel differenziamento, nell sviluppo e nella fisiologia cellulare dei diversi tessuti. Essi agiscono come regolatori post-trascrizionali dell’espressione genica, silenziando i trascritti bersaglio. Lo studio del miRNoma del lardo dorsale di maiale ha identificato l’espressione di centinaia di piccoli RNA, includendo potenziali nuovi miRNA, nuove isoforme di miRNA (isomiR) e nuovi microRNA-offeset RNA (moRNA), probabilmente prodotti dalle regioni terminali di precursori a forcina processate in modo non canonico. Da uno studio preliminare condotto su due campioni abbiamo rilevato 222 miRNA noti, 68 nuovi miRNA e 17 moRNA espressi da forcine note, e 312 nuovi miRNA espressi da 253 nuove forcine. L’espressione di cinque piccoli RNA, inclusi il moRNA ssc-moR-21-5p e un miRNA prodotto da un precursore da noi predetto, è stata validata mediante qRT-PCR, confermando l’affidabilità dei nostri risultati. In accodo con questi dati, un secondo studio condotto su 18 campioni ha identificato un miRNoma molto simile in termini di elementi espressi e varianti. Questo ha inoltre permesso di identificare miRNA e moRNA differenzialmente espressi tra soggetti FAT e LEAN, potenziali regolatori di trascritti la cui modulazione dell’espressione potrebbe essere implicata nelle variazioni fenotipiche dei soggetti considerati. Abbiamo predetto i potenziali bersagli dei miRNA e dei moRNA (nell ipotesi che i moRNA possano funzionare come miRNA) modulati prendendo in considerazione, per analisi ad hoc le sequenze dei trascritti ricostruite in precedenza e gli isomiR dei miRNA risultati maggiormente espressi e quindi rilevanti. Abbiamo integrato i risultati di queste predizioni con l’analisi combinata dei profili d’espressione di miRNA e trascritti, per selezionare le relazioni miRNA-trascritto maggiormente supportate dai dati d’espressione. La rete di interazioni miRNA-trascritti ottenuta in questo modo è stata arricchita dall’informazione su espressione differenziale, annotazione funzionale e predizioni del potenziale codificante e sovrapposizione dei trascritti con regioni genomiche di QTL di maiale. In questo modo siamo stati in grado di identificare un numero ristretto di interazioni potenzialmente molto significative che necessitano di essere investigate sperimentalmente. Ulteriori considerazioni stanno emergendo dallo studio del potenziale impatto di specifici miRNA differenzialmente espressi su geni appartenenti a pathway molto attinenti alla biologia del tessuto adiposo. I risultati applicativi di questi studi hanno allargato la conoscenza dei trascritti e dei piccoli RNA espressi nel tessuto adiposo di maiale, e anche delle interazioni regolative tra piccoli RNA e trascritti, fornendo utili informazioni per una miglior comprensione del lardo dorsale di maiali ILW e nuove ipotesi per studi futuri sulla regolazione dell’espressione genica in questo tessuto. In aggiunta, stiamo attualmente sviluppando ed estendendo ulteriormente i metodi qui presentati, con applicazioni e obiettivi ulteriori rispetto a quelli descritti in questa tesi.File | Dimensione | Formato | |
---|---|---|---|
EnricoGaffo_tesi.pdf
accesso aperto
Dimensione
7.27 MB
Formato
Adobe PDF
|
7.27 MB | Adobe PDF | Visualizza/Apri |
I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/20.500.14242/92116
URN:NBN:IT:UNIPD-92116