Recent genome-wide studies have shown that long non-coding RNAs (lncRNAs) are pervasively transcribed in the genome and are emerging as new powerful players involved in several physio-pathological processes, including development, cell differentiation, cancer, inflammation and chronic viral infection. Since the mechanisms that control the regulation of human lymphocytes by lncRNAs are poorly understood as their expression in these cells, we purified 13 different human lymphocytes subsets (from T-CD4+, T-CD8+ and B lymphocyte populations) from peripheral blood to perform a comprehensive transcriptome analysis by RNA- seq using Illumina platform. We collected over than two billions RNA-seq reads across a panel of 63 purified lymphocyte samples to identify specific or new lncRNAs for each subset using both reference-based and de novo assembly approaches. For the identification of new lncRNAs specifically expressed in our cell we adopted two mapping-first approaches (TopHat and Star as mappers and Cufflinks for the identification of new transcripts) and an assembly-first de novo method based on Trinity. The new transcripts are then processed to satisfy a set of requirements that discriminate new potentially lincRNAs among all mRNAs identified (sequence length>200 bases, at least two exons, does not match any known protein domains from Pfam, must have a low predicted coding potential score by PhyloCSF and intergenic location in the genome). We found that different lincRNAs are preferentially expressed in specific lymphocyte subsets and that their expression patterns change in very specific manner during T cell differentiation. Not only we identified lymphocyte-subset-specific lincRNA signatures, but Gene Ontology (GO) enrichment analysis of the their neighbouring protein coding genes highlights an involvment in T cell activation and differentiation.

Recenti studi sull'intero genoma umano hanno dimostrato che i long noncoding RNA (lncRNAs) sono pervasivamente trascritti nel genoma e stanno emergendo come nuovi elementi chiave di diversi processi fisiopatologici, compresi lo sviluppo, il differenziamento delle cellule, il cancro, l'infiammazione e infezione virale cronica. Dato che i meccanismi che controllano la regolazione di linfociti umani da parte dei lncRNAs sono ancora poco conosciuti così come la loro espressione in queste cellule, abbiamo purificato 13 diverse sottopopolazioni di linfociti umani (da T-CD4 +, T-CD8 + e popolazioni di linfociti B) da sangue periferico per effettuare una completa analisi del trascrittoma di tali cellule mediante tecnologia RNA-seq utilizzando la piattaforma Illumina. Abbiamo collezionato più di due miliardi di RNA-Seq reads in un pannello di 63 campioni di linfociti umani per identificare specifici o nuovi lncRNAs per ogni sottogruppo, utilizzando sia approcci basati sul genoma di riferimento sia approcci di assemblaggio de novo. Per l'identificazione di nuovi lncRNAs specificamente espressi nelle nostre cellule, abbiamo adottato due approcci definiti “mapping-first” (Tophat e Star come mappatori e Cufflinks per l'identificazione di nuovi trascritti) e un metodo definito “assembly-first de novo” basato su Trinity. I nuovi trascritti sono stati poi processati per soddisfare una serie di requisiti che permettono di discriminare nuovi potenziali lncRNAs tra tutti gli mRNA identificati (sequenza di lunghezza> 200 basi, almeno due esoni, senza domini proteici noti in Pfam, basso potenziale codificante secondo i parametri di PhyloCSF e posizione intergenica nel genoma). Abbiamo scoperto che diversi lncRNAs sono preferenzialmente espressi in specifiche sottopopolazioni linfocitarie e che i loro pattern di espressione cambiano in modo molto specifico durante il differenziamento delle cellule T. Non solo abbiamo identificato signature di lncRNA subset-linfocitari specifiche, ma analisi di Gene Ontology (GO) hanno evidenziato un coinvolgimento dei geni protein coding prossimali a tali lncRNA signature in processi chiave dei linfociti come attivazione delle cellule T e la differenziamento.

Identification of regulatory non coding RNAs in human lymphocytes

RANZANI, VALERIA
2015

Abstract

Recent genome-wide studies have shown that long non-coding RNAs (lncRNAs) are pervasively transcribed in the genome and are emerging as new powerful players involved in several physio-pathological processes, including development, cell differentiation, cancer, inflammation and chronic viral infection. Since the mechanisms that control the regulation of human lymphocytes by lncRNAs are poorly understood as their expression in these cells, we purified 13 different human lymphocytes subsets (from T-CD4+, T-CD8+ and B lymphocyte populations) from peripheral blood to perform a comprehensive transcriptome analysis by RNA- seq using Illumina platform. We collected over than two billions RNA-seq reads across a panel of 63 purified lymphocyte samples to identify specific or new lncRNAs for each subset using both reference-based and de novo assembly approaches. For the identification of new lncRNAs specifically expressed in our cell we adopted two mapping-first approaches (TopHat and Star as mappers and Cufflinks for the identification of new transcripts) and an assembly-first de novo method based on Trinity. The new transcripts are then processed to satisfy a set of requirements that discriminate new potentially lincRNAs among all mRNAs identified (sequence length>200 bases, at least two exons, does not match any known protein domains from Pfam, must have a low predicted coding potential score by PhyloCSF and intergenic location in the genome). We found that different lincRNAs are preferentially expressed in specific lymphocyte subsets and that their expression patterns change in very specific manner during T cell differentiation. Not only we identified lymphocyte-subset-specific lincRNA signatures, but Gene Ontology (GO) enrichment analysis of the their neighbouring protein coding genes highlights an involvment in T cell activation and differentiation.
26-giu-2015
Inglese
Recenti studi sull'intero genoma umano hanno dimostrato che i long noncoding RNA (lncRNAs) sono pervasivamente trascritti nel genoma e stanno emergendo come nuovi elementi chiave di diversi processi fisiopatologici, compresi lo sviluppo, il differenziamento delle cellule, il cancro, l'infiammazione e infezione virale cronica. Dato che i meccanismi che controllano la regolazione di linfociti umani da parte dei lncRNAs sono ancora poco conosciuti così come la loro espressione in queste cellule, abbiamo purificato 13 diverse sottopopolazioni di linfociti umani (da T-CD4 +, T-CD8 + e popolazioni di linfociti B) da sangue periferico per effettuare una completa analisi del trascrittoma di tali cellule mediante tecnologia RNA-seq utilizzando la piattaforma Illumina. Abbiamo collezionato più di due miliardi di RNA-Seq reads in un pannello di 63 campioni di linfociti umani per identificare specifici o nuovi lncRNAs per ogni sottogruppo, utilizzando sia approcci basati sul genoma di riferimento sia approcci di assemblaggio de novo. Per l'identificazione di nuovi lncRNAs specificamente espressi nelle nostre cellule, abbiamo adottato due approcci definiti “mapping-first” (Tophat e Star come mappatori e Cufflinks per l'identificazione di nuovi trascritti) e un metodo definito “assembly-first de novo” basato su Trinity. I nuovi trascritti sono stati poi processati per soddisfare una serie di requisiti che permettono di discriminare nuovi potenziali lncRNAs tra tutti gli mRNA identificati (sequenza di lunghezza> 200 basi, almeno due esoni, senza domini proteici noti in Pfam, basso potenziale codificante secondo i parametri di PhyloCSF e posizione intergenica nel genoma). Abbiamo scoperto che diversi lncRNAs sono preferenzialmente espressi in specifiche sottopopolazioni linfocitarie e che i loro pattern di espressione cambiano in modo molto specifico durante il differenziamento delle cellule T. Non solo abbiamo identificato signature di lncRNA subset-linfocitari specifiche, ma analisi di Gene Ontology (GO) hanno evidenziato un coinvolgimento dei geni protein coding prossimali a tali lncRNA signature in processi chiave dei linfociti come attivazione delle cellule T e la differenziamento.
Università degli Studi di Milano-Bicocca
File in questo prodotto:
File Dimensione Formato  
phd_unimib_067669.pdf

Open Access dal 27/06/2017

Dimensione 28.52 MB
Formato Adobe PDF
28.52 MB Adobe PDF Visualizza/Apri

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14242/105904
Il codice NBN di questa tesi è URN:NBN:IT:UNIMIB-105904