L’organizzazione tridimensionale della cromatina all’interno del nucleo è alla base della regolazione funzionale del genoma, sia a livello macroscopico, dove i cromosomi occupano spazi distinti (territori cromosomici), sia a livello di singole fibre, dove la cromatina si organizza in domini compartimentalizzati (Topologically Associating Domains, TADs), dentro i quali avviene la formazione di interazioni a corto raggio (come quelle che sussistono tra promotori e regioni regolatrici). Le tecniche denominate Chromosome Conformation Capture (3C) hanno permesso di investigare e caratterizzare i diversi livelli dell’organizzazione strutturale della cromatina all’interno del nucleo. In particolare, l’Hi-C, attraverso la combinazione del protocollo di 3C e del sequenziamento massivo, è in grado di restituire un’immagine completa dell’architettura della cromatina e dei contatti all’interno del genoma. Nonostante in questi ultimi anni siano stati resi disponibili diversi strumenti computazionali per l’analisi dei dati di Hi-C, non esiste tuttora un consenso su quale sia il metodo ottimale da usare. Una valutazione comparativa dei software per l'analisi dei dati Hi-C è quindi necessaria non solo per evidenziare i punti di forza e le debolezze dei vari metodi, ma anche per proporre linee guida utili all’utente medio. Per questo motivo ho applicato diversi approcci computazionali (6 per la caratterizzazione delle interazioni e 7 per identificare i TAD) a 6 set di dati pubblici di Hi-C, relativi a diverse specie e linee cellulari (H1-hESC, IMR90, linee cellulari linfoblastoidi ed embrioni di D. melanogaster), a differenti metodiche sperimentali (standard Hi-C, simplified Hi-C e In situ Hi-C) e analizzati a diverse risoluzioni. Inoltre, gli algoritmi sono stati applicati a dati simulati per determinare sensibilità e precisione di ogni metodo. I software differiscono sia per le fasi di analisi implementate sia per le strategie adottate in ciascun passaggio: l'allineamento della sequenza completa contro quello della sequenza “spezzata”, i filtri applicati, la normalizzazione implicita contro quella esplicita, l’arricchimento di interazione locale contro quello globale e l’individuazione di TAD ad uno o più livelli. I metodi variano molto a livello di prestazioni sia in termini quantitativi sia qualitativi, e richiedono di ottimizzare un’ampia gamma di parametri per funzionare correttamente. Nonostante, in generale, gli algoritmi per identificare i TAD si siano dimostrati più affidabili di quelli per trovare le interazioni, ci sono ancora dei limiti fondamentali nell’identificazione dei TAD, ad esempio nello studio dell’evoluzione di queste strutture nel tempo. Sebbene i meccanismi alla base della formazione dei TAD siano tuttora dibattuti, è innegabile che questi siano caratterizzati da pattern distintivi di interazione: in alcuni TAD possiamo osservare un segnale di interazione più omogeneo, mentre in altri l’interazione è più che altro evidente tra le regioni che lo delimitano. Per superare questi limiti, ho sviluppato un nuovo metodo per l’analisi dei TAD a partire da dati di Hi-C (TAD-AH), atto ad indagare un aspetto finora inesplorato dell'architettura del genoma: la quarta dimensione, ovvero come la struttura si evolve nel tempo in base a stimoli di varia natura (ad esempio durante il differenziamento). Per testare TAD-AH ho analizzato dati di Hi-C generati prima e dopo il trans-differenziamento di fibroblasti umani (IMR90) in cellule muscolari (mioblasti e miotubi) ad opera del principale regolatore delle cellule staminali muscolari, MYOD. L’integrazione dei dati di Hi-C con altri dati epigenomici e trascrittomici ha confermato che la caratterizzazione delle strutture identificate è coerente con lo scenario biologico in esame.

Genome conformation and transcription regulation: methods and applications

NICOLETTI, CHIARA
2017

Abstract

L’organizzazione tridimensionale della cromatina all’interno del nucleo è alla base della regolazione funzionale del genoma, sia a livello macroscopico, dove i cromosomi occupano spazi distinti (territori cromosomici), sia a livello di singole fibre, dove la cromatina si organizza in domini compartimentalizzati (Topologically Associating Domains, TADs), dentro i quali avviene la formazione di interazioni a corto raggio (come quelle che sussistono tra promotori e regioni regolatrici). Le tecniche denominate Chromosome Conformation Capture (3C) hanno permesso di investigare e caratterizzare i diversi livelli dell’organizzazione strutturale della cromatina all’interno del nucleo. In particolare, l’Hi-C, attraverso la combinazione del protocollo di 3C e del sequenziamento massivo, è in grado di restituire un’immagine completa dell’architettura della cromatina e dei contatti all’interno del genoma. Nonostante in questi ultimi anni siano stati resi disponibili diversi strumenti computazionali per l’analisi dei dati di Hi-C, non esiste tuttora un consenso su quale sia il metodo ottimale da usare. Una valutazione comparativa dei software per l'analisi dei dati Hi-C è quindi necessaria non solo per evidenziare i punti di forza e le debolezze dei vari metodi, ma anche per proporre linee guida utili all’utente medio. Per questo motivo ho applicato diversi approcci computazionali (6 per la caratterizzazione delle interazioni e 7 per identificare i TAD) a 6 set di dati pubblici di Hi-C, relativi a diverse specie e linee cellulari (H1-hESC, IMR90, linee cellulari linfoblastoidi ed embrioni di D. melanogaster), a differenti metodiche sperimentali (standard Hi-C, simplified Hi-C e In situ Hi-C) e analizzati a diverse risoluzioni. Inoltre, gli algoritmi sono stati applicati a dati simulati per determinare sensibilità e precisione di ogni metodo. I software differiscono sia per le fasi di analisi implementate sia per le strategie adottate in ciascun passaggio: l'allineamento della sequenza completa contro quello della sequenza “spezzata”, i filtri applicati, la normalizzazione implicita contro quella esplicita, l’arricchimento di interazione locale contro quello globale e l’individuazione di TAD ad uno o più livelli. I metodi variano molto a livello di prestazioni sia in termini quantitativi sia qualitativi, e richiedono di ottimizzare un’ampia gamma di parametri per funzionare correttamente. Nonostante, in generale, gli algoritmi per identificare i TAD si siano dimostrati più affidabili di quelli per trovare le interazioni, ci sono ancora dei limiti fondamentali nell’identificazione dei TAD, ad esempio nello studio dell’evoluzione di queste strutture nel tempo. Sebbene i meccanismi alla base della formazione dei TAD siano tuttora dibattuti, è innegabile che questi siano caratterizzati da pattern distintivi di interazione: in alcuni TAD possiamo osservare un segnale di interazione più omogeneo, mentre in altri l’interazione è più che altro evidente tra le regioni che lo delimitano. Per superare questi limiti, ho sviluppato un nuovo metodo per l’analisi dei TAD a partire da dati di Hi-C (TAD-AH), atto ad indagare un aspetto finora inesplorato dell'architettura del genoma: la quarta dimensione, ovvero come la struttura si evolve nel tempo in base a stimoli di varia natura (ad esempio durante il differenziamento). Per testare TAD-AH ho analizzato dati di Hi-C generati prima e dopo il trans-differenziamento di fibroblasti umani (IMR90) in cellule muscolari (mioblasti e miotubi) ad opera del principale regolatore delle cellule staminali muscolari, MYOD. L’integrazione dei dati di Hi-C con altri dati epigenomici e trascrittomici ha confermato che la caratterizzazione delle strutture identificate è coerente con lo scenario biologico in esame.
30-ott-2017
Inglese
Hi-C Bioinformatics Chromosome Conformation Capture Benchmarking
PICCOLO, STEFANO
PICCOLO, STEFANO
Università degli studi di Padova
115
File in questo prodotto:
File Dimensione Formato  
nicoletti_chiara_thesis.pdf

accesso aperto

Dimensione 19.58 MB
Formato Adobe PDF
19.58 MB Adobe PDF Visualizza/Apri

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14242/85228
Il codice NBN di questa tesi è URN:NBN:IT:UNIPD-85228