La strategia di elezione per l'identificazione di varianti causative di malattie genetiche consiste nell’utilizzo di piattaforme di Next Generation Sequencing. Questo tipo di approccio rappresenta una sfida, sia per quanto riguarda la gestione della mole di dati da sequenziamento, che per l’interpretazione clinica dei risultati. L’identificazione di varianti chiaramente implicate nella determinazione della patologia è un processo complesso, che richiede l'integrazione di diversi tipi di informazione. Durante il mio dottorato, ho contributo all’implementazione di metodi computazionali per predire la probabilità che un determinato genotipo sia associato al fenotipo clinico di interesse. Questi metodi sono stati presentati, e valutati, in occasione del Critical Assessment of Genome Interpretation (CAGI), dove si sono posizionati tra i migliori classificati sia per prestazioni che numero di predizioni corrette. Una strategia analoga è stata applicata all’identificazione di geni implicati nella comorbidità tra disordini del neurosviluppo. Anche in questo caso, l’utilizzo di tecniche bioinformatiche si è reso fondamentale per la selezione di geni candidati, che sono stati poi utilizzati nella progettazione di un pannello genico diagnostico attualmente in uso presso la Clinica Pediatrica dell’Università di Padova. Data la gran quantità di dati prodotti per esperimento, le varianti trovate nei geni inclusi nel pannello sono state filtrate in base alla frequenza, alla predizione di patogenicità e all'analisi di segregazione all'interno della famiglia. In alcuni casi, un ulteriore contributo a supporto dell’effettiva patogenicità della variante è stato dato dall’analisi bioinformatica della proteina mutata. Frequentemente, la variante candidata provoca alterazioni a livello di regioni intrinsecamente disordinate (IDR), caratterizzate dall’assenza di una conformazione tridimensionale stabile. Questo dato è coerente con la più recente letteratura: diversi studi, infatti, dimostrano l’implicazione di mutazioni nelle IDR in diverse patologie umane. La classificazione delle IDR, quindi, può rappresentare un primo passo per comprendere l'impatto di eventuali varianti causative all'interno di queste regioni. Data la rilevanza delle IDR a livello biologico e clinico, ho partecipato alla curazione manuale e all'aggiornamento delle voci presenti nel database DisProt, la principale banca dati relativa al disordine nelle proteine. È interessante notare che, tra i vari processi biologici in cui le IDR sono coinvolte, queste regioni svolgono un ruolo molto importante nel signaling neuronale. Tra le proteine codificate dai geni inclusi nel pannello genico, TANC2 si è distinta per essere una proteina disordinata, probabilmente implicata alla trasduzione del segnale a livello delle sinapsi neuronali. Dato che la funzione di TANC2 e della rispettiva famiglia proteica risultava ancora poco chiara, ho eseguito un’analisi in silico delle proteine TANC, grazie alla quale è stato possibile caratterizzare le funzioni e i diversi processi cellulari in cui queste sono coinvolte. Le ipotesi funzionali emerse dall'analisi bioinformatica sono state utilizzate per condurre ulteriori indagini sperimentali. In particolare, la validazione in vitro dell'interazione TANC2-CDKL5 ha evidenziato l’estrema importanza di regioni intrinsecamente disordinate nella regolazione della degradazione di CDKL5, le cui mutazioni sono associate con manifestazioni cliniche legate a disordini del neurosviluppo. Inoltre, gli esperimenti hanno dimostrato che TANC2 contribuisce alla down-regolazione dei livelli di espressione di CDKL5. Per questo motivo, TANC2 si candida a rappresentare un nuovo target terapeutico per lo sviluppo di nuovi composti per il trattamento di condizioni cliniche associate all’over-espressione di CDKL5.

From High-Throughput Analysis of Genetic Variants to the Experimental Validation of Putative Protein Function

GASPARINI, ALESSANDRA
2018

Abstract

La strategia di elezione per l'identificazione di varianti causative di malattie genetiche consiste nell’utilizzo di piattaforme di Next Generation Sequencing. Questo tipo di approccio rappresenta una sfida, sia per quanto riguarda la gestione della mole di dati da sequenziamento, che per l’interpretazione clinica dei risultati. L’identificazione di varianti chiaramente implicate nella determinazione della patologia è un processo complesso, che richiede l'integrazione di diversi tipi di informazione. Durante il mio dottorato, ho contributo all’implementazione di metodi computazionali per predire la probabilità che un determinato genotipo sia associato al fenotipo clinico di interesse. Questi metodi sono stati presentati, e valutati, in occasione del Critical Assessment of Genome Interpretation (CAGI), dove si sono posizionati tra i migliori classificati sia per prestazioni che numero di predizioni corrette. Una strategia analoga è stata applicata all’identificazione di geni implicati nella comorbidità tra disordini del neurosviluppo. Anche in questo caso, l’utilizzo di tecniche bioinformatiche si è reso fondamentale per la selezione di geni candidati, che sono stati poi utilizzati nella progettazione di un pannello genico diagnostico attualmente in uso presso la Clinica Pediatrica dell’Università di Padova. Data la gran quantità di dati prodotti per esperimento, le varianti trovate nei geni inclusi nel pannello sono state filtrate in base alla frequenza, alla predizione di patogenicità e all'analisi di segregazione all'interno della famiglia. In alcuni casi, un ulteriore contributo a supporto dell’effettiva patogenicità della variante è stato dato dall’analisi bioinformatica della proteina mutata. Frequentemente, la variante candidata provoca alterazioni a livello di regioni intrinsecamente disordinate (IDR), caratterizzate dall’assenza di una conformazione tridimensionale stabile. Questo dato è coerente con la più recente letteratura: diversi studi, infatti, dimostrano l’implicazione di mutazioni nelle IDR in diverse patologie umane. La classificazione delle IDR, quindi, può rappresentare un primo passo per comprendere l'impatto di eventuali varianti causative all'interno di queste regioni. Data la rilevanza delle IDR a livello biologico e clinico, ho partecipato alla curazione manuale e all'aggiornamento delle voci presenti nel database DisProt, la principale banca dati relativa al disordine nelle proteine. È interessante notare che, tra i vari processi biologici in cui le IDR sono coinvolte, queste regioni svolgono un ruolo molto importante nel signaling neuronale. Tra le proteine codificate dai geni inclusi nel pannello genico, TANC2 si è distinta per essere una proteina disordinata, probabilmente implicata alla trasduzione del segnale a livello delle sinapsi neuronali. Dato che la funzione di TANC2 e della rispettiva famiglia proteica risultava ancora poco chiara, ho eseguito un’analisi in silico delle proteine TANC, grazie alla quale è stato possibile caratterizzare le funzioni e i diversi processi cellulari in cui queste sono coinvolte. Le ipotesi funzionali emerse dall'analisi bioinformatica sono state utilizzate per condurre ulteriori indagini sperimentali. In particolare, la validazione in vitro dell'interazione TANC2-CDKL5 ha evidenziato l’estrema importanza di regioni intrinsecamente disordinate nella regolazione della degradazione di CDKL5, le cui mutazioni sono associate con manifestazioni cliniche legate a disordini del neurosviluppo. Inoltre, gli esperimenti hanno dimostrato che TANC2 contribuisce alla down-regolazione dei livelli di espressione di CDKL5. Per questo motivo, TANC2 si candida a rappresentare un nuovo target terapeutico per lo sviluppo di nuovi composti per il trattamento di condizioni cliniche associate all’over-espressione di CDKL5.
10-gen-2018
Inglese
Next-generation sequencing, genetics, bioinformatics, protein structure, protein function, prediction, protein interactions
TOSATTO, SILVIO
BERNARDI, PAOLO
Università degli studi di Padova
File in questo prodotto:
File Dimensione Formato  
tesi_definitiva_Alessandra_Gasparini.pdf

accesso aperto

Dimensione 25.76 MB
Formato Adobe PDF
25.76 MB Adobe PDF Visualizza/Apri

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14242/92079
Il codice NBN di questa tesi è URN:NBN:IT:UNIPD-92079