From High-Throughput Analysis of Genetic Variants to the Experimental Validation of Putative Protein Function

Gasparini, Alessandra

La strategia di elezione per l'identificazione di varianti causative di malattie genetiche consiste nell’utilizzo di piattaforme di Next Generation Sequencing. Questo tipo di approccio rappresenta una sfida, sia per quanto riguarda la gestione della mole di dati da sequenziamento, che per l’interpretazione clinica dei risultati. L’identificazione di varianti chiaramente implicate nella determinazione della patologia è un processo complesso, che richiede l'integrazione di diversi tipi di informazione. Durante il mio dottorato, ho contributo all’implementazione di metodi computazionali per predire la probabilità che un determinato genotipo sia associato al fenotipo clinico di interesse. Questi metodi sono stati presentati, e valutati, in occasione del Critical Assessment of Genome Interpretation (CAGI), dove si sono posizionati tra i migliori classificati sia per prestazioni che numero di predizioni corrette. Una strategia analoga è stata applicata all’identificazione di geni implicati nella comorbidità tra disordini del neurosviluppo. Anche in questo caso, l’utilizzo di tecniche bioinformatiche si è reso fondamentale per la selezione di geni candidati, che sono stati poi utilizzati nella progettazione di un pannello genico diagnostico attualmente in uso presso la Clinica Pediatrica dell’Università di Padova. Data la gran quantità di dati prodotti per esperimento, le varianti trovate nei geni inclusi nel pannello sono state filtrate in base alla frequenza, alla predizione di patogenicità e all'analisi di segregazione all'interno della famiglia. In alcuni casi, un ulteriore contributo a supporto dell’effettiva patogenicità della variante è stato dato dall’analisi bioinformatica della proteina mutata. Frequentemente, la variante candidata provoca alterazioni a livello di regioni intrinsecamente disordinate (IDR), caratterizzate dall’assenza di una conformazione tridimensionale stabile. Questo dato è coerente con la più recente letteratura: diversi studi, infatti, dimostrano l’implicazione di mutazioni nelle IDR in diverse patologie umane. La classificazione delle IDR, quindi, può rappresentare un primo passo per comprendere l'impatto di eventuali varianti causative all'interno di queste regioni. Data la rilevanza delle IDR a livello biologico e clinico, ho partecipato alla curazione manuale e all'aggiornamento delle voci presenti nel database DisProt, la principale banca dati relativa al disordine nelle proteine. È interessante notare che, tra i vari processi biologici in cui le IDR sono coinvolte, queste regioni svolgono un ruolo molto importante nel signaling neuronale. Tra le proteine codificate dai geni inclusi nel pannello genico, TANC2 si è distinta per essere una proteina disordinata, probabilmente implicata alla trasduzione del segnale a livello delle sinapsi neuronali. Dato che la funzione di TANC2 e della rispettiva famiglia proteica risultava ancora poco chiara, ho eseguito un’analisi in silico delle proteine TANC, grazie alla quale è stato possibile caratterizzare le funzioni e i diversi processi cellulari in cui queste sono coinvolte. Le ipotesi funzionali emerse dall'analisi bioinformatica sono state utilizzate per condurre ulteriori indagini sperimentali. In particolare, la validazione in vitro dell'interazione TANC2-CDKL5 ha evidenziato l’estrema importanza di regioni intrinsecamente disordinate nella regolazione della degradazione di CDKL5, le cui mutazioni sono associate con manifestazioni cliniche legate a disordini del neurosviluppo. Inoltre, gli esperimenti hanno dimostrato che TANC2 contribuisce alla down-regolazione dei livelli di espressione di CDKL5. Per questo motivo, TANC2 si candida a rappresentare un nuovo target terapeutico per lo sviluppo di nuovi composti per il trattamento di condizioni cliniche associate all’over-espressione di CDKL5.

From High-Throughput Analysis of Genetic Variants to the Experimental Validation of Putative Protein Function

GASPARINI, ALESSANDRA

2018

Abstract

La strategia di elezione per l'identificazione di varianti causative di malattie genetiche consiste nell’utilizzo di piattaforme di Next Generation Sequencing. Questo tipo di approccio rappresenta una sfida, sia per quanto riguarda la gestione della mole di dati da sequenziamento, che per l’interpretazione clinica dei risultati. L’identificazione di varianti chiaramente implicate nella determinazione della patologia è un processo complesso, che richiede l'integrazione di diversi tipi di informazione. Durante il mio dottorato, ho contributo all’implementazione di metodi computazionali per predire la probabilità che un determinato genotipo sia associato al fenotipo clinico di interesse. Questi metodi sono stati presentati, e valutati, in occasione del Critical Assessment of Genome Interpretation (CAGI), dove si sono posizionati tra i migliori classificati sia per prestazioni che numero di predizioni corrette. Una strategia analoga è stata applicata all’identificazione di geni implicati nella comorbidità tra disordini del neurosviluppo. Anche in questo caso, l’utilizzo di tecniche bioinformatiche si è reso fondamentale per la selezione di geni candidati, che sono stati poi utilizzati nella progettazione di un pannello genico diagnostico attualmente in uso presso la Clinica Pediatrica dell’Università di Padova. Data la gran quantità di dati prodotti per esperimento, le varianti trovate nei geni inclusi nel pannello sono state filtrate in base alla frequenza, alla predizione di patogenicità e all'analisi di segregazione all'interno della famiglia. In alcuni casi, un ulteriore contributo a supporto dell’effettiva patogenicità della variante è stato dato dall’analisi bioinformatica della proteina mutata. Frequentemente, la variante candidata provoca alterazioni a livello di regioni intrinsecamente disordinate (IDR), caratterizzate dall’assenza di una conformazione tridimensionale stabile. Questo dato è coerente con la più recente letteratura: diversi studi, infatti, dimostrano l’implicazione di mutazioni nelle IDR in diverse patologie umane. La classificazione delle IDR, quindi, può rappresentare un primo passo per comprendere l'impatto di eventuali varianti causative all'interno di queste regioni. Data la rilevanza delle IDR a livello biologico e clinico, ho partecipato alla curazione manuale e all'aggiornamento delle voci presenti nel database DisProt, la principale banca dati relativa al disordine nelle proteine. È interessante notare che, tra i vari processi biologici in cui le IDR sono coinvolte, queste regioni svolgono un ruolo molto importante nel signaling neuronale. Tra le proteine codificate dai geni inclusi nel pannello genico, TANC2 si è distinta per essere una proteina disordinata, probabilmente implicata alla trasduzione del segnale a livello delle sinapsi neuronali. Dato che la funzione di TANC2 e della rispettiva famiglia proteica risultava ancora poco chiara, ho eseguito un’analisi in silico delle proteine TANC, grazie alla quale è stato possibile caratterizzare le funzioni e i diversi processi cellulari in cui queste sono coinvolte. Le ipotesi funzionali emerse dall'analisi bioinformatica sono state utilizzate per condurre ulteriori indagini sperimentali. In particolare, la validazione in vitro dell'interazione TANC2-CDKL5 ha evidenziato l’estrema importanza di regioni intrinsecamente disordinate nella regolazione della degradazione di CDKL5, le cui mutazioni sono associate con manifestazioni cliniche legate a disordini del neurosviluppo. Inoltre, gli esperimenti hanno dimostrato che TANC2 contribuisce alla down-regolazione dei livelli di espressione di CDKL5. Per questo motivo, TANC2 si candida a rappresentare un nuovo target terapeutico per lo sviluppo di nuovi composti per il trattamento di condizioni cliniche associate all’over-espressione di CDKL5.

Scheda breve

Scheda completa

Scheda completa (DC)

	Corso di studio
	
				SCIENZE BIOMEDICHE SPERIMENTALI
			
	Data di pubblicazione
	
				10-gen-2018
			
	Lingua
	
				Inglese
			
	Parola chiave
	
				Next-generation sequencing, genetics, bioinformatics, protein structure, protein function, prediction, protein interactions
			
	Relatore, Supervisor, Advisor o Tutor
	
				TOSATTO, SILVIO
			
	Correlatore, Controrelatore, Co-Supervisor,  Co-Tutor o Coordinatori
	
				BERNARDI, PAOLO
			
	Nome Editore
	
				Università degli studi di Padova
			
	Collezione di appartenenza
	
				Università degli Studi di Padova

File in questo prodotto:

File	Dimensione	Formato
tesi_definitiva_Alessandra_Gasparini.pdf accesso aperto Licenza: Tutti i diritti riservati Dimensione 25.76 MB Formato Adobe PDF Visualizza/Apri	25.76 MB	Adobe PDF	Visualizza/Apri

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14242/92079

Il codice NBN di questa tesi è URN:NBN:IT:UNIPD-92079