Nell’ultima decade, numerosi studi hanno dimostrato il ruolo fondamentale svolto dalle proteine ripetute (TRP, tandem repeat proteins) in molti processi biologici (Andrade, Perez-Iratxeta, and Ponting 2001). Quella delle TRP è un’ampia classe di proteine non globulari, caratterizzate da una notevole eterogeneità di funzione e dall’essere coinvolte nella eziogenesi di numerose patologie. Una delle maggiori difficoltà che si incontrano nella moderna biologia è la caratterizzazione funzionale di proteine. Nella pratica standard, questo problema è affrontato analizzandone la struttura cristallografica (3D). Tuttavia, la determinazione della struttura tridimensionale è un processo molto lento e spesso inficiato da difficoltà tecniche. Per questa ragione, le tecniche computazionali di modellazione per omologia spesso offrono una alternativa praticabile all’approccio sperimentale. Tali tecniche però non sono di ausilio nello studio delle TRP. Ciò è dovuto all’impossibilità di poter inferire informazione evolutiva a causa di una ridotta conservazione di sequenza dell’unità ripetuta, a sua volta derivata da un elevato grado di degenerazione della sequenza primaria. In questo elaborato di tesi, mi sono focalizzata sullo sviluppo di un algoritmo orientato alla predizione di unità ripetute in proteine e alla loro caratterizzazione. Qui presento ReUPred (Repeat Protein Unit Predictor), un algoritmo innovativo per la predizione e caratterizzazione di unità proteiche ripetute basato sulla “libreria di unità strutturali ripetute” (SRUL, Structure Repeat Unit Library) direttamente derivata da RepeatsDB, la risorsa di riferimento per lo studio delle TRP. Architetturalmente, ReUPred è basato sulla libreria VICTOR C++, una piattaforma a sorgente aperto per la manipolazione di strutture proteiche. L’accuratezza del predittore è stata validata analizzando la banca dati PDB e le predizione ottenutene sono state successivamente utilizzate per estendere di venti volte il numero di proteine, correttamente annotate, contenute in RepeatDB. Durante lo svolgimento del mio dottorato ho integrato ReUPpred nella nuova versione di RepeatDB (release 2.0), che grazie a questo lavoro, ora integra informazioni dettagliate sulla posizione di inizio e fine per ogni unità ripetuta contenuta nel catalogo. L’interfaccia utente della banca dati è stata aggiornata implementando un nuovo motore di ricerca che permette ora ricerche semantiche complesse. Inoltre, lo stile grafico delle singole schede è stato ridisegnato per una migliore visualizzazione dei dati strutturali. Al fine di migliorare ulteriormente la qualità dei dati contenuti in RepeatDB è stata fornita una classificazione più dettagliata delle unità strutturali ripetute, fino al livello di sottoclasse. Abbiamo ipotizzato che all’interno di questa raccolta di dati fosse possibile identificare sottogruppi di proteine condividenti la stessa unità strutturale di base. Una dettagliata analisi strutturale è stata condotta al fine di validare questa ipotesi. E’ stata generata una rete in cui le singole unità ripetute vengono visualizzate come nodi interconnessi da archi che rappresentano la similarità strutturale. Ne è emerso che l’intero insieme può essere descritto da sette diversi raggruppamenti. Inspirati dalla rappresentazione dei domini proteici usata nella banca dati Pfam, per ognuno dei raggruppamenti è stato derivato un modello di Markov nascosto (Hidden Markov Model). Questa analisi, al momento in via di completamento, ha già permesso di migliorare l’accuratezza di ReUPred ed il livello di annotazione di RepeatsDB. In sintesi, questo lavoro fornisce una robusta base teorica per il futuro sviluppo di nuove tecniche per la predizione di struttura di TRP e può essere di grande aiuto per la comprensione dei meccanismi alla base di patologie umane e per lo sviluppo di nuovi approcci terapeutici.

Solving the Structural Modeling Problems for Tandem Repeat Proteins

HIRSH MARTINEZ, LAYLA
2017

Abstract

Nell’ultima decade, numerosi studi hanno dimostrato il ruolo fondamentale svolto dalle proteine ripetute (TRP, tandem repeat proteins) in molti processi biologici (Andrade, Perez-Iratxeta, and Ponting 2001). Quella delle TRP è un’ampia classe di proteine non globulari, caratterizzate da una notevole eterogeneità di funzione e dall’essere coinvolte nella eziogenesi di numerose patologie. Una delle maggiori difficoltà che si incontrano nella moderna biologia è la caratterizzazione funzionale di proteine. Nella pratica standard, questo problema è affrontato analizzandone la struttura cristallografica (3D). Tuttavia, la determinazione della struttura tridimensionale è un processo molto lento e spesso inficiato da difficoltà tecniche. Per questa ragione, le tecniche computazionali di modellazione per omologia spesso offrono una alternativa praticabile all’approccio sperimentale. Tali tecniche però non sono di ausilio nello studio delle TRP. Ciò è dovuto all’impossibilità di poter inferire informazione evolutiva a causa di una ridotta conservazione di sequenza dell’unità ripetuta, a sua volta derivata da un elevato grado di degenerazione della sequenza primaria. In questo elaborato di tesi, mi sono focalizzata sullo sviluppo di un algoritmo orientato alla predizione di unità ripetute in proteine e alla loro caratterizzazione. Qui presento ReUPred (Repeat Protein Unit Predictor), un algoritmo innovativo per la predizione e caratterizzazione di unità proteiche ripetute basato sulla “libreria di unità strutturali ripetute” (SRUL, Structure Repeat Unit Library) direttamente derivata da RepeatsDB, la risorsa di riferimento per lo studio delle TRP. Architetturalmente, ReUPred è basato sulla libreria VICTOR C++, una piattaforma a sorgente aperto per la manipolazione di strutture proteiche. L’accuratezza del predittore è stata validata analizzando la banca dati PDB e le predizione ottenutene sono state successivamente utilizzate per estendere di venti volte il numero di proteine, correttamente annotate, contenute in RepeatDB. Durante lo svolgimento del mio dottorato ho integrato ReUPpred nella nuova versione di RepeatDB (release 2.0), che grazie a questo lavoro, ora integra informazioni dettagliate sulla posizione di inizio e fine per ogni unità ripetuta contenuta nel catalogo. L’interfaccia utente della banca dati è stata aggiornata implementando un nuovo motore di ricerca che permette ora ricerche semantiche complesse. Inoltre, lo stile grafico delle singole schede è stato ridisegnato per una migliore visualizzazione dei dati strutturali. Al fine di migliorare ulteriormente la qualità dei dati contenuti in RepeatDB è stata fornita una classificazione più dettagliata delle unità strutturali ripetute, fino al livello di sottoclasse. Abbiamo ipotizzato che all’interno di questa raccolta di dati fosse possibile identificare sottogruppi di proteine condividenti la stessa unità strutturale di base. Una dettagliata analisi strutturale è stata condotta al fine di validare questa ipotesi. E’ stata generata una rete in cui le singole unità ripetute vengono visualizzate come nodi interconnessi da archi che rappresentano la similarità strutturale. Ne è emerso che l’intero insieme può essere descritto da sette diversi raggruppamenti. Inspirati dalla rappresentazione dei domini proteici usata nella banca dati Pfam, per ognuno dei raggruppamenti è stato derivato un modello di Markov nascosto (Hidden Markov Model). Questa analisi, al momento in via di completamento, ha già permesso di migliorare l’accuratezza di ReUPred ed il livello di annotazione di RepeatsDB. In sintesi, questo lavoro fornisce una robusta base teorica per il futuro sviluppo di nuove tecniche per la predizione di struttura di TRP e può essere di grande aiuto per la comprensione dei meccanismi alla base di patologie umane e per lo sviluppo di nuovi approcci terapeutici.
17-lug-2017
Inglese
Repeat proteins, Predictor, bioinformatics, RepeatsDB, Database, Proteins manipulation
TOSATTO, SILVIO
BERNARDI, PAOLO
Università degli studi di Padova
139
File in questo prodotto:
File Dimensione Formato  
tesi_definitiva_LAYLA_HIRSHMARTINEZ.pdf

accesso aperto

Dimensione 23.44 MB
Formato Adobe PDF
23.44 MB Adobe PDF Visualizza/Apri

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14242/84906
Il codice NBN di questa tesi è URN:NBN:IT:UNIPD-84906