La prima struttura proteica ad essere stata determinata è quella dell’emoglobina, una proteina sferica e solubile ad attività enzimatica. Da allora la scienza si è concentrata su questa tipologia di proteine, definite globulari. Recenti evidenze sperimentali però suggeriscono l’importanza funzionale della loro controparte, proteine definite non globulari (NGP). Il riconoscimento e la classificazione delle NGP è essenziale per far luce sul cosiddetto dark proteome, ovvero la frazione del proteoma ancora non caratterizzata. Ho contribuito a questo scopo attraverso lo sviluppo di risorse dedicate alle NGP, principalmente alle proteine ripetute in tandem (TRP). Le TRP sono caratterizzate da una sequenza ripetuta che codifica per una struttura modulare, dove i singoli moduli sono chiamati unità. Essi rappresentano non solo la minima entità strutturale, ma anche evolutiva delle TRP: sono infatti alla base della loro classificazione. Le TRP sono diffuse in tutti i tipi di organismi, dove svolgono funzioni essenziali. Le sequenze delle unità ripetute divergono velocemente pur conservando la struttura: ciò complica il loro riconoscimento da sequenza. D’altro lato, anche l’individuazione delle ripetute sulla base della struttura è complessa a causa della multidimensionalità del dato. Metodi specifici sono stati sviluppati per l’identificazione delle TRP, ma pochi annotano le singole unità. RepeatsDB è un database di strutture ripetute che riporta la posizione di unità e inserzioni. Ho contribuito alla nuova versione del database, popolato grazie a ReUPred, predittore di unità ripetute. La qualità del dato è garantita da validazione manuale, un processo dispendioso che richiede il contributo di annotatori esperti. Per facilitarlo ho sviluppato RepeatsDB-Lite, un server online per la predizione e l’annotazione di TRP. Analizzando il dato in RepeatsDB, ho confrontato le classificazioni delle TRP sulla base della sequenza e della struttura. Inoltre, ho descritto il ruolo delle TRP nel proteoma umano presentando le loro funzioni, la loro rete di interazioni e il loro impatto sulle malattie. Come caso di studio ho caratterizzato il collagene V, una TRP associata alla sindrome di Ehlers-Danlos, identificando le correlazioni genotipo-fenotipo in relazione alle interazioni che la proteina stabilisce. Un’altra categoria di NGP è quella delle proteine intrinsecamente disordinate (IDP), prive di struttura terziaria fissa o ordinata. Il disordine è prevalente nel proteoma umano, ha un ruolo fondamentale nella segnalazione e nella regolazione cellulare ed è frequentemente associato alle malattie. Ho contribuito a MobiDB, database di disordine e mobilità proteica che descrive molti aspetti della struttura e dei meccanismi di funzionamento delle NGP. MobiDB presenta un consenso fra predizioni e annotazioni funzionali per tutte le sequenze proteiche conosciute. Una caratteristica comune di TRP, IDP e altre NGP è che sono caratterizzate da regioni a bassa complessità, cioè la distribuzione degli aminoacidi nelle loro sequenze devia dalla media. L’importanza funzionale delle regioni a bassa complessità è strettamente connessa al loro arrangiamento non globulare. Il mio contribuito al settore consiste nella definizione delle caratteristiche delle sequenze a bassa complessità in relazione alle loro caratteristiche strutturali. Infine, ho sfruttato le conoscenze acquisite sulle NGP per progettare uno dei primi predittori di solubilità basati sulla sequenza, SODA. SODA utilizza l’idrofobicità della sequenza oltre alla propensione ad aggregazione, disordine e a formare elementi di struttura secondaria per predire quanto contribuisce una data mutazione a modificare la sua solubilità. Le principali applicazioni di SODA sono nell’ambito dell’ingegneria proteica e nello studio dell’impatto delle mutazioni nell’insorgenza di malattie.
Computational characterization of tandem repeat and non-globular proteins
PALADIN, LISANNA
2018
Abstract
La prima struttura proteica ad essere stata determinata è quella dell’emoglobina, una proteina sferica e solubile ad attività enzimatica. Da allora la scienza si è concentrata su questa tipologia di proteine, definite globulari. Recenti evidenze sperimentali però suggeriscono l’importanza funzionale della loro controparte, proteine definite non globulari (NGP). Il riconoscimento e la classificazione delle NGP è essenziale per far luce sul cosiddetto dark proteome, ovvero la frazione del proteoma ancora non caratterizzata. Ho contribuito a questo scopo attraverso lo sviluppo di risorse dedicate alle NGP, principalmente alle proteine ripetute in tandem (TRP). Le TRP sono caratterizzate da una sequenza ripetuta che codifica per una struttura modulare, dove i singoli moduli sono chiamati unità. Essi rappresentano non solo la minima entità strutturale, ma anche evolutiva delle TRP: sono infatti alla base della loro classificazione. Le TRP sono diffuse in tutti i tipi di organismi, dove svolgono funzioni essenziali. Le sequenze delle unità ripetute divergono velocemente pur conservando la struttura: ciò complica il loro riconoscimento da sequenza. D’altro lato, anche l’individuazione delle ripetute sulla base della struttura è complessa a causa della multidimensionalità del dato. Metodi specifici sono stati sviluppati per l’identificazione delle TRP, ma pochi annotano le singole unità. RepeatsDB è un database di strutture ripetute che riporta la posizione di unità e inserzioni. Ho contribuito alla nuova versione del database, popolato grazie a ReUPred, predittore di unità ripetute. La qualità del dato è garantita da validazione manuale, un processo dispendioso che richiede il contributo di annotatori esperti. Per facilitarlo ho sviluppato RepeatsDB-Lite, un server online per la predizione e l’annotazione di TRP. Analizzando il dato in RepeatsDB, ho confrontato le classificazioni delle TRP sulla base della sequenza e della struttura. Inoltre, ho descritto il ruolo delle TRP nel proteoma umano presentando le loro funzioni, la loro rete di interazioni e il loro impatto sulle malattie. Come caso di studio ho caratterizzato il collagene V, una TRP associata alla sindrome di Ehlers-Danlos, identificando le correlazioni genotipo-fenotipo in relazione alle interazioni che la proteina stabilisce. Un’altra categoria di NGP è quella delle proteine intrinsecamente disordinate (IDP), prive di struttura terziaria fissa o ordinata. Il disordine è prevalente nel proteoma umano, ha un ruolo fondamentale nella segnalazione e nella regolazione cellulare ed è frequentemente associato alle malattie. Ho contribuito a MobiDB, database di disordine e mobilità proteica che descrive molti aspetti della struttura e dei meccanismi di funzionamento delle NGP. MobiDB presenta un consenso fra predizioni e annotazioni funzionali per tutte le sequenze proteiche conosciute. Una caratteristica comune di TRP, IDP e altre NGP è che sono caratterizzate da regioni a bassa complessità, cioè la distribuzione degli aminoacidi nelle loro sequenze devia dalla media. L’importanza funzionale delle regioni a bassa complessità è strettamente connessa al loro arrangiamento non globulare. Il mio contribuito al settore consiste nella definizione delle caratteristiche delle sequenze a bassa complessità in relazione alle loro caratteristiche strutturali. Infine, ho sfruttato le conoscenze acquisite sulle NGP per progettare uno dei primi predittori di solubilità basati sulla sequenza, SODA. SODA utilizza l’idrofobicità della sequenza oltre alla propensione ad aggregazione, disordine e a formare elementi di struttura secondaria per predire quanto contribuisce una data mutazione a modificare la sua solubilità. Le principali applicazioni di SODA sono nell’ambito dell’ingegneria proteica e nello studio dell’impatto delle mutazioni nell’insorgenza di malattie.File | Dimensione | Formato | |
---|---|---|---|
Paladin_Lisanna_tesi.pdf
accesso aperto
Dimensione
26.08 MB
Formato
Adobe PDF
|
26.08 MB | Adobe PDF | Visualizza/Apri |
I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/20.500.14242/84179
URN:NBN:IT:UNIPD-84179