Lo scopo di questa tesi è lo sviluppo e l'applicazione di un modello che integri efficacemente ed efficientemente la valutazione della complementarietà geometrica ed elettrostatica per il problema del docking proteina-proteina. Le proteine svolgono i loro ruoli biologici interagendo con altre biomolecole formando complessi macromolecolari. La caratterizzazione strutturale dei complessi proteici è importante per comprendere i processi biologici che guidano tali interazioni. Gli attuali limiti delle tecniche sperimentali fanno si che la maggior parte dei complessi debba essere risolta tramite tecniche computazionali come il docking proteina-proteina. Il docking proteina-proteina ha come scopo la predizione in silico delle strutture tridimensionali dei complessi formati da due o più proteine interagenti, così come si verificano negli organismi viventi, e che possono essere successivamente verificate in vitro o in vivo. Queste interazioni sono altamente specifiche, ed avvengono grazie all'instaurazione simultanea di molteplici legami deboli: la complementarietà geometrica dei contorni esterni delle molecole interagenti è un requisito fondamentale affinché queste interazioni avvengano e si mantengano nel tempo. La sola complementarietà di forma, però, non basta a garantire predizioni di docking accurate, dato che esistono molti fattori fisico-chimici oltre alla complementarietà di forma, come i potenziali di Coulomb, forze di van der Waals e l'idrofobicità, i quali influiscono nella formazione del complesso proteico. Al fine di sviluppare metodi corretti ed efficienti per il docking proteina-proteina si rende necessaria una nuova rappresentazione del contorno di proteine che integri criteri geometrici ed elettrostatici nella valutazione della complementarietà. A tal proposito, è stato progettato ed implementato un nuovo descrittore locale del contorno proteico, in grado di catturare entrambe le proprietà di complementarietà geometrica e elettrostatica delle superfici macromolecolari. La metodologia proposta integra efficacemente la valutazione della complementarietà geometrica ed elettrostatica delle superfici molecolari, permettendo la comparazione efficiente tra descrittori. Il descrittore si basa sulle invarianti 3D di Zernike, le quali posseggono diverse proprietà interessanti, come l'invarianza alle rotazioni e alle traslazioni, la capacità di catturare efficacemente la similarità sia locale che globale delle superfici proteiche, e di rappresentarne in modo naturale le proprietà fisico-chimiche. Localmente, la similarità geometrica tra due porzioni di superficie proteica implica un certo grado di complementarietà. Lo stesso però non vale per i potenziali elettrostatici. La complementarietà dei potenziali elettrostatici è più complessa da rilevare, poiché devono combaciare cariche di segno opposto che non hanno necessariamente la stessa ampiezza. Il metodo proposto supera questa limitazione nel modo seguente. Da un'unica funzione di distribuzione di carica elettrostatica vengono ricavate due funzioni di distribuzione di carica, una per le cariche positive ed una per le cariche negative. Entrambe le funzioni di distribuzione vengono normalizzate in [0, 1]. I descrittori vengono poi calcolati separatamente per le due distribuzioni di carica, e la valutazione della complementarietà viene eseguita confrontando tra loro i descrittori corrispondenti a cariche di segno opposto. Il descrittore proposto utilizza una rappresentazione discreta a voxel della superficie di Connolly sulla quale sono stati mappati i corrispettivi potenziali elettrostatici. Le rappresentazioni a voxel delle superfici hanno ricevuto un notevole interesse in molte applicazioni bioinformatiche e di biologia computazionale poiché forniscono un metodo semplice ed efficace per rappresentare congiuntamente le proprietà geometriche e fisico-chimiche di proteine ed altre biomolecole, mappando informazioni ausiliarie in ciascun voxel. In più, variando la risoluzione della griglia di voxel si può controllare i grado di dettaglio da rappresentare. Inoltre, si possono ottenere rappresentazioni a grana variabile per una determinata molecola. È stato progettato e sviluppato un algoritmo specifico per il calcolo efficiente delle superfici a voxel di macromolecole a risoluzioni arbitrarie, a partire da dati sperimentali (cristallografia a raggi X, spettroscopia NMR, microscopia crioelettronica). La generazione efficiente della superficie di Connolly viene effettuata tramite un algoritmo che calcola la Trasformata di Distanza Euclidea approssimata e che sfrutta la relazione geometrica che c'è tra la superficie accessibile al solvente e la superficie di Connolly. Questo algoritmo è alla base di VoxSurf (Voxelised Surface calculation program), uno strumento software in grado di produrre rappresentazioni discrete di macromolecole a risoluzioni molto alte a partire dalle informazioni tridimensionali dei corrispettivi file PDB. Utilizzando strutture dati compatte ed implementando un protocollo di slicing spaziale, il tool proposto può calcolare le tre principali superfici molecolari ad alte risoluzioni con limitati requisiti di memoria. Due algoritmi paralleli sono stati introdotti per ridurre il tempo di computazione delle superfici, senza però incidere negativamente sulla precisione delle rappresentazioni. Entrambi si basano su di un protocollo di slicing spaziale: la molecola viene "tagliata" in un determinato numero di parti, e le porzioni della superficie vengono calcolate per ciascuna slice in parallelo. La molecola viene tagliata con piani perpendicolari all'asse delle ascisse del sistema di coordinate cartesiane definito nel file PDB della molecola. Il primo algoritmo utilizza margini sovrapposti tra slice adiacenti, di dimensione pari al raggio della sfera-sonda che rappresenta la molecola di solvente. Il margine garantisce che la superficie di Connolly possa essere calcolata quasi-indipendentemente per ciascuna slice. Le comunicazioni tra processi si rendono necessarie soltanto durante l'identificazione delle tasche, la quale garantisce che vengano identificate correttamente tasche della superficie molecolare che si estendono attraverso più di una slice. Nel secondo algoritmo parallelo, la dimensione dei margini sovrapposti è stato ridotto in lunchezza ad un solo voxel tramite l'introduzione di un algoritmo per la Trasformata di Distanza Euclidea a più step. Ad ogni step, i valori di distanza vengono dapprima calcolati indipendentemente per ciascuna slice. Poi, i valori di distanza euclidea di un piccolo sottoinsieme di voxel appartenenti al bordo vengono scambiati tra slice adiacenti. Le metodologie introdotte sono propedeutiche allo sviluppo di un protocollo di docking proteina-proteina basato sul local feature matching. Test su benchmark hanno dimostrato che il descrittore congiunto di geometria ed elettrostaticità è in grado di identificare la complementarietà di forma e di distribuzione di carica nei siti di legame dei complessi proteina-proteina, confrontando efficientemente patch circolari di superficie e diminuendo notevolmente il numero di falsi positivi che altrimenti si avrebbero utilizzando un descrittore puramente geometrico. Negli esperimenti di validazione, i contorni delle proteine interagenti sono stati suddivisi in patch circolari: tutte le possibili coppie di patch dalle due proteine sono state valutate in termini di complementarietà ed è stato stilato un ranking generale. I risultati dimostrano che, quando si utilizza il nuovo descrittore, le coppie di patch native ottengono rank più alti rispetto a quelli ottenuti utilizzando il descrittore puramente geometrico.
Protein contour modelling and computation for complementarity detection and docking
DABERDAKU, SEBASTIAN
2016
Abstract
Lo scopo di questa tesi è lo sviluppo e l'applicazione di un modello che integri efficacemente ed efficientemente la valutazione della complementarietà geometrica ed elettrostatica per il problema del docking proteina-proteina. Le proteine svolgono i loro ruoli biologici interagendo con altre biomolecole formando complessi macromolecolari. La caratterizzazione strutturale dei complessi proteici è importante per comprendere i processi biologici che guidano tali interazioni. Gli attuali limiti delle tecniche sperimentali fanno si che la maggior parte dei complessi debba essere risolta tramite tecniche computazionali come il docking proteina-proteina. Il docking proteina-proteina ha come scopo la predizione in silico delle strutture tridimensionali dei complessi formati da due o più proteine interagenti, così come si verificano negli organismi viventi, e che possono essere successivamente verificate in vitro o in vivo. Queste interazioni sono altamente specifiche, ed avvengono grazie all'instaurazione simultanea di molteplici legami deboli: la complementarietà geometrica dei contorni esterni delle molecole interagenti è un requisito fondamentale affinché queste interazioni avvengano e si mantengano nel tempo. La sola complementarietà di forma, però, non basta a garantire predizioni di docking accurate, dato che esistono molti fattori fisico-chimici oltre alla complementarietà di forma, come i potenziali di Coulomb, forze di van der Waals e l'idrofobicità, i quali influiscono nella formazione del complesso proteico. Al fine di sviluppare metodi corretti ed efficienti per il docking proteina-proteina si rende necessaria una nuova rappresentazione del contorno di proteine che integri criteri geometrici ed elettrostatici nella valutazione della complementarietà. A tal proposito, è stato progettato ed implementato un nuovo descrittore locale del contorno proteico, in grado di catturare entrambe le proprietà di complementarietà geometrica e elettrostatica delle superfici macromolecolari. La metodologia proposta integra efficacemente la valutazione della complementarietà geometrica ed elettrostatica delle superfici molecolari, permettendo la comparazione efficiente tra descrittori. Il descrittore si basa sulle invarianti 3D di Zernike, le quali posseggono diverse proprietà interessanti, come l'invarianza alle rotazioni e alle traslazioni, la capacità di catturare efficacemente la similarità sia locale che globale delle superfici proteiche, e di rappresentarne in modo naturale le proprietà fisico-chimiche. Localmente, la similarità geometrica tra due porzioni di superficie proteica implica un certo grado di complementarietà. Lo stesso però non vale per i potenziali elettrostatici. La complementarietà dei potenziali elettrostatici è più complessa da rilevare, poiché devono combaciare cariche di segno opposto che non hanno necessariamente la stessa ampiezza. Il metodo proposto supera questa limitazione nel modo seguente. Da un'unica funzione di distribuzione di carica elettrostatica vengono ricavate due funzioni di distribuzione di carica, una per le cariche positive ed una per le cariche negative. Entrambe le funzioni di distribuzione vengono normalizzate in [0, 1]. I descrittori vengono poi calcolati separatamente per le due distribuzioni di carica, e la valutazione della complementarietà viene eseguita confrontando tra loro i descrittori corrispondenti a cariche di segno opposto. Il descrittore proposto utilizza una rappresentazione discreta a voxel della superficie di Connolly sulla quale sono stati mappati i corrispettivi potenziali elettrostatici. Le rappresentazioni a voxel delle superfici hanno ricevuto un notevole interesse in molte applicazioni bioinformatiche e di biologia computazionale poiché forniscono un metodo semplice ed efficace per rappresentare congiuntamente le proprietà geometriche e fisico-chimiche di proteine ed altre biomolecole, mappando informazioni ausiliarie in ciascun voxel. In più, variando la risoluzione della griglia di voxel si può controllare i grado di dettaglio da rappresentare. Inoltre, si possono ottenere rappresentazioni a grana variabile per una determinata molecola. È stato progettato e sviluppato un algoritmo specifico per il calcolo efficiente delle superfici a voxel di macromolecole a risoluzioni arbitrarie, a partire da dati sperimentali (cristallografia a raggi X, spettroscopia NMR, microscopia crioelettronica). La generazione efficiente della superficie di Connolly viene effettuata tramite un algoritmo che calcola la Trasformata di Distanza Euclidea approssimata e che sfrutta la relazione geometrica che c'è tra la superficie accessibile al solvente e la superficie di Connolly. Questo algoritmo è alla base di VoxSurf (Voxelised Surface calculation program), uno strumento software in grado di produrre rappresentazioni discrete di macromolecole a risoluzioni molto alte a partire dalle informazioni tridimensionali dei corrispettivi file PDB. Utilizzando strutture dati compatte ed implementando un protocollo di slicing spaziale, il tool proposto può calcolare le tre principali superfici molecolari ad alte risoluzioni con limitati requisiti di memoria. Due algoritmi paralleli sono stati introdotti per ridurre il tempo di computazione delle superfici, senza però incidere negativamente sulla precisione delle rappresentazioni. Entrambi si basano su di un protocollo di slicing spaziale: la molecola viene "tagliata" in un determinato numero di parti, e le porzioni della superficie vengono calcolate per ciascuna slice in parallelo. La molecola viene tagliata con piani perpendicolari all'asse delle ascisse del sistema di coordinate cartesiane definito nel file PDB della molecola. Il primo algoritmo utilizza margini sovrapposti tra slice adiacenti, di dimensione pari al raggio della sfera-sonda che rappresenta la molecola di solvente. Il margine garantisce che la superficie di Connolly possa essere calcolata quasi-indipendentemente per ciascuna slice. Le comunicazioni tra processi si rendono necessarie soltanto durante l'identificazione delle tasche, la quale garantisce che vengano identificate correttamente tasche della superficie molecolare che si estendono attraverso più di una slice. Nel secondo algoritmo parallelo, la dimensione dei margini sovrapposti è stato ridotto in lunchezza ad un solo voxel tramite l'introduzione di un algoritmo per la Trasformata di Distanza Euclidea a più step. Ad ogni step, i valori di distanza vengono dapprima calcolati indipendentemente per ciascuna slice. Poi, i valori di distanza euclidea di un piccolo sottoinsieme di voxel appartenenti al bordo vengono scambiati tra slice adiacenti. Le metodologie introdotte sono propedeutiche allo sviluppo di un protocollo di docking proteina-proteina basato sul local feature matching. Test su benchmark hanno dimostrato che il descrittore congiunto di geometria ed elettrostaticità è in grado di identificare la complementarietà di forma e di distribuzione di carica nei siti di legame dei complessi proteina-proteina, confrontando efficientemente patch circolari di superficie e diminuendo notevolmente il numero di falsi positivi che altrimenti si avrebbero utilizzando un descrittore puramente geometrico. Negli esperimenti di validazione, i contorni delle proteine interagenti sono stati suddivisi in patch circolari: tutte le possibili coppie di patch dalle due proteine sono state valutate in termini di complementarietà ed è stato stilato un ranking generale. I risultati dimostrano che, quando si utilizza il nuovo descrittore, le coppie di patch native ottengono rank più alti rispetto a quelli ottenuti utilizzando il descrittore puramente geometrico.File | Dimensione | Formato | |
---|---|---|---|
daberdaku_sebastian_thesis.pdf
accesso aperto
Dimensione
21.34 MB
Formato
Adobe PDF
|
21.34 MB | Adobe PDF | Visualizza/Apri |
I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/20.500.14242/87052
URN:NBN:IT:UNIPD-87052