La presente tesi descrive il progetto di ricerca in Bioingegneria per la Proteomica Computazionale svolto durante i tre anni di dottorato (Gennaio 2008 - Gennaio 2011). L’attività di ricerca è stata incentrata sulla progettazione e lo sviluppo di metodi per l’analisi di dati di Proteomica basata su Spettrometria di Massa. Nell’introduzione si illustrano brevemente i temi principali trattati nella tesi, fornendo così lo schema del lavoro svolto. Si considerano quindi i 2 problemi principali associati all’analisi dati, cioè la gestione e quantificazione dei dati, e vengono presentate le soluzioni descritte nel prosieguo. I primi due capitoli sono introduttivi al settore della Proteomica e della Spettrometria di Massa. L’obiettivo è fornire al lettore tutte le informazioni necessarie per meglio comprendere la Proteomica Quantitativa basata su Spettrometria di Massa. Il Capitolo 1 spiega in che modo sia nata la Proteomica, ossia come il complemento proteico del genoma. Dopodiché, si espongono le principali applicazioni legate alla Proteomica e i suoi obiettivi, spaziando dagli aspetti clinici, alla farmaceutica, fino alla biologia dei sistemi. Il secondo Capitolo invece è legato agli aspetti tecnici e mostra le principali tecnologie e strumentazioni usate in Proteomica basata su Spettrometria di Massa. I setup sperimentali più comuni sono quindi illustrati e, tra tutti, ci si focalizza in particolare sulla Spettrometria di Massa abbinata a Cromatografia Liquida (LC-MS), che è la principale tecnica per esperimenti di Proteomica Quantitativa basata su Spettrometria di Massa. Il terzo Capitolo presenta i concetti fondamentali necessari per introdurre il lettore al tema principale del progetto di ricerca di Dottorato, ossia lo sviluppo di metodi bioinformatici per la gestione e la quantificazione di dati di Proteomica Quantitativa basata su Spettrometria di Massa, in particolare per l’analisi di dati quantitativi di LC-MS. Infatti, i dati di LC-MS hanno un alto contenuto informativo per scopi quantitativi, però sono estremamente problematici da analizzare. Sono quindi riassunti i setup sperimentali per la Proteomica Quantitativa basata su LC-MS così come le caratteristiche dei dati che sono state determinanti per lo sviluppo delle soluzioni proposte (ossia la struttura 3D dei dati LC-MS e l’alto contenuto informativo dei dati profile). Nel quarto Capitolo vengono descritti lo stato dell’arte, sia per la gestione che la quantificazione dei dati, e i relativi problemi aperti, che verranno trattati nei capitoli seguenti dove si propongono possibili soluzioni. Il Capitolo 5 è interamente dedicato alla descrizione tecnica dei dati utilizzati per validare le metodologie proposte. Si tratta di dati LC-MS generati da una mistura di proteine tracciate ed a rapporti di quantificazione note. Di ogni esperimento sono disponibili tre repliche. In particolare, questa tesi presenta 2 software per la gestione e la quantificazione di dati di Proteomica Quantitativa basata su Spettrometria di Massa. Il Capitolo 6 presenta la soluzione proposta per risolvere i problemi di gestione dati. Si tratta di un approccio di indicizzazione 2D scalabile che è stato implementato tramite una struttura dati basata sull’R-tree, chiamata mzRTree, e si basa sulla rappresentazione del dataset come matrice sparsa, che ben si adatta a dati di LC-MS e più in generale di Spettrometria di Massa. Nello specifico, mzRTree consente di accedere e memorizzare efficientemente i dati, rendendo così possibile un’analisi computazionalmente sostenibile di dati profile. Per quel che concerne la quantificazione, il Capitolo 7 illustra la soluzione proposta per il problema della quantificazione, 3DSpectra, un innovativo metodo di quantificazione che sfrutta sia la 3-dimensionalità dei dati LC-MS, sia l’alto contenuto informativo dei dati profile. 3DSpectra applica infatti un approccio 3D al riconoscimento della distribuzione isotopica del peptide da quantificare basato sul fit tramite l’algoritmo Expectation-Maximization di un Modello 3D a Mistura di Gaussiane. Tale modello consente di identificare i bordi del segnale da quantificare e di rigettare il rumore presente. 3DSpectra incorpora un’affidabile ed accurata strategia di quantificazione per dati LC-MS tracciati e acquisiti in modalità profile. Soprattutto, 3DSpectra offre, a livello di quantificazione, un’estesa e riproducibile copertura del proteoma. Nella sezione conclusiva della tesi si discute il lavoro futuro e in corso, che riguarda essenzialmente ulteriori sviluppi sia della struttura dati, mzRTree, che del software di quantificazione, 3DSpectra.
MASS SPECTROMETRY-BASED PROTEOMICS: A 3D APPROACH TO DATA HANDLING AND QUANTIFICATION
NASSO, SARA
2011
Abstract
La presente tesi descrive il progetto di ricerca in Bioingegneria per la Proteomica Computazionale svolto durante i tre anni di dottorato (Gennaio 2008 - Gennaio 2011). L’attività di ricerca è stata incentrata sulla progettazione e lo sviluppo di metodi per l’analisi di dati di Proteomica basata su Spettrometria di Massa. Nell’introduzione si illustrano brevemente i temi principali trattati nella tesi, fornendo così lo schema del lavoro svolto. Si considerano quindi i 2 problemi principali associati all’analisi dati, cioè la gestione e quantificazione dei dati, e vengono presentate le soluzioni descritte nel prosieguo. I primi due capitoli sono introduttivi al settore della Proteomica e della Spettrometria di Massa. L’obiettivo è fornire al lettore tutte le informazioni necessarie per meglio comprendere la Proteomica Quantitativa basata su Spettrometria di Massa. Il Capitolo 1 spiega in che modo sia nata la Proteomica, ossia come il complemento proteico del genoma. Dopodiché, si espongono le principali applicazioni legate alla Proteomica e i suoi obiettivi, spaziando dagli aspetti clinici, alla farmaceutica, fino alla biologia dei sistemi. Il secondo Capitolo invece è legato agli aspetti tecnici e mostra le principali tecnologie e strumentazioni usate in Proteomica basata su Spettrometria di Massa. I setup sperimentali più comuni sono quindi illustrati e, tra tutti, ci si focalizza in particolare sulla Spettrometria di Massa abbinata a Cromatografia Liquida (LC-MS), che è la principale tecnica per esperimenti di Proteomica Quantitativa basata su Spettrometria di Massa. Il terzo Capitolo presenta i concetti fondamentali necessari per introdurre il lettore al tema principale del progetto di ricerca di Dottorato, ossia lo sviluppo di metodi bioinformatici per la gestione e la quantificazione di dati di Proteomica Quantitativa basata su Spettrometria di Massa, in particolare per l’analisi di dati quantitativi di LC-MS. Infatti, i dati di LC-MS hanno un alto contenuto informativo per scopi quantitativi, però sono estremamente problematici da analizzare. Sono quindi riassunti i setup sperimentali per la Proteomica Quantitativa basata su LC-MS così come le caratteristiche dei dati che sono state determinanti per lo sviluppo delle soluzioni proposte (ossia la struttura 3D dei dati LC-MS e l’alto contenuto informativo dei dati profile). Nel quarto Capitolo vengono descritti lo stato dell’arte, sia per la gestione che la quantificazione dei dati, e i relativi problemi aperti, che verranno trattati nei capitoli seguenti dove si propongono possibili soluzioni. Il Capitolo 5 è interamente dedicato alla descrizione tecnica dei dati utilizzati per validare le metodologie proposte. Si tratta di dati LC-MS generati da una mistura di proteine tracciate ed a rapporti di quantificazione note. Di ogni esperimento sono disponibili tre repliche. In particolare, questa tesi presenta 2 software per la gestione e la quantificazione di dati di Proteomica Quantitativa basata su Spettrometria di Massa. Il Capitolo 6 presenta la soluzione proposta per risolvere i problemi di gestione dati. Si tratta di un approccio di indicizzazione 2D scalabile che è stato implementato tramite una struttura dati basata sull’R-tree, chiamata mzRTree, e si basa sulla rappresentazione del dataset come matrice sparsa, che ben si adatta a dati di LC-MS e più in generale di Spettrometria di Massa. Nello specifico, mzRTree consente di accedere e memorizzare efficientemente i dati, rendendo così possibile un’analisi computazionalmente sostenibile di dati profile. Per quel che concerne la quantificazione, il Capitolo 7 illustra la soluzione proposta per il problema della quantificazione, 3DSpectra, un innovativo metodo di quantificazione che sfrutta sia la 3-dimensionalità dei dati LC-MS, sia l’alto contenuto informativo dei dati profile. 3DSpectra applica infatti un approccio 3D al riconoscimento della distribuzione isotopica del peptide da quantificare basato sul fit tramite l’algoritmo Expectation-Maximization di un Modello 3D a Mistura di Gaussiane. Tale modello consente di identificare i bordi del segnale da quantificare e di rigettare il rumore presente. 3DSpectra incorpora un’affidabile ed accurata strategia di quantificazione per dati LC-MS tracciati e acquisiti in modalità profile. Soprattutto, 3DSpectra offre, a livello di quantificazione, un’estesa e riproducibile copertura del proteoma. Nella sezione conclusiva della tesi si discute il lavoro futuro e in corso, che riguarda essenzialmente ulteriori sviluppi sia della struttura dati, mzRTree, che del software di quantificazione, 3DSpectra.File | Dimensione | Formato | |
---|---|---|---|
PhD_thesis_Nasso_Sara.pdf
accesso aperto
Dimensione
5.05 MB
Formato
Adobe PDF
|
5.05 MB | Adobe PDF | Visualizza/Apri |
I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/20.500.14242/110234
URN:NBN:IT:UNIPD-110234