Metabolomics, which consists of identifying all the metabolites present in the biological samples analysed, is an approach widely applied in various research fields such as biomarker identification, new drug development, food and environmental sciences. Metabolomics is closely linked to the ability of analytical techniques, one of the most widely applied being gas chromatography coupled to mass spectrometry. Modern analytical platforms can generate hundreds of thousands of spectra, detecting an impressive number of distinct molecules. Despite the technical progress achieved on the experimental side, the conversion of signals measured by instruments into useful information is not an obvious step in metabolomic studies. For each identified compound, the goal is to obtain the relative concentration among all analysed samples and the mass spectrum associated with the compound needed to identify the molecule itself. The software available for analysing experimental data has repeatedly been cited as a major source of uncertainty, severely limiting both the quantity and quality of the information extracted. The most applied tools are based on univariate data analysis, considering each sample separately from the others and requiring the operator to set several parameters, affecting the result of the analysis. In this thesis, a new approach, called AutoDise, for the analysis of GC-MS data is described. The processing of the experimental signals is based on PARAFAC2. PARAFAC2 is a model that decomposes multidimensional data, discriminating between different signals in the samples. Due to its properties, PARAFAC2 does not need the data to be pre-processed and does not require parameters to be set, whereas software used in this field requires several parameters to be defined and laborious pre-processing of the data, requiring the intervention of an expert user, and the reproducibility of the results is limited, depending on the parameters chosen by the user. However, fitting PARAFAC2 models involves several steps and an experienced analyst is needed to analyse and interpret the models. AutoDise is an expert system capable of handling all modelling steps and generating a peak table in which each compound is uniquely identified, with fully reproducible results. This is possible thanks to the combination of different diagnostic tools and the application of artificial intelligence models. The performance of the approach was tested on a complex dataset of olive oils obtained by GC-MS analysis. The data were analysed both manually, by experienced users, and automatically with the proposed AutoDise method and the resulting peak tables were compared. The results show that AutoDise outperforms manual analysis both in terms of the number of compounds identified and the quality of identification and quantification. In addition, a GUI was developed to make the algorithm more accessible to people not skilled in the programming language. The thesis includes a tutorial showing the main features and how to use the GUI. Another important part of the thesis was devoted to testing and developing new artificial neural networks to be implemented in the AutoDise software to detect which PARAFAC2 components are providing chemically useful information. To this end, more than 170,000 profiles were manually labelled in order to train, validate and test a convolutional neural network and a bilinear network with short-term memory and a k-nearest neighbour model. The results suggest that deep learning networks can be effectively applied for the automatic classification of chromatographic profiles.

La metabolomica, che consiste nella identificazione di tutti i metaboliti presenti all’interno dei campioni biologici analizzati, è un approccio ampiamente applicato in diversi campi di ricerca quali: identificazione di biomarcatori, sviluppo di nuovi farmaci, scienze alimentari e ambientali. La metabolomica è strettamente legata alla capacità di tecniche analitiche fra queste una delle più applicate è la gas cromatografia accoppiata alla spettrometria di massa. Moderne piattaforme analitiche possono generare centinaia di migliaia di spettri, rilevando una quantità impressionante di molecole distinte. Nonostante i progressi tecnici raggiunti sul lato sperimentale, la conversione dei segnali misurati dagli strumenti in informazioni utili non è un passaggio scontato in studi metabolomici. Per ogni composto identificato, l’obbiettivo è ottenere la concentrazione relativa tra tutti i campioni analizzati e lo spettro di massa associato al composto, necessario per l’identificazione della molecola stessa. I software disponibili per l’analisi dei dati sperimentali sono stati ripetutamente indicati come una fonte importante di incertezza, limitando fortemente sia la quantità che la qualità delle informazioni estratte. Gli strumenti più applicati richiedono l’impostazione di diversi parametri da parte dell’operatore, influenzando il risultato dell’analisi. In questa tesi è descritto un nuovo approccio, chiamato AutoDise, per l’analisi dei dati GC-MS. L’elaborazione dei segnali sperimentali si basa su PARAFAC2. PARAFAC2 è un modello che scompone dati multidimensionali, discriminando tra i diversi segnali nei campioni. Grazie alle sue proprietà, PARAFAC2 non ha bisogno che i dati siano pretrattati e non richiede di impostare parametri, mentre software utilizzati in questo ambito richiedono di definire diversi parametri e un laborioso pretrattamento dei dati, richiedendo l’intervento di un utente esperto, inoltre la riproducibilità dei risultati è limitata, dipendendo i parametri scelti dall’utente. Tuttavia, il fitting di modelli PARAFAC2 coinvolge diverse fasi ed è necessario un esperto analista per l’analisi e l’interpretazione dei modelli. AutoDise è un sistema esperto in grado di gestire tutti i passaggi riguardanti la modellazione e di generare una tabella dei picchi in cui ogni composto è identificato in modo univoco, con risultati completamente riproducibili. Questo è possibile grazie alla combinazione di diversi strumenti diagnostici e grazie all’ applicazione di modelli d’intelligenza artificiale. Le prestazioni dell’approccio sono state testate su un complesso dataset di oli d’oliva ottenuto tramite analisi GC-MS. I dati sono stati analizzati sia manualmente, da utenti esperti, sia automaticamente con il metodo AutoDise proposto e le tabelle dei picchi risultanti sono state confrontate. I risultati mostrano che AutoDise supera l’analisi manuale sia in termini di numero di composti identificati che di qualità dell’identificazione e della quantificazione. Inoltre, è stata sviluppata una GUI per rendere l’algoritmo più accessibile a persone non esperte nel linguaggio di programmazione. La tesi include un tutorial che mostra le caratteristiche principali e come utilizzare l’interfaccia grafica. Un’altra parte importante della tesi è stata dedicata al test e allo sviluppo di nuove reti neurali artificiali da implementare nel software AutoDise per rilevare quali componenti PARAFAC2 stanno fornendo informazioni chimicamente utili. A tal fine, più di 170.000 profili sono stati etichettati manualmente, al fine di addestrare, validare e testare una rete neurale convoluzionale e una rete bilineare con memoria a breve termine e un modello k-nearest neighbour. I risultati suggeriscono che le reti di deep learning possono essere efficacemente applicate per la classificazione automatica dei profili cromatografici.

Chemometrics approaches for the automatic analysis of metabolomics GC-MS data

BACCOLO, GIACOMO
2022

Abstract

Metabolomics, which consists of identifying all the metabolites present in the biological samples analysed, is an approach widely applied in various research fields such as biomarker identification, new drug development, food and environmental sciences. Metabolomics is closely linked to the ability of analytical techniques, one of the most widely applied being gas chromatography coupled to mass spectrometry. Modern analytical platforms can generate hundreds of thousands of spectra, detecting an impressive number of distinct molecules. Despite the technical progress achieved on the experimental side, the conversion of signals measured by instruments into useful information is not an obvious step in metabolomic studies. For each identified compound, the goal is to obtain the relative concentration among all analysed samples and the mass spectrum associated with the compound needed to identify the molecule itself. The software available for analysing experimental data has repeatedly been cited as a major source of uncertainty, severely limiting both the quantity and quality of the information extracted. The most applied tools are based on univariate data analysis, considering each sample separately from the others and requiring the operator to set several parameters, affecting the result of the analysis. In this thesis, a new approach, called AutoDise, for the analysis of GC-MS data is described. The processing of the experimental signals is based on PARAFAC2. PARAFAC2 is a model that decomposes multidimensional data, discriminating between different signals in the samples. Due to its properties, PARAFAC2 does not need the data to be pre-processed and does not require parameters to be set, whereas software used in this field requires several parameters to be defined and laborious pre-processing of the data, requiring the intervention of an expert user, and the reproducibility of the results is limited, depending on the parameters chosen by the user. However, fitting PARAFAC2 models involves several steps and an experienced analyst is needed to analyse and interpret the models. AutoDise is an expert system capable of handling all modelling steps and generating a peak table in which each compound is uniquely identified, with fully reproducible results. This is possible thanks to the combination of different diagnostic tools and the application of artificial intelligence models. The performance of the approach was tested on a complex dataset of olive oils obtained by GC-MS analysis. The data were analysed both manually, by experienced users, and automatically with the proposed AutoDise method and the resulting peak tables were compared. The results show that AutoDise outperforms manual analysis both in terms of the number of compounds identified and the quality of identification and quantification. In addition, a GUI was developed to make the algorithm more accessible to people not skilled in the programming language. The thesis includes a tutorial showing the main features and how to use the GUI. Another important part of the thesis was devoted to testing and developing new artificial neural networks to be implemented in the AutoDise software to detect which PARAFAC2 components are providing chemically useful information. To this end, more than 170,000 profiles were manually labelled in order to train, validate and test a convolutional neural network and a bilinear network with short-term memory and a k-nearest neighbour model. The results suggest that deep learning networks can be effectively applied for the automatic classification of chromatographic profiles.
2-mag-2022
Inglese
La metabolomica, che consiste nella identificazione di tutti i metaboliti presenti all’interno dei campioni biologici analizzati, è un approccio ampiamente applicato in diversi campi di ricerca quali: identificazione di biomarcatori, sviluppo di nuovi farmaci, scienze alimentari e ambientali. La metabolomica è strettamente legata alla capacità di tecniche analitiche fra queste una delle più applicate è la gas cromatografia accoppiata alla spettrometria di massa. Moderne piattaforme analitiche possono generare centinaia di migliaia di spettri, rilevando una quantità impressionante di molecole distinte. Nonostante i progressi tecnici raggiunti sul lato sperimentale, la conversione dei segnali misurati dagli strumenti in informazioni utili non è un passaggio scontato in studi metabolomici. Per ogni composto identificato, l’obbiettivo è ottenere la concentrazione relativa tra tutti i campioni analizzati e lo spettro di massa associato al composto, necessario per l’identificazione della molecola stessa. I software disponibili per l’analisi dei dati sperimentali sono stati ripetutamente indicati come una fonte importante di incertezza, limitando fortemente sia la quantità che la qualità delle informazioni estratte. Gli strumenti più applicati richiedono l’impostazione di diversi parametri da parte dell’operatore, influenzando il risultato dell’analisi. In questa tesi è descritto un nuovo approccio, chiamato AutoDise, per l’analisi dei dati GC-MS. L’elaborazione dei segnali sperimentali si basa su PARAFAC2. PARAFAC2 è un modello che scompone dati multidimensionali, discriminando tra i diversi segnali nei campioni. Grazie alle sue proprietà, PARAFAC2 non ha bisogno che i dati siano pretrattati e non richiede di impostare parametri, mentre software utilizzati in questo ambito richiedono di definire diversi parametri e un laborioso pretrattamento dei dati, richiedendo l’intervento di un utente esperto, inoltre la riproducibilità dei risultati è limitata, dipendendo i parametri scelti dall’utente. Tuttavia, il fitting di modelli PARAFAC2 coinvolge diverse fasi ed è necessario un esperto analista per l’analisi e l’interpretazione dei modelli. AutoDise è un sistema esperto in grado di gestire tutti i passaggi riguardanti la modellazione e di generare una tabella dei picchi in cui ogni composto è identificato in modo univoco, con risultati completamente riproducibili. Questo è possibile grazie alla combinazione di diversi strumenti diagnostici e grazie all’ applicazione di modelli d’intelligenza artificiale. Le prestazioni dell’approccio sono state testate su un complesso dataset di oli d’oliva ottenuto tramite analisi GC-MS. I dati sono stati analizzati sia manualmente, da utenti esperti, sia automaticamente con il metodo AutoDise proposto e le tabelle dei picchi risultanti sono state confrontate. I risultati mostrano che AutoDise supera l’analisi manuale sia in termini di numero di composti identificati che di qualità dell’identificazione e della quantificazione. Inoltre, è stata sviluppata una GUI per rendere l’algoritmo più accessibile a persone non esperte nel linguaggio di programmazione. La tesi include un tutorial che mostra le caratteristiche principali e come utilizzare l’interfaccia grafica. Un’altra parte importante della tesi è stata dedicata al test e allo sviluppo di nuove reti neurali artificiali da implementare nel software AutoDise per rilevare quali componenti PARAFAC2 stanno fornendo informazioni chimicamente utili. A tal fine, più di 170.000 profili sono stati etichettati manualmente, al fine di addestrare, validare e testare una rete neurale convoluzionale e una rete bilineare con memoria a breve termine e un modello k-nearest neighbour. I risultati suggeriscono che le reti di deep learning possono essere efficacemente applicate per la classificazione automatica dei profili cromatografici.
Chemiometria; GC-MS; Metabolomica; A.I.; Sistema esperto
ORLANDI, MARCO EMILIO
BALLABIO, DAVIDE
Università degli Studi di Milano-Bicocca
File in questo prodotto:
File Dimensione Formato  
phd_unimib_753583.pdf

accesso aperto

Dimensione 16.76 MB
Formato Adobe PDF
16.76 MB Adobe PDF Visualizza/Apri

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14242/72399
Il codice NBN di questa tesi è URN:NBN:IT:UNIMIB-72399