Dalla complessità alla comprensione nella ricerca alimentare e ambientale attraverso approcci non mirati e analisi avanzata dei dati

Pellacani, Samuele

Untargeted analysis refers to the comprehensive detection of all relevant components in a sample without prior knowledge of their chemical structure. Despite its great potential, this approach remains challenging due to limitations in sample preparation, data handling, and standardisation. Sample preparation is a crucial step influencing the quality of untargeted data. Food and environmental matrices contain numerous interfering substances that may cause matrix effects, hinder analyte recovery, and reduce sensitivity. Extraction and isolation procedures are therefore critical, yet often lead to degradation or loss of analytes, especially in the absence of specific guidelines. Such effects alter the signal-to-noise ratio and compromise accuracy and reproducibility. The enormous amount of data generated by untargeted analyses, often reaching the order of gigabytes as in liquid chromatography–high-resolution mass spectrometry (LC–HRMS), makes data processing one of the most demanding steps. Early inaccuracies in feature extraction or alignment can propagate throughout the workflow, undermining reproducibility and interpretation. Because of the high dimensionality of the data, reduction, and compression are essential but must preserve meaningful chemical information. Random and chemical noise inevitably produce false positives, while the lack of harmonised workflows and the low coherence among software platforms result in limited overlap of detected features and poor comparability across studies. Another major challenge arises from the propagation of computational errors and the “black-box” nature of many data-processing tools. Feature detection, peak alignment, and deconvolution algorithms depend on numerous parameters that are difficult to optimise, leading to inconsistent results and reduced transparency. Even small variations in these parameters can significantly alter the final dataset; therefore, rigorous validation of workflows is essential to ensure analytical reliability. This thesis systematically addresses these challenges through the development and critical evaluation of untargeted workflows, encompassing both data acquisition and analysis. Initially, extraction and instrumental conditions for untargeted metabolomic analysis were optimised by means of experimental design, with emphasis on defining suitable multivariate responses. Advanced data analysis methodologies, such as the Region of Interest–Multivariate Curve Resolution (ROI–MCR) approach for LC–HRMS data, were assessed and compared with both proprietary (Compound Discoverer) and open-source (MS-DIAL) software in terms of feature consistency, reliability, and susceptibility to false positives. Untargeted workflows were also applied and validated in diverse contexts, including the detection and quantification of caramel in Balsamic Vinegar of Modena PGI and the authentication of Italian honey. A workflow for gas chromatography–ion mobility spectrometry (GC–IMS) data was developed and evaluated for reproducibility and robustness. Finally, a hydrophilic interaction liquid chromatography–mass spectrometry (HILIC–MS) method was optimised for the determination of eleven emerging contaminants. Although designed as a targeted approach, its multivariate optimisation and subsequent application to the untargeted screening of emerging contaminants in surface and groundwater exemplify the integrative philosophy underpinning this work. Overall, this thesis provides a comprehensive evaluation of untargeted analytical workflows, highlighting the interplay between sample preparation, instrumental performance, and data-processing strategies, and offering methodological insights to improve data quality, reproducibility, and interpretability in untargeted studies.

L’analisi untargeted si riferisce alla rilevazione completa di tutti i componenti rilevanti presenti in un campione, senza conoscenze a priori sulla loro struttura chimica. Nonostante l’elevato potenziale, questo approccio rimane complesso a causa delle limitazioni legate alla preparazione del campione, alla gestione dei dati e alla mancanza di standardizzazione. La preparazione del campione è una fase cruciale che influisce sulla qualità dei dati. Le matrici alimentari e ambientali contengono sostanze interferenti che possono causare effetti matrice, ridurre il recupero degli analiti e la sensibilità. Le procedure di estrazione e isolamento, spesso prive di linee guida, possono provocare degradazione, perdita di analiti, alterando il rapporto segnale/rumore e compromettendo accuratezza e riproducibilità. L’enorme quantità di dati generata dalle analisi untargeted, spesso dell’ordine di gigabyte, come nella cromatografia liquida accoppiata a spettrometria di massa ad alta risoluzione (LC–HRMS), rende l’elaborazione uno degli stadi più critici. Errori nelle prime fasi di estrazione o allineamento delle feature possono propagarsi lungo l’intero workflow, riducendo la riproducibilità e la qualità interpretativa. A causa dell’elevata dimensionalità, la riduzione è indispensabile ma deve preservare le informazioni chimiche significative. Il rumore casuale genera falsi positivi, mentre la scarsa coerenza tra software e la mancanza di procedure armonizzate portano a una limitata sovrapposizione delle feature e a bassa comparabilità tra studi. Una criticità deriva dalla propagazione degli errori computazionali e dalla natura “black-box” di molti strumenti di elaborazione. Gli algoritmi di rilevamento dei picchi, allineamento e deconvoluzione dipendono da numerosi parametri difficili da ottimizzare, con risultati talvolta incoerenti e scarsa trasparenza. Anche minime variazioni possono modificare significativamente il dataset finale; per questo la validazione dei workflow è essenziale per garantire affidabilità analitica. Questa tesi affronta tali problematiche attraverso lo sviluppo e la valutazione critica di workflow untargeted, comprendenti sia l’acquisizione sia l’elaborazione dei dati. Sono state ottimizzate le condizioni di estrazione e strumentali per l’analisi metabolomica mediante design sperimentale, con attenzione alla definizione di risposte multivariate adeguate. Metodologie avanzate di elaborazione, come l’approccio Region of Interest–Multivariate Curve Resolution (ROI–MCR) per dati LC–HRMS, sono state confrontate con software proprietari (Compound Discoverer) e open-source (MS-DIAL) in termini di coerenza delle feature e suscettibilità ai falsi positivi. I workflow untargeted sono stati applicati e validati in diversi contesti, tra cui la quantificazione del caramello nell’Aceto Balsamico di Modena IGP e l’autenticazione del miele italiano. È stato inoltre sviluppato un workflow per la gascromatografia–spettrometria a mobilità ionica (GC–IMS), valutato per riproducibilità e robustezza. Infine, un metodo basato su cromatografia liquida interazionale idrofila–spettrometria di massa (HILIC–MS) è stato ottimizzato per la determinazione di undici contaminanti emergenti. Sebbene concepito come approccio mirato, la sua ottimizzazione multivariata e l’applicazione allo screening untargeted di contaminanti in acque superficiali e sotterranee riflettono la filosofia integrativa di questo lavoro. Complessivamente, la tesi offre una valutazione approfondita dei workflow analitici untargeted, evidenziando l’interazione tra preparazione del campione, prestazioni strumentali e strategie di elaborazione dei dati, e fornendo indicazioni metodologiche per migliorare qualità, riproducibilità e interpretabilità negli studi untargeted.