Single-cell omics have revolutionized tissue analysis, enabling detailed classification of cell types. In particular, single-cell RNA sequencing (scRNA-seq) has been widely employed to study cell transcriptomic profiles with unprecedent resolution. Accurate identification of cell identities is crucial for the correct interpretation of downstream analyses – e.g., cell-cell interactions and gene regulatory networks discovery – but remains challenging due to technical artifacts, biological variability, and the high dimensionality of the data. Rigorous quality control (QC) and filtering processes are essential to mitigate these confounding factors and ensure reliable results. Robust QC measures are therefore critical for improving single-cell omic data interpretation. In order to help researchers in these tasks, we developed popsicleR, a flexible and user-friendly R package for scRNA-seq data preprocessing. A further challenge is distinguishing the key features associated with cell identity. Despite existing solutions, the high noise level and sparsity of measured features – such as gene expression levels in scRNA-seq – remain significant obstacles. To address these issues, we introduce scPleiades, a novel R pipeline designed to improve cell classification for scRNA-seq and other single-cell omics. scPleiades employs a novel metric that improves resilience to noise and enhances the identification of distinct cell populations. By applying our tool to publicly available scRNA-seq, scATAC-seq, and multiomic datasets from human cells, we demonstrate its ability to achieve more refined clustering and improved biological interpretability compared to existing methods. Furthermore, our pipeline can be easily applied to different omic data and can handle multiomic assays at once. While scPleiades addresses key challenges in traditional single-cell omics, the rising complexity of spatial transcriptomics requires even more sophisticated approaches. Advances in spatially resolved single-cell transcriptomic data retain spatial information alongside transcriptomic data, offering unprecedented insights into tissue architecture. However, these technologies also demand robust QC pipelines and segmentation methods to effectively filter artifacts. In particular, segmentation step is one of the most important sources of artifacts in imaging-based spatial technologies and its quality is crucial for all downstream analysis. We evaluated the quality of different segmentation algorithms in spatial transcriptomic to highlight their impact in determining the results quality for spatial single-cell approaches. This work underscores the importance of QC and artifacts filtering as a general approach in single-cell analysis to assure a correct interpretation of the results, focusing on both non-spatial and spatial technologies.

Le tecnologie omiche a singola cellula hanno rivoluzionato l’analisi dei tessuti, permettendo una classificazione dettagliata dei tipi cellulari. In particolare, il sequenziamento dell’RNA a singola cellula (scRNA-seq) è stato applicato su larga scala per studiare i profili trascrizionali delle cellule con una risoluzione mai vista prima. L’identificazione accurata delle identità cellulari è cruciale per la corretta interpretazione delle analisi seguenti (per esempio la ricerca di comunicazioni tra cellule o di reti di regolazione genica). Tuttavia, rimane una sfida a causa di artefatti tecnici, della variabilità biologica e della grande dimensionalità dei dati. Un controllo qualità rigoroso e processi di filtraggio sono essenziali per mitigare tali fattori confondenti e assicurare risultati affidabili. Metriche robuste associate ai controlli qualità sono quindi fondamentali per migliorare l’interpretazione dei dati omici a singola cellula. Abbiamo sviluppato popsicleR, uno pacchetto di R flessibile e facile da applicare per l’analisi di dati di scRNA-seq, proprio con lo scopo di aiutare i ricercatori in queste operazioni. Una sfida ulteriore è rappresentata nel distinguere i fattori fondamentali associati all’identità cellulare. Nonostante esistano diverse soluzioni, l’elevato livello di rumore e la sparsità dei fattori misurati (ad esempio i livelli di espressione genica in scRNA-seq) rimangono ostacoli significativi. Introduciamo scPleiades, una nuova procedura in R disegnata per migliorare la classificazione delle cellule per scRNA-seq e altre tecnologie omiche, con lo scopo di affrontare queste problematiche. scPleiades sfrutta una nuova metrica che migliora la resilienza nei confronti del rumore e migliora l’identificazione delle distinte popolazioni cellulari. Tramite l’applicazione del nostro strumento a dataset pubblici umani di scRNa-seq, scATAC-seq e multiomici, abbiamo dimostrato la sua abilità nel generare raggruppamenti cellualri più definiti e migliorare l’interpretabilità biologica rispetto ad altri approcci esistenti. Inoltre, la nostra applicazione può essere facilmente applicata a differenti dati omici e può gestire in un unico passaggio anche dati multiomici. Nonostante scPleiades affronti problematiche chiave nelle tradizionali tecnologie omiche a singola cellula, la crescente complessità dei dati omici spaziali richiede approcci ulteriormente sofisticati. I miglioramenti nelle tecnologie trascrizionali risolte spazialmente permettono di mantenere l’informazione spaziale associata con i dati trascrizionali, offrendo una risoluzione senza precedenti sull’architettura spaziale dei tessuti. Nonostante ciò, queste tecnologie richiedono anche controlli qualità robusti e processi di segmentazione per filtrare correttamente vari artefatti. In particolare, il processo di segmentazione è uno delle più importanti fonti di artefatti nelle tecnologie basate sull’acquisizione di immagini e la sua qualità è fondamentale per tutte le seguenti analisi. Abbiamo valutato la bontà di diversi algoritmi di segmentazione nella trascrittomica spaziale per mettere in luce il loro ruolo nel determinare la qualità dei risultati per gli approcci spaziali a singola cellula. Questo lavoro sottolinea l’importanza dei controlli qualità e del filtraggio degli artefatti come approccio generale nelle analisi di dati a singola cellula per assicurare una corretta interpretazione dei risultati, concentrandosi sia su tecnologie non spaziali che spaziali.

Superare le sfide nella caratterizzazione delle popolazioni cellulari nei dati omici a cellula singola

MARCHIONNI, MATTEO
2025

Abstract

Single-cell omics have revolutionized tissue analysis, enabling detailed classification of cell types. In particular, single-cell RNA sequencing (scRNA-seq) has been widely employed to study cell transcriptomic profiles with unprecedent resolution. Accurate identification of cell identities is crucial for the correct interpretation of downstream analyses – e.g., cell-cell interactions and gene regulatory networks discovery – but remains challenging due to technical artifacts, biological variability, and the high dimensionality of the data. Rigorous quality control (QC) and filtering processes are essential to mitigate these confounding factors and ensure reliable results. Robust QC measures are therefore critical for improving single-cell omic data interpretation. In order to help researchers in these tasks, we developed popsicleR, a flexible and user-friendly R package for scRNA-seq data preprocessing. A further challenge is distinguishing the key features associated with cell identity. Despite existing solutions, the high noise level and sparsity of measured features – such as gene expression levels in scRNA-seq – remain significant obstacles. To address these issues, we introduce scPleiades, a novel R pipeline designed to improve cell classification for scRNA-seq and other single-cell omics. scPleiades employs a novel metric that improves resilience to noise and enhances the identification of distinct cell populations. By applying our tool to publicly available scRNA-seq, scATAC-seq, and multiomic datasets from human cells, we demonstrate its ability to achieve more refined clustering and improved biological interpretability compared to existing methods. Furthermore, our pipeline can be easily applied to different omic data and can handle multiomic assays at once. While scPleiades addresses key challenges in traditional single-cell omics, the rising complexity of spatial transcriptomics requires even more sophisticated approaches. Advances in spatially resolved single-cell transcriptomic data retain spatial information alongside transcriptomic data, offering unprecedented insights into tissue architecture. However, these technologies also demand robust QC pipelines and segmentation methods to effectively filter artifacts. In particular, segmentation step is one of the most important sources of artifacts in imaging-based spatial technologies and its quality is crucial for all downstream analysis. We evaluated the quality of different segmentation algorithms in spatial transcriptomic to highlight their impact in determining the results quality for spatial single-cell approaches. This work underscores the importance of QC and artifacts filtering as a general approach in single-cell analysis to assure a correct interpretation of the results, focusing on both non-spatial and spatial technologies.
10-giu-2025
Inglese
Le tecnologie omiche a singola cellula hanno rivoluzionato l’analisi dei tessuti, permettendo una classificazione dettagliata dei tipi cellulari. In particolare, il sequenziamento dell’RNA a singola cellula (scRNA-seq) è stato applicato su larga scala per studiare i profili trascrizionali delle cellule con una risoluzione mai vista prima. L’identificazione accurata delle identità cellulari è cruciale per la corretta interpretazione delle analisi seguenti (per esempio la ricerca di comunicazioni tra cellule o di reti di regolazione genica). Tuttavia, rimane una sfida a causa di artefatti tecnici, della variabilità biologica e della grande dimensionalità dei dati. Un controllo qualità rigoroso e processi di filtraggio sono essenziali per mitigare tali fattori confondenti e assicurare risultati affidabili. Metriche robuste associate ai controlli qualità sono quindi fondamentali per migliorare l’interpretazione dei dati omici a singola cellula. Abbiamo sviluppato popsicleR, uno pacchetto di R flessibile e facile da applicare per l’analisi di dati di scRNA-seq, proprio con lo scopo di aiutare i ricercatori in queste operazioni. Una sfida ulteriore è rappresentata nel distinguere i fattori fondamentali associati all’identità cellulare. Nonostante esistano diverse soluzioni, l’elevato livello di rumore e la sparsità dei fattori misurati (ad esempio i livelli di espressione genica in scRNA-seq) rimangono ostacoli significativi. Introduciamo scPleiades, una nuova procedura in R disegnata per migliorare la classificazione delle cellule per scRNA-seq e altre tecnologie omiche, con lo scopo di affrontare queste problematiche. scPleiades sfrutta una nuova metrica che migliora la resilienza nei confronti del rumore e migliora l’identificazione delle distinte popolazioni cellulari. Tramite l’applicazione del nostro strumento a dataset pubblici umani di scRNa-seq, scATAC-seq e multiomici, abbiamo dimostrato la sua abilità nel generare raggruppamenti cellualri più definiti e migliorare l’interpretabilità biologica rispetto ad altri approcci esistenti. Inoltre, la nostra applicazione può essere facilmente applicata a differenti dati omici e può gestire in un unico passaggio anche dati multiomici. Nonostante scPleiades affronti problematiche chiave nelle tradizionali tecnologie omiche a singola cellula, la crescente complessità dei dati omici spaziali richiede approcci ulteriormente sofisticati. I miglioramenti nelle tecnologie trascrizionali risolte spazialmente permettono di mantenere l’informazione spaziale associata con i dati trascrizionali, offrendo una risoluzione senza precedenti sull’architettura spaziale dei tessuti. Nonostante ciò, queste tecnologie richiedono anche controlli qualità robusti e processi di segmentazione per filtrare correttamente vari artefatti. In particolare, il processo di segmentazione è uno delle più importanti fonti di artefatti nelle tecnologie basate sull’acquisizione di immagini e la sua qualità è fondamentale per tutte le seguenti analisi. Abbiamo valutato la bontà di diversi algoritmi di segmentazione nella trascrittomica spaziale per mettere in luce il loro ruolo nel determinare la qualità dei risultati per gli approcci spaziali a singola cellula. Questo lavoro sottolinea l’importanza dei controlli qualità e del filtraggio degli artefatti come approccio generale nelle analisi di dati a singola cellula per assicurare una corretta interpretazione dei risultati, concentrandosi sia su tecnologie non spaziali che spaziali.
Omica sc; Analisi dati; Controlli qualità; Omica spaziale; R
FORCATO, Mattia
DE LUCA, Michele
Università degli studi di Modena e Reggio Emilia
File in questo prodotto:
File Dimensione Formato  
Marchionni.pdf

embargo fino al 09/06/2028

Dimensione 12.07 MB
Formato Adobe PDF
12.07 MB Adobe PDF

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14242/212369
Il codice NBN di questa tesi è URN:NBN:IT:UNIMORE-212369