Le varianti strutturali nel sequenziamento dell’intero genoma: verso una rilevazione più accurata per l’applicazione nella pratica clinica

Nardone, Giuseppe Giovanni

Structural Variants (SVs) are genomic alterations of at least 50 base pairs, including deletions, duplications, insertions, inversions, and translocations. These large-scale rearrangements can disrupt gene structure, alter regulatory regions, and contribute to the onset of rare diseases. The identification of SVs has evolved from traditional cytogenetic approaches to whole-genome sequencing (WGS) technologies. Short-read WGS (srWGS) offers a cost-effective solution for SV detection but has limitations in repetitive regions and in distinguishing homologous genes and pseudogenes. Conversely, long-read WGS (lrWGS), based on technologies such as PacBio and Oxford Nanopore (ONT), provides higher resolution and accuracy in complex genomic regions, overcoming many of the constraints of short-read sequencing. Despite the development of numerous bioinformatics tools, standardized protocols for SV detection from srWGS and lrWGS data are still lacking. This study aimed to systematically evaluate the performance of leading SV calling tools on both sequencing platforms, assessing the impact of aligner choice and reference genome type, and applying the findings to real clinical cases. Analyses were conducted using the reference sample HG002, focusing on deletions divided into eight length classes and evaluated using F1-score, precision, and recall metrics. For srWGS data, DRAGEN v4.2 achieved the highest overall performance (F1 = 83%), while the open-source combination of minimap2 and Manta produced comparable results (F1 = 81%), demonstrating that well-optimized non-commercial pipelines can reach state-of-the-art accuracy. The use of a graph-based reference genome improved SV detection in complex genomic regions compared with a linear reference. For lrWGS data, Sniffles2 achieved the best performance on PacBio datasets (F1 = 90%), while minimap2 and winnowmap proved to be the most effective aligners for ONT data. At coverage ≤20X, Duet outperformed other tools, whereas at higher coverage levels dysgu showed superior accuracy, indicating that optimal tool selection depends on sequencing depth and data characteristics. Clinical application of these findings demonstrated the diagnostic relevance of a combined srWGS/lrWGS approach. Using srWGS, a duplication involving the ATP2B2 gene was identified in a proband and her father, both affected by hereditary hearing loss, providing a likely molecular diagnosis. lrWGS confirmed a duplication involving PRDM13 and CCNC responsible for North Carolina Macular Dystrophy in a proband and her mother, representing the first reported Italian case of this disease. Additionally, lrWGS confirmed a deletion affecting DSG2, DSG3, and TTN, associated with arrhythmogenic biventricular cardiomyopathy in a 35-year-old male patient. Overall, this study provides a comprehensive benchmark for SV detection from short- and long-read sequencing data, highlighting the importance of aligner and reference genome selection. The results contribute to the establishment of more standardized practices for SV analysis and demonstrate how optimized bioinformatic pipelines can enhance computational performance, analytical robustness, and diagnostic yield in genomic sequencing.

Le varianti strutturali (Structural Variants, SVs) sono alterazioni genomiche di almeno 50 paia di basi, comprendenti delezioni, duplicazioni, inserzioni, inversioni e traslocazioni. Questi riarrangiamenti possono compromettere la struttura dei geni, alterare regioni regolatorie e contribuire all’insorgenza di malattie rare. L’identificazione delle SVs si è evoluta dai metodi citogenetici alle tecniche di sequenziamento dell’intero genoma (Whole Genome Sequencing, WGS). Il WGS basato su short reads (srWGS) è una soluzione economica ma limitata nelle regioni ripetitive del genoma, mentre il WGS basato su long reads (lrWGS), tramite tecnologie come PacBio e Oxford Nanopore (ONT), offre maggiore accuratezza e risoluzione nelle regioni complesse. Nonostante lo sviluppo di numerosi algoritmi bioinformatici, mancano protocolli standardizzati per la rilevazione delle SVs da dati srWGS e lrWGS. Questo studio ha mirato a valutare sistematicamente le prestazioni dei principali strumenti di chiamata delle SVs su entrambe le piattaforme di sequenziamento, analizzando degli algoritmi di allineamento e del genoma di riferimento, e applicando i risultati a casi clinici reali. Le analisi sono state condotte sul campione di riferimento HG002, considerando solo le delezioni, suddivise in otto classi di lunghezza, e valutando F1-score, precisione e recall. Nei dati srWGS, DRAGEN v4.2 ha mostrato le migliori prestazioni complessive (F1 = 83%), mentre la combinazione open-source minimap2-Manta ha raggiunto risultati comparabili (F1 = 81%), dimostrando che pipeline non commerciali possono garantire performance elevate. L’utilizzo di un genoma di riferimento basato su grafi ha migliorato la rilevazione delle SVs in regioni complesse rispetto al genoma lineare. Nei dati lrWGS, Sniffles2 ha ottenuto le migliori prestazioni sui dataset PacBio (F1 = 90%), mentre nei dati ONT minimap2 e winnowmap si sono confermati i migliori algoritmi di allineamento. A coverage ≤20X, Duet ha mostrato la performance più elevata, mentre a coverage superiori il software dysgu è risultato più accurato. L’applicazione clinica dei risultati ha dimostrato la rilevanza diagnostica dell’approccio combinato srWGS/lrWGS. Il srWGS ha permesso l’identificazione di una duplicazione del gene ATP2B2 associata a sordità ereditaria, mentre lrWGS ha confermato una duplicazione coinvolgente PRDM13 e CCNC responsabile della Distrofia Maculare del North Carolina, rappresentando il primo caso italiano documentato. Inoltre, lrWGS ha confermato una delezione nei geni DSG2, DSG3 e TTN, associata a cardiomiopatia aritmogena biventricolare. Nel complesso, questo studio fornisce un benchmark esteso per la rilevazione delle SVs da dati short e long reads, evidenziando l’impatto della scelta degli algoritmi di allinemento e del genoma di riferimento. I risultati contribuiscono alla definizione di pratiche più standardizzate per l’analisi delle SVs e dimostrano come pipeline bioinformatiche ottimizzate possano migliorare le prestazioni computazionali e la resa diagnostica del sequenziamento genomico.