Applicazioni di Intelligenza Artificiale per la sorveglianza genomica, la modellistica epidemiologica e la predizione evolutiva di SARS-CoV-2

Rancati, Simone

In pandemic emergencies, genomic surveillance is crucial for early warning and anticipation of variants with high transmission potential; however, its effectiveness is often limited by slow response times and the late detection of variants, when they are already widespread in at-risk populations. Artificial intelligence (AI) can shift genomic surveillance from a retrospective reporting pipeline to a proactive, decision-support capability. As sequencing scales up and viral diversity evolves, unpredictability stems from three main factors: data heterogeneity and imbalance, delays and gaps in reference knowledge, and the lack of shared standards for quantitative evaluation in real-world operational settings. This thesis addresses these challenges by (i) delineating the domains in which “sequence-aware” models are reliable, (ii) developing unsupervised and generative tools to anticipate evolutionary trajectories, and (iii) proposing reusable pan-viral representations to support public-health analytics. Chapter 1 surveys the state of the art in AI-enabled genomic surveillance, highlighting achievements, open problems, and the operational context (data governance, privacy, and evaluation standards). Chapter 2 examines the interplay between the evolution of the COVID-19 pandemic and public-health management through an autoregressive model on European weekly indicators (including COVID-19 cases, hospitalizations, deaths, vaccinations, variants, and indices of pandemic response efficiency, such as the stringency index), and leverages advanced AI—including foundation models—for short-term incidence forecasting. Chapter 3 introduces DeepAutoCoV, an unsupervised framework for identifying SARS-CoV-2 variants that will become Future Dominant Lineages (FDLs). Chapter 4 presents SARITA, a domain-adapted autoregressive model for generating SARS-CoV-2 genomic sequences; the quality of synthetic sequences is assessed via evolutionary realism—for example, the model’s ability to predict variants that later emerged despite being absent from the training set. Chapter 5 develops MistrVirus, a pan-viral embedding based on the Mistral company's open source LLM model capable of representing genomic sequences belonging to different virus species in a multidimensional space; this representation can be used to train classifiers, for instance to distinguish viral from non-viral genomes. Chapter 6 provides overall conclusions, limitations, and a roadmap toward interpretable, “sequence-aware” AI for anticipatory public health. The studies in Chapters 2–5 were conducted at the University of Pavia (Biomedical Informatics Laboratory “Mario Stefanelli”) and the University of Florida, with computation on the HiPerGator HPC infrastructure provided by the University of Florida.

Nelle emergenze pandemiche, la sorveglianza genomica è cruciale per l’allerta precoce e l’anticipazione di varianti ad alto potenziale di diffusione; tuttavia la sua efficacia è spesso limitata da tempi di risposta lenti e dall’individuazione tardiva delle varianti, quando queste sono già ampiamente diffuse nella popolazione a rischio. L’intelligenza artificiale (AI) può trasformare la sorveglianza genomica da flusso di reporting retrospettivo a capacità proattiva di supporto alle decisioni. Con l’aumento del sequenziamento e l’evoluzione della diversità virale, l’imprevedibilità deriva da tre fattori principali: eterogeneità e squilibri dei dati, ritardi e lacune nelle conoscenze di riferimento, e assenza di standard condivisi per valutazioni quantitative in contesti operativi reali. Questa tesi affronta tali criticità (i) delimitando gli ambiti in cui i modelli “sequence-aware” sono affidabili, (ii) sviluppando strumenti non supervisionati e generativi per anticipare traiettorie evolutive, e (iii) proponendo rappresentazioni pan-virali riusabili a supporto della sanità pubblica. Il Capitolo 1 inquadra lo stato dell’arte della sorveglianza genomica basata su AI, evidenziando risultati, problemi aperti e contesto operativo (governance dei dati, privacy, standard di valutazione). Il Capitolo 2 descrive le interazioni tra l’evoluzione della pandemia COVID-19 e la gestione da parte delle autorità sanitarie, mediante un modello autoregressivo su indicatori settimanali europei (inclusi casi COVID-19, ricoveri, decessi, vaccinazioni, varianti, indici di efficienza alla risposta pandemica, come l’indice di stringenza,) e utilizza modelli avanzati di AI, inclusi i foundation models per la previsione a breve termine dell’incidenza. Il Capitolo 3 introduce DeepAutoCoV, un framework non supervisionato per identificare varianti del SARS-CoV-2 che diventeranno Future Dominant Lineages (FDL). Il Capitolo 4 presenta SARITA, un modello autoregressivo domain-adapted per la generazione di sequenze genomiche di SARS-CoV-2: la qualità delle sequenze sintetiche è valutata in base al realismo evolutivo, per esempio la capacità del modello di predire varianti realmente comparse, nonostante non siano state presenti nel dataset di allenamento. Il Capitolo 5 sviluppa MistrVirus, un embedding pan-virale basato sul modello LLM open source dell’azienda Mistral in grado di rappresentare le sequenze genomiche appartenenti a diverse specie di virus in uno spazio multidimensionale; tale rappresentazione può essere usata per allenare modelli di classificazione, per esempio per distinguere i genomi virali dai genomi non virali. Il Capitolo 6 riporta conclusioni complessive, limitazioni e una roadmap verso AI interpretabile e “sequencing-aware” per una sanità pubblica anticipatoria. Gli studi dei Capitoli 2–5 sono stati condotti presso l’Università di Pavia (Laboratorio di Informatica Biomedica BMI “Mario Stefanelli”) e presso l’Università della Florida, sfruttando infrastrutture HPC (Hipergator) offerte dall’Università della Florida.