Generative Artificial Intelligence (AI) has emerged in recent years as a revolutionary technology with broad applications in science, included in biomedical research and healthcare. Generative AI comprises a family of models designed to create new instances of data from real data. Within Generative AI models, Large Language Models (LLMs) have gained success due to their ability to generate human-like text and perform complex reasoning tasks by leveraging deep neural networks trained on massive datasets. Their rapid adoption across biomedical domains has enabled research progress in several areas. In the context of bioinformatics and rare diseases, LLMs and related generative models have introduced new opportunities to analyze complex biological data and facilitate new discoveries. Examples of applications include the interpretation of genetic sequences, protein structure prediction, drug discovery through novel molecule generation. Furthermore, LLMs assist bioinformatics workflows by retrieving and summarizing scientific literature in genomics and proteomics, enabling more efficient and precise reporting of genomic variants and phenotypic information. Despite this progress, the adoption of LLMs in biomedical contexts faces several challenges. Reproducibility remains an issue due to the inherent stochasticity of generative models. Interpretability is limited by their black-box nature, complicating validation and presenting accountability issues. Data privacy is also an issue, as training such models often requires large data sets containing sensitive patient information. These challenges underline the importance of ethical control, domain-specific validation, and hybrid approaches that combine generative models with biomedical knowledge. This work explores two applications of LLMs within genetics: Var Chat, a tool for automating comprehensive genetic variant summaries, and PhenoXtract, a tool for the extraction of standardized phenotypic descriptions from clinical texts. Together, these applications demonstrate how LLMs can support genomics and clinical bioinformatics, also showing the need for hybrid strategies to overcome inherent model limitations. VarChat is a platform designed specifically to search, extract, and synthesize relevant results from the scientific literature on a genomic variant. By implementing a Retrieval-Augmented Generation (RAG) framework, VarChat retrieves variant-related publications, selects the most relevant text chunks, and provides them as input to the LLM. The model then generates reference-supported summaries that integrate the literature evidence into a comprehensive report. This approach ensures information accuracy while reducing the time required for variant literature curation and interpretation, offering clinicians and researchers an efficient, trustworthy tool for analyzing genetic variation. PhenoXtract is a tool for extracting phenotypic information from unstructured clinical data. PhenoXtract introduces a hybrid methodology that integrates LLMs with knowledge graph (KG) embeddings and the Human Phenotype Ontology (HPO), with the aim of mapping extracted terms to standardized HPO entries. VarChat demonstrates that a LLM powered by an optimized literature retrieval strategy approach can efficiently synthesize variant cu rated information and improve variant interpretation workflows. PhenoXtract shows that hybrid strategies combining LLMs with ontologies produce accurate, standardized outputs. Applied to rare disease context, the two tools illustrate complementary strategies for applying generative AI in variant interpretation and clinical text analysis. This work contributes to the application of generative AI to bioinformatics, highlighting the importance of combining generative AI with domain-specific knowledge resources to achieve reliable and clinically meaningful results.

L’intelligenza artificiale (IA) generativa è emersa negli ultimi anni come una tecnologia rivoluzionaria con ampie applicazioni nel campo scientifico, tra cui la ricerca biomedica e l’assistenza sanitaria. L’IA generativa comprende una famiglia di modelli progettati per creare nuovi esempi di dati a partire da dati reali. All’interno dei modelli di IA generativa, i modelli linguistici di grandi dimensioni (LLM) hanno riscosso successo grazie alla loro capacità di generare testi simili a quelli umani e di eseguire compiti di ragionamento complessi sfruttando reti neurali profonde addestrate su enormi set di dati. La loro rapida adozione in tutti i settori biomedici ha consentito progressi nella ricerca in diversi ambiti. Nel contesto della bioinformatica e delle malattie rare, gli LLM hanno introdotto nuove opportunità per analizzare dati biologici complessi e accelerare nuove scoperte. Esempi di applicazioni includono l’interpretazione di sequenze genetiche, la previsione della struttura delle proteine e la formulazione di farmaci attraverso la generazione di nuove molecole. Inoltre, gli LLM assistono i flussi di lavoro bioinformatici, recuperano e sintetizzano la letteratura scientifica in genomica e proteomica, consentendo una annotazione più efficiente e precisa delle varianti genomiche e delle informazioni fenotipiche. Nonostante questi progressi, l’adozione dei modelli LLM in contesti biomedici deve affrontare diverse sfide. La riproducibilità rimane un problema a causa della stocasticità intrinseca dei modelli generativi. L’interpretabilità degli LLM è limitata dalla loro natura di black box, che complica la convalida e presenta problemi di responsabilità. Anche la privacy dei dati è un problema, poiché l’addestramento di tali modelli richiede spesso grandi set di dati contenenti informazioni sensibili sui pazienti. Questo lavoro esplora due applicazioni degli LLM nel campo della genetica: VarChat, uno strumento per creare sintesi delle varianti genetiche, e PhenoXtract, uno strumento per l’estrazione di fenotipi standardizzati da testi clinici. Queste applicazioni dimostrano come gli LLM possano supportare la genomica e la bioinformatica clinica, evidenziando anche la necessità di strategie ibride per superare i limiti intrinseci dei modelli. VarChat è una piattaforma progettata per estrarre e sintetizzare risultati rilevanti dalla letteratura scientifica su una variante genomica. Con un framework di Retrieval-Augmented Generation (RAG), VarChat recupera le pubblicazioni relative alla variante, seleziona i chunks più rilevanti e li fornisce come input all’LLM. Il modello genera quindi riassunti supportati da riferimenti bibliografici. Questo approccio garantisce l’accuratezza delle informazioni riducendo al contempo il tempo necessario per l’interpretazione della letteratura sulle varianti, offrendo a clinici e ricercatori uno strumento efficiente e affidabile. PhenoXtract è uno strumento per l’estrazione di informazioni fenotipiche da dati clinici non strutturati, che introduce una metodologia ibrida che integra gli LLM con gli embedding di Knowledge Graphs (KG) e la Human Phenotype Ontology (HPO), con l’obiettivo di mappare i termini estratti alle voci HPO standardizzate. VarChat dimostra che un LLM basato su un approccio ottimizzato di recupero della letteratura è in grado di sintetizzare in modo efficiente le informazioni curate sulle varianti e migliorare i flussi di lavoro di interpretazione delle varianti. PhenoXtract dimostra che le strategie ibride che combinano LLM e ontologie producono risultati accurati e standardizzati. Applicati al contesto delle malattie rare, i due tools illustrano esempi complementari per l’applicazione dell’IA generativa. Questo lavoro contribuisce all’applicazione dell’IA generativa alla bioinformatica, sottolineando l’importanza di combinare l’IA con conoscenze specifiche del settore per risultati significativi.

Sviluppo e validazione di strumenti di intelligenza artificiale generativa applicati alle malattie genetiche rare.

BERARDELLI, SILVIA
2026

Abstract

Generative Artificial Intelligence (AI) has emerged in recent years as a revolutionary technology with broad applications in science, included in biomedical research and healthcare. Generative AI comprises a family of models designed to create new instances of data from real data. Within Generative AI models, Large Language Models (LLMs) have gained success due to their ability to generate human-like text and perform complex reasoning tasks by leveraging deep neural networks trained on massive datasets. Their rapid adoption across biomedical domains has enabled research progress in several areas. In the context of bioinformatics and rare diseases, LLMs and related generative models have introduced new opportunities to analyze complex biological data and facilitate new discoveries. Examples of applications include the interpretation of genetic sequences, protein structure prediction, drug discovery through novel molecule generation. Furthermore, LLMs assist bioinformatics workflows by retrieving and summarizing scientific literature in genomics and proteomics, enabling more efficient and precise reporting of genomic variants and phenotypic information. Despite this progress, the adoption of LLMs in biomedical contexts faces several challenges. Reproducibility remains an issue due to the inherent stochasticity of generative models. Interpretability is limited by their black-box nature, complicating validation and presenting accountability issues. Data privacy is also an issue, as training such models often requires large data sets containing sensitive patient information. These challenges underline the importance of ethical control, domain-specific validation, and hybrid approaches that combine generative models with biomedical knowledge. This work explores two applications of LLMs within genetics: Var Chat, a tool for automating comprehensive genetic variant summaries, and PhenoXtract, a tool for the extraction of standardized phenotypic descriptions from clinical texts. Together, these applications demonstrate how LLMs can support genomics and clinical bioinformatics, also showing the need for hybrid strategies to overcome inherent model limitations. VarChat is a platform designed specifically to search, extract, and synthesize relevant results from the scientific literature on a genomic variant. By implementing a Retrieval-Augmented Generation (RAG) framework, VarChat retrieves variant-related publications, selects the most relevant text chunks, and provides them as input to the LLM. The model then generates reference-supported summaries that integrate the literature evidence into a comprehensive report. This approach ensures information accuracy while reducing the time required for variant literature curation and interpretation, offering clinicians and researchers an efficient, trustworthy tool for analyzing genetic variation. PhenoXtract is a tool for extracting phenotypic information from unstructured clinical data. PhenoXtract introduces a hybrid methodology that integrates LLMs with knowledge graph (KG) embeddings and the Human Phenotype Ontology (HPO), with the aim of mapping extracted terms to standardized HPO entries. VarChat demonstrates that a LLM powered by an optimized literature retrieval strategy approach can efficiently synthesize variant cu rated information and improve variant interpretation workflows. PhenoXtract shows that hybrid strategies combining LLMs with ontologies produce accurate, standardized outputs. Applied to rare disease context, the two tools illustrate complementary strategies for applying generative AI in variant interpretation and clinical text analysis. This work contributes to the application of generative AI to bioinformatics, highlighting the importance of combining generative AI with domain-specific knowledge resources to achieve reliable and clinically meaningful results.
4-mar-2026
Inglese
L’intelligenza artificiale (IA) generativa è emersa negli ultimi anni come una tecnologia rivoluzionaria con ampie applicazioni nel campo scientifico, tra cui la ricerca biomedica e l’assistenza sanitaria. L’IA generativa comprende una famiglia di modelli progettati per creare nuovi esempi di dati a partire da dati reali. All’interno dei modelli di IA generativa, i modelli linguistici di grandi dimensioni (LLM) hanno riscosso successo grazie alla loro capacità di generare testi simili a quelli umani e di eseguire compiti di ragionamento complessi sfruttando reti neurali profonde addestrate su enormi set di dati. La loro rapida adozione in tutti i settori biomedici ha consentito progressi nella ricerca in diversi ambiti. Nel contesto della bioinformatica e delle malattie rare, gli LLM hanno introdotto nuove opportunità per analizzare dati biologici complessi e accelerare nuove scoperte. Esempi di applicazioni includono l’interpretazione di sequenze genetiche, la previsione della struttura delle proteine e la formulazione di farmaci attraverso la generazione di nuove molecole. Inoltre, gli LLM assistono i flussi di lavoro bioinformatici, recuperano e sintetizzano la letteratura scientifica in genomica e proteomica, consentendo una annotazione più efficiente e precisa delle varianti genomiche e delle informazioni fenotipiche. Nonostante questi progressi, l’adozione dei modelli LLM in contesti biomedici deve affrontare diverse sfide. La riproducibilità rimane un problema a causa della stocasticità intrinseca dei modelli generativi. L’interpretabilità degli LLM è limitata dalla loro natura di black box, che complica la convalida e presenta problemi di responsabilità. Anche la privacy dei dati è un problema, poiché l’addestramento di tali modelli richiede spesso grandi set di dati contenenti informazioni sensibili sui pazienti. Questo lavoro esplora due applicazioni degli LLM nel campo della genetica: VarChat, uno strumento per creare sintesi delle varianti genetiche, e PhenoXtract, uno strumento per l’estrazione di fenotipi standardizzati da testi clinici. Queste applicazioni dimostrano come gli LLM possano supportare la genomica e la bioinformatica clinica, evidenziando anche la necessità di strategie ibride per superare i limiti intrinseci dei modelli. VarChat è una piattaforma progettata per estrarre e sintetizzare risultati rilevanti dalla letteratura scientifica su una variante genomica. Con un framework di Retrieval-Augmented Generation (RAG), VarChat recupera le pubblicazioni relative alla variante, seleziona i chunks più rilevanti e li fornisce come input all’LLM. Il modello genera quindi riassunti supportati da riferimenti bibliografici. Questo approccio garantisce l’accuratezza delle informazioni riducendo al contempo il tempo necessario per l’interpretazione della letteratura sulle varianti, offrendo a clinici e ricercatori uno strumento efficiente e affidabile. PhenoXtract è uno strumento per l’estrazione di informazioni fenotipiche da dati clinici non strutturati, che introduce una metodologia ibrida che integra gli LLM con gli embedding di Knowledge Graphs (KG) e la Human Phenotype Ontology (HPO), con l’obiettivo di mappare i termini estratti alle voci HPO standardizzate. VarChat dimostra che un LLM basato su un approccio ottimizzato di recupero della letteratura è in grado di sintetizzare in modo efficiente le informazioni curate sulle varianti e migliorare i flussi di lavoro di interpretazione delle varianti. PhenoXtract dimostra che le strategie ibride che combinano LLM e ontologie producono risultati accurati e standardizzati. Applicati al contesto delle malattie rare, i due tools illustrano esempi complementari per l’applicazione dell’IA generativa. Questo lavoro contribuisce all’applicazione dell’IA generativa alla bioinformatica, sottolineando l’importanza di combinare l’IA con conoscenze specifiche del settore per risultati significativi.
MAGNI, PAOLO
Università degli studi di Pavia
File in questo prodotto:
File Dimensione Formato  
tesi_dottorato_Silvia_Berardelli_pdfa.pdf

embargo fino al 13/09/2027

Licenza: Tutti i diritti riservati
Dimensione 12.57 MB
Formato Adobe PDF
12.57 MB Adobe PDF

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14242/359469
Il codice NBN di questa tesi è URN:NBN:IT:UNIPV-359469