Migliorare le pipeline di Retrieval Augmented Generation per il Question Answering su documenti.

Granata, Francesco Maria

This research, conducted in collaboration with Altilia, addresses the critical challenge of optimizing Retrieval-Augmented Generation (RAG) pipelines to enhance Question Answering (QA) systems over documents in enterprise settings. The primary research objective is the advancement of AltiliaGPT, the generative AI engine within Altilia's Intelligent Document Processing (IDP) platform, whose commercial effectiveness directly depends on the accuracy, robustness, and reliability of its generated answers. This work is positioned at the intersection of industrial needs for user-friendly AI tools and the academic imperative to develop rigorous methodologies for improving and evaluating such systems. The research path was structured into three evolutionary phases. The initial phase was dedicated to a deep review of the state-of-the-art in Information Retrieval (IR) and skill acquisition in fine-tuning frameworks (e.g., PEFT, TRL). Concurrently, emerging evaluation methodologies like the "LLM-as-a-judge" paradigm (e.g., RAGAS, TrueLens) were investigated to tackle the complex challenge of automated quality assessment for generated responses, and synthetic data generation techniques were studied to overcome the limited availability of annotated datasets. The second phase translated theoretical knowledge into practical applications, focusing on intensive benchmarking activities. A comparative analysis, inspired by the MTEB benchmark, was performed to identify the best-performing embedding models in a multilingual context. Simultaneously, experiments on QA over tabular data, a common challenge in document processing, were initiated. These activities yielded the first scientific contributions, validating the methodological approach. The final phase focused on innovation and the industrialization of the developed solutions. A sophisticated hybrid search modality was implemented, integrating the lexical precision of BM25 with the semantic richness of transformer models to maximize retrieval relevance. To increase independence and performance in specific domains, a proprietary retrieval model was developed, trained with synthetic data via contrastive learning. Finally, a CI/CD process was designed for the continuous updating of models based on user feedback, and analyses on the effectiveness of long-context architectures were initiated. The results, consolidated in seven publications, testify to a comprehensive contribution that spans from IR enhancement to automated evaluation, achieving full synergy between academic research and technological impact.

Questa ricerca, svolta in collaborazione con Altilia, affronta la sfida cruciale di ottimizzare le pipeline di Retrieval-Augmented Generation (RAG) per potenziare sistemi di Question Answering (QA) su documenti in contesti aziendali. L'obiettivo primario della ricerca è il miglioramento di AltiliaGPT, il motore di IA generativa della piattaforma di Intelligent Document Processing (IDP) di Altilia, la cui efficacia commerciale dipende direttamente dall'accuratezza, robustezza e affidabilità delle risposte fornite. Il lavoro si colloca all'intersezione tra le esigenze industriali di creare strumenti AI user-friendly e la necessità accademica di sviluppare metodologie rigorose per il miglioramento e la valutazione di tali sistemi. Il percorso di ricerca è stato strutturato in tre fasi evolutive. La fase iniziale è stata dedicata a una profonda revisione dello stato dell’arte dell’Information Retrieval (IR) e all’acquisizione di competenze su framework di fine-tuning (es. PEFT, TRL). Parallelamente, sono state investigate metodologie di valutazione emergenti come il paradigma "LLM-as-a-judge" (es. RAGAS, TrueLens) per affrontare la complessa sfida della misurazione automatica della qualità delle risposte generate, e si sono studiate tecniche di generazione di dati sintetici per superare la limitata disponibilità di dataset annotati. La seconda fase ha traslato le conoscenze teoriche in applicazioni pratiche, concentrandosi su un'intensa attività di benchmarking. È stata condotta un’analisi comparativa, ispirata al benchmark MTEB, per identificare i modelli di embedding più performanti in un contesto multilingua. Contestualmente, sono stati avviati esperimenti di QA su dati tabellari, una sfida comune in ambito documentale. Queste attività hanno prodotto i primi contributi scientifici, validando l'approccio metodologico. La fase finale si è focalizzata sull'innovazione e l'industrializzazione delle soluzioni. È stata implementata una sofisticata modalità di ricerca ibrida, che integra la precisione lessicale di BM25 con la ricchezza semantica dei modelli transformer, per massimizzare la pertinenza del recupero. Per aumentare l'indipendenza e la performance in domini specifici, è stato sviluppato un modello di retrieval proprietario addestrato con dati sintetici tramite contrastive learning. Infine, è stato progettato un processo di CI/CD per l'aggiornamento continuo dei modelli basato sul feedback degli utenti e sono state avviate analisi sull'efficacia delle architetture long-context. I risultati, consolidati in sette pubblicazioni, testimoniano un contributo completo che spazia dal miglioramento dell'IR alla valutazione automatizzata, realizzando una piena sinergia tra ricerca accademica e impatto tecnologico.