Comprensione multimodale dei documenti per gli LLM.

De Grandis, Luca

The rapid evolution of Large Language Models (LLMs) has profoundly advanced natural language understanding, yet their capacity to reason over multi-modal documents—where textual, structural, and visual cues coexist—remains a critical research challenge. This thesis explores the field of Multimodal Document Understanding (MDU), focusing on how LLMs integrate and interpret heterogeneous document signals to achieve robust comprehension and reasoning. Furthermore, to facilitate the practical adoption of these findings in industrial settings, we maintain a strong focus on the applicability of the proposed methodologies and developed approaches, reporting key aspects such as computational cost, resource overhead, and the feasibility of fine-tuning for faster and more efficient performance. We present a series of studies addressing key subproblems in Multimodal Document Understanding (MDU), including table structure recognition, document layout analysis, document summarization, context attribution, and visual context attribution. First, we examine the capability of LLMs to interpret and reason over tabular data without relying on visual cues. Second, we explore the application of LLMs to document summarization, with particular attention to topic-based and context-driven summarization. Third, we investigate layout-aware strategies and the integration of a Document Object Model (DOM) within summarization pipelines to incorporate visual and structural information into text-based representations. Within this framework, we introduce a fine-grained, LLM-based context attribution mechanism that quantifies and explains the influence of textual and visual elements on model predictions. Finally, we propose novel attribution approaches leveraging cross-encoders, perplexity analysis, and contextualized embeddings to enhance interpretability and performance in multimodal reasoning tasks. Finally, we introduce a large-scale automatically generated dataset for visual-context attribution with LLMs. Through extensive experimentation and the development of practical pipelines for real-world industrial applications, this work demonstrates how multimodal fusion architectures and attribution-driven strategies can enhance both the performance and transparency of LLM-based document understanding systems. While the thesis includes scientific contributions—particularly in summarization and context attribution—its primary focus lies in the design, implementation, and optimization of scalable multimodal document processing frameworks. Ultimately, this research bridges the gap between academic advances in multimodal reasoning and their deployment in production environments, contributing toward more efficient, explainable, and industry-ready document intelligence solutions.

La rapida evoluzione dei Large Language Models (LLM) ha profondamente avanzato la comprensione del linguaggio naturale, ma la loro capacità di ragionare su documenti multimodali — in cui coesistono informazioni testuali, strutturali e visive — rimane ancora un problema. Questa tesi esplora il campo del Multimodal Document Understanding (MDU), concentrandosi su come gli LLM integrano e interpretano segnali eterogenei dei documenti per ottenere comprensioni e ragionamenti robusti. Inoltre, al fine di facilitare l’adozione pratica dei risultati in contesti industriali, viene mantenuto un forte focus sull’applicabilità delle metodologie e degli approcci sviluppati, riportando aspetti chiave quali il costo computazionale, il consumo di risorse e la fattibilità del fine-tuning per prestazioni più rapide ed efficienti. Questa tesi presenta una serie di studi che affrontano problemi fondamentali nell’ambito MDU, tra cui il riconoscimento della struttura delle tabelle, l’analisi del layout dei documenti, la sintesi, l’attribuzione del contesto, e l’attribuzione del contesto visivo. In primo luogo, verrà esaminata la capacità degli LLM di interpretare e ragionare su dati tabulari senza fare affidamento su informazioni visive. In secondo luogo, verrà esplorata l’applicabilità degli LLM alla sintesi dei documenti, con particolare attenzione alla sintesi condizionata (topic-based). In terzo luogo, saranno indagate strategie layout-aware e l’integrazione di un Document Object Model (DOM) all’interno delle pipeline di sintesi, per incorporare informazioni visive e strutturali nelle rappresentazioni testuali. In questo contesto, si introduce un meccanismo di attribuzione contestuale fine-grained, basato su LLM, che quantifica e spiega l’influenza degli elementi testuali e visivi sulle predizioni del modello. Infine, si proporranno nuovi approcci di attribuzione che sfruttano cross-encoders, analisi di perplexity ed embeddings contestualizzati per migliorare l’interpretabilità e le prestazioni nei task di ragionamento multimodale. Inoltre, verrà introdotto un dataset su larga scala, generato automaticamente, per l’attribuzione del contesto visivo con LLM. Attraverso un’ampia sperimentazione e lo sviluppo di pipeline pratiche per applicazioni industriali reali, questo lavoro dimostra come le architetture multimodali e le strategie basate sull’attribuzione possano migliorare sia le prestazioni sia la trasparenza dei sistemi di comprensione dei documenti basati su LLM. Pur includendo contributi scientifici — in particolare nei campi della sintesi e dell’attribuzione contestuale — il fulcro della tesi risiede nella progettazione, implementazione e ottimizzazione di framework scalabili per l’elaborazione multimodale dei documenti. In ultima istanza, questa ricerca colma il divario tra i progressi accademici nel ragionamento multimodale e la loro applicazione in ambienti produttivi, contribuendo allo sviluppo di soluzioni di document intelligence più efficienti, interpretabili e pronte per l’industria.