Verso una biblioteca digitale basata sull'intelligenza artificiale per gli alfabeti non latini

Sala, Luca

This dissertation will advance the design of an AI-driven digital library for non-Latin scripts, with a primary focus on Arabic collections. It will adopt a pipeline-first perspective: Capture, Understand, Access, and Safeguard, combining theoretical contributions with empirical studies on real-world corpora. Building effective cultural heritage systems will require robust Optical Character Recognition (OCR) and metadata tools, as well as transparent evaluation, safety monitoring, and reproducible workflows across languages and writing systems. The first part of the dissertation will be devoted to discussing the establishment of foundations, standards, and tooling for the Digital Maktaba (DM) system. It will formalise a standard method of document ingestion, multi-engine OCR testing, linguistic enrichment, and catalogue-ready exports in accordance with the Findable, Accessible, Interoperable, and Reusable (FAIR) principles. Moreover, the DM-LP dataset will be presented, which is a large, curated dataset enabling reproducible evaluation of Arabic-script OCR and librarian-oriented tasks. This will pave the way for the following part, which foregrounds OCR benchmarking and enhancement. It will provide a glance at naïve Large Language Model-based post-OCR correction and how it can degrade Arabic text quality. It will further introduce a Vision Language Model-assisted pipeline for book page categorisation for the cataloguing process such as title pages, abstracts and tables of content, followed by the use of the DM-LP dataset for OCR testing. To better support librarians in addressing complex information needs, Digital Libraries should provide two complementary access modes: (i) structured querying over relational databases via Text-to-SQL and (ii) similarity-based retrieval over unstructured texts via Retrieval Augmented Generation (RAG). Both will be studied, with special attention to sensitive content and safety alignment. First, Text-to-SQL in realistic settings and reliability limits will be examined to find schema hallucinations, context-window constraints, and the mismatch between benchmarks and real databases, while outlining mitigations such as uncertainty-aware querying, parameter-efficient adaptation, and more representative corpora. Then, a Question-Classify-Retrieve protocol will be employed to test how dense retrievers can underperform strong lexical baselines on sensitive religious passages, likely due to representational gaps and safety filtering. Building on these diagnostics, the thesis develops safety and over-refusal measurements for library workflows: it introduces methodology and metrics to assess schema-driven over-refusal when Personally Identifiable Information (PII) and Sensitive Personal Information (SPI) fields are present, revealing how prompts and permission cues modulate refusals; it also extends the analysis to context-driven over-refusal in RAG and multi-document NLP tasks, showing that refusal behaviour is task- and context-dependent. Lastly, it will be proposed an outline of a roadmap Towards an Agentic Digital Library. As a future perspective, the aim is to envision and open up the field to the discussion of the integration of autonomous agents that orchestrate OCR, enrich metadata, plan retrieval, and conduct continuous safety audits while learning from curator feedback to preserve cultural heritage at scale.

Questa tesi intende far progredire la progettazione di una biblioteca digitale basata sull’intelligenza artificiale per sistemi di scrittura non latini, con particolare attenzione alle collezioni in lingua araba. Adotterà una prospettiva pipeline-first: Capture, Understand, Access, Safeguard, combinando contributi teorici e studi empirici su corpora reali. La costruzione di sistemi efficaci per il patrimonio culturale richiederà strumenti solidi di Optical Charical Recognition (OCR) e gestione dei metadati, oltre a valutazioni trasparenti, monitoraggio della sicurezza e flussi di lavoro riproducibili tra lingue e sistemi di scrittura. La prima parte della tesi sarà dedicata alla definizione delle basi, degli standard e degli strumenti del progetto Digital Maktaba (DM). Verrà formalizzato un metodo standard di acquisizione documenti, test OCR multi-engine, arricchimento linguistico ed esportazioni pronte per la catalogazione, in conformità ai principi FAIR (Findable, Accessible, Interoperable, Reusable). Inoltre, verrà presentato DM-LP, un ampio dataset curato per valutazioni riproducibili su OCR in scrittura araba. La parte successiva metterà in primo piano la valutazione e il miglioramento dell’OCR. Sarà analizzata la correzione post-OCR basata su Large Language Model (LLM) e il modo in cui può degradare la qualità del testo. Verrà inoltre introdotta una pipeline assistita da Visual Language Models (VLM) per la categorizzazione automatica delle pagine dei libri (frontespizi, abstract, indici), seguito dall’utilizzo del dataset DM-LP per il test di strumenti OCR. Per supportare meglio i bibliotecari nel soddisfare esigenze complesse in materia di recupero dati, le biblioteche digitali dovrebbero supportare due modalità di accesso complementari: (i) interrogazioni strutturate su database relazionali mediante Text-to-SQL; (ii) ricerca per similarità su testi non strutturati tramite Retrieval Augmented Generation (RAG). Entrambi gli approcci saranno studiati, con particolare attenzione ai contenuti sensibili e alla safety alignment. In primo luogo, saranno esaminati il Text-to-SQL in contesti realistici e i limiti di affidabilità per individuare allucinazioni dello schema, vincoli della finestra di contesto e discrepanze tra benchmark e database reali, delineando al contempo misure di mitigazione quali query sensibili all'incertezza, adattamento efficiente dei parametri e corpora più rappresentativi. Successivamente, verrà impiegato un protocollo Question-Classify-Retrieve per testare come i dense retrieversi possano sottoperformare le baseline lessicali su passaggi religiosi sensibili, probabilmente a causa di lacune rappresentative e filtraggio di sicurezza. Sulla base di queste analisi, la tesi svilupperà metriche e metodologie di valutazione della sicurezza e dell’over-refusal nei flussi bibliotecari: introdurrà misure per valutare il quest’ultimo, causato dallo schema del database, quando sono presenti campi sensibili (Personally Identifiable Information/Sensitive Personal Information), mostrando come prompt e segnali di autorizzazione influenzino tali rifiuti; estenderà poi l’analisi all’over-refusal guidata dal contesto in attività che coinvolgono RAG e NLP multi-documento, evidenziando come il comportamento di rifiuto dipenda dal compito e dal contesto. Infine, verrà proposta una roadmap “Verso una Biblioteca Digitale ad Agenti”, delineando una prospettiva futura basata sull’integrazione di agenti autonomi in grado di orchestrare l’OCR, arricchire i metadati, pianificare il recupero delle informazioni e condurre audit di sicurezza continui, apprendendo dal feedback dei curatori per preservare su larga scala il patrimonio culturale.