Resource-Efficient and Knowledge-Enriched Information Extraction: From Named Entity Recognition to Relation Extraction

Balducci, Gianmaria

Con la crescita esponenziale dei dati testuali non strutturati, l’estrazione di informazioni strutturate è diventata essenziale. Il riconoscimento delle entità denominate (NER) e l’estrazione delle relazioni (RE) sono compiti fondamentali nell’estrazione delle informazioni (IE), che consentono l’identificazione delle entità e delle relazioni tra di esse. Questi componenti sono fondamentali per numerose applicazioni di elaborazione del linguaggio naturale (NLP), tra cui l’analisi del sentiment, i chatbot, la RAG, il question-answering e la costruzione di basi di conoscenza. Questa tesi esplora metodi avanzati per NER e RE, esaminando sia gli approcci tradizionali che quelli di deep learning, con particolare enfasi sui paradigmi di apprendimento supervisionato. Condotta nell’ambito di un dottorato di ricerca industriale, questa ricerca affronta la duplice sfida di far progredire lo stato dell’arte garantendo al contempo l’applicabilità pratica e l’implementabilità in ambienti di produzione. Il lavoro indaga tre sfide chiave nell’estrazione di informazioni: Imbalance learning per la NER, Cross-Domain NER, e l’estrazione di relazioni. Il primo contributo indaga le tecniche di apprendimento in casi di dataset sbilanciati per il task di NER, compresi i metodi di ricampionamento e di aumento dei dati per migliorare il riconoscimento dei tipi di entità sottorappresentate. Il secondo contributo sviluppa una tecnica di adattamento NER cross-domain, che combina più classificatori addestrati su diverse features estratte da trasformers pre-addestrati per consentire un efficace apprendimento trasferibile tra diversi domini. Il terzo contributo si concentra sull’estrazione di relazioni sia in lingua inglese che italiana, introducendo metodi che sfruttano i modelli linguistici di grandi dimensioni (LLM) e dimostra come le conoscenze estratte da modelli più grandi possano essere efficacemente distillate in architetture più piccole ed efficienti attraverso tecniche di distillazione della conoscenza. Attraverso un’indagine sistematica e la sperimentazione su più dataset di riferimento, questo lavoro fa progredire l’estrazione di informazioni affrontando sia le sfide teoriche che i vincoli pratici, tra cui la scarsità di dati, l’adattamento del dominio, l’efficienza computazionale e le limitazioni delle risorse caratteristiche degli scenari di implementazione nel mondo reale.

With the exponential growth of unstructured textual data, extracting structured information has become essential. Named Entity Recognition (NER) and Relation Extraction (RE) are fundamental tasks in Information Extraction (IE), enabling the identification of entities and the relationships between them. These components are critical for numerous Natural Language Processing (NLP) applications, including sentiment analysis, chatbots, Retrieval Augmented Generation, Question Answering, and knowledge base construction. This thesis explores advanced methods for NER and RE, examining both traditional and deep learning approaches with particular emphasis on supervised learning paradigms. Conducted within an industrial PhD framework, this research addresses the dual challenge of advancing the state of the art while ensuring practical applicability and deployability in production environments. The work investigates three key challenges in information extraction: class imbalance in NER, cross-domain transfer learning for entity recognition, and knowledge-enhanced Relation Extraction. The first contribution investigates imbalance learning techniques for NER, including resampling and data augmentation methods to improve recognition of underrepresented entity types. The second contribution develops a Cross-Domain NER adaptation technique, which combines multiple shallow classifiers trained on different features extracted from pre-trained transformers to enable effective transfer learning across different domains. The third contribution focuses on Relation Extraction in both English and Italian Language, introducing methods that leverage Large Language Models (LLMs) and demonstrates how knowledge extracted from larger models can be effectively distilled into smaller, more efficient architectures through Knowledge Distillation techniques. Through systematic investigation and experimentation across multiple benchmark datasets, this work advances information extraction by addressing both theoretical challenges and practical constraints, including data scarcity, domain adaptation, computational efficiency, and resource limitations characteristic of real-world deployment scenarios.