Event extraction (EE) refers to the task of identifying and extracting structured information about events from unstructured text. It encompasses the detection of the event within a text, the classification of the event type, as well as the identification of associated arguments such as participants, time, location, and other relevant entities. EE is of significant interest in the field of Natural Language Processing (NLP) since the extracted data can be used for various downstream tasks, such as information retrieval, knowledge base construction, and decision support systems. The task is challenging due to the complexity of natural language, the ambiguity of event definitions, and the diversity of event types across domains. This thesis specifically focuses on the application of EE techniques to the Italian language. EE in low-resource languages like Italian faces challenges due to the lack of annotated data and linguistic resources, unlike high-resource languages like English or Chinese, which benefit from large datasets and pre-trained models. Key difficulties include the scarcity of labeled datasets essential for training models and the limited availability of pre-trained models specific to the Italian language. Additionally, unique linguistic features, such as complex morphology and diverse syntax, make the extraction process harder. These factors result in lower accuracy for EE, as models trained on high-resource languages struggle to adapt effectively to low-resource settings. The main experiments in my work were based on an Italian dataset of newspaper articles concerning criminal events called DICE, which is publicly available and where all the news items (10,395) are enriched with various automatic labels to enhance its usability.The first objective has been to classify these articles based on the crime event they described. Initial experiments demonstrated the effectiveness of word embeddings generated with the Word2Vec algorithm as a foundation for the classification process. I have also explored extracting information about entities involved in events, the so-called “5-W extraction” initially framed as an extractive question-answering problem. A comparison of word embedding methods (Word2Vec, FastText and GloVe) has been conducted on the DICE dataset and RCV2-it dataset showing good classification performances, around 83% on DICE. To improve annotation and extraction of 5W, an annotation schema was defined for crime event-related entity extraction, and a small portion of the DICE dataset was manually annotated. This allowed for more extensive testing, which showed that encoder-based LLMs (e.g., BERT, ELECTRA) for extractive QA achieve poor performance without domain adaptation (F1-score < 42%). In contrast, decoder-based LLMs, when provided with well-structured prompts, yielded better results (71% F1-score with Mixtral 8x22B). In the end, an effort to generate synthetic crime news from existing articles has been done with the aim of automatically increasing the amount of annotated data. Currently, 2,030 synthetic news items have been generated using 5 LLMs. This synthetic dataset is intended to be used to enhance smaller models' ability to understand and process crime-related news. Additionally, it offers a publicly accessible resource for testing and benchmarking new models.

L'Event Extraction (EE) è il processo di identificazione ed estrazione di informazioni strutturate sugli eventi da testi non strutturati. Essa comprende l’identificazione dell'evento all'interno di un testo, la classificazione del tipo di evento, nonché l'identificazione degli argomenti associati, come i partecipanti, il tempo, il luogo e altre entità rilevanti. L'EE è di grande interesse nel campo dell'elaborazione del linguaggio naturale (NLP), poiché i dati estratti possono essere utilizzati per vari compiti successivi, come l’information retrieval, la costruzione di basi di conoscenza e i sistemi di supporto decisionale. Il compito è complesso a causa della complessità del linguaggio naturale, dell'ambiguità delle definizioni di evento e della diversità dei tipi di evento tra i vari domini. Questa tesi si concentra in modo specifico sull'applicazione delle tecniche di EE alla lingua italiana. L'EE nelle lingue a risorse limitate come l'italiano presenta sfide a causa della mancanza di dati annotati e risorse linguistiche, a differenza delle lingue ad alta disponibilità di risorse come l'inglese o il cinese, che beneficiano di ampi dataset e modelli pre-addestrati. Le principali difficoltà includono la scarsità di dataset etichettati, essenziali per l'addestramento dei modelli, e la limitata disponibilità di modelli pre-addestrati specifici per la lingua italiana. Inoltre, caratteristiche linguistiche uniche, come la morfologia complessa e la sintassi diversificata, rendono il processo di estrazione più difficile. Questi fattori determinano una minore accuratezza dell'EE, poiché i modelli addestrati su lingue ad alta disponibilità di risorse faticano ad adattarsi efficacemente ai contesti a risorse limitate. Gli esperimenti principali del mio lavoro si sono basati su un dataset italiano di articoli di giornale riguardanti eventi criminali chiamato DICE, che è pubblicamente disponibile e in cui tutti gli articoli (10.395) sono arricchiti con varie etichette automatiche. Il primo obiettivo è stato classificare questi articoli in base al tipo di evento criminale descritto. Gli esperimenti iniziali hanno dimostrato l'efficacia dei word embeddings generati con l'algoritmo Word2Vec come base per il processo di classificazione. Ho inoltre esplorato l'estrazione di informazioni sulle entità coinvolte negli eventi, la cosiddetta "estrazione delle 5W", inizialmente inquadrata come un problema di question answering estrattivo. È stato condotto un confronto tra metodi di word embedding (Word2Vec, FastText e GloVe) sul dataset DICE e il dataset RCV2-it, mostrando buone prestazioni di classificazione, circa l'83% su DICE. Per migliorare l'annotazione e l'estrazione delle 5W, è stato definito uno schema di annotazione per l'estrazione di entità legate agli eventi criminali e una piccola parte del dataset DICE è stata annotata manualmente. Questo ha permesso test più estesi, che hanno dimostrato che i modelli di grandi dimensioni basati su encoder (ad esempio, BERT, ELECTRA) per il question answering estrattivo ottengono scarse prestazioni senza adattamento al dominio (F1-score < 42%). Al contrario, i modelli di grandi dimensioni basati su decoder, quando forniti di prompt ben strutturati, hanno ottenuto risultati migliori (F1-score del 71% con Mixtral 8x22B). Infine, è stato fatto un lavoro per generare notizie criminali sintetiche a partire da articoli esistenti, con l'obiettivo di aumentare automaticamente la quantità di dati annotati. Attualmente, sono stati generati 2.030 articoli sintetici utilizzando 5 modelli di grandi dimensioni. Questo dataset sintetico ha lo scopo di migliorare la capacità dei modelli più piccoli di comprendere e processare le notizie legate a eventi criminali. Inoltre, offre una risorsa pubblicamente accessibile per testare e confrontare nuovi modelli.

Tecniche avanzate di Event Extraction da testi italiani: dai Word Embedding alla Data Augmentation

BONISOLI, GIOVANNI
2025

Abstract

Event extraction (EE) refers to the task of identifying and extracting structured information about events from unstructured text. It encompasses the detection of the event within a text, the classification of the event type, as well as the identification of associated arguments such as participants, time, location, and other relevant entities. EE is of significant interest in the field of Natural Language Processing (NLP) since the extracted data can be used for various downstream tasks, such as information retrieval, knowledge base construction, and decision support systems. The task is challenging due to the complexity of natural language, the ambiguity of event definitions, and the diversity of event types across domains. This thesis specifically focuses on the application of EE techniques to the Italian language. EE in low-resource languages like Italian faces challenges due to the lack of annotated data and linguistic resources, unlike high-resource languages like English or Chinese, which benefit from large datasets and pre-trained models. Key difficulties include the scarcity of labeled datasets essential for training models and the limited availability of pre-trained models specific to the Italian language. Additionally, unique linguistic features, such as complex morphology and diverse syntax, make the extraction process harder. These factors result in lower accuracy for EE, as models trained on high-resource languages struggle to adapt effectively to low-resource settings. The main experiments in my work were based on an Italian dataset of newspaper articles concerning criminal events called DICE, which is publicly available and where all the news items (10,395) are enriched with various automatic labels to enhance its usability.The first objective has been to classify these articles based on the crime event they described. Initial experiments demonstrated the effectiveness of word embeddings generated with the Word2Vec algorithm as a foundation for the classification process. I have also explored extracting information about entities involved in events, the so-called “5-W extraction” initially framed as an extractive question-answering problem. A comparison of word embedding methods (Word2Vec, FastText and GloVe) has been conducted on the DICE dataset and RCV2-it dataset showing good classification performances, around 83% on DICE. To improve annotation and extraction of 5W, an annotation schema was defined for crime event-related entity extraction, and a small portion of the DICE dataset was manually annotated. This allowed for more extensive testing, which showed that encoder-based LLMs (e.g., BERT, ELECTRA) for extractive QA achieve poor performance without domain adaptation (F1-score < 42%). In contrast, decoder-based LLMs, when provided with well-structured prompts, yielded better results (71% F1-score with Mixtral 8x22B). In the end, an effort to generate synthetic crime news from existing articles has been done with the aim of automatically increasing the amount of annotated data. Currently, 2,030 synthetic news items have been generated using 5 LLMs. This synthetic dataset is intended to be used to enhance smaller models' ability to understand and process crime-related news. Additionally, it offers a publicly accessible resource for testing and benchmarking new models.
3-apr-2025
Inglese
L'Event Extraction (EE) è il processo di identificazione ed estrazione di informazioni strutturate sugli eventi da testi non strutturati. Essa comprende l’identificazione dell'evento all'interno di un testo, la classificazione del tipo di evento, nonché l'identificazione degli argomenti associati, come i partecipanti, il tempo, il luogo e altre entità rilevanti. L'EE è di grande interesse nel campo dell'elaborazione del linguaggio naturale (NLP), poiché i dati estratti possono essere utilizzati per vari compiti successivi, come l’information retrieval, la costruzione di basi di conoscenza e i sistemi di supporto decisionale. Il compito è complesso a causa della complessità del linguaggio naturale, dell'ambiguità delle definizioni di evento e della diversità dei tipi di evento tra i vari domini. Questa tesi si concentra in modo specifico sull'applicazione delle tecniche di EE alla lingua italiana. L'EE nelle lingue a risorse limitate come l'italiano presenta sfide a causa della mancanza di dati annotati e risorse linguistiche, a differenza delle lingue ad alta disponibilità di risorse come l'inglese o il cinese, che beneficiano di ampi dataset e modelli pre-addestrati. Le principali difficoltà includono la scarsità di dataset etichettati, essenziali per l'addestramento dei modelli, e la limitata disponibilità di modelli pre-addestrati specifici per la lingua italiana. Inoltre, caratteristiche linguistiche uniche, come la morfologia complessa e la sintassi diversificata, rendono il processo di estrazione più difficile. Questi fattori determinano una minore accuratezza dell'EE, poiché i modelli addestrati su lingue ad alta disponibilità di risorse faticano ad adattarsi efficacemente ai contesti a risorse limitate. Gli esperimenti principali del mio lavoro si sono basati su un dataset italiano di articoli di giornale riguardanti eventi criminali chiamato DICE, che è pubblicamente disponibile e in cui tutti gli articoli (10.395) sono arricchiti con varie etichette automatiche. Il primo obiettivo è stato classificare questi articoli in base al tipo di evento criminale descritto. Gli esperimenti iniziali hanno dimostrato l'efficacia dei word embeddings generati con l'algoritmo Word2Vec come base per il processo di classificazione. Ho inoltre esplorato l'estrazione di informazioni sulle entità coinvolte negli eventi, la cosiddetta "estrazione delle 5W", inizialmente inquadrata come un problema di question answering estrattivo. È stato condotto un confronto tra metodi di word embedding (Word2Vec, FastText e GloVe) sul dataset DICE e il dataset RCV2-it, mostrando buone prestazioni di classificazione, circa l'83% su DICE. Per migliorare l'annotazione e l'estrazione delle 5W, è stato definito uno schema di annotazione per l'estrazione di entità legate agli eventi criminali e una piccola parte del dataset DICE è stata annotata manualmente. Questo ha permesso test più estesi, che hanno dimostrato che i modelli di grandi dimensioni basati su encoder (ad esempio, BERT, ELECTRA) per il question answering estrattivo ottengono scarse prestazioni senza adattamento al dominio (F1-score < 42%). Al contrario, i modelli di grandi dimensioni basati su decoder, quando forniti di prompt ben strutturati, hanno ottenuto risultati migliori (F1-score del 71% con Mixtral 8x22B). Infine, è stato fatto un lavoro per generare notizie criminali sintetiche a partire da articoli esistenti, con l'obiettivo di aumentare automaticamente la quantità di dati annotati. Attualmente, sono stati generati 2.030 articoli sintetici utilizzando 5 modelli di grandi dimensioni. Questo dataset sintetico ha lo scopo di migliorare la capacità dei modelli più piccoli di comprendere e processare le notizie legate a eventi criminali. Inoltre, offre una risorsa pubblicamente accessibile per testare e confrontare nuovi modelli.
Event Extraction; Lingua Italiana; Word embedding; Estrazione delle 5W; Data augmentation
PO, Laura
ROLLO, FEDERICA
ROVATI, Luigi
Università degli studi di Modena e Reggio Emilia
File in questo prodotto:
File Dimensione Formato  
Tesi_Definitiva_Giovanni_Bonisoli.pdf

embargo fino al 03/10/2026

Dimensione 5.87 MB
Formato Adobe PDF
5.87 MB Adobe PDF

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14242/202154
Il codice NBN di questa tesi è URN:NBN:IT:UNIMORE-202154