Synthesis of Vector Space models for Finance and Labour Market Analysis

D'Amico, Simone

This doctoral thesis explores the application of Vector Space Models (VSMs) and modern language technologies to two high-impact domains: Labour Market Intelligence (LMI) and Financial Natural Language Processing (NLP). The research addresses domain-specific challenges through novel methodologies that advance beyond general-purpose language models, demonstrating how tailored computational approaches can extract meaningful insights from complex, specialized textual data. In the European labour market context, this work tackles the critical problem of skill mismatch by developing frameworks for analyzing Online Job Advertisements (OJAs) across multiple languages. The thesis introduces: (i) KRAKEN, an unsupervised keyphrase extraction method achieving F1@5 up to 24.4% and F1@10 scores up to 28.6% on benchmark datasets and identifying emerging skills with 56.8–76.4% accuracy across five European languages; (ii) JobSet, a synthetic job advertisement dataset of 15,469 joc advertaisments that addresses data scarcity through strategic LLM generation, reducing perplexity (up to 26.7) and imporving skill explicitness compared to previous synthetic datasets; and (iii) VEUCTOR, a systematic framework for training, selecting, and aligning optimal word embedding models across 28 European countries, we generated 3,000+ and evaluate them with VEUCTORenabling comparable cross-national labour market analysis. In the financial domain, the research confronts the transformative impact of social trading and retail investment platforms. Key contributions include: (i) the definition of the new task of Social Trading Action Detection (STAD) and the introduction of FINREDDIT-2K, a manually annotated dataset of 2,123 Reddit posts into three categories (buy, sell, or other), designed to serve as a benchmark for this task. We provide a benchmark with 57 models with the top three: Mistral-7B attains the highest F1-score (86.0%), followed by Neural-chat-7B (84.7%) and Phi-4-14B (84.6%). (ii) Novel approaches for assessing user reliability in financial social networks using heterogeneous graphs, with the proposed Content-based Centrality score outperforming traditional measures reaching 60% of according with expert judgments; and (iii) a systematic survey of multimodal models that integrates textual, numerical, and temporal data for enhanced financial forecasting. The thesis establishes that domain-adapted vector space models consistently outperform general-purpose language models in specialized applications, while demonstrating the practical value of releasing curated datasets and open-source tools to foster reproducibility and collective progress. By bridging advanced NLP methodologies with real-world applications in labour economics and quantitative finance, this research provides both theoretical insights and practical frameworks for data-driven decision-making in increasingly complex information environments.

Questa tesi di dottorato esplora l'applicazione dei Modelli di Spazio Vettoriale (VSMs) e delle moderne tecnologie linguistiche in due domini ad alto impatto: Labour Market Intelligence (LMI) ed Elaborazione del Linguaggio Naturale Finanziario (Financial NLP). La ricerca affronta le sfide specifiche dei domini attraverso metodologie innovative che vanno oltre i modelli linguistici generici, dimostrando come approcci computazionali mirati possano estrarre insight significativi da dati testuali complessi e specializzati. Nel contesto del mercato del lavoro europeo, questo lavoro affronta il problema critico della mancata corrispondenza delle competenze sviluppando framework per l'analisi degli Annunci di Lavoro Online (OJAs) in più lingue. La tesi introduce: (i) KRAKEN, un metodo non supervisionato per l'estrazione di keyphrase che raggiunge F1@5 fino al 24,4% e punteggi F1@10 fino al 28,6% su dataset di benchmark e identifica competenze emergenti con un'accuratezza del 56,8-76,4% in cinque lingue europee; (ii) JobSet, un dataset sintetico di annunci di lavoro di 15.469 inserzioni che affronta la scarsità di dati attraverso la generazione strategica con LLM, riducendo la perplexity (fino a 26,7) e migliorando l'esplicitazione delle competenze rispetto ai precedenti dataset sintetici; e (iii) VEUCTOR, un framework sistematico per l'addestramento, la selezione e l'allineamento di modelli ottimali di word embedding in 28 paesi europei, abbiamo generato oltre 3.000 modelli e li abbiamo valutati con VEUCTOR abilitando analisi comparabili del mercato del lavoro transnazionali. Nel dominio finanziario, la ricerca affronta l'impatto trasformativo delle piattaforme di social trading e investimento al dettaglio. I contributi chiave includono: (i) la definizione del nuovo compito di Social Trading Action Detection (STAD) e l'introduzione di FINREDDIT-2K, un dataset annotato manualmente di 2.123 post di Reddit in tre categorie (buy, sell o other), progettato per servire come benchmark per questo task. Forniamo un benchmark con 57 modelli con i primi tre: Mistral-7B raggiunge l'F1-score più alto (86,0%), seguito da Neural-chat-7B (84,7%) e Phi-4-14B (84,6%). (ii) Approcci innovativi per valutare l'affidabilità degli utenti nei social network finanziari utilizzando grafi eterogenei, con il proposed Content-based Centrality score che supera le misure tradizionali raggiungendo il 60% di accordo con i giudizi degli esperti; e (iii) una survey sistematica di modelli multimodali che integra dati testuali, numerici e temporali per il forecasting finanziario avanzato. La tesi stabilisce che i modelli di spazio vettoriale adattati al dominio superano costantemente i modelli linguistici generici nelle applicazioni specializzate, dimostrando al contempo il valore pratico del rilascio di dataset curati e strumenti open-source per favorire la riproducibilità e il progresso collettivo. Colmando il divario tra metodologie NLP avanzate e applicazioni nel mondo reale nell'economia del lavoro e nella finanza quantitativa, questa ricerca fornisce sia insight teorici che framework pratici per il processo decisionale basato sui dati in ambienti informativi sempre più complessi.