Large Language Models have transformed artificial intelligence, yet their evaluation, reliability, and sustainability remain open challenges. This thesis addresses these issues through four research questions spanning evaluation methodologies, knowledge democratization, reliability enhancement, and sustainable deployment. Develop novel evaluation approaches that go beyond surface-level metrics. A human-centered study with 75 participants shows that GPT-4o achieves only 38% accuracy on legal summaries compared to 45% for expert-crafted ones, with higher error rates among knowledgeable participants. For text-to-SQL, we propose the Query Affinity Score, a continuous metric combining semantic and execution similarity that reveals distinctions hidden by binary metrics. The investigation of knowledge democratization uncovers a fundamental tension: while LLMs improve accessibility, they introduce accuracy risks dangerous in high-stakes domains. Even state-of-the-art models solve only half of code generation benchmarks, with systematic failures on edge cases. To address reliability, I develop a Genetic Improvement framework that significantly improves LLM-generated code across diverse problem domains, substantially outperforming ineffective self-correction approaches. Finally, I contribute multi-objective optimization frameworks for sustainable deployment. HotCat achieves 0.63 accuracy in bug classification while maintaining efficiency, and GA4GC discovers Pareto-optimal coding agent configurations with 37.7% runtime reduction and 135-fold hypervolume improvement. These contributions establish a framework for responsible LLM deployment balancing capability, reliability, and sustainability.

I Large Language Model hanno trasformato l'intelligenza artificiale, ma la loro valutazione, affidabilità e sostenibilità rimangono sfide aperte. Questa tesi affronta tali questioni attraverso quattro domande di ricerca su metodologie di valutazione, democratizzazione della conoscenza, miglioramento dell'affidabilità e deployment sostenibile. Sono stati sviluppati nuovi approcci di valutazione oltre le metriche superficiali. Uno studio human-centered con 75 partecipanti mostra che GPT-4o raggiunge solo il 38% di accuratezza sui riassunti legali contro il 45% di quelli redatti da esperti, con tassi di errore maggiori tra i partecipanti con conoscenze giuridiche. Per il text-to-SQL, ho proposto il Query Affinity Score, una metrica continua che rivela distinzioni nascoste dalle metriche binarie. L'analisi sulla democratizzazione della conoscenza rivela una tensione fondamentale: mentre gli LLM migliorano l'accessibilità, introducono rischi di accuratezza pericolosi in contesti critici. Anche i modelli più avanzati risolvono solo metà dei benchmark di generazione di codice. Per migliorare l'affidabilità, ho sviluppato un framework di Genetic Improvement che migliora in modo statisticamente significativo il codice generato dagli LLM, superando la self-correction che si rivela inefficace. Infine, ho contribuito al framework di ottimizzazione multi-obiettivo per un deployment sostenibile. HotCat raggiunge 0.63 di accuratezza nella classificazione di bug mantenendo l'efficienza, e GA4GC scopre configurazioni Pareto-ottimali con riduzione del runtime del 37.7% e miglioramento dell'hypervolume di 135 volte. Questi contributi stabiliscono un framework per il deployment responsabile degli LLM bilanciando capacità, affidabilità e sostenibilità.

Applicazioni dei Modelli Linguistici di Grandi Dimensioni: Affrontare le Sfide del Mondo Reale

PINNA, GIOVANNI
2026

Abstract

Large Language Models have transformed artificial intelligence, yet their evaluation, reliability, and sustainability remain open challenges. This thesis addresses these issues through four research questions spanning evaluation methodologies, knowledge democratization, reliability enhancement, and sustainable deployment. Develop novel evaluation approaches that go beyond surface-level metrics. A human-centered study with 75 participants shows that GPT-4o achieves only 38% accuracy on legal summaries compared to 45% for expert-crafted ones, with higher error rates among knowledgeable participants. For text-to-SQL, we propose the Query Affinity Score, a continuous metric combining semantic and execution similarity that reveals distinctions hidden by binary metrics. The investigation of knowledge democratization uncovers a fundamental tension: while LLMs improve accessibility, they introduce accuracy risks dangerous in high-stakes domains. Even state-of-the-art models solve only half of code generation benchmarks, with systematic failures on edge cases. To address reliability, I develop a Genetic Improvement framework that significantly improves LLM-generated code across diverse problem domains, substantially outperforming ineffective self-correction approaches. Finally, I contribute multi-objective optimization frameworks for sustainable deployment. HotCat achieves 0.63 accuracy in bug classification while maintaining efficiency, and GA4GC discovers Pareto-optimal coding agent configurations with 37.7% runtime reduction and 135-fold hypervolume improvement. These contributions establish a framework for responsible LLM deployment balancing capability, reliability, and sustainability.
3-mar-2026
Inglese
I Large Language Model hanno trasformato l'intelligenza artificiale, ma la loro valutazione, affidabilità e sostenibilità rimangono sfide aperte. Questa tesi affronta tali questioni attraverso quattro domande di ricerca su metodologie di valutazione, democratizzazione della conoscenza, miglioramento dell'affidabilità e deployment sostenibile. Sono stati sviluppati nuovi approcci di valutazione oltre le metriche superficiali. Uno studio human-centered con 75 partecipanti mostra che GPT-4o raggiunge solo il 38% di accuratezza sui riassunti legali contro il 45% di quelli redatti da esperti, con tassi di errore maggiori tra i partecipanti con conoscenze giuridiche. Per il text-to-SQL, ho proposto il Query Affinity Score, una metrica continua che rivela distinzioni nascoste dalle metriche binarie. L'analisi sulla democratizzazione della conoscenza rivela una tensione fondamentale: mentre gli LLM migliorano l'accessibilità, introducono rischi di accuratezza pericolosi in contesti critici. Anche i modelli più avanzati risolvono solo metà dei benchmark di generazione di codice. Per migliorare l'affidabilità, ho sviluppato un framework di Genetic Improvement che migliora in modo statisticamente significativo il codice generato dagli LLM, superando la self-correction che si rivela inefficace. Infine, ho contribuito al framework di ottimizzazione multi-obiettivo per un deployment sostenibile. HotCat raggiunge 0.63 di accuratezza nella classificazione di bug mantenendo l'efficienza, e GA4GC scopre configurazioni Pareto-ottimali con riduzione del runtime del 37.7% e miglioramento dell'hypervolume di 135 volte. Questi contributi stabiliscono un framework per il deployment responsabile degli LLM bilanciando capacità, affidabilità e sostenibilità.
Large Language Model; Genetic Improvement; Text-to-SQL; Generative AI; Sustainability
DE LORENZO, ANDREA
Manzoni, Luca
Università degli Studi di Trieste
File in questo prodotto:
File Dimensione Formato  
Phd_thesis_finale_Giovanni_Pinna.pdf

accesso aperto

Licenza: Tutti i diritti riservati
Dimensione 17.24 MB
Formato Adobe PDF
17.24 MB Adobe PDF Visualizza/Apri
Phd_thesis_finale_Giovanni_Pinna_1.pdf

accesso aperto

Licenza: Tutti i diritti riservati
Dimensione 17.24 MB
Formato Adobe PDF
17.24 MB Adobe PDF Visualizza/Apri

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14242/359614
Il codice NBN di questa tesi è URN:NBN:IT:UNITS-359614