Large Language Models have transformed artificial intelligence, yet their evaluation, reliability, and sustainability remain open challenges. This thesis addresses these issues through four research questions spanning evaluation methodologies, knowledge democratization, reliability enhancement, and sustainable deployment. Develop novel evaluation approaches that go beyond surface-level metrics. A human-centered study with 75 participants shows that GPT-4o achieves only 38% accuracy on legal summaries compared to 45% for expert-crafted ones, with higher error rates among knowledgeable participants. For text-to-SQL, we propose the Query Affinity Score, a continuous metric combining semantic and execution similarity that reveals distinctions hidden by binary metrics. The investigation of knowledge democratization uncovers a fundamental tension: while LLMs improve accessibility, they introduce accuracy risks dangerous in high-stakes domains. Even state-of-the-art models solve only half of code generation benchmarks, with systematic failures on edge cases. To address reliability, I develop a Genetic Improvement framework that significantly improves LLM-generated code across diverse problem domains, substantially outperforming ineffective self-correction approaches. Finally, I contribute multi-objective optimization frameworks for sustainable deployment. HotCat achieves 0.63 accuracy in bug classification while maintaining efficiency, and GA4GC discovers Pareto-optimal coding agent configurations with 37.7% runtime reduction and 135-fold hypervolume improvement. These contributions establish a framework for responsible LLM deployment balancing capability, reliability, and sustainability.
I Large Language Model hanno trasformato l'intelligenza artificiale, ma la loro valutazione, affidabilità e sostenibilità rimangono sfide aperte. Questa tesi affronta tali questioni attraverso quattro domande di ricerca su metodologie di valutazione, democratizzazione della conoscenza, miglioramento dell'affidabilità e deployment sostenibile. Sono stati sviluppati nuovi approcci di valutazione oltre le metriche superficiali. Uno studio human-centered con 75 partecipanti mostra che GPT-4o raggiunge solo il 38% di accuratezza sui riassunti legali contro il 45% di quelli redatti da esperti, con tassi di errore maggiori tra i partecipanti con conoscenze giuridiche. Per il text-to-SQL, ho proposto il Query Affinity Score, una metrica continua che rivela distinzioni nascoste dalle metriche binarie. L'analisi sulla democratizzazione della conoscenza rivela una tensione fondamentale: mentre gli LLM migliorano l'accessibilità, introducono rischi di accuratezza pericolosi in contesti critici. Anche i modelli più avanzati risolvono solo metà dei benchmark di generazione di codice. Per migliorare l'affidabilità, ho sviluppato un framework di Genetic Improvement che migliora in modo statisticamente significativo il codice generato dagli LLM, superando la self-correction che si rivela inefficace. Infine, ho contribuito al framework di ottimizzazione multi-obiettivo per un deployment sostenibile. HotCat raggiunge 0.63 di accuratezza nella classificazione di bug mantenendo l'efficienza, e GA4GC scopre configurazioni Pareto-ottimali con riduzione del runtime del 37.7% e miglioramento dell'hypervolume di 135 volte. Questi contributi stabiliscono un framework per il deployment responsabile degli LLM bilanciando capacità, affidabilità e sostenibilità.
Applicazioni dei Modelli Linguistici di Grandi Dimensioni: Affrontare le Sfide del Mondo Reale
PINNA, GIOVANNI
2026
Abstract
Large Language Models have transformed artificial intelligence, yet their evaluation, reliability, and sustainability remain open challenges. This thesis addresses these issues through four research questions spanning evaluation methodologies, knowledge democratization, reliability enhancement, and sustainable deployment. Develop novel evaluation approaches that go beyond surface-level metrics. A human-centered study with 75 participants shows that GPT-4o achieves only 38% accuracy on legal summaries compared to 45% for expert-crafted ones, with higher error rates among knowledgeable participants. For text-to-SQL, we propose the Query Affinity Score, a continuous metric combining semantic and execution similarity that reveals distinctions hidden by binary metrics. The investigation of knowledge democratization uncovers a fundamental tension: while LLMs improve accessibility, they introduce accuracy risks dangerous in high-stakes domains. Even state-of-the-art models solve only half of code generation benchmarks, with systematic failures on edge cases. To address reliability, I develop a Genetic Improvement framework that significantly improves LLM-generated code across diverse problem domains, substantially outperforming ineffective self-correction approaches. Finally, I contribute multi-objective optimization frameworks for sustainable deployment. HotCat achieves 0.63 accuracy in bug classification while maintaining efficiency, and GA4GC discovers Pareto-optimal coding agent configurations with 37.7% runtime reduction and 135-fold hypervolume improvement. These contributions establish a framework for responsible LLM deployment balancing capability, reliability, and sustainability.| File | Dimensione | Formato | |
|---|---|---|---|
|
Phd_thesis_finale_Giovanni_Pinna.pdf
accesso aperto
Licenza:
Tutti i diritti riservati
Dimensione
17.24 MB
Formato
Adobe PDF
|
17.24 MB | Adobe PDF | Visualizza/Apri |
|
Phd_thesis_finale_Giovanni_Pinna_1.pdf
accesso aperto
Licenza:
Tutti i diritti riservati
Dimensione
17.24 MB
Formato
Adobe PDF
|
17.24 MB | Adobe PDF | Visualizza/Apri |
I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/20.500.14242/359614
URN:NBN:IT:UNITS-359614