Tre saggi sull'applicazione dell'apprendimento macchina in finanza, innovazione e investimenti infrastrutturali.

Do, Thanh Thuy

This thesis addresses significant challenges in machine learning interpretability, predictive analytics, and data imputation, highlighting its importance in tackling real-world issues in the financial and legal sectors. By combining advanced machine learning approaches with domain-specific insights, this study aims to bridge the gap between theoretical innovations and practical applications, providing solutions that improve the reliability and applicability of data-driven models. The thesis comprises three chapters, each examining a unique but interrelated topic that enhances the overall objective of enhancing the efficacy and trustworthiness of machine learning systems. Collectively, they offer an extensive examination of how sophisticated computational methods can be customized to tackle intricate, high-stakes challenges across various contexts. Chapter 1 explores the constraints of Kernel SHAP, a common technique for explaining machine learning models, within the framework of credit risk management for peer-to-peer (P2P) lending. The research underscores the limiting assumption of feature independence and its negative effect on the precision of Shapley value calculations in the presence of linked features. The study enhances the robustness and reliability of prediction explanations by introducing and analyzing dependent-feature estimate methods for Kernel SHAP, hence improving the interpretability of black-box models in credit risk classification. Chapter 2 analyzes the use of machine learning to predict patent lawsuits. The study employs data on U.S. patents granted from 2002 to 2005, incorporating several patent features and technological fields to enhance prediction accuracy. A comparison of machine learning models, ranging from logistic regression to advanced techniques such as XGBoost, illustrates the efficacy of complicated methods in capturing the complexities of patent litigation. The results provide practical guidance for policymakers, patent holders, and legal professionals on anticipating and minimizing litigation risks. Chapter 3 evaluates strategies for addressing absent data in Private Participation in Infrastructure (PPI) datasets. The chapter assesses three imputation methods—Simple Imputation, K-Nearest Neighbors (KNN), and Iterative Imputation—evaluating their success in preserving data integrity and reducing bias. Iterative Imputation is the most successful method for maintaining multivariate relationships, especially for critical variables like investment volume and governmental fees, which are essential for policy decision-making in infrastructure development. Taken together, this research enhances the interpretability, predictive accuracy, and data integrity of machine learning systems in critical decision-making scenarios.

Questa tesi affronta sfide significative nell'interpretabilità del machine learning, nell'analisi predittiva e nell'imputazione dei dati, evidenziando la sua importanza nell'affrontare problemi reali nei settori finanziario e legale. Combinando approcci avanzati di machine learning con approfondimenti specifici del dominio, questo studio mira a colmare il divario tra le innovazioni teoriche e le applicazioni pratiche, fornendo soluzioni che migliorano l'affidabilità e l'applicabilità dei modelli basati sui dati. La tesi è composta da tre capitoli, ciascuno dei quali esamina un tema unico ma interconnesso che contribuisce all'obiettivo generale di migliorare l'efficacia e l'affidabilità dei sistemi di machine learning. Nel loro insieme, i capitoli offrono un'analisi approfondita di come i metodi computazionali avanzati possano essere adattati per affrontare sfide complesse e di grande impatto in diversi contesti. Il Capitolo 1 esplora i limiti di Kernel SHAP, una tecnica comunemente utilizzata per spiegare i modelli di machine learning, nel contesto della gestione del rischio di credito nel peer-to-peer (P2P) lending. La ricerca evidenzia l’ipotesi limitante dell’indipendenza delle variabili e il suo effetto negativo sulla precisione del calcolo dei valori di Shapley in presenza di caratteristiche correlate. Lo studio migliora la robustezza e l'affidabilità delle spiegazioni delle previsioni introducendo e analizzando metodi di stima per Kernel SHAP in presenza di variabili dipendenti, potenziando così l’interpretabilità dei modelli black-box nella classificazione del rischio di credito. Il Capitolo 2 analizza l’uso del machine learning per prevedere le cause legali sui brevetti. Lo studio utilizza dati relativi ai brevetti statunitensi concessi dal 2002 al 2005, incorporando diverse caratteristiche dei brevetti e campi tecnologici per migliorare la precisione predittiva. Il confronto tra modelli di machine learning, dalla regressione logistica a tecniche avanzate come XGBoost, dimostra l’efficacia di metodi complessi nel catturare le dinamiche dei contenziosi sui brevetti. I risultati offrono indicazioni pratiche per i policymaker, i titolari di brevetti e i professionisti legali, aiutandoli ad anticipare e ridurre i rischi di contenzioso. Il Capitolo 3 valuta strategie per gestire la mancanza di dati nei dataset relativi alla Partecipazione Privata nelle Infrastrutture (PPI). Il capitolo esamina tre metodi di imputazione—imputazione semplice, K-Nearest Neighbors (KNN) e imputazione iterativa—valutandone l’efficacia nel preservare l’integrità dei dati e ridurre i bias. L’imputazione iterativa si rivela il metodo più efficace nel mantenere le relazioni multivariate, soprattutto per variabili critiche come il volume degli investimenti e le tariffe governative, essenziali per le decisioni politiche nello sviluppo infrastrutturale. Nel complesso, queste ricerche migliorano l'interpretabilità, la precisione predittiva e l'integrità dei dati nei sistemi di machine learning applicati a scenari decisionali critici.