Approcci statistici di modellazione per la riduzione dell’incertezza

Cozzucoli, Lea Anna

Uncertainty is an intrinsic component of empirical research and represents one of the main challenges in modern statistical analysis. It arises from multiple sources, including data variability, model specification, and unobserved heterogeneity, and it affects both inferential validity and decision making processes. This thesis develops and applies statistical modeling approaches aimed at understanding, quantifying, and reducing uncertainty across different methodological and applied contexts. The first chapter introduces a Bayesian dynamic factor model for causal inference in observational panel data with staggered treatment adoption. The proposed framework captures time dependence through latent factors evolving according to autoregressive processes and accommodates non-Gaussian outcomes within an exponential family formulation. A key methodological contribution is a novel individual treatment effect estimator based on differences between posterior predictive means under treated and control sub-models. By integrating out idiosyncratic noise, this estimator achieves lower variance and well calibrated credible intervals. Extensive simulation studies across Gaussian, Negative Binomial, and Bernoulli outcomes demonstrate improved accuracy, interval quality, and robustness compared to classical estimators. An empirical application to administrative tax data validate simulation results, highlighting the model’s ability to uncover dynamic and unit-specific causal effects. The second chapter addresses uncertainty arising from modeling and preprocessing choices in epidemiological risk estimation. A graphical framework inspired by multiverse analysis is proposed to systematically assess how alternative analytical decisions affect estimated associations. By jointly visualizing model specifications, goodness-of-fit measures, and risk estimates, the approach promotes transparency and robustness in inference. An application to upper aerodigestive tract cancer risk shows that while qualitative conclusions are generally stable, quantitative estimates can vary substantially depending on specific modeling and preprocessing decisions. The third chapter focuses on heterogeneous causal effects, applying Bayesian Additive Regression Trees to estimate the impact of artificial intelligence and machine learning adoption on sustainability practices among European small and medium-sized enterprises. The results provide evidence of positive average causal effects, alongside substantial heterogeneity across firm size and geographic areas. Overall, the thesis demonstrates how adequate statistical modeling and transparent analytical strategies, can enhance uncertainty quantification and lead to more reliable and informative empirical conclusions.

L’incertezza è una componente intrinseca della ricerca empirica e rappresenta una delle principali sfide dell’analisi statistica. Essa deriva da molteplici fonti, tra cui la variabilità dei dati, le scelte di modellazione e l’eterogeneità non osservata, influenzando sia la validità inferenziale sia i processi decisionali che ne conseguono. Questa tesi sviluppa e applica approcci di modellazione statistica finalizzati a comprendere, quantificare e ridurre l’incertezza in diversi contesti metodologici e applicativi. Il primo capitolo della tesi, propone un modello bayesiano a fattori dinamici per l’inferenza causale su dati panel osservazionali con adozione scaglionata del trattamento. Il modello cattura la dipendenza temporale attraverso fattori latenti che evolvono secondo processi autoregressivi e si estende a esiti non gaussiani mediante una formulazione generalizzata ai casi della famiglia esponenziale. Il principale contributo metodologico consiste in un nuovo stimatore dell'effetto causale individuale, definito come differenza tra le medie predittive a posteriori dei modelli per unità trattate e di controllo. Integrando la fonte di errore, lo stimatore produce stime più stabili e intervalli credibili ben calibrati. Studi di simulazione su dati gaussiani, binomiali negativi e bernoulliani mostrano miglioramenti in termini di accuratezza, qualità degli intervalli e robustezza rispetto ad un approccio più tradizionale. Un’applicazione empirica su dati amministrativi fiscali conferma i risultati ottenuti mediante simulazioni, dimostrando la buona capacità del modello di identificare effetti causali dinamici e specifici per unità. Il secondo capitolo affronta l’incertezza derivante dalle scelte di modellazione e di preprocessing nella stima del rischio epidemiologico. Viene introdotto un approccio grafico ispirato alla multiverse analysis, che consente di valutare sistematicamente l’impatto delle diverse decisioni analitiche sulle stime di rischio. Attraverso la visualizzazione congiunta delle specifiche di modello, delle misure di bontà di adattamento e delle stime ottenute, l’approccio favorisce trasparenza e robustezza inferenziale. L’applicazione al rischio di tumori del tratto aerodigestivo superiore mostra che, pur mantenendosi stabili le conclusioni qualitative, le stime quantitative possono variare sensibilmente in funzione delle scelte analitiche adottate. Il terzo capitolo si concentra sulla stima di effetti causali eterogenei, applicando i Bayesian Additive Regression Trees per valutare l’impatto dell’adozione di tecnologie di intelligenza artificiale e machine learning sulle pratiche di sostenibilità delle piccole e medie imprese europee. I risultati evidenziano effetti causali medi positivi, accompagnati da una marcata eterogeneità rispetto alla dimensione d’impresa e alla collocazione geografica. Nel complesso, la tesi mostra come una modellazione statistica adeguata e strategie analitiche trasparenti, possano migliorare la quantificazione dell’incertezza e condurre a conclusioni empiriche più affidabili e informative.