Bayesian Methods for Change Point Analysis

Danese, Luca

Detecting structural changes is a critical issue in many fields. Identifying when and whether a process undergoes an abrupt change can advance knowledge, support better decision-making, and improve productivity in domains such as biology, ecology, finance, and beyond. Statistical analysis addresses this problem by providing a variety of methods to detect change points in time-dependent data. Approaches based on a Bayesian framework are particularly powerful in this context, as they naturally quantify uncertainty, allow flexibility in the number and location of change points, and incorporate prior knowledge. In particular, methods based on random partitions are especially effective, as they build on the literature on Bayesian clustering to address this specific problem. This thesis advances the Bayesian methodology for change point analysis through four complementary projects. The first project develops a method for multivariate change point detection with missing observations, extending one of the leading state-of-the-art approaches by introducing a multivariate kernel and an imputation strategy within the MCMC algorithm. Applications include COVID-19 incidence in Italy, Milan temperature data, and inflation rates in the European Union. The second project introduces a model-based clustering approach to group time-dependent data with common change points. The modeling strategy is based on a mixture model, in which two observations belong to the same cluster if they share the latent partition induced by their change points. Posterior inference is performed using a split–merge algorithm. Empirical applications are provided for the spread of COVID-19 in the European Union and for exchange rate data. The third project presents a software package implementing the methods introduced in the first and second projects. The package provides efficient functions, a user-friendly interface, and tools for result visualization. The fourth project introduces a method for clustering time series with asynchronous change points. The approach is based on a repulsive finite mixture model, which encourages heterogeneous clusters to group time series that exhibit similar but not identical change points. An application to the top 50 companies in the Standard & Poor's 500 index is presented.

Rilevare cambiamenti strutturali è una questione cruciale in molti campi. Identificare quando e se un processo subisce un cambiamento improvviso può favorire l’avanzamento della conoscenza, supportare un processo decisionale più efficace e migliorare la produttività in ambiti come la biologia, l’ecologia, la finanza e oltre. L’analisi statistica affronta questo problema fornendo una varietà di metodi per individuare punti di cambio su dati tempo dipendenti. Gli approcci basati su un framework bayesiano sono particolarmente efficaci in questo contesto, poiché quantificano l’incertezza, consentono flessibilità nel numero e nella posizione dei punti di cambio, e permettono di incorporare conoscenza a priori. In particolare, i metodi basati sulle partizioni casuali risultano particolarmente efficaci, poiché si fondano sulla letteratura del clustering bayesiano per affrontare questo specifico problema. Questa tesi propone avanzamenti per la metodologia bayesiana per l’analisi dei punti di cambio attraverso quattro progetti complementari. Il primo progetto sviluppa un metodo per individuare punti di cambio su serie storiche multicariate con possibili valori mancanti, estendendo uno dei principali approcci che si possono trovare in letteratura mediante l’introduzione di un kernel multivariato e di una strategia di imputazione all’interno dell’algoritmo MCMC. Le applicazioni includono l’incidenza del COVID-19 in Italia, i dati della temperatura nella città di Milano e i tassi di inflazione nell’Unione Europea. Il secondo progetto introduce un approccio model-based per raggruppare dati tempo-dipendenti che condividono gli stessi punti di cambio. La strategia si basa su un modello mistura, in cui due osservazioni appartengono allo stesso cluster se condividono la partizione latente indotta dai rispettivi punti di cambio. L’inferenza a posteriori viene eseguita utilizzando un algoritmo split–merge. Vengono presentate applicazioni empiriche sulla diffusione del COVID-19 in Unione Europea e sui tassi di cambio dell’Euro. Il terzo progetto presenta un paccheto software che implementa i metodi introdotti nel primo e nel secondo progetto. Il pacchetto fornisce funzioni efficienti, un’interfaccia user-friendly e strumenti per la visualizzazione dei risultati. Il quarto progetto introduce un metodo per il clustering di serie temporali con punti di cambio asincroni. L’approccio si basa su un modello mistura repulsivo con un numero finito di componenti, che incoraggia cluster eterogenei a raggruppare serie temporali che mostrano punti di cambio simili ma non identici. Viene presentata un’applicazione alle quotazioni in borsa delle prime 50 aziende dell’indice Standard & Poor’s 500.