A State-Space modelling framework in geostatistics with application to environmental data

Rodeschini, Jacopo

This thesis presents a framework based on geostatistical models for analysing environmental datasets. Geostatistical models rely on stochastic (random) fields, described by a limited number of parameters, aiming to replicate patterns in observed spatio-temporal variability without necessarily following the underlying true physical equations. Space–time geostatistical models are evolving rapidly to address increasingly complex datasets in fields such as geology, climate science, ecology, epidemiology, and economics. Two main conceptual approaches are distinguished: (i) single spatio-temporal random function models, and (ii) dynamical-statistical approaches involving vectors of spatial functions or time series. Links between these approaches are explored, highlighting advantages and limitations. While the first approach often provides satisfactory solutions, it does not model the underlying dynamics. The dynamical-statistical approach explicitly models the dependence of the current state on previous states through mechanistic or probabilistic relationships. These models are specified by unknown parameters, estimated from data using a state-space framework with the Kalman filter and smoother. When parameters are unknown, the expectation–maximisation (EM) algorithm is employed to obtain maximum-likelihood estimates. This thesis focuses on Gaussian state-space models and extends them to multivariate spatial analysis, improving prediction and capturing cross-dependencies. Applications include modelling fine particulate matter (PM2.5 and PM10) and estimating the impact of ammonia (NH3) emissions on PM2.5 in Lombardy, Italy. With growing dataset sizes from remote-sensing and sensor networks, exact inference becomes computationally infeasible. To address this, a low-rank Gaussian process approximation is proposed, leveraging stochastic partial differential equations (SPDEs) to reduce Kalman filter costs while preserving interpretability. Theoretical properties, error bounds, and EM-based parameter estimation are established, and extensive simulations validate accuracy and efficiency. The approach naturally extends to higher-dimensional manifolds, networks, and graphs, highlighting its flexibility and broad applicability.

Questa tesi presenta un framework basato su modelli geostatistici per l’analisi di dataset ambientali. I modelli geostatistici si fondano su processi stocastici, descritti da un numero limitato di parametri, e mirano a replicare i pattern della variabilità spazio-temporale osservata senza necessariamente seguire le equazioni fisiche sottostanti. I modelli geostatistici spazio-temporali stanno evolvendo rapidamente per affrontare dataset sempre più complessi in ambiti come geologia, scienze climatiche, ecologia, epidemiologia ed economia. Si distinguono due principali approcci concettuali: (i) modelli basati su una singola funzione casuale spazio-temporale e (ii) modelli dinamici basati sulle serie temporali. I legami tra questi due approcci vengono esplorati nella tesi, evidenziandone vantaggi e limiti. Mentre il primo approccio fornisce spesso soluzioni soddisfacenti, non modella le dinamiche sottostanti. Al contrario, l’approccio dinamico modella esplicitamente la dipendenza dello stato corrente dagli stati precedenti attraverso relazioni meccanistiche o probabilistiche. Questi modelli possono essere formalizzati attraverso il framework degli State-Space Model (SSM) parametrizzati da parametri ignoti. Per gli SSM i parametri possono essere stimati mediante l’algoritmo di expectation–maximisation (EM), che consente di ottenere le stime di massima verosimiglianza Questa tesi si concentra sui modelli spazio-tempo State-Space per dati Gaussiani e li estende all’analisi spaziale multivariata, modellando le interdipendenze tra i vari processi. Le applicazioni includono la modellazione delle polveri sottili (PM2.5 e PM10) e la stima dell’impatto delle emissioni di ammoniaca (NH3) sulle concentrazioni di PM2.5 in Lombardia. Con l’aumento delle dimensioni dei dataset provenienti da piattaforme di telerilevamento e reti di sensori, l’inferenza esatta per modelli Gaussioni diventa computazionalmente proibitiva. Per affrontare questo problema, nell’elaborato di tesi viene proposta un’approssimazione a rango ridotto (low-rank) del processo Gaussiano, basata su equazioni differenziali stocastiche alle derivate parziali (SPDE), che riduce i costi computazionali del filtro di Kalman preservando l’interpretabilità del modello. Vengono stabilite proprietà teoriche dell’apporissimazione, tra cui i bound dell’errore e l’identificabilità dei parametri. Le proprietà asintotiche degli stimatori MLE sono valutate in simulazione. Nonostante l’approccio proposto sia stato applicato in spazi in R2, il modello sviluppato si estende naturalmente a spazi di dimensioni superiori, reti e grafi, evidenziandone flessibilità e ampia applicabilità.