Feature allocation models in Bayesian Statistics

Ghilotti, Lorenzo

Feature allocation models have emerged as a central topic in modern Bayesian statistics, attracting increasing attention across diverse scientific fields. This thesis offers a comprehensive Bayesian investigation of the feature allocation framework, in which each observation is associated with a finite collection of features. This paradigm generalizes the classical species sampling framework, where observations belong to a single species, by allowing them to exhibit multiple features simultaneously. This distinction gives rise to new theoretical and inferential challenges concerning feature sharing and the appearance of previously unseen features as the sample size grows. The feature allocation framework is an active area of research, particularly within the machine learning community, with broad applications in diverse fields such as ecology, microbiome analysis, topic modeling, image segmentation. After revisiting the well-established theory of species sampling, the thesis develops a parallel and extensive account of the feature allocation framework. We emphasize similarities and differences between the species and feature settings, and we also highlight several open and urgent questions within the feature framework. As a first contribution, we introduce and study Gibbs-type feature models, a broad class that plays for feature allocations the same role Gibbs-type priors play in the species setting, achieving a balance between flexibility and tractability. We develop a complete Bayesian analysis of this class, and we illustrate its methodological relevance through applications to biodiversity assessment in ecology. In our second contribution, we propose a unified Bayesian framework for extended feature allocation models, capable of capturing dependencies such as attraction or repulsion among features. Several examples are presented, extending beyond the standard feature allocation setting. Within this framework, we derive new predictive characterizations, establishing feature-based analogues of the classical sufficientness postulates from the species sampling literature. As a third contribution, we introduce a general class of priors for trait allocation models under partial exchangeability. The trait setting naturally generalizes the feature framework by associating quantitative measurements with the presence of features in each observation. The proposed prior leads to tractable posterior inference and forms the basis for a novel mixture model that enables clustering of trait allocations. The practical relevance of this approach is demonstrated through an application in the context of criminal network data. Finally, the thesis develops a novel probabilistic result on the Palm distributions of superposed point processes, with important statistical applications to extended feature models and beyond.

I modelli di feature allocation rappresentano oggi un tema centrale nella statistica bayesiana moderna e stanno suscitando un interesse crescente in numerosi ambiti scientifici. Questa tesi presenta un’analisi bayesiana approfondita del framework di feature allocation, in cui ogni osservazione è associata a un insieme finito di features. Tale impostazione generalizza il classico framework di species sampling, nel quale ciascuna osservazione appartiene a una sola specie, consentendo invece loro di esibire più features simultaneamente. Questa differenza sostanziale introduce nuove sfide teoriche e inferenziali, legate alla condivisione dei features tra osservazioni e all’emergere di features non ancora osservati con l’aumentare della dimensione del campione. Il framework di feature allocation è oggi un ambito di ricerca molto attivo, in particolare nella comunità di machine learning, con applicazioni che spaziano dall’ecologia all’analisi del microbioma, dal topic modeling alla image segmentation. Dopo aver ripercorso la teoria consolidata dei modelli di species sampling, la tesi propone un’analisi parallela e sistematica del framework di feature allocation, mettendo in evidenza analogie e differenze tra i due contesti e discutendo varie questioni aperte di particolare rilievo. Nel primo contributo, introduciamo e studiamo i Gibbs-type feature models, una famiglia di modelli che, nel contesto dei feature allocation, riveste un ruolo analogo a quello delle Gibbs-type priors nel caso degli species, offrendo un buon compromesso tra flessibilità e trattabilità analitica. Sviluppiamo un’analisi bayesiana completa e illustriamo la rilevanza metodologica attraverso un’applicazione alla valutazione della biodiversità in ambito ecologico. Come secondo contributo, presentiamo un framework bayesiano unificato per gli extended feature allocation models, capace di descrivere dipendenze tra features, come fenomeni di attrazione o repulsione. All’interno di questo quadro discutiamo diversi esempi che estendono il contesto standard dei feature allocation e deriviamo nuove caratterizzazioni predittive che costituiscono l’analogo, nel caso dei features, dei tradizionali sufficientness postulates della letteratura sugli species sampling. Nel terzo contributo, proponiamo una classe generale di distribuzioni a priori per i trait allocation models in presenza di parziale scambiabilità. Il contesto dei traits estende in modo naturale quello dei features, associando misurazioni quantitative alla presenza dei features in ciascuna osservazione. La priori proposta consente di ottenere un’inferenza trattabile e dà origine a un nuovo modello mistura che permette di effettuare il clustering dei trait allocations. L’efficacia dell’approccio è illustrata attraverso un’applicazione a dati relativi a reti criminali. Infine, la tesi presenta un nuovo risultato probabilistico sulle distribuzioni di Palm di superposed point processes, che trova importanti applicazioni statistiche non solo agli extended feature models, ma anche in contesti più ampi della statistica bayesiana e dei processi stocastici.