Latent variable models provide a fundamental statistical framework for the analysis of data in many different fields. These include, but are not limited to, education, psychology, sociology, economics, medicine, and engineering. The popularity of these models has significantly grown in the last decades due to the increasing availability of data and of computational resources. The thesis is organized as follows. In Chapter 1 we provide basic background knowledge for the latent variable models based on a discrete distribution. In particular, we review in some details specific classes of the models at issue, namely latent class (LC), hidden Markov (HM) and stochastic block (SB) models. We recall the main underlying assumptions and analyze the standard maximum likelihood estimation of model parameters through the expectation-maximization (EM) algorithm. In Chapter 2 we deal with the problem of multimodality of the log-likelihood function of discrete latent variable models, and the consequent possible convergence of the EM algorithm to a local maximum. We introduce a class of optimization methods, namely tempering or annealing, which employ a parameter known as temperature to re-scale the target function and monitor the prominence of all maxima. Exploiting the basic idea of these techniques, we propose a tempered EM algorithm to explore the parameter space adequately and increase the chance to reach the global maximum. We compare the proposal with the standard EM algorithm by an extensive Monte Carlo simulation study, evaluating both the ability to reach the global maximum of the log-likelihood function, and the computational time. We also employ the proposal on cross-sectional and longitudinal data referred to some application of interest, showing the main findings for LC and HM models. In Chapter 3 we consider again the problem of convergence of the EM algorithm to a local maximum proposing a different approach. We explore the framework of evolutionary algorithms, a class of optimization methods working according to the biological principles of natural evolution. We discuss the mechanism of the main evolutionary operators and propose to apply it within the context of the EM algorithm for the estimation of the parameters of discrete latent variable models. This approach allows us to explore more accurately the parameter space exploration and allows us to escape local maxima. The performance of the resulting algorithm is assessed relying on the same simulation scheme proposed in Chapter 2. This allow us to compare the two proposals, highlighting benefits and drawbacks of both approaches. In Chapter 4, in the context of SB model, we tackle the need to account for higher-order interactions, in order to include information deriving from groups of three or more subjects. We review the notion of hypergraphs and hyperedges, which extend the concept of graphs and edges respectively, and provide the most general mathematical formalization of high-order interactions. In particular we distinguish the notion of "simple" hypergraphs, where hyperedges are subsets of distinct nodes taking part into an interaction, from the notion of "multisets" hypergraphs, where repeated nodes are allowed in the same hyperedge; we illustrate how a proper choice has to rely on the specificity of each dataset. In this work, we focus on model-based clustering for simple hypergraphs, where literature is quite scarce, and computational challenges increase. We propose a general SB model for simple hypergraphs which allows us to capture the information of higher-order interactions. We perform maximum likelihood estimation of model parameters through a variational EM algorithm, and explore model selection using the Integrated Classification Likelihood criterion. The model is applied to both simulated and real data, and the performance of the proposal is assessed in terms of parameter estimation and ability to recover the clusters.

I modelli a variabili latenti forniscono un approccio statistico fondamentale per l'analisi di dati in molti campi diversi. Tra gli altri, citiamo la psicologia, la sociologia, l'economia, la medicina e l'ingegneria. La popolarità di questi modelli è accresciuta significativamente negli ultimi decenni grazie alla sempre maggiore disponibilità di dati e di risorse computazionali. La tesi è organizzata come segue. Nel Capitolo 1 si forniscono alcune conoscenze di base per i modelli a variabili latenti basati su distribuzioni discrete. In particolare, si analizzano nel dettaglio alcune specifiche classi dei modelli oggetto di studio: modelli latent class (LC), modelli hidden Markov (HM) e modelli stochastic block (SB). Si richiamano le principali assunzioni teoriche alla base di questi modelli a si analizza la stima di massima verosimiglianza per i parametri del modello attraverso l'algoritmo di expectation-maximization (EM). Nel Capitolo 2 si introduce il problema della multi-modalità della funzione di verosimiglianza per i modelli a variabili latenti discrete; si analizza la conseguente convergenza dell'algoritmo EM a massimi locali. Si considera una classe di metodi di ottimizzazione, noti come tempering o annealing, che ricorrono all'utilizzo di un parametro per riscalare la funzione da massimizzare e per monitorare la prominenza di tutti i massimi. Sfruttando queste tecniche, si propone un algoritmo tempered EM per esplorare lo spazio dei parametri in modo adeguato ed accrescere le possibilità di raggiungere il massimo globale. Si confronta la proposta con l'algoritmo EM attraverso uno studio simulativo di tipo Monte Carlo, valutando sia l'abilità di raggiungere il massimo globale della funzione di verosimiglianza, sia il tempo computazionale. Si utilizza la proposta anche su dati di tipo reali in riferimento ad alcune applicazioni di interesse, mostrando i risultati per i modelli LC ed HM. Nel Capitolo 3 si considera nuovamente il problema di convergenza dell'algoritmo EM a massimi locali, proponendo un secondo approccio. Si esplora il contesto degli algoritmi evolutivi, metodi di ottimizzazione il cui funzionamento segue i principi biologici dell'evoluzione naturale. Si discute il meccanismo dei principali operatori evolutivi, e si propone la loro applicazione nel contesto dell'algoritmo EM per la stima dei parametri di modelli a variabili latenti discrete. Questo approccio ci consente di esplorare lo spazio dei parametri in modo più accurato e di evitare i massimi locali. La performance dell'algoritmo risultante è valutata con lo stesso schema simulativo introdotto nel Capitolo 2. Questo consente di confrontare i due algoritmi proposti, evidenziandone vantaggi e svantaggi. Nel Capitolo 4, nel contesto dei modelli SB, si valuta la necessità di considerare interazioni di grado superiore al secondo, includendo così informazioni che derivano da gruppi di tre o più soggetti. Si introducono le nozioni di hypergraphs and hyperedges, che estendono i concetti di grafi e lati rispettivamente. In particolare, si distingue la nozione di "simple hypergraphs", in cui gli hyperedges sono sottoinsiemi di nodi tutti distinti, dalla nozione di "multisets hypergraphs", in cui si contempla la possibilità di avere nodi ripetuti in uno stesso hyperedge. Si illustra come una scelta appropriata debba tenere conto delle specificità di ogni dataset. Si analizza un approccio di model-based clustering per simple hypergraphs, campo in cui la letteratura è piuttosto scarsa e le difficoltà computazionali aumentano. Si propone un modello SB per simple hypergraphs che consente di catturare le informazioni contenute in interazioni di grado superiore al secondo. Si esegue la stima di massima verosimiglianza dei parametri del modello attraverso un'approssimazione variazionale dell'algoritmo EM. Il modello proposto è applicato sia a dati simulati, sia a dati reali, e la performance è valutata in termini della stima dei parametri.

Developments in discrete latent variable models: dealing with likelihood multimodality and clustering of simple hypergraphs

BRUSA, LUCA
2023

Abstract

Latent variable models provide a fundamental statistical framework for the analysis of data in many different fields. These include, but are not limited to, education, psychology, sociology, economics, medicine, and engineering. The popularity of these models has significantly grown in the last decades due to the increasing availability of data and of computational resources. The thesis is organized as follows. In Chapter 1 we provide basic background knowledge for the latent variable models based on a discrete distribution. In particular, we review in some details specific classes of the models at issue, namely latent class (LC), hidden Markov (HM) and stochastic block (SB) models. We recall the main underlying assumptions and analyze the standard maximum likelihood estimation of model parameters through the expectation-maximization (EM) algorithm. In Chapter 2 we deal with the problem of multimodality of the log-likelihood function of discrete latent variable models, and the consequent possible convergence of the EM algorithm to a local maximum. We introduce a class of optimization methods, namely tempering or annealing, which employ a parameter known as temperature to re-scale the target function and monitor the prominence of all maxima. Exploiting the basic idea of these techniques, we propose a tempered EM algorithm to explore the parameter space adequately and increase the chance to reach the global maximum. We compare the proposal with the standard EM algorithm by an extensive Monte Carlo simulation study, evaluating both the ability to reach the global maximum of the log-likelihood function, and the computational time. We also employ the proposal on cross-sectional and longitudinal data referred to some application of interest, showing the main findings for LC and HM models. In Chapter 3 we consider again the problem of convergence of the EM algorithm to a local maximum proposing a different approach. We explore the framework of evolutionary algorithms, a class of optimization methods working according to the biological principles of natural evolution. We discuss the mechanism of the main evolutionary operators and propose to apply it within the context of the EM algorithm for the estimation of the parameters of discrete latent variable models. This approach allows us to explore more accurately the parameter space exploration and allows us to escape local maxima. The performance of the resulting algorithm is assessed relying on the same simulation scheme proposed in Chapter 2. This allow us to compare the two proposals, highlighting benefits and drawbacks of both approaches. In Chapter 4, in the context of SB model, we tackle the need to account for higher-order interactions, in order to include information deriving from groups of three or more subjects. We review the notion of hypergraphs and hyperedges, which extend the concept of graphs and edges respectively, and provide the most general mathematical formalization of high-order interactions. In particular we distinguish the notion of "simple" hypergraphs, where hyperedges are subsets of distinct nodes taking part into an interaction, from the notion of "multisets" hypergraphs, where repeated nodes are allowed in the same hyperedge; we illustrate how a proper choice has to rely on the specificity of each dataset. In this work, we focus on model-based clustering for simple hypergraphs, where literature is quite scarce, and computational challenges increase. We propose a general SB model for simple hypergraphs which allows us to capture the information of higher-order interactions. We perform maximum likelihood estimation of model parameters through a variational EM algorithm, and explore model selection using the Integrated Classification Likelihood criterion. The model is applied to both simulated and real data, and the performance of the proposal is assessed in terms of parameter estimation and ability to recover the clusters.
27-feb-2023
Inglese
I modelli a variabili latenti forniscono un approccio statistico fondamentale per l'analisi di dati in molti campi diversi. Tra gli altri, citiamo la psicologia, la sociologia, l'economia, la medicina e l'ingegneria. La popolarità di questi modelli è accresciuta significativamente negli ultimi decenni grazie alla sempre maggiore disponibilità di dati e di risorse computazionali. La tesi è organizzata come segue. Nel Capitolo 1 si forniscono alcune conoscenze di base per i modelli a variabili latenti basati su distribuzioni discrete. In particolare, si analizzano nel dettaglio alcune specifiche classi dei modelli oggetto di studio: modelli latent class (LC), modelli hidden Markov (HM) e modelli stochastic block (SB). Si richiamano le principali assunzioni teoriche alla base di questi modelli a si analizza la stima di massima verosimiglianza per i parametri del modello attraverso l'algoritmo di expectation-maximization (EM). Nel Capitolo 2 si introduce il problema della multi-modalità della funzione di verosimiglianza per i modelli a variabili latenti discrete; si analizza la conseguente convergenza dell'algoritmo EM a massimi locali. Si considera una classe di metodi di ottimizzazione, noti come tempering o annealing, che ricorrono all'utilizzo di un parametro per riscalare la funzione da massimizzare e per monitorare la prominenza di tutti i massimi. Sfruttando queste tecniche, si propone un algoritmo tempered EM per esplorare lo spazio dei parametri in modo adeguato ed accrescere le possibilità di raggiungere il massimo globale. Si confronta la proposta con l'algoritmo EM attraverso uno studio simulativo di tipo Monte Carlo, valutando sia l'abilità di raggiungere il massimo globale della funzione di verosimiglianza, sia il tempo computazionale. Si utilizza la proposta anche su dati di tipo reali in riferimento ad alcune applicazioni di interesse, mostrando i risultati per i modelli LC ed HM. Nel Capitolo 3 si considera nuovamente il problema di convergenza dell'algoritmo EM a massimi locali, proponendo un secondo approccio. Si esplora il contesto degli algoritmi evolutivi, metodi di ottimizzazione il cui funzionamento segue i principi biologici dell'evoluzione naturale. Si discute il meccanismo dei principali operatori evolutivi, e si propone la loro applicazione nel contesto dell'algoritmo EM per la stima dei parametri di modelli a variabili latenti discrete. Questo approccio ci consente di esplorare lo spazio dei parametri in modo più accurato e di evitare i massimi locali. La performance dell'algoritmo risultante è valutata con lo stesso schema simulativo introdotto nel Capitolo 2. Questo consente di confrontare i due algoritmi proposti, evidenziandone vantaggi e svantaggi. Nel Capitolo 4, nel contesto dei modelli SB, si valuta la necessità di considerare interazioni di grado superiore al secondo, includendo così informazioni che derivano da gruppi di tre o più soggetti. Si introducono le nozioni di hypergraphs and hyperedges, che estendono i concetti di grafi e lati rispettivamente. In particolare, si distingue la nozione di "simple hypergraphs", in cui gli hyperedges sono sottoinsiemi di nodi tutti distinti, dalla nozione di "multisets hypergraphs", in cui si contempla la possibilità di avere nodi ripetuti in uno stesso hyperedge. Si illustra come una scelta appropriata debba tenere conto delle specificità di ogni dataset. Si analizza un approccio di model-based clustering per simple hypergraphs, campo in cui la letteratura è piuttosto scarsa e le difficoltà computazionali aumentano. Si propone un modello SB per simple hypergraphs che consente di catturare le informazioni contenute in interazioni di grado superiore al secondo. Si esegue la stima di massima verosimiglianza dei parametri del modello attraverso un'approssimazione variazionale dell'algoritmo EM. Il modello proposto è applicato sia a dati simulati, sia a dati reali, e la performance è valutata in termini della stima dei parametri.
Algoritmo EM; Massimo globale; Modello HM; Modello SB; Networks
PENNONI, FULVIA
VITTADINI, GIORGIO
Università degli Studi di Milano-Bicocca
File in questo prodotto:
File Dimensione Formato  
phd_unimib_839359.pdf

accesso aperto

Dimensione 2.35 MB
Formato Adobe PDF
2.35 MB Adobe PDF Visualizza/Apri

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14242/173261
Il codice NBN di questa tesi è URN:NBN:IT:UNIMIB-173261