In this work two extensions of Cluster Weighted Models (a mixture model with random covariate) are presented for model-based clustering applications. The first presents the Generalized Additive Cluster Weighted Model. This is a very flexible model, able to capture complex relations between a response variable and a set of covariates in each mixture component introducing the Generalized Additive Model into the CWM framework. The second, is related to the beta regression that represents the standard approach to model a dependent variable with the range in the unit interval [0,1]. In some situations, a problem that could arise is a direct consequence of flexibility of the beta distribution, because when it is considered as a mixture component it may be too flexible due to the great variety of shapes (including multi-modal shapes) that can assume so that it may be difficult to understand easily the real meaning of each component. For this reason, we developed an extension of the beta mixture models focusing on the subset of unimodal beta distribution, with the aim of improving the interpretation of each mixture component and then identifying better the respective cluster in the population. Finally, an R package under development that will published on the CRAN implements the proposed methodologies. The estimation of these models is performed via maximum likelihood with EM algorithm. With simulated and real data we investigate the performances, limits and benefits comparing this model with other models related to it.
In questo lavoro vengono presentate due estensioni del modello Cluster Weighted (un modello mistura di regressioni che considera non solo la distribuzione condizionata ma anche la distribuzione marginale delle covariate). La prima estensione proposta presenta il modello GAM-CWM. Si tratta di un modello molto flessibile, in grado di descrivere relazioni complesse tra una variabile risposta e un insieme di covariate in ogni componente della mistura. In questo modello proposto la classe dei Generalized Additive Models è stata inserita all’interno del framework CWM. La seconda estensione, è relativa alla regressione beta che rappresenta l'approccio standard per modellare una variabile dipendente in [0,1]. In alcune situazioni, un problema che potrebbe sorgere è una conseguenza diretta della flessibilità della distribuzione beta, perché quando viene utilizzata come componente in un modello mistura potrebbe essere troppo flessibile a causa della grande varietà di forme (incluse le forme multimodali) che può assumere. In questo caso quindi può essere difficile capire e interpretare il significato di ciascun gruppo latente. Per questo motivo, abbiamo sviluppato un'estensione dei modelli mistura di beta focalizzandoci sul sottoinsieme della distribuzioni beta unimodali, con l'obiettivo di migliorare l'interpretazione di ciascun componente e quindi interpretare meglio il rispettivo cluster nella popolazione. Infine, un pacchetto R in fase di sviluppo che sarà pubblicato sul CRAN implementa le metodologie proposte. La stima di questi modelli viene eseguita tramite la massima verosimiglianza con l'algoritmo EM. Con dati simulati e reali esaminiamo le prestazioni, i limiti e i benefici confrontando i nuovi modelli proposti con modelli simili presentati e disponibili in letteratura.
New developments in Cluster-Weighted Modeling
BARBERIS, STEFANO
2019
Abstract
In this work two extensions of Cluster Weighted Models (a mixture model with random covariate) are presented for model-based clustering applications. The first presents the Generalized Additive Cluster Weighted Model. This is a very flexible model, able to capture complex relations between a response variable and a set of covariates in each mixture component introducing the Generalized Additive Model into the CWM framework. The second, is related to the beta regression that represents the standard approach to model a dependent variable with the range in the unit interval [0,1]. In some situations, a problem that could arise is a direct consequence of flexibility of the beta distribution, because when it is considered as a mixture component it may be too flexible due to the great variety of shapes (including multi-modal shapes) that can assume so that it may be difficult to understand easily the real meaning of each component. For this reason, we developed an extension of the beta mixture models focusing on the subset of unimodal beta distribution, with the aim of improving the interpretation of each mixture component and then identifying better the respective cluster in the population. Finally, an R package under development that will published on the CRAN implements the proposed methodologies. The estimation of these models is performed via maximum likelihood with EM algorithm. With simulated and real data we investigate the performances, limits and benefits comparing this model with other models related to it.File | Dimensione | Formato | |
---|---|---|---|
phd_unimib_717748.pdf
accesso aperto
Dimensione
3.84 MB
Formato
Adobe PDF
|
3.84 MB | Adobe PDF | Visualizza/Apri |
I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/20.500.14242/77499
URN:NBN:IT:UNIMIB-77499