Molti studi medici raccolgono dati in forma funzionale come ad esempio le traiettorie in un bio-marcatore nel corso del tempo. Di questi dati di interesse stimare le traiettorie e individuare o predire caratteristiche clinicamente importanti. I modelli lineari ad effetti misti (LME) sono comunemente utilizzati in questi casi, anche utilizzando effetti non-lineari che si possono includere facilmente attraverso splines. Tuttavia, per ottenere una flessibilità adeguata, spesso necessario utilizzare splines adattive in cui il numero e la posizione dei nodi ignoto e potenzialmente variabile tra soggetti. In questo contesto si utilizzano strumenti di tipo MCMC (Markov Chain Monte Carlo), come ad esempio il reversible jump o la selezione di variabili attraverso ricerca stocastica. Questi approcci sono, tuttavia, lenti e difficilmente utilizzabili in contesti in cui si ripetono spesso le operazioni di stima, in particolare per grandi dati set. A partire dagli strumenti sviluppati nella letteratura del compressive sensing in ambito di machine learning, ci siamo concentrati sulle relevant vector machine (RVM) - un approccio di analisi di dati funzionali bayesiano che utilizza veloci approssimazioni che sfruttano distribuzioni a priori gerarchiche per i coefficienti delle basi che ne favoriscano la sparsit. La letteratura recente per l’uso della metodologia RVM limitata ai modelli che assumono che una distribuzione dei coefficienti base centrata sullo zero con matrice di varianze e covarianze diagonale. In molte applicazioni su dati longitudinali e funzionali, tuttavia, la centratura sullo zero risulta essere una ipotesi poco realistica non consentendo il restringimento ad una funzione centrata sulla media della popolazione. In questo lavoro, abbiamo sviluppato una "multi-task relevant vector machine" generalizzata (MT-RVM), che genera modelli funzionali lineari misti sparsi per stimare sia la curva della media della popolazione che la curva specifica per soggetto. In particolare, in primo luogo abbiamo considerato un modello LME che assume effetti casuali indipendenti e successivamente abbiamo esteso questo approccio ad un modello LME pi generalizzato con effetti casuali correlati. Inoltre, abbiamo esteso la metodologia MT-RVM generalizzata alla situazione in cui sono disponibili diversi livelli di gerarchia, ottenendo una “multi-level relevant vector machine” (ML-RVM) che genera un modello multi-level funzionale sparso ad effetti misti. I metodi sviluppati sono stati motivati dal problema di analizzare le curve della temperatura basale durante il ciclo mestruale, e tale applicazione viene considerata come esemplificazione durante tutta la tesi.

Approximate bayes random effects models for large datasets

CIERA, JAMES MBUGUA
2010

Abstract

Molti studi medici raccolgono dati in forma funzionale come ad esempio le traiettorie in un bio-marcatore nel corso del tempo. Di questi dati di interesse stimare le traiettorie e individuare o predire caratteristiche clinicamente importanti. I modelli lineari ad effetti misti (LME) sono comunemente utilizzati in questi casi, anche utilizzando effetti non-lineari che si possono includere facilmente attraverso splines. Tuttavia, per ottenere una flessibilità adeguata, spesso necessario utilizzare splines adattive in cui il numero e la posizione dei nodi ignoto e potenzialmente variabile tra soggetti. In questo contesto si utilizzano strumenti di tipo MCMC (Markov Chain Monte Carlo), come ad esempio il reversible jump o la selezione di variabili attraverso ricerca stocastica. Questi approcci sono, tuttavia, lenti e difficilmente utilizzabili in contesti in cui si ripetono spesso le operazioni di stima, in particolare per grandi dati set. A partire dagli strumenti sviluppati nella letteratura del compressive sensing in ambito di machine learning, ci siamo concentrati sulle relevant vector machine (RVM) - un approccio di analisi di dati funzionali bayesiano che utilizza veloci approssimazioni che sfruttano distribuzioni a priori gerarchiche per i coefficienti delle basi che ne favoriscano la sparsit. La letteratura recente per l’uso della metodologia RVM limitata ai modelli che assumono che una distribuzione dei coefficienti base centrata sullo zero con matrice di varianze e covarianze diagonale. In molte applicazioni su dati longitudinali e funzionali, tuttavia, la centratura sullo zero risulta essere una ipotesi poco realistica non consentendo il restringimento ad una funzione centrata sulla media della popolazione. In questo lavoro, abbiamo sviluppato una "multi-task relevant vector machine" generalizzata (MT-RVM), che genera modelli funzionali lineari misti sparsi per stimare sia la curva della media della popolazione che la curva specifica per soggetto. In particolare, in primo luogo abbiamo considerato un modello LME che assume effetti casuali indipendenti e successivamente abbiamo esteso questo approccio ad un modello LME pi generalizzato con effetti casuali correlati. Inoltre, abbiamo esteso la metodologia MT-RVM generalizzata alla situazione in cui sono disponibili diversi livelli di gerarchia, ottenendo una “multi-level relevant vector machine” (ML-RVM) che genera un modello multi-level funzionale sparso ad effetti misti. I metodi sviluppati sono stati motivati dal problema di analizzare le curve della temperatura basale durante il ciclo mestruale, e tale applicazione viene considerata come esemplificazione durante tutta la tesi.
gen-2010
Inglese
Functional data; MAP estimates; Ovulation; Random e ects; Relevance vector machine; Sparsity; Splines.
Università degli studi di Padova
File in questo prodotto:
File Dimensione Formato  
Ciera_PhD_Thesis.pdf

accesso aperto

Dimensione 1.61 MB
Formato Adobe PDF
1.61 MB Adobe PDF Visualizza/Apri

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14242/108799
Il codice NBN di questa tesi è URN:NBN:IT:UNIPD-108799