Linear Models and Deep Learning: Learning in Sequential Domains

Pasa, Luca

Con la diffusione di dispositivi a basso costo, e reti di sensori (come ad esempio l'Internet of Things), nonché lo sviluppo di interfacce di interazione uomo-macchina a basso costo, la capacità di processare dati sequenziali in maniera veloce, e assicurando un basso consumo di risorse, è diventato sempre più importante. Molti sono i compiti che trarrebbero beneficio da un avanzamento in questo ambito, dal monitoraggio e classificazione di comportamenti umani fino alla predizioni di eventi futuri. Molti dei task citati richiedono l'uso di tecniche di pattern recognition e di abilità correlate con metodi tipici dell’apprendimento automatico. Molti sono gli approcci per eseguire apprendimento su domini sequenziali proposti nel recente passato, e molti sono basati su tecniche tipiche dell'ambito del Deep Learning. I metodi di Deep Learning sono tipicamente basati su sistemi fortemente non lineari, capaci di ottenere ottimi risultati in problemi di predizione/classificazione, ma che risultano anche essere molto costosi dal punto di vista computazionale. Quando si cerca di eseguire un compito di apprendimento su domini sequenziali, e più in generale su dati strutturati, tipicamente si ricorre all'utilizzo di sistemi non lineari. Non è però sempre vero che i task considerati richiedono modelli non lineari. Quindi il rischio è di andare ad utilizzare metodi troppo complessi, e computazionalmente costosi, per poi ottenere alla fine soluzioni che migliorano di un’epsilon (o anche no migliorano) i risultati ottenibili tramite l'utilizzo di sistemi lineari dinamici, che risultano essere molto meno costosi dal punto di vista dell'apprendimento, e del costo computazionale. L'obiettivo di questa tesi è di discutere del ruolo che i sistemi lineari dinamici possono avere nelle esecuzioni di compiti di apprendimento su dati strutturati. In questa tesi vogliamo mettere in luce le capacità dei sistemi lineari dinamici (LDS) di ottenere soluzioni molto buone ad un costo computazionale relativamente basso. Inoltre risulta interessante vedere come, nel caso in cui un sistema lineare non sia sufficiente per ottenere il risultato sperato, esso possa essere usato come base per costruire modelli più complessi, oppure possa essere utilizzato per eseguire la fase di pre-training per un modello non lineare, come ad esempio Echo State Networks (ESNs) e Recurrent Neural Networks (RNNs). Nello specifico in questa tesi è stato considerato un task di predizione dell'evento successivo, data una sequenza di eventi. I dataset usati per testare i vari modelli proposti nella tesi, contengono sequenze di musica polifonica, che risultano essere particolarmente lunghe e complesse. Nella prima parte della tesi viene proposto l'utilizzo del semplice modello LDS per affrontare il compito considerato. In particolare vengono considerati tre approcci diversi per eseguire l'apprendimento con questo modello. Viene poi introdotti nuovi modelli, ispirati al modello LDS, che hanno l'obiettivo di migliorare le prestazioni di quest'ultimo nei compiti di predizione/classificazione. Vengono poi considerati i più comuni modelli non lineari, in particolare il modello RNN il quale risulta essere significativamente più complesso e computazionalmente costoso da utilizzare. Viene quindi empiricamente dimostrato che, almeno per quanto riguarda il compito di predizione e i dataset considerati, l'introduzione di una fase di pre-training basati su sistemi lineari porta ad un significativo miglioramento delle prestazioni e della accuratezza nell'eseguire la predizione. In particolare 2 metodi di pre-training vengono proposti, il primo chiamato pre-training via Linear Autoencoder, ed il secondo basato su Hidden Markov Models (HMMs). I risultati sperimentali suggeriscono che i sistemi lineari possono giocare un ruolo importante per quanto riguarda il compito di apprendimento in domini sequenziali, sia che siano direttamente usati oppure siano usati indirettamente (come base per eseguire la fase di pre-training): infatti, usandoli direttamente, essi hanno permesso di raggiungere risultati che rappresentano lo stato dell'arte, andando però a richiedere uno sforzo computazionale molto limitato se confrontato con i più comuni modelli non lineari. Inoltre, anche quando le performance ottenute sono risultate non soddisfacenti, si è dimostrato che è possibile utilizzarli con successo per eseguire la fase di pre-training di sistemi non lineari.

Linear Models and Deep Learning: Learning in Sequential Domains

PASA, LUCA

2017

Abstract

Con la diffusione di dispositivi a basso costo, e reti di sensori (come ad esempio l'Internet of Things), nonché lo sviluppo di interfacce di interazione uomo-macchina a basso costo, la capacità di processare dati sequenziali in maniera veloce, e assicurando un basso consumo di risorse, è diventato sempre più importante. Molti sono i compiti che trarrebbero beneficio da un avanzamento in questo ambito, dal monitoraggio e classificazione di comportamenti umani fino alla predizioni di eventi futuri. Molti dei task citati richiedono l'uso di tecniche di pattern recognition e di abilità correlate con metodi tipici dell’apprendimento automatico. Molti sono gli approcci per eseguire apprendimento su domini sequenziali proposti nel recente passato, e molti sono basati su tecniche tipiche dell'ambito del Deep Learning. I metodi di Deep Learning sono tipicamente basati su sistemi fortemente non lineari, capaci di ottenere ottimi risultati in problemi di predizione/classificazione, ma che risultano anche essere molto costosi dal punto di vista computazionale. Quando si cerca di eseguire un compito di apprendimento su domini sequenziali, e più in generale su dati strutturati, tipicamente si ricorre all'utilizzo di sistemi non lineari. Non è però sempre vero che i task considerati richiedono modelli non lineari. Quindi il rischio è di andare ad utilizzare metodi troppo complessi, e computazionalmente costosi, per poi ottenere alla fine soluzioni che migliorano di un’epsilon (o anche no migliorano) i risultati ottenibili tramite l'utilizzo di sistemi lineari dinamici, che risultano essere molto meno costosi dal punto di vista dell'apprendimento, e del costo computazionale. L'obiettivo di questa tesi è di discutere del ruolo che i sistemi lineari dinamici possono avere nelle esecuzioni di compiti di apprendimento su dati strutturati. In questa tesi vogliamo mettere in luce le capacità dei sistemi lineari dinamici (LDS) di ottenere soluzioni molto buone ad un costo computazionale relativamente basso. Inoltre risulta interessante vedere come, nel caso in cui un sistema lineare non sia sufficiente per ottenere il risultato sperato, esso possa essere usato come base per costruire modelli più complessi, oppure possa essere utilizzato per eseguire la fase di pre-training per un modello non lineare, come ad esempio Echo State Networks (ESNs) e Recurrent Neural Networks (RNNs). Nello specifico in questa tesi è stato considerato un task di predizione dell'evento successivo, data una sequenza di eventi. I dataset usati per testare i vari modelli proposti nella tesi, contengono sequenze di musica polifonica, che risultano essere particolarmente lunghe e complesse. Nella prima parte della tesi viene proposto l'utilizzo del semplice modello LDS per affrontare il compito considerato. In particolare vengono considerati tre approcci diversi per eseguire l'apprendimento con questo modello. Viene poi introdotti nuovi modelli, ispirati al modello LDS, che hanno l'obiettivo di migliorare le prestazioni di quest'ultimo nei compiti di predizione/classificazione. Vengono poi considerati i più comuni modelli non lineari, in particolare il modello RNN il quale risulta essere significativamente più complesso e computazionalmente costoso da utilizzare. Viene quindi empiricamente dimostrato che, almeno per quanto riguarda il compito di predizione e i dataset considerati, l'introduzione di una fase di pre-training basati su sistemi lineari porta ad un significativo miglioramento delle prestazioni e della accuratezza nell'eseguire la predizione. In particolare 2 metodi di pre-training vengono proposti, il primo chiamato pre-training via Linear Autoencoder, ed il secondo basato su Hidden Markov Models (HMMs). I risultati sperimentali suggeriscono che i sistemi lineari possono giocare un ruolo importante per quanto riguarda il compito di apprendimento in domini sequenziali, sia che siano direttamente usati oppure siano usati indirettamente (come base per eseguire la fase di pre-training): infatti, usandoli direttamente, essi hanno permesso di raggiungere risultati che rappresentano lo stato dell'arte, andando però a richiedere uno sforzo computazionale molto limitato se confrontato con i più comuni modelli non lineari. Inoltre, anche quando le performance ottenute sono risultate non soddisfacenti, si è dimostrato che è possibile utilizzarli con successo per eseguire la fase di pre-training di sistemi non lineari.

Scheda breve

Scheda completa

Scheda completa (DC)

	Corso di studio
	
				SCIENZE MATEMATICHE
			
	Data di pubblicazione
	
				31-gen-2017
			
	Lingua
	
				Inglese
			
	Parola chiave
	
				Deep Learning, Sequential Domains, Linear Models, Machine Learning, Music Sequences, Recurrent Linear Network, Restricted Boltzmann Machine, Deep Belief Network, Pre-training, Stochastic Gradient Descent, Prediction, Linear System Network, Linear Dynamical System, Co-Learning
			
	Relatore, Supervisor, Advisor o Tutor
	
				Sperduti, Alessandro
			
	Nome Editore
	
				Università degli studi di Padova
			
	Collezione di appartenenza
	
				Università degli Studi di Padova

File in questo prodotto:

File	Dimensione	Formato
tesi_Luca_Pasa.pdf accesso aperto Licenza: Tutti i diritti riservati Dimensione 2.71 MB Formato Adobe PDF Visualizza/Apri	2.71 MB	Adobe PDF	Visualizza/Apri

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14242/173763

Il codice NBN di questa tesi è URN:NBN:IT:UNIPD-173763