Continual learning via logits distillation

Buzzega, Pietro

Sfruttando le reti neurali artificiali si riescono ad ottenere grandi risultati, ma soltanto nel rispetto di determinate condizioni: in particolare, ci si deve assicurare che i dati utilizzati nella fase di allenamento siano indipendenti e identicamente distribuiti. Se questa assunzione viene violata, avremo a che fare con un problema che varia continuamente, che puà² essere visto come una sequenza di compiti diversi. Siccome i parametri della rete, nei quali si trova la conoscenza pregressa, vengono sovrascritti per ottimizzare l'ultimo esempio, il processo porta a dimenticare cià² che si à¨ imparato in maniera catastrofica. Gli approcci presenti in letteratura tentano di superare il problema aumentando la capacità della rete, vincolando il suo aggiornamento o inserendo, tra gli esempi del compito corrente, un sottoinsieme dei vecchi dati. In questo lavoro, seguendo l'ultimo dei tre filoni, si utilizza una tecnica di distillazione della conoscenza per estrarre informazioni dalle risposte passate. Gli esperimenti svolti mostrano che, dato lo stesso esempio, avvicinare l'ultimo strato della rete alle sue versioni precedenti restituisce risultati migliori rispetto ad utilizzare le etichette.

Continual learning via logits distillation

BUZZEGA, PIETRO

2019

Abstract

Sfruttando le reti neurali artificiali si riescono ad ottenere grandi risultati, ma soltanto nel rispetto di determinate condizioni: in particolare, ci si deve assicurare che i dati utilizzati nella fase di allenamento siano indipendenti e identicamente distribuiti. Se questa assunzione viene violata, avremo a che fare con un problema che varia continuamente, che puà² essere visto come una sequenza di compiti diversi. Siccome i parametri della rete, nei quali si trova la conoscenza pregressa, vengono sovrascritti per ottimizzare l'ultimo esempio, il processo porta a dimenticare cià² che si à¨ imparato in maniera catastrofica. Gli approcci presenti in letteratura tentano di superare il problema aumentando la capacità della rete, vincolando il suo aggiornamento o inserendo, tra gli esempi del compito corrente, un sottoinsieme dei vecchi dati. In questo lavoro, seguendo l'ultimo dei tre filoni, si utilizza una tecnica di distillazione della conoscenza per estrarre informazioni dalle risposte passate. Gli esperimenti svolti mostrano che, dato lo stesso esempio, avvicinare l'ultimo strato della rete alle sue versioni precedenti restituisce risultati migliori rispetto ad utilizzare le etichette.

Scheda breve

Scheda completa

Scheda completa (DC)

	Data di pubblicazione
	
				2019
			
	Lingua
	
				it
			
	Parola chiave
	
				Dipartimento di Ingegneria
			
	Nome Editore
	
				Università degli Studi di Modena e Reggio Emilia
			
	Collezione di appartenenza
	
				Università degli Studi di Modena e Reggio Emilia

File in questo prodotto:

File	Dimensione	Formato
Continual_learning_via_logits_distillation.pdf accesso solo da BNCF e BNCR Tipologia: Altro materiale allegato Licenza: Tutti i diritti riservati Dimensione 3.24 MB Formato Adobe PDF	3.24 MB	Adobe PDF

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14242/299233

Il codice NBN di questa tesi è URN:NBN:IT:UNIMORE-299233