Sfruttando le reti neurali artificiali si riescono ad ottenere grandi risultati, ma soltanto nel rispetto di determinate condizioni: in particolare, ci si deve assicurare che i dati utilizzati nella fase di allenamento siano indipendenti e identicamente distribuiti. Se questa assunzione viene violata, avremo a che fare con un problema che varia continuamente, che puಠessere visto come una sequenza di compiti diversi. Siccome i parametri della rete, nei quali si trova la conoscenza pregressa, vengono sovrascritti per ottimizzare l'ultimo esempio, il processo porta a dimenticare ciಠche si ਠimparato in maniera catastrofica. Gli approcci presenti in letteratura tentano di superare il problema aumentando la capacità della rete, vincolando il suo aggiornamento o inserendo, tra gli esempi del compito corrente, un sottoinsieme dei vecchi dati. In questo lavoro, seguendo l'ultimo dei tre filoni, si utilizza una tecnica di distillazione della conoscenza per estrarre informazioni dalle risposte passate. Gli esperimenti svolti mostrano che, dato lo stesso esempio, avvicinare l'ultimo strato della rete alle sue versioni precedenti restituisce risultati migliori rispetto ad utilizzare le etichette.
Continual learning via logits distillation
2019
Abstract
Sfruttando le reti neurali artificiali si riescono ad ottenere grandi risultati, ma soltanto nel rispetto di determinate condizioni: in particolare, ci si deve assicurare che i dati utilizzati nella fase di allenamento siano indipendenti e identicamente distribuiti. Se questa assunzione viene violata, avremo a che fare con un problema che varia continuamente, che puಠessere visto come una sequenza di compiti diversi. Siccome i parametri della rete, nei quali si trova la conoscenza pregressa, vengono sovrascritti per ottimizzare l'ultimo esempio, il processo porta a dimenticare ciಠche si ਠimparato in maniera catastrofica. Gli approcci presenti in letteratura tentano di superare il problema aumentando la capacità della rete, vincolando il suo aggiornamento o inserendo, tra gli esempi del compito corrente, un sottoinsieme dei vecchi dati. In questo lavoro, seguendo l'ultimo dei tre filoni, si utilizza una tecnica di distillazione della conoscenza per estrarre informazioni dalle risposte passate. Gli esperimenti svolti mostrano che, dato lo stesso esempio, avvicinare l'ultimo strato della rete alle sue versioni precedenti restituisce risultati migliori rispetto ad utilizzare le etichette.| File | Dimensione | Formato | |
|---|---|---|---|
|
Continual_learning_via_logits_distillation.pdf
accesso solo da BNCF e BNCR
Tipologia:
Altro materiale allegato
Licenza:
Tutti i diritti riservati
Dimensione
3.24 MB
Formato
Adobe PDF
|
3.24 MB | Adobe PDF |
I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/20.500.14242/299233
URN:NBN:IT:UNIMORE-299233