Modern Deep Neural Networks (DNNs) suffer from severe performance degradation when trained on continuously evolving and diverse data distributions. This phenomenon is formally known as catastrophic forgetting: as the model’s parameters are tuned according to only the latest data, previously learned knowledge is overwritten and lost. As a consequence, current Deep Learning systems cannot be updated without expensive re-training procedures on all seen data, limiting their lifespan and contributing to a larger environmental footprint. Such a limitation is not present in humans; while they endure some forgetting, its effect is far less catastrophic than in DNNs. To mitigate forgetting in DNNs, most successful Continual Learning (CL) approaches build upon I) leveraging previously acquired data from the past or II) using a strong initialization of the parameters for downstream tasks – pretraining. Methods based on (I) rely on a small memory buffer to store a limited set of examples from previous tasks. However, their effectiveness depends entirely on the content of the buffer, making them vulnerable when faced with real-world constraints such as incomplete or erroneous annotations or rapidly changing distributions. With the goal of making rehearsal-based methods more reliable in practical scenarios, this thesis begins by introducing new strategies to: incorporate novel information regarding past data discovered as the tasks progress (X-DER), mitigate the overfitting of the buffer (LiDER), bridge the gap between rehearsal-based methods and pretraining (TwF), and design more efficient Self-Supervised regularizers for the single-epoch CL scenario (CLER). The thesis then expands on rehearsal-based approaches to handle noisy labels during training (AER & ABS) and scenarios with incomplete supervision (CCIC). Building on the second category (II), the thesis explores CL methods that rely on pretraining on large datasets before fine-tuning on the downstream tasks. While this practice has shown to be effective in improving the stability of the model, real-world scenarios are often characterized by a high variance and rapidly changing trends. To address these challenges, the thesis explores specialized domains such as those involving satellite data, fine-grained classification, or medical imaging, which pose a distinct challenge as they involve a substantial domain shift from the pretraining dataset. It then introduces a novel approach to extend the zero-shot capabilities of multi-modal models to these specialized domains (CGIL) and a two-stage approach to mitigate the instabilities of current parameter-efficient fine-tuning strategies (STAR-Prompt). Finally, the thesis broadens its scope to applications outside the realm of Continual Learning, focusing on the use of satellite imagery and graph neural networks to monitor the spread of the West Nile Virus and its primary vector, the Culex pipiens mosquito (MAGAT). These works emphasize the importance of adapting machine learning methods to specialized, real-world challenges. The work presented herein provides a comprehensive exploration of the current state-of-the-art in Continual Learning, extending its application to more realistic and specialized domains. Overall, the aim is to contribute towards the development of more robust, adaptive, and efficient AI systems that can thrive in complex and dynamic environments.

Le moderne reti neurali (DNN) sono soggette al fenomeno del catastrophic forgetting, ovvero una grave degradazione delle prestazioni quando addestrate su distribuzioni di dati in continua evoluzione. In questi casi, i parametri del modello si adattano solo ai dati più recenti, sovrascrivendo e perdendo le conoscenze precedentemente acquisite. Di conseguenza, i sistemi di Deep Learning attuali non possono essere aggiornati senza un ri-addestramento completo su tutti i dati visti in precedenza, limitando la loro vita utile e contribuendo a un impatto ambientale maggiore. Tale problematica non è presente negli esseri umani, sui quali l’effetto è molto meno catastrofico rispetto a quello osservato nelle DNN. Per mitigare il fenomeno del catastrophic forgetting, la maggior parte degli approcci studiati nel campo del Continual Learning (CL) si basano su I) il riutilizzo di dati acquisiti in precedenza o II) l’uso di una buona inizializzazione per i parametri del modello – pretraining. I metodi basati su (I) sfruttano una piccola memoria – nota come buffer – che contiene un insieme limitato di esempi visti in precedenza. Tuttavia, l’efficacia di questi modelli dipende interamente dal contenuto del buffer, rendendoli vulnerabili quando si affrontano condizioni reali, come la presenza di annotazioni incomplete, errate, o in rapido cambiamento. Con l’obiettivo di rendere più affidabili i metodi basati su buffer negli scenari pratici, questa tesi presenta innanzitutto nuove strategie per: incorporare nuove informazioni sui dati presenti nel buffer (X-DER), mitigare la perdita di efficacia degli esempi nel buffer (LiDER), sfruttare al meglio l’inizializzazione dei parametri (TwF), e stabilire la reale efficacia di regolarizzatori Self-Supervised in scenari caratterizzati da una singola epoca di allenamento (CLER). Tali considerazioni vengono poi estese per gestire la presenza di annotazioni rumorose durante l’addestramento (AER & ABS) e scenari con supervisione incompleta (CCIC). Riguardo la seconda categoria (II), la tesi fornisce un’analisi dei metodi di CL basati sul pretraining su grandi dataset. Nonstante questa pratica abbia dimostrato ottimi risultati nel migliorare la stabilità delle DNN, applicazioni reali sono spesso caratterizzate da un’elevata variabilità e distanza rispetto ai dati utilizzati per il pretraining. Per simulare questi scenari, vengono indagati domini specializzati come quelli che coinvolgono dati satellitari, classificazione granulare, o immagini mediche, che comportano uno spostamento sostanziale dal dataset di pretraining. Viene quindi introdotto un approccio innovativo per estendere le capacità zero-shot dei modelli multi-modali (CGIL) e un approccio in due fasi per affrontare le instabilità delle attuali strategie di addestramento con un numero di parametri ridotto (STAR-Prompt). Infine, la tesi amplia il suo campo di applicazione includendo lavori al di fuori del Continual Learning, concentrandosi sull’uso di immagini satellitari e reti neurali a grafi per monitorare la diffusione del Virus del Nilo Occidentale e del suo principale vettore, la zanzara Culex pipiens (MAGAT). Questi lavori enfatizzano l’importanza di adattare i metodi di apprendimento alle sfide reali e con dati specializzati. Il lavoro presentato in questa tesi offre un’esplorazione dello stato dell’arte del Continual Learning, estendendo la sua applicazione a domini più realistici e specializzati. L’obiettivo è contribuire allo sviluppo di sistemi di intelligenza artificiale più robusti ed efficienti, in grado di adattarsi ad ambienti complessi e dinamici.

Continual Learning in Scenari Realistici: dai domini naturali a quelli specializzati

BONICELLI, LORENZO
2025

Abstract

Modern Deep Neural Networks (DNNs) suffer from severe performance degradation when trained on continuously evolving and diverse data distributions. This phenomenon is formally known as catastrophic forgetting: as the model’s parameters are tuned according to only the latest data, previously learned knowledge is overwritten and lost. As a consequence, current Deep Learning systems cannot be updated without expensive re-training procedures on all seen data, limiting their lifespan and contributing to a larger environmental footprint. Such a limitation is not present in humans; while they endure some forgetting, its effect is far less catastrophic than in DNNs. To mitigate forgetting in DNNs, most successful Continual Learning (CL) approaches build upon I) leveraging previously acquired data from the past or II) using a strong initialization of the parameters for downstream tasks – pretraining. Methods based on (I) rely on a small memory buffer to store a limited set of examples from previous tasks. However, their effectiveness depends entirely on the content of the buffer, making them vulnerable when faced with real-world constraints such as incomplete or erroneous annotations or rapidly changing distributions. With the goal of making rehearsal-based methods more reliable in practical scenarios, this thesis begins by introducing new strategies to: incorporate novel information regarding past data discovered as the tasks progress (X-DER), mitigate the overfitting of the buffer (LiDER), bridge the gap between rehearsal-based methods and pretraining (TwF), and design more efficient Self-Supervised regularizers for the single-epoch CL scenario (CLER). The thesis then expands on rehearsal-based approaches to handle noisy labels during training (AER & ABS) and scenarios with incomplete supervision (CCIC). Building on the second category (II), the thesis explores CL methods that rely on pretraining on large datasets before fine-tuning on the downstream tasks. While this practice has shown to be effective in improving the stability of the model, real-world scenarios are often characterized by a high variance and rapidly changing trends. To address these challenges, the thesis explores specialized domains such as those involving satellite data, fine-grained classification, or medical imaging, which pose a distinct challenge as they involve a substantial domain shift from the pretraining dataset. It then introduces a novel approach to extend the zero-shot capabilities of multi-modal models to these specialized domains (CGIL) and a two-stage approach to mitigate the instabilities of current parameter-efficient fine-tuning strategies (STAR-Prompt). Finally, the thesis broadens its scope to applications outside the realm of Continual Learning, focusing on the use of satellite imagery and graph neural networks to monitor the spread of the West Nile Virus and its primary vector, the Culex pipiens mosquito (MAGAT). These works emphasize the importance of adapting machine learning methods to specialized, real-world challenges. The work presented herein provides a comprehensive exploration of the current state-of-the-art in Continual Learning, extending its application to more realistic and specialized domains. Overall, the aim is to contribute towards the development of more robust, adaptive, and efficient AI systems that can thrive in complex and dynamic environments.
3-apr-2025
Inglese
Le moderne reti neurali (DNN) sono soggette al fenomeno del catastrophic forgetting, ovvero una grave degradazione delle prestazioni quando addestrate su distribuzioni di dati in continua evoluzione. In questi casi, i parametri del modello si adattano solo ai dati più recenti, sovrascrivendo e perdendo le conoscenze precedentemente acquisite. Di conseguenza, i sistemi di Deep Learning attuali non possono essere aggiornati senza un ri-addestramento completo su tutti i dati visti in precedenza, limitando la loro vita utile e contribuendo a un impatto ambientale maggiore. Tale problematica non è presente negli esseri umani, sui quali l’effetto è molto meno catastrofico rispetto a quello osservato nelle DNN. Per mitigare il fenomeno del catastrophic forgetting, la maggior parte degli approcci studiati nel campo del Continual Learning (CL) si basano su I) il riutilizzo di dati acquisiti in precedenza o II) l’uso di una buona inizializzazione per i parametri del modello – pretraining. I metodi basati su (I) sfruttano una piccola memoria – nota come buffer – che contiene un insieme limitato di esempi visti in precedenza. Tuttavia, l’efficacia di questi modelli dipende interamente dal contenuto del buffer, rendendoli vulnerabili quando si affrontano condizioni reali, come la presenza di annotazioni incomplete, errate, o in rapido cambiamento. Con l’obiettivo di rendere più affidabili i metodi basati su buffer negli scenari pratici, questa tesi presenta innanzitutto nuove strategie per: incorporare nuove informazioni sui dati presenti nel buffer (X-DER), mitigare la perdita di efficacia degli esempi nel buffer (LiDER), sfruttare al meglio l’inizializzazione dei parametri (TwF), e stabilire la reale efficacia di regolarizzatori Self-Supervised in scenari caratterizzati da una singola epoca di allenamento (CLER). Tali considerazioni vengono poi estese per gestire la presenza di annotazioni rumorose durante l’addestramento (AER & ABS) e scenari con supervisione incompleta (CCIC). Riguardo la seconda categoria (II), la tesi fornisce un’analisi dei metodi di CL basati sul pretraining su grandi dataset. Nonstante questa pratica abbia dimostrato ottimi risultati nel migliorare la stabilità delle DNN, applicazioni reali sono spesso caratterizzate da un’elevata variabilità e distanza rispetto ai dati utilizzati per il pretraining. Per simulare questi scenari, vengono indagati domini specializzati come quelli che coinvolgono dati satellitari, classificazione granulare, o immagini mediche, che comportano uno spostamento sostanziale dal dataset di pretraining. Viene quindi introdotto un approccio innovativo per estendere le capacità zero-shot dei modelli multi-modali (CGIL) e un approccio in due fasi per affrontare le instabilità delle attuali strategie di addestramento con un numero di parametri ridotto (STAR-Prompt). Infine, la tesi amplia il suo campo di applicazione includendo lavori al di fuori del Continual Learning, concentrandosi sull’uso di immagini satellitari e reti neurali a grafi per monitorare la diffusione del Virus del Nilo Occidentale e del suo principale vettore, la zanzara Culex pipiens (MAGAT). Questi lavori enfatizzano l’importanza di adattare i metodi di apprendimento alle sfide reali e con dati specializzati. Il lavoro presentato in questa tesi offre un’esplorazione dello stato dell’arte del Continual Learning, estendendo la sua applicazione a domini più realistici e specializzati. L’obiettivo è contribuire allo sviluppo di sistemi di intelligenza artificiale più robusti ed efficienti, in grado di adattarsi ad ambienti complessi e dinamici.
Continual Learning; Domini Specializzati; Annotazioni Rumorose; Annotazioni Mancanti; Forgetting
CALDERARA, Simone
ROVATI, Luigi
Università degli studi di Modena e Reggio Emilia
File in questo prodotto:
File Dimensione Formato  
Tesi definitiva Bonicelli Lorenzo.pdf

accesso aperto

Dimensione 14.72 MB
Formato Adobe PDF
14.72 MB Adobe PDF Visualizza/Apri

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14242/202155
Il codice NBN di questa tesi è URN:NBN:IT:UNIMORE-202155