With advancements in technology and increasing computational power, the field of Deep Learning has experienced significant growth over the past decade. Deep Neural Networks (DNNs) have achieved remarkable performance across various tasks, setting state-of-the-art benchmarks in image, video, audio, and text domains. These models excel at learning complex patterns from data but require a substantial amount of labeled examples to reach their full potential. However, a key difference between humans and DNNs is the ability to remember. While humans can continuously learn and adapt to new tasks without forgetting past knowledge, DNNs tend to overwrite previously learned information when trained on new data. This phenomenon, known as Catastrophic Forgetting, hinders the continuous learning capability of these models. Consequently, updating a model with new information often necessitates expensive re-training on all data, which is not always feasible in real-world scenarios. The field of Continual Learning (CL) aims to address this issue by developing strategies that enable models to retain past knowledge while learning new tasks. The CL literature has expanded significantly in recent years, with various approaches involving rehearsal, regularization, distillation, and architectural modifications. Despite these advancements, the gap between continuous learning and joint training persists, and the problem of Catastrophic Forgetting remains unsolved. This thesis begins by examining the latent space - the internal data representations - of a model during the continuous learning process, and studying how it evolves over time. This analysis led to the development of several strategies to mitigate forgetting by acting on the latent space of DNNs, contributing to the CL literature. Two of these methods, named CaSpeR and CLER, introduce new regularization terms in the loss function of existing CL models. CaSpeR leverages spectral geometry techniques to constrain class representations, enhancing clustering behavior. CLER explores how invariant and equivariant self-supervised approaches impact the latent space of a model, exploiting their benefits to prevent forgetting. With the advent of Vision Transformers (ViTs), a new method named SCAD is proposed to adapt these architectures to new tasks through distillation and binary masks between the model’s internal layers. Finally, this thesis investigates the impact of pretrained Vision-Language Models (VLMs), such as CLIP, on a CL scenario. These models align the latent space of images and their corresponding captions, enabling zero-shot learning on classification tasks. This work presents two innovative methods to adapt VLMs to a CL scenario by leveraging the model’s internal representations. STAR-Prompt employs a two-level prompting approach to balance stability (the capacity to remember past knowledge) and plasticity (the ability to learn new tasks). CGIL utilizes Variational Autoencoders to perform generative replay in the embedding space of CLIP, demonstrating state-of-the-art performance on both standard CL benchmarks and new scenarios that test the model’s zero-shot capabilities.

Con i progressi della tecnologia e l’aumento della potenza di calcolo, il campo del Deep Learning ha sperimentato una crescita significativa nell’ultimo decennio. Le Reti Neurali (DNN) hanno raggiunto prestazioni notevoli in vari compiti, stabilendo benchmark all’avanguardia nei domini delle immagini, video, audio e testo. Questi modelli eccellono nell’apprendimento di pattern complessi dai dati, ma richiedono una quantità sostanziale di esempi etichettati per raggiungere il loro pieno potenziale. Tuttavia, una differenza chiave tra gli esseri umani e le DNN è la capacità di ricordare. Mentre gli esseri umani possono apprendere e adattarsi continuamente a nuovi compiti senza dimenticare le conoscenze passate, le DNN tendono a sovrascrivere le informazioni precedentemente apprese quando vengono addestrate su nuovi dati. Questo fenomeno, noto come Catastrophic Forgetting, ostacola la capacità di apprendimento continuo di questi modelli. Di conseguenza, l’aggiornamento di un modello con nuove informazioni spesso richiede un costoso riaddestramento su tutti i dati, non sempre fattibile in scenari reali. Il campo del Continual Learning (CL) mira a risolvere questo problema sviluppando strategie che consentano ai modelli di mantenere le conoscenze passate mentre apprendono nuovi compiti. La letteratura sul CL si è espansa significativamente negli ultimi anni, con vari approcci che coinvolgono il rehearsal, la regolarizzazione, la distillazione e le modifiche architetturali. Nonostante questi progressi, il divario tra apprendimento continuo e addestramento congiunto persiste, e il problema del Catastrophic Forgetting rimane irrisolto. Questa tesi nasce dall'idea di analizzare lo spazio latente - le rappresentazioni interne dei dati - di un modello durante il processo di apprendimento continuo, e studiare come evolve nel tempo. Questa analisi ha portato allo sviluppo di diverse strategie per mitigare il forgetting agendo sullo spazio latente delle DNN, contribuendo alla letteratura esistente. Due di questi metodi, denominati CaSpeR e CLER, introducono nuovi termini di regolarizzazione nei modelli di CL esistenti. CaSpeR sfrutta tecniche di geometria spettrale per vincolare le rappresentazioni delle classi. CLER esplora come gli approcci auto-supervisionati invarianti ed equivarianti impattano sullo spazio latente di un modello, sfruttando i loro benefici per prevenire il forgetting. Con l’avvento dei Vision Transformers (ViT), viene proposto un nuovo metodo denominato SCAD per adattare queste architetture a nuovi compiti attraverso la distillazione e maschere binarie tra i livelli interni del modello. Infine, questa tesi indaga l’impatto dei Vision-Language Models pre-addestrati (VLM), come CLIP, in uno scenario di CL. Questi modelli allineano lo spazio latente delle immagini e delle loro didascalie corrispondenti, abilitando l’apprendimento zero-shot nei compiti di classificazione. Questo lavoro presenta due metodi innovativi per adattare i VLM a uno scenario di CL sfruttando le rappresentazioni interne del modello. STAR-Prompt impiega un approccio di prompting a due livelli per bilanciare la stabilità (la capacità di ricordare le conoscenze passate) e la plasticità (la capacità di apprendere nuovi compiti). CGIL utilizza Variational Autoencoders per eseguire tecninche di generative replay nello spazio di embedding di CLIP, dimostrando prestazioni all’avanguardia sia su benchmark standard che su nuovi scenari che testano le capacità zero-shot del modello.

Un viaggio nello lo spazio latente di modelli ad apprendimento continuo

FRASCAROLI, EMANUELE
2025

Abstract

With advancements in technology and increasing computational power, the field of Deep Learning has experienced significant growth over the past decade. Deep Neural Networks (DNNs) have achieved remarkable performance across various tasks, setting state-of-the-art benchmarks in image, video, audio, and text domains. These models excel at learning complex patterns from data but require a substantial amount of labeled examples to reach their full potential. However, a key difference between humans and DNNs is the ability to remember. While humans can continuously learn and adapt to new tasks without forgetting past knowledge, DNNs tend to overwrite previously learned information when trained on new data. This phenomenon, known as Catastrophic Forgetting, hinders the continuous learning capability of these models. Consequently, updating a model with new information often necessitates expensive re-training on all data, which is not always feasible in real-world scenarios. The field of Continual Learning (CL) aims to address this issue by developing strategies that enable models to retain past knowledge while learning new tasks. The CL literature has expanded significantly in recent years, with various approaches involving rehearsal, regularization, distillation, and architectural modifications. Despite these advancements, the gap between continuous learning and joint training persists, and the problem of Catastrophic Forgetting remains unsolved. This thesis begins by examining the latent space - the internal data representations - of a model during the continuous learning process, and studying how it evolves over time. This analysis led to the development of several strategies to mitigate forgetting by acting on the latent space of DNNs, contributing to the CL literature. Two of these methods, named CaSpeR and CLER, introduce new regularization terms in the loss function of existing CL models. CaSpeR leverages spectral geometry techniques to constrain class representations, enhancing clustering behavior. CLER explores how invariant and equivariant self-supervised approaches impact the latent space of a model, exploiting their benefits to prevent forgetting. With the advent of Vision Transformers (ViTs), a new method named SCAD is proposed to adapt these architectures to new tasks through distillation and binary masks between the model’s internal layers. Finally, this thesis investigates the impact of pretrained Vision-Language Models (VLMs), such as CLIP, on a CL scenario. These models align the latent space of images and their corresponding captions, enabling zero-shot learning on classification tasks. This work presents two innovative methods to adapt VLMs to a CL scenario by leveraging the model’s internal representations. STAR-Prompt employs a two-level prompting approach to balance stability (the capacity to remember past knowledge) and plasticity (the ability to learn new tasks). CGIL utilizes Variational Autoencoders to perform generative replay in the embedding space of CLIP, demonstrating state-of-the-art performance on both standard CL benchmarks and new scenarios that test the model’s zero-shot capabilities.
7-apr-2025
Inglese
Con i progressi della tecnologia e l’aumento della potenza di calcolo, il campo del Deep Learning ha sperimentato una crescita significativa nell’ultimo decennio. Le Reti Neurali (DNN) hanno raggiunto prestazioni notevoli in vari compiti, stabilendo benchmark all’avanguardia nei domini delle immagini, video, audio e testo. Questi modelli eccellono nell’apprendimento di pattern complessi dai dati, ma richiedono una quantità sostanziale di esempi etichettati per raggiungere il loro pieno potenziale. Tuttavia, una differenza chiave tra gli esseri umani e le DNN è la capacità di ricordare. Mentre gli esseri umani possono apprendere e adattarsi continuamente a nuovi compiti senza dimenticare le conoscenze passate, le DNN tendono a sovrascrivere le informazioni precedentemente apprese quando vengono addestrate su nuovi dati. Questo fenomeno, noto come Catastrophic Forgetting, ostacola la capacità di apprendimento continuo di questi modelli. Di conseguenza, l’aggiornamento di un modello con nuove informazioni spesso richiede un costoso riaddestramento su tutti i dati, non sempre fattibile in scenari reali. Il campo del Continual Learning (CL) mira a risolvere questo problema sviluppando strategie che consentano ai modelli di mantenere le conoscenze passate mentre apprendono nuovi compiti. La letteratura sul CL si è espansa significativamente negli ultimi anni, con vari approcci che coinvolgono il rehearsal, la regolarizzazione, la distillazione e le modifiche architetturali. Nonostante questi progressi, il divario tra apprendimento continuo e addestramento congiunto persiste, e il problema del Catastrophic Forgetting rimane irrisolto. Questa tesi nasce dall'idea di analizzare lo spazio latente - le rappresentazioni interne dei dati - di un modello durante il processo di apprendimento continuo, e studiare come evolve nel tempo. Questa analisi ha portato allo sviluppo di diverse strategie per mitigare il forgetting agendo sullo spazio latente delle DNN, contribuendo alla letteratura esistente. Due di questi metodi, denominati CaSpeR e CLER, introducono nuovi termini di regolarizzazione nei modelli di CL esistenti. CaSpeR sfrutta tecniche di geometria spettrale per vincolare le rappresentazioni delle classi. CLER esplora come gli approcci auto-supervisionati invarianti ed equivarianti impattano sullo spazio latente di un modello, sfruttando i loro benefici per prevenire il forgetting. Con l’avvento dei Vision Transformers (ViT), viene proposto un nuovo metodo denominato SCAD per adattare queste architetture a nuovi compiti attraverso la distillazione e maschere binarie tra i livelli interni del modello. Infine, questa tesi indaga l’impatto dei Vision-Language Models pre-addestrati (VLM), come CLIP, in uno scenario di CL. Questi modelli allineano lo spazio latente delle immagini e delle loro didascalie corrispondenti, abilitando l’apprendimento zero-shot nei compiti di classificazione. Questo lavoro presenta due metodi innovativi per adattare i VLM a uno scenario di CL sfruttando le rappresentazioni interne del modello. STAR-Prompt impiega un approccio di prompting a due livelli per bilanciare la stabilità (la capacità di ricordare le conoscenze passate) e la plasticità (la capacità di apprendere nuovi compiti). CGIL utilizza Variational Autoencoders per eseguire tecninche di generative replay nello spazio di embedding di CLIP, dimostrando prestazioni all’avanguardia sia su benchmark standard che su nuovi scenari che testano le capacità zero-shot del modello.
continual learning; zero-shot learning; deep learning; image classification; prompt learning
CALDERARA, Simone
ROVATI, Luigi
Università degli studi di Modena e Reggio Emilia
File in questo prodotto:
File Dimensione Formato  
FRASCAROLI_thesis.pdf

accesso aperto

Dimensione 6.96 MB
Formato Adobe PDF
6.96 MB Adobe PDF Visualizza/Apri

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14242/202178
Il codice NBN di questa tesi è URN:NBN:IT:UNIMORE-202178