Recent advancements in Deep Learning, such as Convolutional Neural Networks (CNNs) and Vision Transformers (ViT), have enabled the current Computer Vision revolution. Models based on these paradigms have achieved super-human performance in a vast array of image processing tasks, with undoubtedly great impact on many applications. Deep Learning leverages complex, highly nonlinear models that reach into the trillions of parameters. This large scale is key to capturing intricate patterns and relationships within vast amounts of data, thereby enhancing predictive capabilities. While crucial to Deep Learning’s success, scale is a double-edged sword. Indeed, the complexity of these models often results in peculiar proneness to errors such as misclassification and hallucinations. Moreover, the opaqueness of these models leads to a lack of interpretability, making it hard to understand and debug errors. Thus, the first part of this Thesis is devoted to the exploration of XAI for Computer Vision models, with the proposal of three novel Saliency Map explanations. The first proposed method, Perception Visualization (PV), merges heatmaps with a reconstruction component. While previous Saliency Maps were only able to locate relevant regions in the image, PV’s reconstruction component enables to identify both what and where the model is looking in the image. Through a user study, we demonstrate that PV can help users better understand the model’s mistakes. Perception Visualization, like previous Saliency Maps, can explain the decision of the model with respect to one of the output classes. However, modern language-vision encoders such as CLIP are not trained on a predetermined class set, greatly limiting the efficacy of these explanations. We address this issue with our second proposed Saliency Map, Concept Visualization, which exploits lexical information from WordNet to explain the model with respect to any concept, regardless of the downstream task. We demonstrate that Concept Visualization correctly identifies the objects in the image, helping users gain insight into the model’s perception. Furthermore, recent research in Multi-modal Large Language Models (MLLMs) has made strides towards unified architectures able to process images, text, and audio simultaneously. To keep pace with these advancements, we propose a third Saliency Map that enables to explain the decisions of MLLMs with respect to any output token. To do so, we train an alignment layer to merge an open-world detection model with an MLLM. The resulting joint model enables to output both text and bounding boxes, which can be exploited to compute explanations. Lastly, the proposed architecture greatly enhances the interpretability of the model, enabling the identification of hallucinations and the measurement of model biases. We evaluate the proposed model and demonstrate that our methodologies enable to highlight relationships between bounding boxes and the model’s textual input, to identify biases in the model, and to visualize what the model perceives in the image in relation to textual inputs, including cases where the model hallucinates. A second notable consequence of the complexity of Deep Learning models is their susceptibility to adversarial perturbations. Small alterations to the input can in fact lead to drastic changes to the output. This vulnerability may have catastrophic consequences when Deep Learning is applied to critical systems employed in the wild, such as autonomous driving vehicles. Thus, in the second part of this Thesis, we explore adversarial perturbations to physical targets such as traffic signs, developing Adversarial Scratches, a novel attack methodology based on Bézier curves that is successful in realistic scenarios and against commercial applications. We show that modern Deep Learning classifiers are susceptible to these perturbations, and propose defenses to ease the development of safer and more reliable models. These contributions provide a step forward in mitigating the challenges posed by the complexity and opaqueness of Deep Learning models, and towards trustworthy applications of Deep Learning in real-world scenarios. Ultimately, the findings of this thesis highlight the need for continued exploration and innovation in this critical area of study.

I recenti progressi nel Deep Learning, come le Convolutional Neural Networks (CNNs) e i Vision Transformers (ViT), hanno permesso una rivoluzione nel campo della Computer Vision. I modelli basati su questi paradigmi hanno raggiunto performance superiori a quelle umane in una vasta gamma di operazioni di image processing, con un impatto indubbiamente rilevante in molte applicazioni. Il Deep Learning sfrutta modelli complessi e altamente non lineari che raggiungono il trilione di parametri. La loro dimensione è fondamentale per catturare pattern e relazioni complesse all'interno di enormi quantità di dati, migliorando così le capacità predittive. Tuttavia, se da un lato la dimensione è essenziale per il successo del Deep Learning, dall'altro rappresenta un arma a doppio taglio. Infatti, la complessità di questi modelli porta spesso a una particolare propensione a errori quali misclassificazioni e allucinazioni. Inoltre, l’opacità di questi modelli comporta una mancanza di interpretabilità, rendendo difficile comprendere e correggere gli errori. Pertanto, la prima parte di questa tesi è dedicata all'esplorazione dell'XAI per modelli di Computer Vision, con la proposta di tre nuovi metodi di tipo Saliency Map. Il primo metodo proposto, Perception Visualization (PV), combina le heatmap con una componente di ricostruzione. Mentre le precedenti Saliency Maps sono in grado solo di localizzare le regioni rilevanti nell'immagine, la componente di ricostruzione di PV permette di identificare sia cosa che dove il modello sta osservando nell'immagine. Attraverso uno user study, dimostriamo che PV può aiutare gli utenti a comprendere meglio gli errori del modello. Perception Visualization, come le precedenti Saliency Maps, può spiegare la decisione del modello rispetto a una delle classi di output. Tuttavia, encoder linguaggio-visione come CLIP non sono addestrati su un insieme fisso di classi, limitando fortemente l’efficacia di queste spiegazioni. Affrontiamo questo problema con la nostra seconda Saliency Map proposta, Concept Visualization, che sfrutta informazioni lessicali da WordNet per spiegare il modello rispetto a qualsiasi concetto, indipendentemente dal task a valle. Con questo lavoro dimostriamo che Concept Visualization identifica correttamente gli oggetti nell'immagine, aiutando l’utente a ottenere insight sulla percezione del modello. Inoltre, la recente ricerca nei Multi-modal Large Language Models (MLLMs) ha compiuto progressi verso architetture unificate in grado di processare immagini, testo e audio simultaneamente. Per stare al passo con questi sviluppi, proponiamo una terza Saliency Map che permette di spiegare le decisioni degli MLLMs rispetto a qualsiasi token di output. A tal fine, addestriamo un alignment layer per unire un modello di open-world detection con un MLLM. Il modello risultante consente di produrre sia testo che bounding boxes, che possono essere sfruttate per spiegare il modello. Infine, l’architettura proposta migliora notevolmente l’interpretabilità del modello, permettendo di identificare allucinazioni e misurare i bias del modello. Valutiamo il modello proposto e dimostriamo che le nostre metodologie permettono di evidenziare le relazioni tra bounding boxes e input testuali del modello, di identificare bias, e di visualizzare ciò che il modello percepisce nell'immagine in relazione al testo, anche nei casi di allucinazione. Una seconda conseguenza significativa della complessità dei modelli di Deep Learning è la loro suscettibilità alle perturbazioni avversarie. Piccole alterazioni dell’input possono infatti portare a cambiamenti drastici nell'output. Questa vulnerabilità può avere conseguenze catastrofiche quando il Deep Learning è applicato a sistemi critici operanti nel mondo reale, come i veicoli a guida autonoma. Pertanto, nella seconda parte di questa tesi, esploriamo le perturbazioni avversarie applicate a target fisici come i segnali stradali, sviluppando Adversarial Scratches, una nuova metodologia di attacco basata su curve di Bézier che risulta efficace in scenari realistici e contro applicazioni commerciali. Mostriamo che i moderni classificatori di Deep Learning sono vulnerabili a queste perturbazioni e proponiamo delle difese per facilitare lo sviluppo di modelli più sicuri e affidabili. Questi contributi rappresentano un passo avanti nell'affrontare le sfide poste dalla complessità e opacità dei modelli di Deep Learning, e verso applicazioni affidabili del Deep Learning in scenari reali. In definitiva, i risultati di questa tesi evidenziano la necessità di una continua esplorazione e innovazione in questo ambito di studio cruciale.

Explaining the Decisions of Deep Computer Vision Models From CNNs to Multi-modal LLMs

LORIS, GIULIVI
2025

Abstract

Recent advancements in Deep Learning, such as Convolutional Neural Networks (CNNs) and Vision Transformers (ViT), have enabled the current Computer Vision revolution. Models based on these paradigms have achieved super-human performance in a vast array of image processing tasks, with undoubtedly great impact on many applications. Deep Learning leverages complex, highly nonlinear models that reach into the trillions of parameters. This large scale is key to capturing intricate patterns and relationships within vast amounts of data, thereby enhancing predictive capabilities. While crucial to Deep Learning’s success, scale is a double-edged sword. Indeed, the complexity of these models often results in peculiar proneness to errors such as misclassification and hallucinations. Moreover, the opaqueness of these models leads to a lack of interpretability, making it hard to understand and debug errors. Thus, the first part of this Thesis is devoted to the exploration of XAI for Computer Vision models, with the proposal of three novel Saliency Map explanations. The first proposed method, Perception Visualization (PV), merges heatmaps with a reconstruction component. While previous Saliency Maps were only able to locate relevant regions in the image, PV’s reconstruction component enables to identify both what and where the model is looking in the image. Through a user study, we demonstrate that PV can help users better understand the model’s mistakes. Perception Visualization, like previous Saliency Maps, can explain the decision of the model with respect to one of the output classes. However, modern language-vision encoders such as CLIP are not trained on a predetermined class set, greatly limiting the efficacy of these explanations. We address this issue with our second proposed Saliency Map, Concept Visualization, which exploits lexical information from WordNet to explain the model with respect to any concept, regardless of the downstream task. We demonstrate that Concept Visualization correctly identifies the objects in the image, helping users gain insight into the model’s perception. Furthermore, recent research in Multi-modal Large Language Models (MLLMs) has made strides towards unified architectures able to process images, text, and audio simultaneously. To keep pace with these advancements, we propose a third Saliency Map that enables to explain the decisions of MLLMs with respect to any output token. To do so, we train an alignment layer to merge an open-world detection model with an MLLM. The resulting joint model enables to output both text and bounding boxes, which can be exploited to compute explanations. Lastly, the proposed architecture greatly enhances the interpretability of the model, enabling the identification of hallucinations and the measurement of model biases. We evaluate the proposed model and demonstrate that our methodologies enable to highlight relationships between bounding boxes and the model’s textual input, to identify biases in the model, and to visualize what the model perceives in the image in relation to textual inputs, including cases where the model hallucinates. A second notable consequence of the complexity of Deep Learning models is their susceptibility to adversarial perturbations. Small alterations to the input can in fact lead to drastic changes to the output. This vulnerability may have catastrophic consequences when Deep Learning is applied to critical systems employed in the wild, such as autonomous driving vehicles. Thus, in the second part of this Thesis, we explore adversarial perturbations to physical targets such as traffic signs, developing Adversarial Scratches, a novel attack methodology based on Bézier curves that is successful in realistic scenarios and against commercial applications. We show that modern Deep Learning classifiers are susceptible to these perturbations, and propose defenses to ease the development of safer and more reliable models. These contributions provide a step forward in mitigating the challenges posed by the complexity and opaqueness of Deep Learning models, and towards trustworthy applications of Deep Learning in real-world scenarios. Ultimately, the findings of this thesis highlight the need for continued exploration and innovation in this critical area of study.
9-mag-2025
Inglese
I recenti progressi nel Deep Learning, come le Convolutional Neural Networks (CNNs) e i Vision Transformers (ViT), hanno permesso una rivoluzione nel campo della Computer Vision. I modelli basati su questi paradigmi hanno raggiunto performance superiori a quelle umane in una vasta gamma di operazioni di image processing, con un impatto indubbiamente rilevante in molte applicazioni. Il Deep Learning sfrutta modelli complessi e altamente non lineari che raggiungono il trilione di parametri. La loro dimensione è fondamentale per catturare pattern e relazioni complesse all'interno di enormi quantità di dati, migliorando così le capacità predittive. Tuttavia, se da un lato la dimensione è essenziale per il successo del Deep Learning, dall'altro rappresenta un arma a doppio taglio. Infatti, la complessità di questi modelli porta spesso a una particolare propensione a errori quali misclassificazioni e allucinazioni. Inoltre, l’opacità di questi modelli comporta una mancanza di interpretabilità, rendendo difficile comprendere e correggere gli errori. Pertanto, la prima parte di questa tesi è dedicata all'esplorazione dell'XAI per modelli di Computer Vision, con la proposta di tre nuovi metodi di tipo Saliency Map. Il primo metodo proposto, Perception Visualization (PV), combina le heatmap con una componente di ricostruzione. Mentre le precedenti Saliency Maps sono in grado solo di localizzare le regioni rilevanti nell'immagine, la componente di ricostruzione di PV permette di identificare sia cosa che dove il modello sta osservando nell'immagine. Attraverso uno user study, dimostriamo che PV può aiutare gli utenti a comprendere meglio gli errori del modello. Perception Visualization, come le precedenti Saliency Maps, può spiegare la decisione del modello rispetto a una delle classi di output. Tuttavia, encoder linguaggio-visione come CLIP non sono addestrati su un insieme fisso di classi, limitando fortemente l’efficacia di queste spiegazioni. Affrontiamo questo problema con la nostra seconda Saliency Map proposta, Concept Visualization, che sfrutta informazioni lessicali da WordNet per spiegare il modello rispetto a qualsiasi concetto, indipendentemente dal task a valle. Con questo lavoro dimostriamo che Concept Visualization identifica correttamente gli oggetti nell'immagine, aiutando l’utente a ottenere insight sulla percezione del modello. Inoltre, la recente ricerca nei Multi-modal Large Language Models (MLLMs) ha compiuto progressi verso architetture unificate in grado di processare immagini, testo e audio simultaneamente. Per stare al passo con questi sviluppi, proponiamo una terza Saliency Map che permette di spiegare le decisioni degli MLLMs rispetto a qualsiasi token di output. A tal fine, addestriamo un alignment layer per unire un modello di open-world detection con un MLLM. Il modello risultante consente di produrre sia testo che bounding boxes, che possono essere sfruttate per spiegare il modello. Infine, l’architettura proposta migliora notevolmente l’interpretabilità del modello, permettendo di identificare allucinazioni e misurare i bias del modello. Valutiamo il modello proposto e dimostriamo che le nostre metodologie permettono di evidenziare le relazioni tra bounding boxes e input testuali del modello, di identificare bias, e di visualizzare ciò che il modello percepisce nell'immagine in relazione al testo, anche nei casi di allucinazione. Una seconda conseguenza significativa della complessità dei modelli di Deep Learning è la loro suscettibilità alle perturbazioni avversarie. Piccole alterazioni dell’input possono infatti portare a cambiamenti drastici nell'output. Questa vulnerabilità può avere conseguenze catastrofiche quando il Deep Learning è applicato a sistemi critici operanti nel mondo reale, come i veicoli a guida autonoma. Pertanto, nella seconda parte di questa tesi, esploriamo le perturbazioni avversarie applicate a target fisici come i segnali stradali, sviluppando Adversarial Scratches, una nuova metodologia di attacco basata su curve di Bézier che risulta efficace in scenari realistici e contro applicazioni commerciali. Mostriamo che i moderni classificatori di Deep Learning sono vulnerabili a queste perturbazioni e proponiamo delle difese per facilitare lo sviluppo di modelli più sicuri e affidabili. Questi contributi rappresentano un passo avanti nell'affrontare le sfide poste dalla complessità e opacità dei modelli di Deep Learning, e verso applicazioni affidabili del Deep Learning in scenari reali. In definitiva, i risultati di questa tesi evidenziano la necessità di una continua esplorazione e innovazione in questo ambito di studio cruciale.
File in questo prodotto:
File Dimensione Formato  
thesis (1).pdf

accesso aperto

Dimensione 48.76 MB
Formato Adobe PDF
48.76 MB Adobe PDF Visualizza/Apri

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14242/220181
Il codice NBN di questa tesi è URN:NBN:IT:POLIMI-220181