Computer Vision has experienced rapid advancements in recent years, driven by the advent of attentive and Transformer-based models. These architectures have revolutionized the field, enabling complex data interactions and pushing the boundaries of Artificial Intelligence (AI). Central to this evolution is attention modeling, which facilitates a sophisticated and nuanced understanding of diverse data types, such as text, images, and videos. The integration of these data types has given rise to Multimodal Deep Learning, which aims to emulate human-like perception and reasoning across multiple modalities, enhancing performance and broadening AI applications in fields like healthcare and autonomous vehicles. The research presented in this thesis investigates critical challenges associated with multimodal attentive architectures, including improving semantic segmentation accuracy, enabling open-vocabulary segmentation, and advancing video question answering. A critical challenge in semantic segmentation is accurately delineating object boundaries between different semantic classes. Misclassification of pixels in these transition areas can lead to errors that affect downstream tasks. To address this issue, we introduce novel boundary-level objectives and develop modified geometric distance functions to enhance boundary accuracy in complex environments. Additionally, we emphasize the importance of comprehensive evaluation metrics by proposing a fine-grained error analysis method for semantic segmentation. This approach provides deeper insights into model performance and facilitates targeted improvements in segmentation models. Building upon this foundation, we explore open-vocabulary semantic segmentation, a cutting-edge multimodal task that enables the segmentation of arbitrary categories expressed in textual form. We introduce innovative approaches such as prototype retrieval and synthetic references to bridge the gap between global features and pixel-level semantics. These methods effectively address the domain shift problem and enable open-vocabulary segmentation capabilities without relying on extensive training or large annotated datasets. Significant contributions are made to enhance Vision Transformer (ViT) architectures for semantic segmentation. A novel superpixel-based positional encoding technique is proposed, integrating semantic priors with self-attentive features to improve performance without increasing model complexity. Our research also investigates bidimensional downsampling in ViT models and self-supervised learning techniques, aiming to increase efficiency while boosting performance in visual tasks such as image classification. In the realm of multimodal video understanding, we present a text-guided temporal querying transformer for video question answering. This component effectively bridges frame-wise visual perception with the reasoning capabilities of large language models, advancing multimodal video comprehension. The broader implications of multimodal deep learning are further explored through a systematic study on multimodal deepfake detection. By leveraging contrastive-based disentangling strategies, we analyze the interplay between textual semantics and low-level visual cues in the context of advanced diffusion models. The research presented in this thesis spans a wide spectrum of computer vision challenges, from low-level semantic segmentation to high-level video reasoning and deepfake detection. By developing novel methodologies and architectures, we contribute to expanding the possibilities of artificial visual intelligence. Our findings have implications for various applications, including medical imaging, robotics, and autonomous driving, paving the way for future research in visual-semantic understanding.

Negli ultimi anni, la visione artificiale ha compiuto progressi straordinari grazie all'introduzione di modelli basati su Transformer. Queste architetture hanno rivoluzionato il settore, consentendo interazioni complesse tra dati e ampliando i confini dell'Intelligenza Artificiale (IA). Il fulcro di questa trasformazione è la modellazione dell'attenzione, che consente una comprensione sofisticata di diversi tipi di dati, come testi, immagini e video. L'integrazione di questi dati ha dato vita al Deep Learning Multimodale, che mira a replicare la percezione e il ragionamento umano su più modalità, migliorando le prestazioni e ampliando le applicazioni dell'IA in settori come la sanità e la guida autonoma. Questa tesi affronta importanti sfide legate alle architetture attentive multimodali, concentrandosi sul miglioramento dell'accuratezza della segmentazione semantica, sull'abilitazione della segmentazione open-vocabulary e sull'avanzamento del video question answering. Un aspetto critico nella segmentazione semantica è la corretta delimitazione dei confini tra diverse classi semantiche. Per affrontare questo problema, introduciamo nuove funzioni obiettivo che sfruttano metriche di distanza geometrica per migliorare l'accuratezza delle predizioni ai bordi. Inoltre, sottolineiamo l'importanza di metriche di valutazione proponendo un nuovo metodo di analisi degli errori di segmentazione. Questo approccio fornisce informazioni approfondite sulle prestazioni del modello e facilita miglioramenti mirati nei modelli di segmentazione. Successivamente, esploriamo la segmentazione semantica open-vocabulary, un task multimodale all'avanguardia che consente la segmentazione di categorie arbitrarie espresse in forma testuale. Introduciamo approcci innovativi basati sul retrieval di prototipi e riferimenti sintetici per colmare il divario tra features semantiche globali e locali. Questi metodi affrontano efficacemente il problema dello spostamento di dominio e permettono di ottenere modelli di segmentazione open-vocabulary senza fare affidamento su un ampio addestramento o grandi set di dati annotati. Contributi significativi sono fatti per migliorare le architetture Vision Transformer (ViT) per la segmentazione semantica. Proponiamo una nuova tecnica di codifica posizionale basata su superpixel, integrando informazioni semantiche a priori con features attentive per migliorare le prestazioni senza aumentare la complessità del modello. La nostra ricerca indaga anche il downsampling bidimensionale nei modelli ViT e le tecniche di self-supervised learning, con l'obiettivo di aumentare l'efficienza e le prestazioni in task visuali. Nel campo della comprensione video multimodale, presentiamo un transformer temporale guidato dal testo per il video question answering. Il modello proposto collega efficacemente la percezione visiva fotogramma per fotogramma con le capacità di ragionamento dei large language models, migliorando la comprensione video multimodale. Le implicazioni del deep learning multimodale sono ulteriormente esplorate attraverso uno studio sistematico sulla rilevazione dei deepfake. Tramite strategie basate sul disaccoppiamento contrastivo, analizziamo l'interazione tra semantica testuale e indizi visivi a basso livello nel contesto dei modelli avanzati di diffusione. La ricerca presentata in questa tesi copre un ampio spettro di sfide della visione artificiale, dalla segmentazione semantica a basso livello al ragionamento video ad alto livello, fino ai deepfake. Sviluppando metodologie e architetture innovative, contribuiamo ad ampliare le possibilità della visione artificiale. I nostri risultati trovano diverse applicazioni, tra cui medicina, robotica e guida autonoma, aprendo la strada a future ricerche nella comprensione visivo-semantica.

Architetture Multimodali Attentive di Deep Learning per la Comprensione Visivo-Semantica

AMOROSO, ROBERTO
2025

Abstract

Computer Vision has experienced rapid advancements in recent years, driven by the advent of attentive and Transformer-based models. These architectures have revolutionized the field, enabling complex data interactions and pushing the boundaries of Artificial Intelligence (AI). Central to this evolution is attention modeling, which facilitates a sophisticated and nuanced understanding of diverse data types, such as text, images, and videos. The integration of these data types has given rise to Multimodal Deep Learning, which aims to emulate human-like perception and reasoning across multiple modalities, enhancing performance and broadening AI applications in fields like healthcare and autonomous vehicles. The research presented in this thesis investigates critical challenges associated with multimodal attentive architectures, including improving semantic segmentation accuracy, enabling open-vocabulary segmentation, and advancing video question answering. A critical challenge in semantic segmentation is accurately delineating object boundaries between different semantic classes. Misclassification of pixels in these transition areas can lead to errors that affect downstream tasks. To address this issue, we introduce novel boundary-level objectives and develop modified geometric distance functions to enhance boundary accuracy in complex environments. Additionally, we emphasize the importance of comprehensive evaluation metrics by proposing a fine-grained error analysis method for semantic segmentation. This approach provides deeper insights into model performance and facilitates targeted improvements in segmentation models. Building upon this foundation, we explore open-vocabulary semantic segmentation, a cutting-edge multimodal task that enables the segmentation of arbitrary categories expressed in textual form. We introduce innovative approaches such as prototype retrieval and synthetic references to bridge the gap between global features and pixel-level semantics. These methods effectively address the domain shift problem and enable open-vocabulary segmentation capabilities without relying on extensive training or large annotated datasets. Significant contributions are made to enhance Vision Transformer (ViT) architectures for semantic segmentation. A novel superpixel-based positional encoding technique is proposed, integrating semantic priors with self-attentive features to improve performance without increasing model complexity. Our research also investigates bidimensional downsampling in ViT models and self-supervised learning techniques, aiming to increase efficiency while boosting performance in visual tasks such as image classification. In the realm of multimodal video understanding, we present a text-guided temporal querying transformer for video question answering. This component effectively bridges frame-wise visual perception with the reasoning capabilities of large language models, advancing multimodal video comprehension. The broader implications of multimodal deep learning are further explored through a systematic study on multimodal deepfake detection. By leveraging contrastive-based disentangling strategies, we analyze the interplay between textual semantics and low-level visual cues in the context of advanced diffusion models. The research presented in this thesis spans a wide spectrum of computer vision challenges, from low-level semantic segmentation to high-level video reasoning and deepfake detection. By developing novel methodologies and architectures, we contribute to expanding the possibilities of artificial visual intelligence. Our findings have implications for various applications, including medical imaging, robotics, and autonomous driving, paving the way for future research in visual-semantic understanding.
3-apr-2025
Inglese
Negli ultimi anni, la visione artificiale ha compiuto progressi straordinari grazie all'introduzione di modelli basati su Transformer. Queste architetture hanno rivoluzionato il settore, consentendo interazioni complesse tra dati e ampliando i confini dell'Intelligenza Artificiale (IA). Il fulcro di questa trasformazione è la modellazione dell'attenzione, che consente una comprensione sofisticata di diversi tipi di dati, come testi, immagini e video. L'integrazione di questi dati ha dato vita al Deep Learning Multimodale, che mira a replicare la percezione e il ragionamento umano su più modalità, migliorando le prestazioni e ampliando le applicazioni dell'IA in settori come la sanità e la guida autonoma. Questa tesi affronta importanti sfide legate alle architetture attentive multimodali, concentrandosi sul miglioramento dell'accuratezza della segmentazione semantica, sull'abilitazione della segmentazione open-vocabulary e sull'avanzamento del video question answering. Un aspetto critico nella segmentazione semantica è la corretta delimitazione dei confini tra diverse classi semantiche. Per affrontare questo problema, introduciamo nuove funzioni obiettivo che sfruttano metriche di distanza geometrica per migliorare l'accuratezza delle predizioni ai bordi. Inoltre, sottolineiamo l'importanza di metriche di valutazione proponendo un nuovo metodo di analisi degli errori di segmentazione. Questo approccio fornisce informazioni approfondite sulle prestazioni del modello e facilita miglioramenti mirati nei modelli di segmentazione. Successivamente, esploriamo la segmentazione semantica open-vocabulary, un task multimodale all'avanguardia che consente la segmentazione di categorie arbitrarie espresse in forma testuale. Introduciamo approcci innovativi basati sul retrieval di prototipi e riferimenti sintetici per colmare il divario tra features semantiche globali e locali. Questi metodi affrontano efficacemente il problema dello spostamento di dominio e permettono di ottenere modelli di segmentazione open-vocabulary senza fare affidamento su un ampio addestramento o grandi set di dati annotati. Contributi significativi sono fatti per migliorare le architetture Vision Transformer (ViT) per la segmentazione semantica. Proponiamo una nuova tecnica di codifica posizionale basata su superpixel, integrando informazioni semantiche a priori con features attentive per migliorare le prestazioni senza aumentare la complessità del modello. La nostra ricerca indaga anche il downsampling bidimensionale nei modelli ViT e le tecniche di self-supervised learning, con l'obiettivo di aumentare l'efficienza e le prestazioni in task visuali. Nel campo della comprensione video multimodale, presentiamo un transformer temporale guidato dal testo per il video question answering. Il modello proposto collega efficacemente la percezione visiva fotogramma per fotogramma con le capacità di ragionamento dei large language models, migliorando la comprensione video multimodale. Le implicazioni del deep learning multimodale sono ulteriormente esplorate attraverso uno studio sistematico sulla rilevazione dei deepfake. Tramite strategie basate sul disaccoppiamento contrastivo, analizziamo l'interazione tra semantica testuale e indizi visivi a basso livello nel contesto dei modelli avanzati di diffusione. La ricerca presentata in questa tesi copre un ampio spettro di sfide della visione artificiale, dalla segmentazione semantica a basso livello al ragionamento video ad alto livello, fino ai deepfake. Sviluppando metodologie e architetture innovative, contribuiamo ad ampliare le possibilità della visione artificiale. I nostri risultati trovano diverse applicazioni, tra cui medicina, robotica e guida autonoma, aprendo la strada a future ricerche nella comprensione visivo-semantica.
Visione Artificiale; Deep Learning; Vision Transformer; Segmentazione; Comprensione Video
CUCCHIARA, Rita
BARALDI, LORENZO
ROVATI, Luigi
Università degli studi di Modena e Reggio Emilia
File in questo prodotto:
File Dimensione Formato  
AMOROSO_CS.pdf

accesso aperto

Dimensione 37.72 MB
Formato Adobe PDF
37.72 MB Adobe PDF Visualizza/Apri

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14242/202163
Il codice NBN di questa tesi è URN:NBN:IT:UNIMORE-202163