Latest advancements in Artificial Intelligence, and in particular in Deep Learning, have catalyzed groundbreaking progress across diverse applications such as Computer Vision, Natural Language Processing, and content generation. However, the significant computational demands inherent in training and executing powerful Deep Learning models have hindered widespread adoption of these techniques in certain application contests. One area poised to benefit greatly from Deep Learning, especially applied to computer vision, is the automotive sector, particularly in the development of driver assistance systems. In this context, minimizing inference costs is a priority in order to enable deployment on the low-power embedded devices found in vehicles. Conversely, the costs and complexities associated with training phase are sometimes substantial, exemplified by recent transformer-based models for natural language processing and image synthesis models utilizing the Denoising Diffusion Probabilistic paradigm. This thesis addresses two primary objectives: (i) proposing low-computational-cost solutions for computer vision applications in automotive settings and (ii) presenting innovative approaches to formulating efficient Deep Learning models using lossy compression techniques. To achieve the former goal, this study develops two models for Driver Monitoring Systems and Advanced Driving Assistance Systems, employing a Multi-Task Learning approach. This choice enable significant computational savings by sharing a substantial portion of the neural architecture across different tasks. For the latter objective, this thesis introduces an approximation of the transformer attention layer leveraging the Discrete Cosine Transform. Additionally, it proposes a strategy for incorporating Vector Quantization-based compression techniques into the image generation process using Diffusion Models. Through experimental analyses and quantitative evaluations, this thesis demonstrates the effectiveness of the proposed methods in reducing the complexity and computational costs in the concerned contexts.

Gli ultimi progressi nell’Intelligenza Artificiale, e in particolare nel Deep Learning, hanno catalizzato progressi rivoluzionari in diverse applicazioni come la Computer Vision, l’elaborazione del linguaggio naturale e la generazione di contenuti. Tuttavia, i notevoli requisiti computazionali inerenti l’addestramento e l’esecuzione di potenti modelli di Deep Learning hanno ostacolato l’adozione diffusa di queste tecniche in alcuni contesti applicativi. Un’area destinata a trarre grandi benefici dal Deep Learning, specialmente applicato alla computer vision, è il settore automobilistico, in particolare nello sviluppo di sistemi di assistenza alla guida. In questo contesto, la minimizzazione dei costi di inferenza è una priorità per consentire l’implementazione sui dispositivi embedded a basso consumo energetico presenti nei veicoli. Per contro, i costi e le complessità associati alla fase di addestramento sono talvolta notevoli, come è il caso per i recenti modelli per l’elaborazione del linguaggio naturale basadi su Transformers e i modelli di sintesi delle immagini che utilizzano il paradigma del Denoising Diffusion Probabilistic Model. Questa tesi risponde a due obiettivi primari: (i) proporre soluzioni a basso costo computazionale per applicazioni di computer vision in ambito automobilistico e (ii) presentare approcci innovativi alla formulazione di modelli di Deep Learning efficienti utilizzando tecniche di compressione dei dati con perdita. Per raggiungere il primo obiettivo, questo studio sviluppa due modelli per i sistemi di monitoraggio del guidatore e per i sistemi avanzati di assistenza alla guida, utilizzando un approccio di apprendimento multi-task. Questa scelta consente un significativo risparmio computazionale grazie alla condivisione di una parte sostanziale dell’architettura neurale tra i diversi task. Per il secondo obiettivo invece, la tesi introduce un’approssimazione del layer di Attention alla base dei Transformer, definita sfruttando la trasformata coseno discreta. Inoltre, propone una strategia per incorporare tecniche di compressione basate sulla quantizzazione vettoriale nel processo di generazione dell’immagine utilizzando i modelli di diffusione. Attraverso analisi sperimentali e valutazioni quantitative, questa tesi dimostra l’efficacia dei metodi proposti nel ridurre la complessità e i costi computazionali nei contesti interessati.

Transformative approaches for deep lLearning in resource-constrained scenarios

Carmelo, Scribano
2024

Abstract

Latest advancements in Artificial Intelligence, and in particular in Deep Learning, have catalyzed groundbreaking progress across diverse applications such as Computer Vision, Natural Language Processing, and content generation. However, the significant computational demands inherent in training and executing powerful Deep Learning models have hindered widespread adoption of these techniques in certain application contests. One area poised to benefit greatly from Deep Learning, especially applied to computer vision, is the automotive sector, particularly in the development of driver assistance systems. In this context, minimizing inference costs is a priority in order to enable deployment on the low-power embedded devices found in vehicles. Conversely, the costs and complexities associated with training phase are sometimes substantial, exemplified by recent transformer-based models for natural language processing and image synthesis models utilizing the Denoising Diffusion Probabilistic paradigm. This thesis addresses two primary objectives: (i) proposing low-computational-cost solutions for computer vision applications in automotive settings and (ii) presenting innovative approaches to formulating efficient Deep Learning models using lossy compression techniques. To achieve the former goal, this study develops two models for Driver Monitoring Systems and Advanced Driving Assistance Systems, employing a Multi-Task Learning approach. This choice enable significant computational savings by sharing a substantial portion of the neural architecture across different tasks. For the latter objective, this thesis introduces an approximation of the transformer attention layer leveraging the Discrete Cosine Transform. Additionally, it proposes a strategy for incorporating Vector Quantization-based compression techniques into the image generation process using Diffusion Models. Through experimental analyses and quantitative evaluations, this thesis demonstrates the effectiveness of the proposed methods in reducing the complexity and computational costs in the concerned contexts.
Transformative approaches for deep lLearning in resource-constrained scenarios
5-giu-2024
ENG
Gli ultimi progressi nell’Intelligenza Artificiale, e in particolare nel Deep Learning, hanno catalizzato progressi rivoluzionari in diverse applicazioni come la Computer Vision, l’elaborazione del linguaggio naturale e la generazione di contenuti. Tuttavia, i notevoli requisiti computazionali inerenti l’addestramento e l’esecuzione di potenti modelli di Deep Learning hanno ostacolato l’adozione diffusa di queste tecniche in alcuni contesti applicativi. Un’area destinata a trarre grandi benefici dal Deep Learning, specialmente applicato alla computer vision, è il settore automobilistico, in particolare nello sviluppo di sistemi di assistenza alla guida. In questo contesto, la minimizzazione dei costi di inferenza è una priorità per consentire l’implementazione sui dispositivi embedded a basso consumo energetico presenti nei veicoli. Per contro, i costi e le complessità associati alla fase di addestramento sono talvolta notevoli, come è il caso per i recenti modelli per l’elaborazione del linguaggio naturale basadi su Transformers e i modelli di sintesi delle immagini che utilizzano il paradigma del Denoising Diffusion Probabilistic Model. Questa tesi risponde a due obiettivi primari: (i) proporre soluzioni a basso costo computazionale per applicazioni di computer vision in ambito automobilistico e (ii) presentare approcci innovativi alla formulazione di modelli di Deep Learning efficienti utilizzando tecniche di compressione dei dati con perdita. Per raggiungere il primo obiettivo, questo studio sviluppa due modelli per i sistemi di monitoraggio del guidatore e per i sistemi avanzati di assistenza alla guida, utilizzando un approccio di apprendimento multi-task. Questa scelta consente un significativo risparmio computazionale grazie alla condivisione di una parte sostanziale dell’architettura neurale tra i diversi task. Per il secondo obiettivo invece, la tesi introduce un’approssimazione del layer di Attention alla base dei Transformer, definita sfruttando la trasformata coseno discreta. Inoltre, propone una strategia per incorporare tecniche di compressione basate sulla quantizzazione vettoriale nel processo di generazione dell’immagine utilizzando i modelli di diffusione. Attraverso analisi sperimentali e valutazioni quantitative, questa tesi dimostra l’efficacia dei metodi proposti nel ridurre la complessità e i costi computazionali nei contesti interessati.
Artificial Intellicence
Computer Vision
Automotive
Driver Monitoring System
Advanced Driver Assistance Systems
Lossy Compression
Transformers
Attention
Diffusion Models
Generative Models
Efficient Inference
Embedded
INF/01
Marko, Bertogna
Università degli Studi di Parma. Dipartimento di Scienze Matematiche, fisiche e informatiche
File in questo prodotto:
File Dimensione Formato  
Tesi_PDFA_Review.pdf

embargo fino al 01/05/2025

Dimensione 37.81 MB
Formato Adobe PDF
37.81 MB Adobe PDF

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14242/196804
Il codice NBN di questa tesi è URN:NBN:IT:UNIPR-196804