La recente introduzione sul mercato di nuovi sensori RGB-D, economici ma con elevati standard di funzionamento, ha stimolato l'interesse della comunità scientifica riguardo l'utilizzo delle immagini di profondità, in vari campi della Visione Artificiale. Tali sensori, essendo basati su illuminatori attivi, sono preferibili nel caso in cui sia necessario sviluppare soluzioni in grado di operare in ambienti a bassa, variabile o totalmente assente luminosità. Le immagini di profondità quindi rappresentano il tipo di dato ideale con cui lavorare nei contesti applicativi presi in esame in questa tesi, ovvero il campo automotive e quello dell'interazione uomo-macchina in ambienti indoor. Nel primo caso, si propone lo sviluppo di un sistema in grado di monitorare lo stato psico-fisico del conducente, tramite la stima continua dell'orientazione della testa e del busto, e l'individuazione delle zone salienti del volto. Nel secondo caso, richiamando il concetto di Interfacce Naturali, in cui l'interazione uomo-macchina non è veicolata dai tradizionali dispositivi fisici ma direttamente dal corpo umano, si propongono soluzioni volte al rilevamento e alla classificazione di gesti e stima della direzione dello sguardo. In questa tesi, per i problemi di visione sopra riportati, si propongono soluzioni allo stato dell'arte basate sul paradigma del deep learning. In particolare, vengono descritti due framework: POSEidon, realizzato per la stima accurata e in tempo reale della posizione 3D della testa, a partire da immagini di profondità e dalle loro corrispondenti RGB, e JanusNet, architettura che sfrutta la Privileged Information per determinare l'identità di un soggetto, basandosi sui soli dati di profondità del viso. Viene inoltre presentata l'architettura Face-from-Depth, in grado di generare immagini di volti dalle corrispettive immagini di profondità e viceversa. Viene dimostrato come tale tecnica, tra le più originali e innovative di questa tesi, possa essere impiegata in maniera proficua per migliorare le prestazioni delle soluzioni sopra descritte. Infine, per favorire l'attuabilità delle soluzioni proposte in reali contesti applicativi, si è affrontato il problema del rilevamento della testa all'interno di frame video acquisiti con sensori RGB-D, proponendo soluzioni real time e in grado di gestire la variabilità negli scenari di impiego. La realizzazione dei framework è stata resa possibile grazie all'acquisizione di nuovi dati e le relative annotazioni. I dataset creati, tra cui Pandora e MotorMark, sono orientati al deep learning e sono stati resi pubblicamente accessibili, in quanto rappresentano ad oggi lo standard di riferimento per la comunità scientifica e le aziende del settore.
Analisi della Persona tramite Immagini di Profondità per il Monitoraggio del Conducente e per l'Interazione Uomo-Macchina
2019
Abstract
La recente introduzione sul mercato di nuovi sensori RGB-D, economici ma con elevati standard di funzionamento, ha stimolato l'interesse della comunità scientifica riguardo l'utilizzo delle immagini di profondità, in vari campi della Visione Artificiale. Tali sensori, essendo basati su illuminatori attivi, sono preferibili nel caso in cui sia necessario sviluppare soluzioni in grado di operare in ambienti a bassa, variabile o totalmente assente luminosità. Le immagini di profondità quindi rappresentano il tipo di dato ideale con cui lavorare nei contesti applicativi presi in esame in questa tesi, ovvero il campo automotive e quello dell'interazione uomo-macchina in ambienti indoor. Nel primo caso, si propone lo sviluppo di un sistema in grado di monitorare lo stato psico-fisico del conducente, tramite la stima continua dell'orientazione della testa e del busto, e l'individuazione delle zone salienti del volto. Nel secondo caso, richiamando il concetto di Interfacce Naturali, in cui l'interazione uomo-macchina non è veicolata dai tradizionali dispositivi fisici ma direttamente dal corpo umano, si propongono soluzioni volte al rilevamento e alla classificazione di gesti e stima della direzione dello sguardo. In questa tesi, per i problemi di visione sopra riportati, si propongono soluzioni allo stato dell'arte basate sul paradigma del deep learning. In particolare, vengono descritti due framework: POSEidon, realizzato per la stima accurata e in tempo reale della posizione 3D della testa, a partire da immagini di profondità e dalle loro corrispondenti RGB, e JanusNet, architettura che sfrutta la Privileged Information per determinare l'identità di un soggetto, basandosi sui soli dati di profondità del viso. Viene inoltre presentata l'architettura Face-from-Depth, in grado di generare immagini di volti dalle corrispettive immagini di profondità e viceversa. Viene dimostrato come tale tecnica, tra le più originali e innovative di questa tesi, possa essere impiegata in maniera proficua per migliorare le prestazioni delle soluzioni sopra descritte. Infine, per favorire l'attuabilità delle soluzioni proposte in reali contesti applicativi, si è affrontato il problema del rilevamento della testa all'interno di frame video acquisiti con sensori RGB-D, proponendo soluzioni real time e in grado di gestire la variabilità negli scenari di impiego. La realizzazione dei framework è stata resa possibile grazie all'acquisizione di nuovi dati e le relative annotazioni. I dataset creati, tra cui Pandora e MotorMark, sono orientati al deep learning e sono stati resi pubblicamente accessibili, in quanto rappresentano ad oggi lo standard di riferimento per la comunità scientifica e le aziende del settore.File | Dimensione | Formato | |
---|---|---|---|
Guido_Borghi_thesis.pdf
Open Access dal 07/03/2022
Tipologia:
Altro materiale allegato
Dimensione
22.85 MB
Formato
Adobe PDF
|
22.85 MB | Adobe PDF | Visualizza/Apri |
I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/20.500.14242/152441
URN:NBN:IT:UNIMORE-152441