Most recent Deep Learning techniques require large volumes of training data in order to achieve human-like performance. Especially in Computer Vision, datasets are expensive to create because they usually require a considerable manual effort that can not be automated. Indeed, manual annotation is error-prone, inconsistent for subjective tasks (e.g. age classification), and not applicable to particular data (e.g. high frame-rate videos). For some tasks, like pose estimation and tracking, an alternative to manual annotation implies the use of wearable sensors. However, this approach is not feasible under some circumstances (e.g. in crowded scenarios) since the need to wear sensors limits its application to controlled environments. To overcome all the aforementioned limitations, we collected a set of synthetic datasets exploiting a photorealistic videogame. By relying on a virtual simulator, the annotations are error-free and always consistent as there is no manual annotation involved. Moreover, our data is suitable for in-the-wild applications as it contains multiple scenarios and a high variety of people appearances. In addition, our datasets are privacy compliant as no real human was involved in the data acquisition. Leveraging this newly collected data, extensive studies have been conducted on a plethora of tasks. In particular, for 2D pose estimation and tracking, we propose a deep network architecture that jointly extracts people body parts and associates them across short temporal spans. Our model explicitly deals with occluded body parts, by hallucinating plausible solutions of not visible joints. For 3D pose estimation, we propose to use high-resolution volumetric heatmaps to model joint locations, devising a simple and effective compression method to drastically reduce the size of this representation. For attribute classification, we overcome a common problem in surveillance, namely people occlusion, by designing a network capable of hallucinating occluded people with a plausible aspect. From a more practical point of view, we design an edge-AI system capable of evaluating in real-time the COVID-19 contagion risk of a monitored area by analyzing video streams. As synthetic data might suffer domain-shift related problems, we further investigate image translation techniques for the tasks of head pose estimation, attribute recognition and face landmark localization.

Le più recenti tecniche di Deep Learning richiedono enormi quantità di dati di addestramento per ottenere prestazioni simili a quelle umane. Soprattutto in Computer Vision, i Dataset sono costosi da creare in quanto richiedono uno sforzo manuale considerevole che non può essere automatizzato. Infatti, l'annotazione manuale è spesso soggetta ad errori, è incoerente per task soggettivi (ad es. age classification) e non è applicabile ad ogni tipo di dato (ad es. video ad elevato frame rate). Per alcuni task, come la pose estimation e il tracking, un'alternativa all'annotazione manuale implica l'utilizzo di sensori indossabili. Tuttavia, questo approccio non è praticabile in alcune circostanze (ad es. in scenari affollati), poiché la necessità di indossare tali sensori limita la sua applicazione ad ambienti controllati. Per superare questi limiti, abbiamo raccolto una serie di dati sintetici sfruttando un videogioco fotorealistico. Grazie all'utilizzo di un simulatore virtuale, le annotazioni sono prive di errori e sempre coerenti dato che non sono coinvolte operazioni manuali. Inoltre, i nostri dati sono adatti per applicazioni in-the-wild in quanto contengono un'elevata varietà di scenari e persone in ambienti non controllati. Tali dati sono conformi alle normative sulla privacy, in quanto nessun essere umano è stato coinvolto nell'acquisizione dei video. Sfruttando questi nuovi dati, sono stati condotti studi approfonditi su una serie di task. In particolare, per la pose estimation 2D e il tracking, abbiamo sviluppato un'architettura Deep che estrae congiuntamente i giunti delle persone e le associa su brevi intervalli temporali. Il nostro modello è in grado di ragionare esplicitamente riguardo a parti del corpo occluse, proponendo soluzioni plausibili di giunti non visibili. Per la pose estimation 3D, invece, abbiamo scelto di utilizzare heatmap volumetriche ad alta risoluzione per modellare le posizioni dei giunti, ideando un metodo di compressione semplice ed efficace per ridurre drasticamente le dimensioni di questa rappresentazione. Per l'attribute classification, abbiamo proposto una soluzione ad un problema comune nell'ambito della videosorveglianza, ovvero l'occlusione delle persone, progettando una rete neurale in grado di generare porzioni di persone occluse con un aspetto plausibile. Da un punto di vista pratico, abbiamo progettato un sistema di edge-AI in grado di valutare in tempo reale il rischio di contagio COVID-19 di un'area monitorata analizzando flussi video. Poiché i dati sintetici potrebbero essere suscettibili al domain-shift, abbiamo approfondito le tecniche di image-translation per head pose estimation, attribute recognition e face landmark localization.

Sfruttare i Dati Sintetici per Migliorare la Comprensione del Comportamento Umano

FABBRI, MATTEO
2021

Abstract

Most recent Deep Learning techniques require large volumes of training data in order to achieve human-like performance. Especially in Computer Vision, datasets are expensive to create because they usually require a considerable manual effort that can not be automated. Indeed, manual annotation is error-prone, inconsistent for subjective tasks (e.g. age classification), and not applicable to particular data (e.g. high frame-rate videos). For some tasks, like pose estimation and tracking, an alternative to manual annotation implies the use of wearable sensors. However, this approach is not feasible under some circumstances (e.g. in crowded scenarios) since the need to wear sensors limits its application to controlled environments. To overcome all the aforementioned limitations, we collected a set of synthetic datasets exploiting a photorealistic videogame. By relying on a virtual simulator, the annotations are error-free and always consistent as there is no manual annotation involved. Moreover, our data is suitable for in-the-wild applications as it contains multiple scenarios and a high variety of people appearances. In addition, our datasets are privacy compliant as no real human was involved in the data acquisition. Leveraging this newly collected data, extensive studies have been conducted on a plethora of tasks. In particular, for 2D pose estimation and tracking, we propose a deep network architecture that jointly extracts people body parts and associates them across short temporal spans. Our model explicitly deals with occluded body parts, by hallucinating plausible solutions of not visible joints. For 3D pose estimation, we propose to use high-resolution volumetric heatmaps to model joint locations, devising a simple and effective compression method to drastically reduce the size of this representation. For attribute classification, we overcome a common problem in surveillance, namely people occlusion, by designing a network capable of hallucinating occluded people with a plausible aspect. From a more practical point of view, we design an edge-AI system capable of evaluating in real-time the COVID-19 contagion risk of a monitored area by analyzing video streams. As synthetic data might suffer domain-shift related problems, we further investigate image translation techniques for the tasks of head pose estimation, attribute recognition and face landmark localization.
23-mar-2021
Inglese
Le più recenti tecniche di Deep Learning richiedono enormi quantità di dati di addestramento per ottenere prestazioni simili a quelle umane. Soprattutto in Computer Vision, i Dataset sono costosi da creare in quanto richiedono uno sforzo manuale considerevole che non può essere automatizzato. Infatti, l'annotazione manuale è spesso soggetta ad errori, è incoerente per task soggettivi (ad es. age classification) e non è applicabile ad ogni tipo di dato (ad es. video ad elevato frame rate). Per alcuni task, come la pose estimation e il tracking, un'alternativa all'annotazione manuale implica l'utilizzo di sensori indossabili. Tuttavia, questo approccio non è praticabile in alcune circostanze (ad es. in scenari affollati), poiché la necessità di indossare tali sensori limita la sua applicazione ad ambienti controllati. Per superare questi limiti, abbiamo raccolto una serie di dati sintetici sfruttando un videogioco fotorealistico. Grazie all'utilizzo di un simulatore virtuale, le annotazioni sono prive di errori e sempre coerenti dato che non sono coinvolte operazioni manuali. Inoltre, i nostri dati sono adatti per applicazioni in-the-wild in quanto contengono un'elevata varietà di scenari e persone in ambienti non controllati. Tali dati sono conformi alle normative sulla privacy, in quanto nessun essere umano è stato coinvolto nell'acquisizione dei video. Sfruttando questi nuovi dati, sono stati condotti studi approfonditi su una serie di task. In particolare, per la pose estimation 2D e il tracking, abbiamo sviluppato un'architettura Deep che estrae congiuntamente i giunti delle persone e le associa su brevi intervalli temporali. Il nostro modello è in grado di ragionare esplicitamente riguardo a parti del corpo occluse, proponendo soluzioni plausibili di giunti non visibili. Per la pose estimation 3D, invece, abbiamo scelto di utilizzare heatmap volumetriche ad alta risoluzione per modellare le posizioni dei giunti, ideando un metodo di compressione semplice ed efficace per ridurre drasticamente le dimensioni di questa rappresentazione. Per l'attribute classification, abbiamo proposto una soluzione ad un problema comune nell'ambito della videosorveglianza, ovvero l'occlusione delle persone, progettando una rete neurale in grado di generare porzioni di persone occluse con un aspetto plausibile. Da un punto di vista pratico, abbiamo progettato un sistema di edge-AI in grado di valutare in tempo reale il rischio di contagio COVID-19 di un'area monitorata analizzando flussi video. Poiché i dati sintetici potrebbero essere suscettibili al domain-shift, abbiamo approfondito le tecniche di image-translation per head pose estimation, attribute recognition e face landmark localization.
Dati Sintetici; Pose Estimation; Tracking; Attributi; Videosorveglianza
CUCCHIARA, Rita
BERGAMASCHI, Sonia
Università degli studi di Modena e Reggio Emilia
File in questo prodotto:
File Dimensione Formato  
FINAL_Exploiting_Syntetic_Data_to_Improve_Human_Behaviour_Understanding.pdf

Open Access dal 23/03/2024

Dimensione 32.67 MB
Formato Adobe PDF
32.67 MB Adobe PDF Visualizza/Apri

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14242/80051
Il codice NBN di questa tesi è URN:NBN:IT:UNIMORE-80051