Il rilevamento dei pedoni attraverso la visione artificiale ਠun elemento fondamentale per un insieme di applicazioni nel contesto di "smart cities", come la sorveglianza di aree sensibili, sicurezza personale, monitoraggio e controllo del flusso pedonale per menzionarne solo alcuni. Di recente, c'ਠstato un crescente interesse per le architetture di deep learning al fine di svolgere tale compito. Uno degli obiettivi critici di questi algoritmi ਠdi generalizzare le conoscenze acquisite durante la fase di training in nuovi scenari con varie caratteristiche, disporre di un set di dati adeguatamente etichettato ਠfondamentale per il raggiungimento di questo obiettivo. Il problema principale ਠche l'annotazione manuale di un set di dati di solito richiede molto sforzo umano ed ਠun'operazione che necessita tempo e denaro. Per questo motivo in questo lavoro abbiamo introdotto MotSyn (Mot Synthetic), un nuovo dataset di immagini sintetiche raccolte da un videogioco 3D realistico in cui le etichette sono generate automaticamente sfruttando le posizioni dei pedoni 2D estratte dal motore grafico, il tutto senza l'ausilio di alcun supporto umano. Abbiamo usato questo nuovo set di dati sintetici per allenare una rete neurale convolutiva computazionalmente efficiente (CNN) pronta per essere installata in dispositivi intelligenti a bassa potenza, come le telecamere intelligenti. Un'ampia sperimentazione condotta su diversi set di dati del mondo reale mostra risultati molto competitivi rispetto ad altri metodi presentati in letteratura in cui gli algoritmi vengono addestrati utilizzando dati del mondo reale.

Imparare a rilevare le persone da un ambiente simulato

2020

Abstract

Il rilevamento dei pedoni attraverso la visione artificiale ਠun elemento fondamentale per un insieme di applicazioni nel contesto di "smart cities", come la sorveglianza di aree sensibili, sicurezza personale, monitoraggio e controllo del flusso pedonale per menzionarne solo alcuni. Di recente, c'ਠstato un crescente interesse per le architetture di deep learning al fine di svolgere tale compito. Uno degli obiettivi critici di questi algoritmi ਠdi generalizzare le conoscenze acquisite durante la fase di training in nuovi scenari con varie caratteristiche, disporre di un set di dati adeguatamente etichettato ਠfondamentale per il raggiungimento di questo obiettivo. Il problema principale ਠche l'annotazione manuale di un set di dati di solito richiede molto sforzo umano ed ਠun'operazione che necessita tempo e denaro. Per questo motivo in questo lavoro abbiamo introdotto MotSyn (Mot Synthetic), un nuovo dataset di immagini sintetiche raccolte da un videogioco 3D realistico in cui le etichette sono generate automaticamente sfruttando le posizioni dei pedoni 2D estratte dal motore grafico, il tutto senza l'ausilio di alcun supporto umano. Abbiamo usato questo nuovo set di dati sintetici per allenare una rete neurale convolutiva computazionalmente efficiente (CNN) pronta per essere installata in dispositivi intelligenti a bassa potenza, come le telecamere intelligenti. Un'ampia sperimentazione condotta su diversi set di dati del mondo reale mostra risultati molto competitivi rispetto ad altri metodi presentati in letteratura in cui gli algoritmi vengono addestrati utilizzando dati del mondo reale.
2020
it
Dipartimento di Ingegneria
Università degli Studi di Modena e Reggio Emilia
File in questo prodotto:
File Dimensione Formato  
learning_to_detect_people_from_a_simulated_environment.pdf

accesso solo da BNCF e BNCR

Tipologia: Altro materiale allegato
Licenza: Tutti i diritti riservati
Dimensione 17.24 MB
Formato Adobe PDF
17.24 MB Adobe PDF

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14242/302203
Il codice NBN di questa tesi è URN:NBN:IT:UNIMORE-302203