Il rilevamento dei pedoni attraverso la visione artificiale ਠun elemento fondamentale per un insieme di applicazioni nel contesto di "smart cities", come la sorveglianza di aree sensibili, sicurezza personale, monitoraggio e controllo del flusso pedonale per menzionarne solo alcuni. Di recente, c'ਠstato un crescente interesse per le architetture di deep learning al fine di svolgere tale compito. Uno degli obiettivi critici di questi algoritmi ਠdi generalizzare le conoscenze acquisite durante la fase di training in nuovi scenari con varie caratteristiche, disporre di un set di dati adeguatamente etichettato ਠfondamentale per il raggiungimento di questo obiettivo. Il problema principale ਠche l'annotazione manuale di un set di dati di solito richiede molto sforzo umano ed ਠun'operazione che necessita tempo e denaro. Per questo motivo in questo lavoro abbiamo introdotto MotSyn (Mot Synthetic), un nuovo dataset di immagini sintetiche raccolte da un videogioco 3D realistico in cui le etichette sono generate automaticamente sfruttando le posizioni dei pedoni 2D estratte dal motore grafico, il tutto senza l'ausilio di alcun supporto umano. Abbiamo usato questo nuovo set di dati sintetici per allenare una rete neurale convolutiva computazionalmente efficiente (CNN) pronta per essere installata in dispositivi intelligenti a bassa potenza, come le telecamere intelligenti. Un'ampia sperimentazione condotta su diversi set di dati del mondo reale mostra risultati molto competitivi rispetto ad altri metodi presentati in letteratura in cui gli algoritmi vengono addestrati utilizzando dati del mondo reale.
Imparare a rilevare le persone da un ambiente simulato
2020
Abstract
Il rilevamento dei pedoni attraverso la visione artificiale ਠun elemento fondamentale per un insieme di applicazioni nel contesto di "smart cities", come la sorveglianza di aree sensibili, sicurezza personale, monitoraggio e controllo del flusso pedonale per menzionarne solo alcuni. Di recente, c'ਠstato un crescente interesse per le architetture di deep learning al fine di svolgere tale compito. Uno degli obiettivi critici di questi algoritmi ਠdi generalizzare le conoscenze acquisite durante la fase di training in nuovi scenari con varie caratteristiche, disporre di un set di dati adeguatamente etichettato ਠfondamentale per il raggiungimento di questo obiettivo. Il problema principale ਠche l'annotazione manuale di un set di dati di solito richiede molto sforzo umano ed ਠun'operazione che necessita tempo e denaro. Per questo motivo in questo lavoro abbiamo introdotto MotSyn (Mot Synthetic), un nuovo dataset di immagini sintetiche raccolte da un videogioco 3D realistico in cui le etichette sono generate automaticamente sfruttando le posizioni dei pedoni 2D estratte dal motore grafico, il tutto senza l'ausilio di alcun supporto umano. Abbiamo usato questo nuovo set di dati sintetici per allenare una rete neurale convolutiva computazionalmente efficiente (CNN) pronta per essere installata in dispositivi intelligenti a bassa potenza, come le telecamere intelligenti. Un'ampia sperimentazione condotta su diversi set di dati del mondo reale mostra risultati molto competitivi rispetto ad altri metodi presentati in letteratura in cui gli algoritmi vengono addestrati utilizzando dati del mondo reale.| File | Dimensione | Formato | |
|---|---|---|---|
|
learning_to_detect_people_from_a_simulated_environment.pdf
accesso solo da BNCF e BNCR
Tipologia:
Altro materiale allegato
Licenza:
Tutti i diritti riservati
Dimensione
17.24 MB
Formato
Adobe PDF
|
17.24 MB | Adobe PDF |
I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/20.500.14242/302203
URN:NBN:IT:UNIMORE-302203