Imparare a rilevare le persone da un ambiente simulato

Maugeri, Gianluca

Il rilevamento dei pedoni attraverso la visione artificiale à¨ un elemento fondamentale per un insieme di applicazioni nel contesto di "smart cities", come la sorveglianza di aree sensibili, sicurezza personale, monitoraggio e controllo del flusso pedonale per menzionarne solo alcuni. Di recente, c'à¨ stato un crescente interesse per le architetture di deep learning al fine di svolgere tale compito. Uno degli obiettivi critici di questi algoritmi à¨ di generalizzare le conoscenze acquisite durante la fase di training in nuovi scenari con varie caratteristiche, disporre di un set di dati adeguatamente etichettato à¨ fondamentale per il raggiungimento di questo obiettivo. Il problema principale à¨ che l'annotazione manuale di un set di dati di solito richiede molto sforzo umano ed à¨ un'operazione che necessita tempo e denaro. Per questo motivo in questo lavoro abbiamo introdotto MotSyn (Mot Synthetic), un nuovo dataset di immagini sintetiche raccolte da un videogioco 3D realistico in cui le etichette sono generate automaticamente sfruttando le posizioni dei pedoni 2D estratte dal motore grafico, il tutto senza l'ausilio di alcun supporto umano. Abbiamo usato questo nuovo set di dati sintetici per allenare una rete neurale convolutiva computazionalmente efficiente (CNN) pronta per essere installata in dispositivi intelligenti a bassa potenza, come le telecamere intelligenti. Un'ampia sperimentazione condotta su diversi set di dati del mondo reale mostra risultati molto competitivi rispetto ad altri metodi presentati in letteratura in cui gli algoritmi vengono addestrati utilizzando dati del mondo reale.

Imparare a rilevare le persone da un ambiente simulato

MAUGERI, GIANLUCA

2020

Abstract

Il rilevamento dei pedoni attraverso la visione artificiale à¨ un elemento fondamentale per un insieme di applicazioni nel contesto di "smart cities", come la sorveglianza di aree sensibili, sicurezza personale, monitoraggio e controllo del flusso pedonale per menzionarne solo alcuni. Di recente, c'à¨ stato un crescente interesse per le architetture di deep learning al fine di svolgere tale compito. Uno degli obiettivi critici di questi algoritmi à¨ di generalizzare le conoscenze acquisite durante la fase di training in nuovi scenari con varie caratteristiche, disporre di un set di dati adeguatamente etichettato à¨ fondamentale per il raggiungimento di questo obiettivo. Il problema principale à¨ che l'annotazione manuale di un set di dati di solito richiede molto sforzo umano ed à¨ un'operazione che necessita tempo e denaro. Per questo motivo in questo lavoro abbiamo introdotto MotSyn (Mot Synthetic), un nuovo dataset di immagini sintetiche raccolte da un videogioco 3D realistico in cui le etichette sono generate automaticamente sfruttando le posizioni dei pedoni 2D estratte dal motore grafico, il tutto senza l'ausilio di alcun supporto umano. Abbiamo usato questo nuovo set di dati sintetici per allenare una rete neurale convolutiva computazionalmente efficiente (CNN) pronta per essere installata in dispositivi intelligenti a bassa potenza, come le telecamere intelligenti. Un'ampia sperimentazione condotta su diversi set di dati del mondo reale mostra risultati molto competitivi rispetto ad altri metodi presentati in letteratura in cui gli algoritmi vengono addestrati utilizzando dati del mondo reale.

Scheda breve

Scheda completa

Scheda completa (DC)

	Data di pubblicazione
	
				2020
			
	Lingua
	
				it
			
	Parola chiave
	
				Dipartimento di Ingegneria
			
	Nome Editore
	
				Università degli Studi di Modena e Reggio Emilia
			
	Collezione di appartenenza
	
				Università degli Studi di Modena e Reggio Emilia

File in questo prodotto:

File	Dimensione	Formato
learning_to_detect_people_from_a_simulated_environment.pdf accesso solo da BNCF e BNCR Tipologia: Altro materiale allegato Licenza: Tutti i diritti riservati Dimensione 17.24 MB Formato Adobe PDF	17.24 MB	Adobe PDF

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14242/302203

Il codice NBN di questa tesi è URN:NBN:IT:UNIMORE-302203