Deep Learning for Sound Event Detection and Classification

Vesperini, Fabio

The recent progress on acoustic signal processing and machine learning techniques have enabled the development of innovative technologies for automatic analysis of sound events. In particular, nowadays one of the hottest approach to this problem lays on the exploitation of Deep Learning techniques. As further proof, in several occasion neural architectures originally designed for other multimedia domains have been successfully proposed to process the audio signal. Indeed, although these technologies have been faced for a long time by statistical modelling algorithms such as Gaussian Mixture Models, Hidden Markov Models or Support Vector Machines, the new breakthrough of machine learning for audio processing has lead to encouraging results into the addressed tasks. Hence, this thesis reports an up-to-date state of the art and proposes several reliable DNN-based methods for Sound Event Detection (SED) and Sound Event Classification (SEC), with an overview of the Deep Neural Network (DNN) architectures used on purpose and of the evaluation procedures and metrics used in this research field. According to the recent trend, which shows an extensive employment of Convolutional Neural Networks (CNNs) for both SED and SEC tasks, this work reports also rather new approaches based on the Siamese DNN architecture or the novel Capsule computational units. Most of the reported systems have been designed in the occasion of international challenges. This allowed the access to public datasets, and to compare systems proposed by the most competitive research teams on a common basis. The case studies reported in this dissertation refer to applications in a variety of scenarios, ranging from unobtrusive health monitoring, audio-based surveillance, bio-acoustic monitoring and classification of the road surface conditions. These tasks face numerous challenges, particularly related to their application in real-life environments. Among these issues there are unbalancing of datasets, different acquisition setups, acoustic disturbance (i.e., background noise, reverberation and cross-talk) and polyphony. In particular, since multiple events are very likely to overlap in real life audio, two algorithms for polyphonic SED are reported in this thesis. A polyphonic SED algorithm can be considered as system which is able to perform contemporary detection - determining onset and offset time of the sound events - and classification - assigning a label to each of the events occurring in the audio stream.

I recenti progressi riguardanti l’elaborazione del segnale acustico e le tecniche di machine learning hanno permesso lo sviluppo di tecnologie innovative per l’ana- lisi automatica di eventi sonori. In particolare, uno degli approcci attualmente piu` in voga in questo ambito consiste nell’impiego di tecniche di Deep Learning (DL). Tradizionalmente, tali algoritmi si basavano su tecniche di di modellazio- ne statistica come i Gaussian Mixture Models, gli Hidden Markov Models o le Support Vector Machines, ma il recente ritorno di interesse verso gli strumenti di apprendimento automatico come il DL ha condotto a risultati incoraggianti. Questa tesi riporta uno stato dell’arte aggiornato e propone diversi metodi basati su deep neural networks (DNN) per il Sound Event Detection (SED) ed il Sound Event Classification (SEC), congintamente ad una panoramica sulle procedure e le metriche di valutazione utilizzate in questo campo di ricerca. In particolare, la tendenza recente mostra un ampio impiego di reti neurali di tipo convoluzionale (CNN) per il SED ed il SEC. Questo lavoro include anche approcci innovativi basati sull’architettura DNN siamese o sulle nuove unita` computazionali chiamate Capsule. La maggior parte dei sistemi sono stati pro- gettati in occasione di challenge internazionali. Cio` ha consentito l’accesso a dataset pubblici e la possibilita` di confrontare su una base comune le prestazioni dei sistemi proposti dai team di ricerca piu` competitivi. I casi di studio riportati fanno riferimento ad applicazioni rivolte ad una gran- de varieta` di scenari che includono tra gli altri la diagnosi non invasiva, il monitoraggio bio-acustico e la classificazione delle condizioni della superficie stradale. Tra le complessita` a cui si deve fare fronte per permettere l’applicazione questi sistemi in ambienti reali vi sono lo sbilanciamento dei dataset, diversi setup di acquisizione, eventuali disturbi acustici e la polifonia. In particolare, un algoritmo per il SED polifonico puo` essere considerato come un sistema in grado di eseguire contemporaneamente il rilevamento e la classificazione degli eventi che si verificano nel flusso audio.