Techniques for customized binaural audio rendering with applications to virtual rehabilitation

Spagnol, Simone

Le interfacce multimodali rappresentano al giorno d’oggi un fattore chiave per l’abilitazione di un uso inclusivo delle nuove tecnologie. In questo contesto, sono di basilare importanza modelli realistici che descrivano il nostro ambiente, in particolare modelli che rappresentino accuratamente i fenomeni acustici e la comunicazione attraverso la modalità uditiva. Fra questi, i modelli per l’audio spaziale (o 3-D) sono capaci di offrire informazioni accurate sulla relazione tra la sorgente sonora e l’ambiente circostante, rappresentando un’informazione che non può essere sostituita da nessun’altra modalità. Tuttavia, essendo i sistemi multimediali attualmente focalizzati soprattutto sul processing grafico e integrati semplicemente con audio stereo o surround, l’odierna rappresentazione spaziale del suono tende ad essere semplicistica e ad aver poco potenziale interattivo. Inoltre, le tecnologie di auralizzazione si basano correntemente su dispositivi di riproduzione invasivi e/o costosi (ad es. head-mounted display e altoparlanti), responsabili di un’esperienza percettiva non integrata a causa di un vuoto mai colmato tra il mondo reale e quello virtuale. Gli approcci di audio binaurale (ossia basati su riproduzione tramite cuffie) si collocano su un livello diverso. La maggior parte delle tecniche di rendering binaurale attualmente utilizzate in ricerca fanno affidamento sull’uso delle cosiddette Head-Related Transfer Function (HRTF), ovvero particolari filtri che catturano le trasformazioni subite da un’onda sonora nel proprio percorso dalla sorgente al timpano, generalmente dovute a effetti di riflessione e diffrazione sul torso, sulla testa, sulle spalle e sui padiglioni auricolari dell’ascoltatore. Tale caratterizzazione permette di posizionare virtualmente una o più sorgenti sonore nello spazio circostante semplicemente filtrando i segnali desiderati attraverso un paio di HRTF, creando quindi una coppia di segnali da presentare ai canali sinistro e destro di un paio di cuffie. In questo modo, campi sonori tridimensionali con un alto senso di immersione possono essere simulati e integrati in strutture multimodali. Purtroppo, importanti limitazioni si nascondono dietro tali tecniche. Innanzitutto, potrebbero richiedere grosse risorse computazionali nel caso in cui si vogliano simulare più sorgenti sonore nello spazio. In secondo luogo, i filtri HRTF vengono solitamente presentati sotto forma di segnali acustici registrati attraverso appositi manichini: ciò significa che le differenze antropometriche fra diversi soggetti non vengono prese in considerazione. Al contrario, alla pari dell’importanza della posizione relativa tra l’ascoltatore e la sorgente sonora, l’antropometria del soggetto ha un ruolo chiave nella caratterizzazione della HRTF: sebbene le HRTF non individualizzate rappresentino un mezzo diretto ed economico per offrire una parvenza di percezione 3-D nella riproduzione via cuffie, l’ascolto del segnale risultante potrebbe frequentemente tradursi in evidenti errori di localizzazione quali percezione distorta dell’elevazione della sorgente, inversioni fronte-retro, e mancanza di esternalizzazione, specialmente in condizioni statiche. D’altro canto, misurare individualmente le HRTF di un numero significativo di soggetti comporterebbe un elevato dispendio di risorse e di tempo. La modellazione strutturale delle HRTF rappresenta invece un’attraente soluzione a tutte le sopracitate limitazioni. Nello specifico, isolando i contributi alla HRTF di testa, padiglioni auricolari, canali uditivi, spalle e torso dell’ascoltatore in diverse componenti - ciascuna modellante un fenomeno acustico ben definito - la HRTF globale può essere ricostruita attraverso un’adeguata combinazione di tutti gli effetti considerati, grazie alla linearità della scomposizione. Questa tesi presenta un modello strutturale utilizzabile per una riproduzione immersiva del suono, focalizzato in particolare sul contributo del padiglione auricolare (pinna) alla HRTF. La pinna gioca un ruolo fondamentale nella percezione dell’elevazione della sorgente grazie alle rilevanti modifiche spettrali che essa introduce nel suono che arriva al timpano. Tuttavia, la relazione tra i fenomeni acustici dovuti alla stessa - soprattutto risonanze e riflessioni - ed antropometria non ha ancora trovato una convincente rappresentazione nella letteratura. Una promettente corrispondenza tra i punti di riflessione teorici sulla superficie della pinna e le frequenze di una terna di notch spettrali presenti nella HRTF è invece discussa in questa tesi: tale risultato, sicuramente nuovo nel suo genere, apre le porte ad un’interessante forma di personalizzazione del modello strutturale, il quale include parametri relativi all’antropometria dell’utente oltre a parametri più strettamente correlati alla posizione della sorgente. L’approccio proposto ha implicazioni anche in termini di trasmissione dei contenuti, poiché opera elaborando un segnale monofonico esclusivamente dalla parte del ricevitore (ad es. su un dispositivo terminale o mobile) per mezzo di filtri di basso ordine, permettendo così una riduzione dei costi computazionali. Grazie alla ridotta complessità, il modello può essere quindi utilizzato per rendere scene con molteplici oggetti audiovisivi in una varietà di contesti quali giochi per computer, cinema, edutainment, e qualsiasi altro scenario in cui spazializzazione realistica del suono e riproduzione personalizzata del suono siano requisiti importanti. Tra questi, le specifiche aree di ricerca per le quali il suddetto modello è stato pensato sono quelle della riabilitazione virtuale (virtual rehabilitation) e della robotica riabilitativa (rehabilitation robotics), potenzialmente due dei più interessanti campi di applicazione per la ricerca nel design di interazione sonora (sonic interaction design). Lo scopo finale della ricerca in queste due aree è quello di facilitare la reintegrazione di pazienti con disordini neurologici (causati ad esempio da ictus) nella vita sociale e domestica aiutandoli a riottenere le abilità per compiere autonomamente le activities of daily living (ADLs, e.g. mangiare o camminare); nonostante ciò, una grossa mole di lavoro è tuttora richiesta per fronteggiare esigenze relative a hardware, software, design di sistemi di controllo, così come per la definizione di approcci efficaci per il trattamento. Le ADL incorporano infatti task motori complessi per i quali i sistemi riabilitativi attuali mancano della raffinatezza richiesta nell’assistenza dei pazienti durante l’esecuzione degli stessi task. In particolare, è risaputo che un grosso numero di gradi di libertà deve essere usato nella riabilitazione assistita da robot, e che il feedback multimodale spesso gioca un ruolo centrale. Nonostante l’esistenza di una varietà di sistemi per la riabilitazione che sfruttano ambienti virtuali multimodali con feedback visivo e aptico, l’uso consistente del feedback uditivo è tuttora raro. Un’analisi accurata della letteratura conferma tale ipotesi, dimostrando come il potenziale del feedback uditivo sia largamente sottostimato in tale contesto. Cinque diversi esperimenti, descritti in questa tesi, permettono lo studio del ruolo che nuovi tipi di feedback uditivo presentati durante la camminata o durante movimenti di tracciamento giocano nel miglioramento della performance in soggetti sani, costituendo una base per un futuro paragone con pazienti neurologicamente deficitari. In particolare, viene qui attestata l’utilità di un feedback sonoro relativo al task e della spazializzazione del suono nel coordinamento dei movimenti dell’utente durante semplici task di inseguimento. I risultati suggeriscono quindi come un feedback multimodale costruttivo e ben progettato possa essere usato sistematicamente per migliorare performance e learning in task motori complessi, grazie all’elevato livello di attenzione, coinvolgimento e presenza offerto all’utente. Tali studi rappresentano una novità nella letteratura sulla riabilitazione virtuale e/o assistita da robot, soprattutto per quanto riguarda l’utilizzo di tecniche di sonificazione per convogliare informazioni in uno scenario riabilitativo.

Techniques for customized binaural audio rendering with applications to virtual rehabilitation

SPAGNOL, SIMONE

2012

Abstract

Le interfacce multimodali rappresentano al giorno d’oggi un fattore chiave per l’abilitazione di un uso inclusivo delle nuove tecnologie. In questo contesto, sono di basilare importanza modelli realistici che descrivano il nostro ambiente, in particolare modelli che rappresentino accuratamente i fenomeni acustici e la comunicazione attraverso la modalità uditiva. Fra questi, i modelli per l’audio spaziale (o 3-D) sono capaci di offrire informazioni accurate sulla relazione tra la sorgente sonora e l’ambiente circostante, rappresentando un’informazione che non può essere sostituita da nessun’altra modalità. Tuttavia, essendo i sistemi multimediali attualmente focalizzati soprattutto sul processing grafico e integrati semplicemente con audio stereo o surround, l’odierna rappresentazione spaziale del suono tende ad essere semplicistica e ad aver poco potenziale interattivo. Inoltre, le tecnologie di auralizzazione si basano correntemente su dispositivi di riproduzione invasivi e/o costosi (ad es. head-mounted display e altoparlanti), responsabili di un’esperienza percettiva non integrata a causa di un vuoto mai colmato tra il mondo reale e quello virtuale. Gli approcci di audio binaurale (ossia basati su riproduzione tramite cuffie) si collocano su un livello diverso. La maggior parte delle tecniche di rendering binaurale attualmente utilizzate in ricerca fanno affidamento sull’uso delle cosiddette Head-Related Transfer Function (HRTF), ovvero particolari filtri che catturano le trasformazioni subite da un’onda sonora nel proprio percorso dalla sorgente al timpano, generalmente dovute a effetti di riflessione e diffrazione sul torso, sulla testa, sulle spalle e sui padiglioni auricolari dell’ascoltatore. Tale caratterizzazione permette di posizionare virtualmente una o più sorgenti sonore nello spazio circostante semplicemente filtrando i segnali desiderati attraverso un paio di HRTF, creando quindi una coppia di segnali da presentare ai canali sinistro e destro di un paio di cuffie. In questo modo, campi sonori tridimensionali con un alto senso di immersione possono essere simulati e integrati in strutture multimodali. Purtroppo, importanti limitazioni si nascondono dietro tali tecniche. Innanzitutto, potrebbero richiedere grosse risorse computazionali nel caso in cui si vogliano simulare più sorgenti sonore nello spazio. In secondo luogo, i filtri HRTF vengono solitamente presentati sotto forma di segnali acustici registrati attraverso appositi manichini: ciò significa che le differenze antropometriche fra diversi soggetti non vengono prese in considerazione. Al contrario, alla pari dell’importanza della posizione relativa tra l’ascoltatore e la sorgente sonora, l’antropometria del soggetto ha un ruolo chiave nella caratterizzazione della HRTF: sebbene le HRTF non individualizzate rappresentino un mezzo diretto ed economico per offrire una parvenza di percezione 3-D nella riproduzione via cuffie, l’ascolto del segnale risultante potrebbe frequentemente tradursi in evidenti errori di localizzazione quali percezione distorta dell’elevazione della sorgente, inversioni fronte-retro, e mancanza di esternalizzazione, specialmente in condizioni statiche. D’altro canto, misurare individualmente le HRTF di un numero significativo di soggetti comporterebbe un elevato dispendio di risorse e di tempo. La modellazione strutturale delle HRTF rappresenta invece un’attraente soluzione a tutte le sopracitate limitazioni. Nello specifico, isolando i contributi alla HRTF di testa, padiglioni auricolari, canali uditivi, spalle e torso dell’ascoltatore in diverse componenti - ciascuna modellante un fenomeno acustico ben definito - la HRTF globale può essere ricostruita attraverso un’adeguata combinazione di tutti gli effetti considerati, grazie alla linearità della scomposizione. Questa tesi presenta un modello strutturale utilizzabile per una riproduzione immersiva del suono, focalizzato in particolare sul contributo del padiglione auricolare (pinna) alla HRTF. La pinna gioca un ruolo fondamentale nella percezione dell’elevazione della sorgente grazie alle rilevanti modifiche spettrali che essa introduce nel suono che arriva al timpano. Tuttavia, la relazione tra i fenomeni acustici dovuti alla stessa - soprattutto risonanze e riflessioni - ed antropometria non ha ancora trovato una convincente rappresentazione nella letteratura. Una promettente corrispondenza tra i punti di riflessione teorici sulla superficie della pinna e le frequenze di una terna di notch spettrali presenti nella HRTF è invece discussa in questa tesi: tale risultato, sicuramente nuovo nel suo genere, apre le porte ad un’interessante forma di personalizzazione del modello strutturale, il quale include parametri relativi all’antropometria dell’utente oltre a parametri più strettamente correlati alla posizione della sorgente. L’approccio proposto ha implicazioni anche in termini di trasmissione dei contenuti, poiché opera elaborando un segnale monofonico esclusivamente dalla parte del ricevitore (ad es. su un dispositivo terminale o mobile) per mezzo di filtri di basso ordine, permettendo così una riduzione dei costi computazionali. Grazie alla ridotta complessità, il modello può essere quindi utilizzato per rendere scene con molteplici oggetti audiovisivi in una varietà di contesti quali giochi per computer, cinema, edutainment, e qualsiasi altro scenario in cui spazializzazione realistica del suono e riproduzione personalizzata del suono siano requisiti importanti. Tra questi, le specifiche aree di ricerca per le quali il suddetto modello è stato pensato sono quelle della riabilitazione virtuale (virtual rehabilitation) e della robotica riabilitativa (rehabilitation robotics), potenzialmente due dei più interessanti campi di applicazione per la ricerca nel design di interazione sonora (sonic interaction design). Lo scopo finale della ricerca in queste due aree è quello di facilitare la reintegrazione di pazienti con disordini neurologici (causati ad esempio da ictus) nella vita sociale e domestica aiutandoli a riottenere le abilità per compiere autonomamente le activities of daily living (ADLs, e.g. mangiare o camminare); nonostante ciò, una grossa mole di lavoro è tuttora richiesta per fronteggiare esigenze relative a hardware, software, design di sistemi di controllo, così come per la definizione di approcci efficaci per il trattamento. Le ADL incorporano infatti task motori complessi per i quali i sistemi riabilitativi attuali mancano della raffinatezza richiesta nell’assistenza dei pazienti durante l’esecuzione degli stessi task. In particolare, è risaputo che un grosso numero di gradi di libertà deve essere usato nella riabilitazione assistita da robot, e che il feedback multimodale spesso gioca un ruolo centrale. Nonostante l’esistenza di una varietà di sistemi per la riabilitazione che sfruttano ambienti virtuali multimodali con feedback visivo e aptico, l’uso consistente del feedback uditivo è tuttora raro. Un’analisi accurata della letteratura conferma tale ipotesi, dimostrando come il potenziale del feedback uditivo sia largamente sottostimato in tale contesto. Cinque diversi esperimenti, descritti in questa tesi, permettono lo studio del ruolo che nuovi tipi di feedback uditivo presentati durante la camminata o durante movimenti di tracciamento giocano nel miglioramento della performance in soggetti sani, costituendo una base per un futuro paragone con pazienti neurologicamente deficitari. In particolare, viene qui attestata l’utilità di un feedback sonoro relativo al task e della spazializzazione del suono nel coordinamento dei movimenti dell’utente durante semplici task di inseguimento. I risultati suggeriscono quindi come un feedback multimodale costruttivo e ben progettato possa essere usato sistematicamente per migliorare performance e learning in task motori complessi, grazie all’elevato livello di attenzione, coinvolgimento e presenza offerto all’utente. Tali studi rappresentano una novità nella letteratura sulla riabilitazione virtuale e/o assistita da robot, soprattutto per quanto riguarda l’utilizzo di tecniche di sonificazione per convogliare informazioni in uno scenario riabilitativo.

Scheda breve

Scheda completa

Scheda completa (DC)

	Corso di studio
	
				SCIENZA E TECNOLOGIA DELL'INFORMAZIONE
			
	Data di pubblicazione
	
				26-gen-2012
			
	Lingua
	
				Inglese
			
	Parola chiave
	
				virtual rehabilitation, spatial sound, 3D audio
			
	Relatore, Supervisor, Advisor o Tutor
	
				DE POLI, GIOVANNI
			
	Correlatore, Controrelatore, Co-Supervisor,  Co-Tutor o Coordinatori
	
				BERTOCCO, MATTEO
			
	Nome Editore
	
				Università degli studi di Padova
			
	Numero di pagine
	
				200
			
	Collezione di appartenenza
	
				Università degli Studi di Padova

File in questo prodotto:

File	Dimensione	Formato
tesi.pdf accesso aperto Licenza: Tutti i diritti riservati Dimensione 6.88 MB Formato Adobe PDF Visualizza/Apri	6.88 MB	Adobe PDF	Visualizza/Apri

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14242/83232

Il codice NBN di questa tesi è URN:NBN:IT:UNIPD-83232