Il settore dell'Information and Communications Technology (ICT) sta investendo in strategie di innovazione e sviluppo sempre più rivolte ad applicazioni capaci di interazione complesse grazie alla rappresentazione spaziale in ambienti virtuali multimodali capaci di rispettare i vincoli di tempo reale. Una delle principali sfide da affrontare riguarda la centralità dell'utente, che si riflette, ad esempio, sullo sviluppo di servizi la cui complessità tecnologica viene nascosta al destinatario, e la cui offerta di servizi sia personalizzabile dall’utente e per l’utente. Per queste ragioni , le interfacce multimodali rappresentano un elemento chiave per consentire un uso diffuso di queste nuove tecnologie. Per raggiungere questo obiettivo è necessario ottenere dei modelli multimodali realistici che siano capaci di descrivere l’ambiente circostante, e in particolare modelli che sappiano rappresentare accuratamente l'acustica dell'ambiente e la trasmissione di informazione attraverso la modalità uditiva. Alcuni esempi di aree applicative e direzioni di ricerca attive nella comunità scientifica internazionale includono 3DTV e internet del futuro , codifica, trasmissione e ricostruzione della scena 3D video e audio e sistemi di teleconferenza , per citarne solo alcuni. La presenza concomitante di più modalità sensoriali e la loro integrazione rendono gli ambienti virtuali multimodali potenzialmente flessibili e adattabili, permettendo agli utenti di passare dall’una all’altra modalità in base alle necessità dettata dalle mutevoli condizioni di utilizzo di tali sistemi. Modalità sensoriali aumentata attraverso altri sensi e tecniche di sostituzione sensoriale sono elementi essenziali per la veicolazione dell’informazioni non visivamente, quando, ad esempio, il canale visivo è sovraccaricato, quando i dati sono visivamente ostruiti, o quando il canale visivo non è disponibile per l'utente (ad esempio, per le persone non vedenti). I sistemi multimodali per la rappresentazione delle informazioni spaziali beneficano sicuramente della realizzazione di motori audio che possiedano una conoscenza approfondita degli aspetti legati alla percezione spaziale e all’acustica virtuale. I modelli per il rendering di audio spazializzato sono in grado di fornire accurate informazioni dinamiche sulla relazione tra la sorgente sonora e l'ambiente circostante , compresa l'interazione del corpo dell’ascoltatore che agisce da ulteriore filtraggio acustico. Queste informazioni non possono essere sostituite da altre modalità (ad esempio quella visiva o tattile). Tuttavia , la rappresentazione spaziale del suono nei feedback acustici tende ad essere, al giorno d’oggi, semplicistica e con scarse capacità di interazione, questo perchè i sistemi multimediali attualmente si focalizzano per lo più sull’elaborazione grafica, e si accontentano di semplici tecnologie stereofoniche o surround multicanale per il rendering del suono. Il rendering binaurale riprodotto in cuffia rappresenta un approccio avveniristico, tenendo conto che i possibili svantaggi (es. invasività , risposte in frequenza non piane) possono essere man mano gestiti e controbilanciati da una serie di desiderabili caratteristiche. Questi sistemi sono caratterizzati dalla possibilità di controllare e/o eliminare il riverbero e altri effetti acustici dello spazio di ascolto circostante, di ridurre il rumore di fondo e fornire dei display audio adattabili e portatili, tutti aspetti rilevanti soprattutto in contesti di innovazione. La maggior parte delle tecniche di rendering binaurale impiegate oggigiorno in ricerca si basano sull'uso di Head Related Transfer Functions (HRTFs), vale a dire di filtri particolari che catturano gli effetti acustici di testa, busto e orecchie dell’ascoltatore. Le HRTF permettono una simulazione fedele del segnale audio che si presenta all'ingresso del canale uditivo in funzione della posizione spaziale della sorgente sonora. I filtri basati su HRTF sono generalmente presentati sotto forma di segnali acustici misurati a partire da una testa di manichino costruito secondo misurazioni antropometriche medie. Tuttavia, le caratteristiche antropometriche individuali hanno un ruolo fondamentale nel determinare le HRTF: diversi studi hanno riscontrato come l’ascolto di audio binaurale non individuale produce errori di localizzazione evidenti . D'altra parte , le misurazioni individuali di HRTF su un numero significativo di soggetti richiedono un impiego di risorse e tempo non trascurabili. Sono state proposte negli ultimi due decenni diverse tecniche per il design di HRTF sintetiche e tra le più promettente vi è quella che utilizza i modelli strutturali di HRTF. In questo approccio rivoluzionario, gli effetti più importanti coinvolti nella percezione spaziale del suono (i ritardi acustici e le ombre acustiche ad opera della diffrazione attorno alla testa, le riflessioni sui contorni dell’orecchio esterno e sulle spalle, le risonanze all'interno delle cavità dell’orecchio) sono isolati e modellati separatamente nell’elemento filtrante corrispondente. La selezione di HRTF non individuali e queste procedure di modellazione possono essere entrambe analizzate con una interpretazione fisica: i parametri di ogni blocco di rendering o i criteri di selezione possono venir stimati dalla relazione tra dati reali e simulati e antropometria dell’ascoltatore. La realizzazione di efficaci display uditivi personali rappresenta un notevole passo in avanti per numerose applicazioni; l’approccio strutturale consente una intrinseca scalabilità a seconda delle risorse computazionali o della larghezza di banda disponibili. Scene altamente realistiche con più oggetti audiovisivi riescono ad essere gestite sfruttando il parallelismo della Graphics Processing Unit (GPU) sempre più onnipresenti. Ottenere un equalizzazione individuale delle cuffie con tecniche di filtraggio inverso che siano percettivamente robuste costituisce un passo fondamentale verso la creazione di display uditivi virtuali personali. A titolo d’esempio, vengono di seguito riportate alcune aree applicative che possono trarre beneficio da queste considerazioni: riproduzione multi canale in cuffia, rendering spaziale del suono in dispositivi mobile, motori di rendering per computer-game e standard audio binaurali individuali per film e produzione musicale. Questa tesi presenta una famiglia di approcci in grado di superare gli attuali limiti dei sistemi di audio 3D in cuffia, con l’obiettivo di realizzare display uditivi personali attraverso modelli strutturali per l’audio binaurale volti ad una riproduzione immersiva del suono. I modelli che ne derivano permettono adattamento e personalizzazione di contenuti, grazie alla gestione dei parametri relativi all’antropometria dell'utente oltre a quelli relativi alle sorgenti sonore nell'ambiente . Le direzioni di ricerca intraprese convergono verso una metodologia per la progettazione e personalizzazione di HRTF sintetiche che unisce il paradigma di modellazione strutturale con altre tecniche di selezione per HRTF (ispirate a procedure di selezione non-individuali di HRTF) e rappresenta il principale contributo di questa tesi: l’ approccio a modellazione strutturale mista( MSM ) che considera la HRTF globale come una combinazione di elementi strutturali, che possono essere scelti tra componenti sia sintetiche che registrate. In entrambi i casi, la personalizzazione si basa su dati antropometrici individuali, utilizzati per adattare sia i parametri del modello sia per selezionare un componente simulato o misurato, tra un insieme di risposte all’impulso disponibili. La definizione e la validazione sperimentale dell'approccio a MSM affronta alcune questioni cruciali riguarda l'acquisizione e il rendering di scene acustiche binaurali, definendo alcune linee guida di progettazione per ambienti virtuali personali che utilizzano l’audio 3D e che possiedono nuove forme di comunicazione su misura e di interazione con contenuti sonori e musicali. In questa tesi viene anche presentato un sistema interattivo multimodale utilizzato per condurre test soggettivi sull’integrazione multisensoriale in ambienti virtuali. Vengono proposti quattro scenari sperimentali al fine di testare le funzionalità di un feedback sonoro integrato a modalità tattili o visive. (i) Un feedback con audio 3D legato ai movimenti dell'utente durante una semplice attività di inseguimento di un bersaglio viene presentato come un esempio applicativo di sistema riabilitativo audiovisivo. (ii) La percezione della direzione sonora dei passi interattivamente generati in cuffia durante la camminata evidenzia come l'informazione spaziale sia in grado di mettere in luce la congruenza semantica tra movimento e feedback multimodale. (iii) Un sistema audio tattile interattivo e real-time sintetizza l'informazione spaziale di mappe virtuali per l’educazione all’orientamento e alla mobilità (O&M) rivolta a persone non vedenti. (iv) Un ultimo esperimento analizza la stima tattile delle dimensioni di un oggetto virtuale 3D (un gradino), mentre l'esplorazione è accompagnata da un feedback sonoro generato in tempo reale i cui parametri variano in funzione dell’altezza del punto di interazione aptico. I dati raccolti da questi esperimenti suggeriscono che feedback multimodali che sfruttano correttamente modelli di audio 3D, possono essere utilizzati per migliorare la navigazione nella realtà virtuale, l’orientamento e l’apprendimento di azioni motorie complesse, grazie all'alto livello di attenzione, impegno e immersività fornito all'utente. La metodologia di ricerca, basata sull'approccio a MSM, rappresenta un importante strumento di valutazione per determinare progressivamente i principali attributi spaziali del suono in relazione a ciascun dominio applicativo. In questa prospettiva, tali studi rappresentano una novità nella letteratura scientifica corrente che ha come principale argomento di indagine la realtà virtuale e aumentata, soprattutto per quanto riguarda l'uso di tecniche di sonicazione legate alla cognizione spaziale e alla rappresentazione multisensoriale interna del corpo . Questa tesi è organizzata come segue. Un’introduzione e una panoramica sulla percezione spaziale del suono e sulle tecnologie binaurali in cuffia sono fornite nel Capitolo 1. Il Capitolo 2 è dedicato al formalismo sulla modellazione strutturale mista e sua corrispondente filosofia di ricerca. Nel Capitolo 3 vengono presentati i modelli strutturali relativi ad ogni parte del corpo, risultanti da precedenti ricerche. Due nuove proposte di modello di testa e orecchio approfondiscono rispettivamente la dipendenza dalla distanza nel near-field e le informazioni spettrali fornite dall’orecchio esterno per la localizzazione verticale del suono. Il Capitolo 4 si occupa di un caso di studio completo riguardante l'approccio a modellazione strutturale mista, fornendo degli approfondimenti riguardanti i principali aspetti innovativi di tale modus operandi. Il Capitolo 5 fornisce una panoramica di strumenti sviluppati per l'analisi e la sintesi di HRTF. Inoltre linee guida per il design di ambienti di realtà virtuale vengono discussi in termini di problematiche riguardanti vincoli di tempo reali, requisiti per la mobilità e personalizzazione del segnale audio. Nel Capitolo 6, attraverso due casi di studio viene approfondita l'importanza dell'attributo spaziale del suono nel comportamento dell’ascoltatore e come la continua interazione in ambienti virtuali possa utilizzare con successo algoritmi per l’audio spaziale. Il Capitolo 7 descrive una serie di esperimenti volti a valutare il contributo dell’audio binaurale in cuffia in processi di apprendimento di mappe cognitive spaziali e nell'esplorazione di oggetti virtuali. Infine, il Capitolo 8 apre a nuovi orizzonti per futuri lavori di ricerca.
Mixed Structural Models for 3D Audio in Virtual Environments
GERONAZZO, MICHELE
2014
Abstract
Il settore dell'Information and Communications Technology (ICT) sta investendo in strategie di innovazione e sviluppo sempre più rivolte ad applicazioni capaci di interazione complesse grazie alla rappresentazione spaziale in ambienti virtuali multimodali capaci di rispettare i vincoli di tempo reale. Una delle principali sfide da affrontare riguarda la centralità dell'utente, che si riflette, ad esempio, sullo sviluppo di servizi la cui complessità tecnologica viene nascosta al destinatario, e la cui offerta di servizi sia personalizzabile dall’utente e per l’utente. Per queste ragioni , le interfacce multimodali rappresentano un elemento chiave per consentire un uso diffuso di queste nuove tecnologie. Per raggiungere questo obiettivo è necessario ottenere dei modelli multimodali realistici che siano capaci di descrivere l’ambiente circostante, e in particolare modelli che sappiano rappresentare accuratamente l'acustica dell'ambiente e la trasmissione di informazione attraverso la modalità uditiva. Alcuni esempi di aree applicative e direzioni di ricerca attive nella comunità scientifica internazionale includono 3DTV e internet del futuro , codifica, trasmissione e ricostruzione della scena 3D video e audio e sistemi di teleconferenza , per citarne solo alcuni. La presenza concomitante di più modalità sensoriali e la loro integrazione rendono gli ambienti virtuali multimodali potenzialmente flessibili e adattabili, permettendo agli utenti di passare dall’una all’altra modalità in base alle necessità dettata dalle mutevoli condizioni di utilizzo di tali sistemi. Modalità sensoriali aumentata attraverso altri sensi e tecniche di sostituzione sensoriale sono elementi essenziali per la veicolazione dell’informazioni non visivamente, quando, ad esempio, il canale visivo è sovraccaricato, quando i dati sono visivamente ostruiti, o quando il canale visivo non è disponibile per l'utente (ad esempio, per le persone non vedenti). I sistemi multimodali per la rappresentazione delle informazioni spaziali beneficano sicuramente della realizzazione di motori audio che possiedano una conoscenza approfondita degli aspetti legati alla percezione spaziale e all’acustica virtuale. I modelli per il rendering di audio spazializzato sono in grado di fornire accurate informazioni dinamiche sulla relazione tra la sorgente sonora e l'ambiente circostante , compresa l'interazione del corpo dell’ascoltatore che agisce da ulteriore filtraggio acustico. Queste informazioni non possono essere sostituite da altre modalità (ad esempio quella visiva o tattile). Tuttavia , la rappresentazione spaziale del suono nei feedback acustici tende ad essere, al giorno d’oggi, semplicistica e con scarse capacità di interazione, questo perchè i sistemi multimediali attualmente si focalizzano per lo più sull’elaborazione grafica, e si accontentano di semplici tecnologie stereofoniche o surround multicanale per il rendering del suono. Il rendering binaurale riprodotto in cuffia rappresenta un approccio avveniristico, tenendo conto che i possibili svantaggi (es. invasività , risposte in frequenza non piane) possono essere man mano gestiti e controbilanciati da una serie di desiderabili caratteristiche. Questi sistemi sono caratterizzati dalla possibilità di controllare e/o eliminare il riverbero e altri effetti acustici dello spazio di ascolto circostante, di ridurre il rumore di fondo e fornire dei display audio adattabili e portatili, tutti aspetti rilevanti soprattutto in contesti di innovazione. La maggior parte delle tecniche di rendering binaurale impiegate oggigiorno in ricerca si basano sull'uso di Head Related Transfer Functions (HRTFs), vale a dire di filtri particolari che catturano gli effetti acustici di testa, busto e orecchie dell’ascoltatore. Le HRTF permettono una simulazione fedele del segnale audio che si presenta all'ingresso del canale uditivo in funzione della posizione spaziale della sorgente sonora. I filtri basati su HRTF sono generalmente presentati sotto forma di segnali acustici misurati a partire da una testa di manichino costruito secondo misurazioni antropometriche medie. Tuttavia, le caratteristiche antropometriche individuali hanno un ruolo fondamentale nel determinare le HRTF: diversi studi hanno riscontrato come l’ascolto di audio binaurale non individuale produce errori di localizzazione evidenti . D'altra parte , le misurazioni individuali di HRTF su un numero significativo di soggetti richiedono un impiego di risorse e tempo non trascurabili. Sono state proposte negli ultimi due decenni diverse tecniche per il design di HRTF sintetiche e tra le più promettente vi è quella che utilizza i modelli strutturali di HRTF. In questo approccio rivoluzionario, gli effetti più importanti coinvolti nella percezione spaziale del suono (i ritardi acustici e le ombre acustiche ad opera della diffrazione attorno alla testa, le riflessioni sui contorni dell’orecchio esterno e sulle spalle, le risonanze all'interno delle cavità dell’orecchio) sono isolati e modellati separatamente nell’elemento filtrante corrispondente. La selezione di HRTF non individuali e queste procedure di modellazione possono essere entrambe analizzate con una interpretazione fisica: i parametri di ogni blocco di rendering o i criteri di selezione possono venir stimati dalla relazione tra dati reali e simulati e antropometria dell’ascoltatore. La realizzazione di efficaci display uditivi personali rappresenta un notevole passo in avanti per numerose applicazioni; l’approccio strutturale consente una intrinseca scalabilità a seconda delle risorse computazionali o della larghezza di banda disponibili. Scene altamente realistiche con più oggetti audiovisivi riescono ad essere gestite sfruttando il parallelismo della Graphics Processing Unit (GPU) sempre più onnipresenti. Ottenere un equalizzazione individuale delle cuffie con tecniche di filtraggio inverso che siano percettivamente robuste costituisce un passo fondamentale verso la creazione di display uditivi virtuali personali. A titolo d’esempio, vengono di seguito riportate alcune aree applicative che possono trarre beneficio da queste considerazioni: riproduzione multi canale in cuffia, rendering spaziale del suono in dispositivi mobile, motori di rendering per computer-game e standard audio binaurali individuali per film e produzione musicale. Questa tesi presenta una famiglia di approcci in grado di superare gli attuali limiti dei sistemi di audio 3D in cuffia, con l’obiettivo di realizzare display uditivi personali attraverso modelli strutturali per l’audio binaurale volti ad una riproduzione immersiva del suono. I modelli che ne derivano permettono adattamento e personalizzazione di contenuti, grazie alla gestione dei parametri relativi all’antropometria dell'utente oltre a quelli relativi alle sorgenti sonore nell'ambiente . Le direzioni di ricerca intraprese convergono verso una metodologia per la progettazione e personalizzazione di HRTF sintetiche che unisce il paradigma di modellazione strutturale con altre tecniche di selezione per HRTF (ispirate a procedure di selezione non-individuali di HRTF) e rappresenta il principale contributo di questa tesi: l’ approccio a modellazione strutturale mista( MSM ) che considera la HRTF globale come una combinazione di elementi strutturali, che possono essere scelti tra componenti sia sintetiche che registrate. In entrambi i casi, la personalizzazione si basa su dati antropometrici individuali, utilizzati per adattare sia i parametri del modello sia per selezionare un componente simulato o misurato, tra un insieme di risposte all’impulso disponibili. La definizione e la validazione sperimentale dell'approccio a MSM affronta alcune questioni cruciali riguarda l'acquisizione e il rendering di scene acustiche binaurali, definendo alcune linee guida di progettazione per ambienti virtuali personali che utilizzano l’audio 3D e che possiedono nuove forme di comunicazione su misura e di interazione con contenuti sonori e musicali. In questa tesi viene anche presentato un sistema interattivo multimodale utilizzato per condurre test soggettivi sull’integrazione multisensoriale in ambienti virtuali. Vengono proposti quattro scenari sperimentali al fine di testare le funzionalità di un feedback sonoro integrato a modalità tattili o visive. (i) Un feedback con audio 3D legato ai movimenti dell'utente durante una semplice attività di inseguimento di un bersaglio viene presentato come un esempio applicativo di sistema riabilitativo audiovisivo. (ii) La percezione della direzione sonora dei passi interattivamente generati in cuffia durante la camminata evidenzia come l'informazione spaziale sia in grado di mettere in luce la congruenza semantica tra movimento e feedback multimodale. (iii) Un sistema audio tattile interattivo e real-time sintetizza l'informazione spaziale di mappe virtuali per l’educazione all’orientamento e alla mobilità (O&M) rivolta a persone non vedenti. (iv) Un ultimo esperimento analizza la stima tattile delle dimensioni di un oggetto virtuale 3D (un gradino), mentre l'esplorazione è accompagnata da un feedback sonoro generato in tempo reale i cui parametri variano in funzione dell’altezza del punto di interazione aptico. I dati raccolti da questi esperimenti suggeriscono che feedback multimodali che sfruttano correttamente modelli di audio 3D, possono essere utilizzati per migliorare la navigazione nella realtà virtuale, l’orientamento e l’apprendimento di azioni motorie complesse, grazie all'alto livello di attenzione, impegno e immersività fornito all'utente. La metodologia di ricerca, basata sull'approccio a MSM, rappresenta un importante strumento di valutazione per determinare progressivamente i principali attributi spaziali del suono in relazione a ciascun dominio applicativo. In questa prospettiva, tali studi rappresentano una novità nella letteratura scientifica corrente che ha come principale argomento di indagine la realtà virtuale e aumentata, soprattutto per quanto riguarda l'uso di tecniche di sonicazione legate alla cognizione spaziale e alla rappresentazione multisensoriale interna del corpo . Questa tesi è organizzata come segue. Un’introduzione e una panoramica sulla percezione spaziale del suono e sulle tecnologie binaurali in cuffia sono fornite nel Capitolo 1. Il Capitolo 2 è dedicato al formalismo sulla modellazione strutturale mista e sua corrispondente filosofia di ricerca. Nel Capitolo 3 vengono presentati i modelli strutturali relativi ad ogni parte del corpo, risultanti da precedenti ricerche. Due nuove proposte di modello di testa e orecchio approfondiscono rispettivamente la dipendenza dalla distanza nel near-field e le informazioni spettrali fornite dall’orecchio esterno per la localizzazione verticale del suono. Il Capitolo 4 si occupa di un caso di studio completo riguardante l'approccio a modellazione strutturale mista, fornendo degli approfondimenti riguardanti i principali aspetti innovativi di tale modus operandi. Il Capitolo 5 fornisce una panoramica di strumenti sviluppati per l'analisi e la sintesi di HRTF. Inoltre linee guida per il design di ambienti di realtà virtuale vengono discussi in termini di problematiche riguardanti vincoli di tempo reali, requisiti per la mobilità e personalizzazione del segnale audio. Nel Capitolo 6, attraverso due casi di studio viene approfondita l'importanza dell'attributo spaziale del suono nel comportamento dell’ascoltatore e come la continua interazione in ambienti virtuali possa utilizzare con successo algoritmi per l’audio spaziale. Il Capitolo 7 descrive una serie di esperimenti volti a valutare il contributo dell’audio binaurale in cuffia in processi di apprendimento di mappe cognitive spaziali e nell'esplorazione di oggetti virtuali. Infine, il Capitolo 8 apre a nuovi orizzonti per futuri lavori di ricerca.File | Dimensione | Formato | |
---|---|---|---|
Geronazzo_Michele_phdthesis.pdf
accesso aperto
Dimensione
25.68 MB
Formato
Adobe PDF
|
25.68 MB | Adobe PDF | Visualizza/Apri |
I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/20.500.14242/105181
URN:NBN:IT:UNIPD-105181