Nell’ultimo decennio l’avvento di Internet ha reinventato l’industria musicale, in particolare i supporti fisici si sono evoluti verso prodotti e servizi reperibili online. Questa transizione ha portato le collezioni musicali disponibili su Internet ad avere dimensioni enormi e in continua crescita, a causa del quotidiano inserimento di nuovo contenuto musicale. Allo stesso tempo, una buona parte dei documenti musicali tipici del patrimonio culturale rimane inaccessibile, a causa della mancanza di dati che li descrivano e li contestualizzino. Tutto ciò evidenzia la necessità di nuove tecnologie che permettano agli utenti di interagire con tutte queste collezioni musicali in modo effettivo ed efficiente. Il reperimento d’informazioni musicali (i.e. MIR) è il settore di ricerca che studia le tecniche e gli strumenti per migliorare sia questa interazione, sia l’accesso ai documenti musicali. La maggior parte della ricerca effettuata nel MIR riguarda tecniche automatiche basate sul contenuto (i.e. content-based), le quali analizzano il segnale audio di una canzone ed estraggono dei descrittori, che ne caratterizzano, appunto, il contenuto. Questi descrittori possono essere elaborati ed utilizzati in varie applicazioni: motori di ricerca, divulgazione, analisi musicologa e così via. La tesi presenta dei modelli originali content-based per motori di ricerca musicali di vario genere, che si basano, sia su descrittori semantici testuali e su similarità acustica, sia su una loro combinazione. Attraverso esperimenti pratici, dimostreremo come i modelli proposti ottengano prestazioni efficienti e competitive se confrontate con alcuni dei sistemi alternativi presenti nello stato dell’arte. Una buona parte della tesi si concentra sui sistemi di music discovery, ovvero motori di ricerca nei quali gli utenti non cercano una canzone o un’artista specifico, ma hanno perlopiù un criterio generale che vogliono soddisfare. Questi criteri di ricerca sono in genere espressi sottoforma di tag, ovvero annotazioni che caratterizzano gli aspetti rilevanti delle canzoni (e.g. genere, strumenti, emozioni). A causa delle dimensioni raggiunte ormai dalle varie collezioni, l’assegnazione manuale dei tag alle canzoni è però diventata un’operazione impraticabile. Per questa ragione, i modelli che assegnano i tag in modo automatico sono diventati dei punti chiave nella progettazione dei motori di ricerca musicale. I sistemi content-based per l’assegnazione automatica di tag (i.e. auto-tagger) generalmente si basano su approcci di machine learning, che modellano le caratteristiche audio delle canzoni associate ad un certo tag. Questi modelli sono poi utilizzati per annotare le nuove canzoni generando un vettore di pesi, uno per ogni tag nel vocabolario, che misurano la rilevanza che ogni tag ha per quella canzone (i.e. SMN). Un primo contributo originale della tesi ha l’obiettivo di migliorare lo stato dell’arte degli auto-tagger, modellando le co-occorrenze tra i tag. Infatti mentre una persona può associare tag a una canzone sia direttamente (e.g. ascolta lo strumento“basso”), sia dal contesto (e.g. intuisce“basso” sapendo che la canzone `e di genere “rock”), gli auto-tagger diversamente ignorano questo contesto. Infatti, nonostante le relazioni contestuali correlino i tag, la maggior parte degli auto-tagger modella ogni tag in modo indipendente. Il nostro sistema pertanto cerca di migliorare l’assegnazione automatica di tag, modellando le relazioni contestuali che occorrono tra i vari tag di un vocabolario. Per far questo utilizziamo un modello di misture di Dirichlet (DMM) al fine di migliorare qualsiasi auto-tagger che genera delle SMN. Per ogni tag nel vocabolario, una DMM è usata per catturare le co-occorrenze con gli altri tag nelle SMN delle canzoni associate con quel tag. Quando una nuova canzone è annotata, il DMM rifinisce le SMN prodotte da un auto-tagger sfruttando le sue caratteristiche contestuali. I risultati sperimentali dimostrano i benefici di combinare vari auto-tagger con le DMM; in aggiunta, i risultati migliorano rispetto anche a quelli ottenuti con modelli contestuali alternativi dello stato dell’arte. L’uso dei tag permette di costruire efficienti ed effettivi motori di ricerca musicali; tuttavia le strategie automatiche per l’assegnazione di tag a volte ottengono rappresentazioni non precise che possono influenzare negativamente le funzioni di reperimento. Al tempo stesso, le ricerca di documenti musicali può essere anche fatta confrontando gli interessi degli utenti o sfruttando le similarit`a acustiche tra le canzoni. Uno dei principali problemi aperti nel MIR è come combinare tutte queste diverse informazioni per migliorare le funzioni di ricerca. Ponendosi questo obiettivo, la tesi propone un modello di reperimento statistico basato sulla combinazione tra i tag e la similarità acustica mediante un modello di Markov nascosto. Il meccanismo di ricerca si basa su un’applicazione dell’algoritmo di Viterbi, il quale estrae dal modello la sequenza di canzoni che meglio rappresenta la query. L’obiettivo è di migliorare lo stato dell’arte dei sistemi di ricerca musicale e, in particolare, di music discovery fornendo all’utente liste di canzoni maggiormente rilevanti. Gli esperimenti infatti mostrano come il modello proposto risulta migliore sia di algoritmi che ordinano le canzoni utilizzando un’informazione sola, sia di quelli che le combinano in modo diverso. In aggiunta, l’alta generalità a del modello lo rende adatto anche ad altri settori multimediali, come le immagini e i video. In parallelo con i sistemi di music discovery, la tesi affronta anche il problema di identificazione musicale (i.e. music identification), il cui obiettivo è quello di associare tra loro diverse registrazioni audio che condividono lo stesso spartito musicale (i.e. trovare le versioni cover di una certa query). In funzione di questo, la tesi presenta due descrittori che si basano sulla progressione armonica della musica. Il loro scopo principale è quello di fornire una rappresentazione compatta del segnale audio che possa essere condivisa dalle canzoni aventi lo stesso spartito musicale. Al tempo stesso, mirano anche a ridurre lo spazio di memoria occupato e a permettere operazioni di ricerca efficienti anche in presenza di grandi collezioni. La validità dei due descrittori è stata verificata per l’identificazione di musica classica, ovvero lo scenario che maggiormente necessita di strategie automatiche per la gestione di registrazioni audio non catalogate. La scalabilità del sistema è garantita da una pre-ricerca basata su un indice che gestisce i descrittori musicali come fossero parole di un testo; in aggiunta, la precisione dell’identificazione è aumentata mediante un’operazione di allineamento eseguita utilizzando i modelli di Markov nascosti. I risultati sperimentali ottenuti con una collezione di più di diecimila registrazioni audio sono stati soddisfacenti sia da un punto di vista di efficienza sia di efficacia.

Content-based Music Access: Combining Audio Features and Semantic Information for Music Search Engines

MIOTTO, RICCARDO
2011

Abstract

Nell’ultimo decennio l’avvento di Internet ha reinventato l’industria musicale, in particolare i supporti fisici si sono evoluti verso prodotti e servizi reperibili online. Questa transizione ha portato le collezioni musicali disponibili su Internet ad avere dimensioni enormi e in continua crescita, a causa del quotidiano inserimento di nuovo contenuto musicale. Allo stesso tempo, una buona parte dei documenti musicali tipici del patrimonio culturale rimane inaccessibile, a causa della mancanza di dati che li descrivano e li contestualizzino. Tutto ciò evidenzia la necessità di nuove tecnologie che permettano agli utenti di interagire con tutte queste collezioni musicali in modo effettivo ed efficiente. Il reperimento d’informazioni musicali (i.e. MIR) è il settore di ricerca che studia le tecniche e gli strumenti per migliorare sia questa interazione, sia l’accesso ai documenti musicali. La maggior parte della ricerca effettuata nel MIR riguarda tecniche automatiche basate sul contenuto (i.e. content-based), le quali analizzano il segnale audio di una canzone ed estraggono dei descrittori, che ne caratterizzano, appunto, il contenuto. Questi descrittori possono essere elaborati ed utilizzati in varie applicazioni: motori di ricerca, divulgazione, analisi musicologa e così via. La tesi presenta dei modelli originali content-based per motori di ricerca musicali di vario genere, che si basano, sia su descrittori semantici testuali e su similarità acustica, sia su una loro combinazione. Attraverso esperimenti pratici, dimostreremo come i modelli proposti ottengano prestazioni efficienti e competitive se confrontate con alcuni dei sistemi alternativi presenti nello stato dell’arte. Una buona parte della tesi si concentra sui sistemi di music discovery, ovvero motori di ricerca nei quali gli utenti non cercano una canzone o un’artista specifico, ma hanno perlopiù un criterio generale che vogliono soddisfare. Questi criteri di ricerca sono in genere espressi sottoforma di tag, ovvero annotazioni che caratterizzano gli aspetti rilevanti delle canzoni (e.g. genere, strumenti, emozioni). A causa delle dimensioni raggiunte ormai dalle varie collezioni, l’assegnazione manuale dei tag alle canzoni è però diventata un’operazione impraticabile. Per questa ragione, i modelli che assegnano i tag in modo automatico sono diventati dei punti chiave nella progettazione dei motori di ricerca musicale. I sistemi content-based per l’assegnazione automatica di tag (i.e. auto-tagger) generalmente si basano su approcci di machine learning, che modellano le caratteristiche audio delle canzoni associate ad un certo tag. Questi modelli sono poi utilizzati per annotare le nuove canzoni generando un vettore di pesi, uno per ogni tag nel vocabolario, che misurano la rilevanza che ogni tag ha per quella canzone (i.e. SMN). Un primo contributo originale della tesi ha l’obiettivo di migliorare lo stato dell’arte degli auto-tagger, modellando le co-occorrenze tra i tag. Infatti mentre una persona può associare tag a una canzone sia direttamente (e.g. ascolta lo strumento“basso”), sia dal contesto (e.g. intuisce“basso” sapendo che la canzone `e di genere “rock”), gli auto-tagger diversamente ignorano questo contesto. Infatti, nonostante le relazioni contestuali correlino i tag, la maggior parte degli auto-tagger modella ogni tag in modo indipendente. Il nostro sistema pertanto cerca di migliorare l’assegnazione automatica di tag, modellando le relazioni contestuali che occorrono tra i vari tag di un vocabolario. Per far questo utilizziamo un modello di misture di Dirichlet (DMM) al fine di migliorare qualsiasi auto-tagger che genera delle SMN. Per ogni tag nel vocabolario, una DMM è usata per catturare le co-occorrenze con gli altri tag nelle SMN delle canzoni associate con quel tag. Quando una nuova canzone è annotata, il DMM rifinisce le SMN prodotte da un auto-tagger sfruttando le sue caratteristiche contestuali. I risultati sperimentali dimostrano i benefici di combinare vari auto-tagger con le DMM; in aggiunta, i risultati migliorano rispetto anche a quelli ottenuti con modelli contestuali alternativi dello stato dell’arte. L’uso dei tag permette di costruire efficienti ed effettivi motori di ricerca musicali; tuttavia le strategie automatiche per l’assegnazione di tag a volte ottengono rappresentazioni non precise che possono influenzare negativamente le funzioni di reperimento. Al tempo stesso, le ricerca di documenti musicali può essere anche fatta confrontando gli interessi degli utenti o sfruttando le similarit`a acustiche tra le canzoni. Uno dei principali problemi aperti nel MIR è come combinare tutte queste diverse informazioni per migliorare le funzioni di ricerca. Ponendosi questo obiettivo, la tesi propone un modello di reperimento statistico basato sulla combinazione tra i tag e la similarità acustica mediante un modello di Markov nascosto. Il meccanismo di ricerca si basa su un’applicazione dell’algoritmo di Viterbi, il quale estrae dal modello la sequenza di canzoni che meglio rappresenta la query. L’obiettivo è di migliorare lo stato dell’arte dei sistemi di ricerca musicale e, in particolare, di music discovery fornendo all’utente liste di canzoni maggiormente rilevanti. Gli esperimenti infatti mostrano come il modello proposto risulta migliore sia di algoritmi che ordinano le canzoni utilizzando un’informazione sola, sia di quelli che le combinano in modo diverso. In aggiunta, l’alta generalità a del modello lo rende adatto anche ad altri settori multimediali, come le immagini e i video. In parallelo con i sistemi di music discovery, la tesi affronta anche il problema di identificazione musicale (i.e. music identification), il cui obiettivo è quello di associare tra loro diverse registrazioni audio che condividono lo stesso spartito musicale (i.e. trovare le versioni cover di una certa query). In funzione di questo, la tesi presenta due descrittori che si basano sulla progressione armonica della musica. Il loro scopo principale è quello di fornire una rappresentazione compatta del segnale audio che possa essere condivisa dalle canzoni aventi lo stesso spartito musicale. Al tempo stesso, mirano anche a ridurre lo spazio di memoria occupato e a permettere operazioni di ricerca efficienti anche in presenza di grandi collezioni. La validità dei due descrittori è stata verificata per l’identificazione di musica classica, ovvero lo scenario che maggiormente necessita di strategie automatiche per la gestione di registrazioni audio non catalogate. La scalabilità del sistema è garantita da una pre-ricerca basata su un indice che gestisce i descrittori musicali come fossero parole di un testo; in aggiunta, la precisione dell’identificazione è aumentata mediante un’operazione di allineamento eseguita utilizzando i modelli di Markov nascosti. I risultati sperimentali ottenuti con una collezione di più di diecimila registrazioni audio sono stati soddisfacenti sia da un punto di vista di efficienza sia di efficacia.
27-gen-2011
Inglese
music information retrieval, tags, hidden Markov model, acoustic similarity
Università degli studi di Padova
132
File in questo prodotto:
File Dimensione Formato  
Miotto-Thesis.pdf

accesso aperto

Dimensione 2.53 MB
Formato Adobe PDF
2.53 MB Adobe PDF Visualizza/Apri

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14242/173327
Il codice NBN di questa tesi è URN:NBN:IT:UNIPD-173327