Exploiting user signals and stochastic models to improve information retrieval systems and evaluation

Maistro, Maria

La valutazione in Information Retrieval (IR) rappresenta il leitmotiv di questa tesi, in cui sono analizzati diversi problemi legati alle misure di efficacia in IR e le soluzioni proposte per risolvere tali problemi. Inizialmente viene proposta una definizione formale di misure di efficacia di IR orientate all’utilità dell’utente. Tale definizione è costruita a partire dalla teoria rappresentazionale della misura e la configurazione teorica presentata contribuisce alla migliore comprensione delle difficoltà relative al confronto dei sistemi, separandole da quelle relative alle proprietà numeriche delle misure. Successivamente è descritto AWARE, un approccio probabilistico per controllare il rumore e le inconsistenze introdotte quando i giudizi di rilevanza sono raccolti tramite piattaforme di crowd sourcing. Invece di adottare tecniche di classificazione per combinare i giudizi di rilevanza raccolti da diversi crowd worker a livello di pool, i giudizi di rilevanza e i crowd worker stessi sono considerati come sorgenti di probabilità, permettendo di combinare direttamente le misure di valutazione calcolate sulle diverse ground truth generate da ogni crowd worker. Per concludere, vengono illustrate misure di valutazioni capaci di tenere in considerazione le interazioni tra sistemi e utenti. Viene proposto un modello di utente basato su processi di tipo Markoviano che permette di descrivere il comportamento degli utenti con molti gradi di libertà. Tale modello è utilizzato per definire una nuova famiglia di misure di valutazione costruite a partire da precision, ed è incluso nella funzione obbiettivo di un algoritmo di Learning to Rank (LtR) per migliorare le prestazioni del sistema.

Exploiting user signals and stochastic models to improve information retrieval systems and evaluation

MAISTRO, MARIA

2018

Abstract

La valutazione in Information Retrieval (IR) rappresenta il leitmotiv di questa tesi, in cui sono analizzati diversi problemi legati alle misure di efficacia in IR e le soluzioni proposte per risolvere tali problemi. Inizialmente viene proposta una definizione formale di misure di efficacia di IR orientate all’utilità dell’utente. Tale definizione è costruita a partire dalla teoria rappresentazionale della misura e la configurazione teorica presentata contribuisce alla migliore comprensione delle difficoltà relative al confronto dei sistemi, separandole da quelle relative alle proprietà numeriche delle misure. Successivamente è descritto AWARE, un approccio probabilistico per controllare il rumore e le inconsistenze introdotte quando i giudizi di rilevanza sono raccolti tramite piattaforme di crowd sourcing. Invece di adottare tecniche di classificazione per combinare i giudizi di rilevanza raccolti da diversi crowd worker a livello di pool, i giudizi di rilevanza e i crowd worker stessi sono considerati come sorgenti di probabilità, permettendo di combinare direttamente le misure di valutazione calcolate sulle diverse ground truth generate da ogni crowd worker. Per concludere, vengono illustrate misure di valutazioni capaci di tenere in considerazione le interazioni tra sistemi e utenti. Viene proposto un modello di utente basato su processi di tipo Markoviano che permette di descrivere il comportamento degli utenti con molti gradi di libertà. Tale modello è utilizzato per definire una nuova famiglia di misure di valutazione costruite a partire da precision, ed è incluso nella funzione obbiettivo di un algoritmo di Learning to Rank (LtR) per migliorare le prestazioni del sistema.

Scheda breve

Scheda completa

Scheda completa (DC)

	Corso di studio
	
				INGEGNERIA DELL'INFORMAZIONE
			
	Data di pubblicazione
	
				14-gen-2018
			
	Lingua
	
				Inglese
			
	Parola chiave
	
				Information Retrieval, effectiveness, relevance assessment, markov chain, evaluation, learning to rank, user model
			
	Nome Editore
	
				Università degli studi di Padova
			
	Collezione di appartenenza
	
				Università degli Studi di Padova

File in questo prodotto:

File	Dimensione	Formato
maistro_maria_tesi.pdf accesso aperto Dimensione 10.21 MB Formato Adobe PDF Visualizza/Apri	10.21 MB	Adobe PDF	Visualizza/Apri

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14242/109319

Il codice NBN di questa tesi è URN:NBN:IT:UNIPD-109319