Correlation models for paired comparison data

Cattelan, Manuela

I dati provenienti da confronti a coppie sono dati binari che individuano quale fra due oggetti confrontati è preferito. Questo tipo di dati si presenta frequentemente nelle applicazioni. La biologia, i tornei sportivi, l'acustica, la genetica e lo studio del comportamento dei consumatori, sono solo alcuni degli ambiti in cui si manifestano dati provenienti da confronti a coppie. Quasi tutti i modelli tradizionali sviluppati per analizzare questa particolare tipologia di dati si basano sull'assunzione irrealistica di indipendenza tra le osservazioni. In realtà in molte circostanze è ragionevole ritenere che siano correlati i risultati di due confronti tra coppie di oggetti che includono un medesimo oggetto. Questa tesi affronta la modellazione della possibile dipendenza tra i risultati dei confronti. Si propongono due nuovi modelli, il primo con specificazione marginale e il secondo con specificazione condizionata, che descrivono la struttura di dipendenza dei dati. I modelli proposti risultano essere più realistici di quelli tradizionali, ma l'inferenza basata sulla verosimiglianza ordinaria è resa difficile dalla necessità di approssimare integrali multipli in dimensioni elevate. Come soluzione si propone un approccio basato sulla verosimiglianza composita. Sono stati effettuati alcuni studi di simulazione per valutare il comportamento degli stimatori di massima verosimiglianza composita per i parametri dei modelli per dati correlati provenienti da confronti a coppie. Le simulazioni considerano tornei in cui i giocatori competono un'unica volta contro ciascun altro giocatore del torneo. In tale contesto, gli stimatori di massima verosimiglianza composita mostrano un buon comportamento, le stime sono ragionevolmente centrate vicino ai veri valori dei parametri e la loro precisione aumenta all'aumentare del numero di giocatori che prendono parte al torneo. Inoltre, se non si dispone dei risultati di tutte le partite, le stime non ne risentono in maniera rilevante, perlomeno finché si osservano i risultati di almeno metà delle competizioni. La metodologia proposta viene illustrata attraverso alcune applicazioni a dati reali. La prima applicazione considera dati sportivi, in particolare i risultati della serie A1 di pallavolo maschile. In questo caso si è interessati a determinare se l'origine geografica delle squadre o le loro caratteristiche fisiche influenzino la forza delle squadre stesse. Un'ulteriore applicazione riguarda dati biologici. In particolare, alcuni etologi sono interessati ad indagare quale sia il ruolo svolto dai vari colori presenti sul corpo di molti animali nella segnalazione sessuale e a determinare se alcuni colori siano associati ad animali più forti. A tale scopo sono stati osservati i risultati dei combattimenti tra animali appartenenti ad una particolare specie di lucertole che presentano tre chiazze di diverso colore sul corpo. Infine, si considera il problema della valutazione e classificazione di riviste scientifiche al fine di proporre un criterio di classificazione alternativo all'impact factor. Il metodo proposto viene illustrato con un'applicazione alle principali riviste internazionali di statistica.

Correlation models for paired comparison data

CATTELAN, MANUELA

2009

Abstract

I dati provenienti da confronti a coppie sono dati binari che individuano quale fra due oggetti confrontati è preferito. Questo tipo di dati si presenta frequentemente nelle applicazioni. La biologia, i tornei sportivi, l'acustica, la genetica e lo studio del comportamento dei consumatori, sono solo alcuni degli ambiti in cui si manifestano dati provenienti da confronti a coppie. Quasi tutti i modelli tradizionali sviluppati per analizzare questa particolare tipologia di dati si basano sull'assunzione irrealistica di indipendenza tra le osservazioni. In realtà in molte circostanze è ragionevole ritenere che siano correlati i risultati di due confronti tra coppie di oggetti che includono un medesimo oggetto. Questa tesi affronta la modellazione della possibile dipendenza tra i risultati dei confronti. Si propongono due nuovi modelli, il primo con specificazione marginale e il secondo con specificazione condizionata, che descrivono la struttura di dipendenza dei dati. I modelli proposti risultano essere più realistici di quelli tradizionali, ma l'inferenza basata sulla verosimiglianza ordinaria è resa difficile dalla necessità di approssimare integrali multipli in dimensioni elevate. Come soluzione si propone un approccio basato sulla verosimiglianza composita. Sono stati effettuati alcuni studi di simulazione per valutare il comportamento degli stimatori di massima verosimiglianza composita per i parametri dei modelli per dati correlati provenienti da confronti a coppie. Le simulazioni considerano tornei in cui i giocatori competono un'unica volta contro ciascun altro giocatore del torneo. In tale contesto, gli stimatori di massima verosimiglianza composita mostrano un buon comportamento, le stime sono ragionevolmente centrate vicino ai veri valori dei parametri e la loro precisione aumenta all'aumentare del numero di giocatori che prendono parte al torneo. Inoltre, se non si dispone dei risultati di tutte le partite, le stime non ne risentono in maniera rilevante, perlomeno finché si osservano i risultati di almeno metà delle competizioni. La metodologia proposta viene illustrata attraverso alcune applicazioni a dati reali. La prima applicazione considera dati sportivi, in particolare i risultati della serie A1 di pallavolo maschile. In questo caso si è interessati a determinare se l'origine geografica delle squadre o le loro caratteristiche fisiche influenzino la forza delle squadre stesse. Un'ulteriore applicazione riguarda dati biologici. In particolare, alcuni etologi sono interessati ad indagare quale sia il ruolo svolto dai vari colori presenti sul corpo di molti animali nella segnalazione sessuale e a determinare se alcuni colori siano associati ad animali più forti. A tale scopo sono stati osservati i risultati dei combattimenti tra animali appartenenti ad una particolare specie di lucertole che presentano tre chiazze di diverso colore sul corpo. Infine, si considera il problema della valutazione e classificazione di riviste scientifiche al fine di proporre un criterio di classificazione alternativo all'impact factor. Il metodo proposto viene illustrato con un'applicazione alle principali riviste internazionali di statistica.

Scheda breve

Scheda completa

Scheda completa (DC)

	Corso di studio
	
				SCIENZE STATISTICHE
			
	Data di pubblicazione
	
				2009
			
	Lingua
	
				Inglese
			
	Parola chiave
	
				Composite likelihood, Paired comparison data, Round robin tournaments
			
	Relatore, Supervisor, Advisor o Tutor
	
				Salvan, Alessandra
			
	Nome Editore
	
				Università degli studi di Padova
			
	Collezione di appartenenza
	
				Università degli Studi di Padova

File in questo prodotto:

File	Dimensione	Formato
Tesi_Manuela_Cattelan.pdf accesso solo da BNCF e BNCR Licenza: Tutti i diritti riservati Dimensione 1.68 MB Formato Adobe PDF	1.68 MB	Adobe PDF

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14242/107959

Il codice NBN di questa tesi è URN:NBN:IT:UNIPD-107959