The study of sports performances is a topic of paramount importance in sports sciences, in which the role of data have been always fundamental. The evaluation of athletes' competition, for example, can be done on the basis of quantitative measurements of their performances, useful for obtaining the subsequent rankings. If in principle, according to this interest, various methods and approaches have been developed by whom was directly involved in the field, the progress in technology has attracted researches from other domains to this topic. Mathematicians, engineers, computer scientists, and statisticians are involved in different aspects of sports science, both in developing technological tools useful in collecting and using data and in answering to research questions of various levels of complexity. The aim of this thesis is to provide statistical tools that can be used in analyzing sports performances, with a particular reference to the employment of state space models and time series analysis. The present thesis is composed of four chapters: the first two provides an overview of the treated topics; the remains chapters presents the main contributions of this work. In particular, the first chapter includes a general discussion of sports performances analysis. The second chapter presents selected tools and models useful in the time series analysis. In the third chapter, a Bayesian clustering model is presented in order to describe the personal best performances of Italian middle distance athletes. In more detail, the chapter provides a state space matrix model in which several multivariate trajectories of different athletes have been grouped on the basis of the trend of their performance and the pattern of missing data observed in the sample, this last considered as indicator of personal history and attitudes of athletes. The inference is conducted through a Markov Chain Monte Carlo simulation algorithm. The application on real data shows benefits and limitations of the proposed approach and it provides indications on which factors are relevant in order to obtain better sports performances. The fourth chapter describes a model for monitoring the health status during sports activities. The inference has been conducted using an online Expectation-Maximization algorithm involving a sequential Monte Carlo approximation of changepoint predicted probabilities. As a byproduct of our model assumptions, the proposed algorithm processes sequence of time series in a doubly-online framework. While changepoint models identify changes between subsequent activities, the state space formulation of the model, together with the proposed algorithm, provides the additional benefit of estimating changepoint probability in real-time.
Lo studio delle performance sportive è un argomento di notevole importanza nelle scienze motorie, in cui il ruolo dell'utilizzo dei dati è sempre stato fondamentale. La stessa valutazione di una gara di uno sportivo, per esempio, viene svolta a partire da misurazioni quantitative delle sue performance, sulla base delle quali vengono stilate poi le classifiche. Se all'inizio, a fronte di questo interesse, vari metodi ed approcci sono stati sviluppati negli anni da chi era direttamente coinvolto nell'ambito, il progresso della tecnologia ha avvicinato a questo campo studiosi e ricercatori di altri ambiti di ricerca. Matematici, ingegneri, informatici e statistici sono coinvolti in vari aspetti di questa disciplina, che li vede partecipi sia nello sviluppo di strumenti tecnologici utili alla raccolta stessa dei dati e al loro utilizzo, che neò rispondere a domande di ricerca con vari livelli di complessità. Lo scopo di questa tesi è quello di fornire strumenti statistici utili per le analisi delle performance sportive, con particolare riferimento all'utilizzo dei modelli state space e all'analisi di serie storiche. La tesi è composta da quattro capitoli: i primi introducono in maniera complessiva gli argomenti trattati; i rimanenti, invece, presentano i principali contributi di questo lavoro. In particolare, il primo capitolo offre una visione generale delle analisi delle performance sportive, ne discute gli obiettivi e gli strumenti utilizzati, e delinea alcune opportunità di ricerca in campo statistico. Il secondo capitolo, invece, presenta una selezione di strumenti e modelli per le analisi di serie storiche. Nel terzo capitolo viene presentato un modello di clustering Bayesiano utile per descrivere le migliori performance annuali di atleti mezzofondisti italiani. Più nel dettaglio, il capitolo propone un modello state space matriciale in cui varie traiettorie multivariate di diversi atleti vengono raggruppate sulla base del trend delle performance e dei pattern di dati mancanti osservati nel campione, come indici della storia e delle attitudini personali degli atleti. L'inferenza è condotta mediante un algoritmo di simulazione nella classe dei metodi Markov Chain Monte Carlo. L'applicazione con dati reali mostra benefici e limitazioni dell'approccio proposto, fornendo indicazioni di quali siano i fattori rilevanti per ottenere performance sportive migliori. Il quarto capitolo descrive un modello per il monitoraggio dello stato di salute durante l'attività sportiva. Il modello proposto unisce la modellazione state space con i modelli per l'identificazione di changepoint al fine di individuare cambi distribuzionali in una sequenza di attività sportive. L'inferenza avviene tramite un algoritmo online di Expectation-Maximization che richiede un'approssimazione delle probabilità di changepoint predette, ottenuta tramite un metodo di approssimazione Monte Carlo sequenziale. Come conseguenza delle assunzioni fatte sul modello, l'algoritmo proposto processa sequenze di serie storiche in un contesto doppiamente online. Mentre i modelli di changepoint identificano cambi tra diverse attività successive, la formulazione state space del modello, unita all'algoritmo proposto, fornisce il beneficio aggiuntivo di stimare la probabilità di changepoint in tempo reale.
Analisi delle performance sportive con i modelli state space
STIVAL, MATTIA
2022
Abstract
The study of sports performances is a topic of paramount importance in sports sciences, in which the role of data have been always fundamental. The evaluation of athletes' competition, for example, can be done on the basis of quantitative measurements of their performances, useful for obtaining the subsequent rankings. If in principle, according to this interest, various methods and approaches have been developed by whom was directly involved in the field, the progress in technology has attracted researches from other domains to this topic. Mathematicians, engineers, computer scientists, and statisticians are involved in different aspects of sports science, both in developing technological tools useful in collecting and using data and in answering to research questions of various levels of complexity. The aim of this thesis is to provide statistical tools that can be used in analyzing sports performances, with a particular reference to the employment of state space models and time series analysis. The present thesis is composed of four chapters: the first two provides an overview of the treated topics; the remains chapters presents the main contributions of this work. In particular, the first chapter includes a general discussion of sports performances analysis. The second chapter presents selected tools and models useful in the time series analysis. In the third chapter, a Bayesian clustering model is presented in order to describe the personal best performances of Italian middle distance athletes. In more detail, the chapter provides a state space matrix model in which several multivariate trajectories of different athletes have been grouped on the basis of the trend of their performance and the pattern of missing data observed in the sample, this last considered as indicator of personal history and attitudes of athletes. The inference is conducted through a Markov Chain Monte Carlo simulation algorithm. The application on real data shows benefits and limitations of the proposed approach and it provides indications on which factors are relevant in order to obtain better sports performances. The fourth chapter describes a model for monitoring the health status during sports activities. The inference has been conducted using an online Expectation-Maximization algorithm involving a sequential Monte Carlo approximation of changepoint predicted probabilities. As a byproduct of our model assumptions, the proposed algorithm processes sequence of time series in a doubly-online framework. While changepoint models identify changes between subsequent activities, the state space formulation of the model, together with the proposed algorithm, provides the additional benefit of estimating changepoint probability in real-time.File | Dimensione | Formato | |
---|---|---|---|
tesi_definitiva_Mattia_stival.pdf
accesso aperto
Dimensione
10.15 MB
Formato
Adobe PDF
|
10.15 MB | Adobe PDF | Visualizza/Apri |
I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/20.500.14242/93823
URN:NBN:IT:UNIPD-93823