Questa tesi si concentra sull'uso di metodi statistici multivariati in un contesto della fisica per le alte energie. Partendo dall'ipotesi dominante nella teoria fisica, conosciuto come Modello Standard, questa tesi si muove in due direzioni, associate a due diverse domande di ricerca provenienti dalla fisica. Il primo contributo parte dalla necessità di comprendere meglio i dettagli del Modello Standard. Da un punto di vista statistico, il miglioramento della conoscenza del Modello Standard può essere tradotto nell’obiettivo di ottenere stime più accurate dei parametri che lo descrivono, al fine di avere una migliore conoscenza della distribuzione di probabilità dei processi fisici sottostanti, noti come background. Nella pratica tali stime partono da simulazioni Monte Carlo che a loro volta possono essere computazionalmente onerose e imprecise. Per ovviare a questo problema la comunità scientifica ha elaborato nuove procedure per generare il background dai dati sperimentali. All'interno della tesi si propone un metodo per validare in maniera formale queste procedure fisiche, basato su un test di permutazione a due campioni per l'uguaglianza in distribuzione. Il test proposto si basa sull’uso stime kernel della densità, ed è stato opportunamente aggiustato in modo da poter essere applicato a dati elevata dimensionalità. Il secondo contributo parte dalla considerazione che il Modello Standard è incompleto, essendo incapace di descrivere l'universo che ci circonda e l'interazione tra le forze che lo caratterizzano. L'obiettivo di superare il Modello Standard è attuato ricercando nuove possibili particelle non predette dalla teoria. Queste particelle definite segnale, si assume si manifestino come deviazione rispetto al comportamento del background. Da un punto di vista statistico questa ricerca può essere interpretata come un problema di classificazione dove solo una parte dell'informazione è disponibile. L’approccio, che assume dunque caratteristiche semi-supervisionate, può essere affrontato o rilassando le ipotesi proprie dei metodi di classificazione, o rafforzando quelle dei metodi di raggruppamento. In questo contesto, la tesi segue due approcci. Il primo consiste nello sviluppare un metodo parametrico basato su modelli di raggruppamento, in cui si propone una tecnica per la riduzione della dimensionalità basata su metodi penalizzati, in modo da prevenire problemi relativi alla stima dei parametri e alla maledizione della dimensionalità. Il metodo proposto per selezione delle variabili è esteso dal caso non supervisionato a quello semi supervisionato, con particolare attenzione per le variabili con caratteristiche anomale. Il secondo approccio, consiste nel tarare e validare da un punto di vista statistico, procedure già esistenti, e sviluppate in contesti fisici. Alcune migliorie sono state proposte, riguardando, tra le altre, casi ad alta dimensionalità e dati correlati.
Advanced statistical methods for data analysis in particle physics
KOTKOWSKI, GRZEGORZ MICHAL
2018
Abstract
Questa tesi si concentra sull'uso di metodi statistici multivariati in un contesto della fisica per le alte energie. Partendo dall'ipotesi dominante nella teoria fisica, conosciuto come Modello Standard, questa tesi si muove in due direzioni, associate a due diverse domande di ricerca provenienti dalla fisica. Il primo contributo parte dalla necessità di comprendere meglio i dettagli del Modello Standard. Da un punto di vista statistico, il miglioramento della conoscenza del Modello Standard può essere tradotto nell’obiettivo di ottenere stime più accurate dei parametri che lo descrivono, al fine di avere una migliore conoscenza della distribuzione di probabilità dei processi fisici sottostanti, noti come background. Nella pratica tali stime partono da simulazioni Monte Carlo che a loro volta possono essere computazionalmente onerose e imprecise. Per ovviare a questo problema la comunità scientifica ha elaborato nuove procedure per generare il background dai dati sperimentali. All'interno della tesi si propone un metodo per validare in maniera formale queste procedure fisiche, basato su un test di permutazione a due campioni per l'uguaglianza in distribuzione. Il test proposto si basa sull’uso stime kernel della densità, ed è stato opportunamente aggiustato in modo da poter essere applicato a dati elevata dimensionalità. Il secondo contributo parte dalla considerazione che il Modello Standard è incompleto, essendo incapace di descrivere l'universo che ci circonda e l'interazione tra le forze che lo caratterizzano. L'obiettivo di superare il Modello Standard è attuato ricercando nuove possibili particelle non predette dalla teoria. Queste particelle definite segnale, si assume si manifestino come deviazione rispetto al comportamento del background. Da un punto di vista statistico questa ricerca può essere interpretata come un problema di classificazione dove solo una parte dell'informazione è disponibile. L’approccio, che assume dunque caratteristiche semi-supervisionate, può essere affrontato o rilassando le ipotesi proprie dei metodi di classificazione, o rafforzando quelle dei metodi di raggruppamento. In questo contesto, la tesi segue due approcci. Il primo consiste nello sviluppare un metodo parametrico basato su modelli di raggruppamento, in cui si propone una tecnica per la riduzione della dimensionalità basata su metodi penalizzati, in modo da prevenire problemi relativi alla stima dei parametri e alla maledizione della dimensionalità. Il metodo proposto per selezione delle variabili è esteso dal caso non supervisionato a quello semi supervisionato, con particolare attenzione per le variabili con caratteristiche anomale. Il secondo approccio, consiste nel tarare e validare da un punto di vista statistico, procedure già esistenti, e sviluppate in contesti fisici. Alcune migliorie sono state proposte, riguardando, tra le altre, casi ad alta dimensionalità e dati correlati.File | Dimensione | Formato | |
---|---|---|---|
kotkowski_grzegorz_thesis.pdf
accesso aperto
Dimensione
1.54 MB
Formato
Adobe PDF
|
1.54 MB | Adobe PDF | Visualizza/Apri |
I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/20.500.14242/118163
URN:NBN:IT:UNIPD-118163