I progressi nelle tecniche di analisi dei dati possono giocare un ruolo decisivo nelle prospettive di scoperta degli esperimenti ai colliders, tuttavia l'acquisizione di expertise e nuove tecniche in machine learning e statistica da altre discipline quantitative incontra barriere significative, sopratutto causate dall'uso di diverso linguaggio e formalismi. Una gran parte di questo documento, pensata anche come introduzione alla descrizione di un'analisi che ricerca la produzione non risonante di coppie di bosoni di Higgs in dati raccolti dal rivelatore CMS al Large Hadron Collider (LHC), è per questo motivo rivolta ad una ridefinizione dei concetti rilevanti per i problemi in fisica sperimentale delle particelle elementari che permetta loro di venir collegati a quelli di altri campi di ricerca, in modo tale che le soluzioni trovate possano essere riutilizzate. L'esplorazione formale delle proprietà dei modelli statistici ai colliders di particelle è utile per sottolineare le principali sfide poste dalla pratica dell'inferenza statistica: la natura multi-dimensionale dei modelli, che sono studiabili solamente con metodi generativi (cioè attraverso simulazioni), e l'effetto di parametri di disturbo. Il primo problema può essere affrontato con metodi di inferenza "likelihood-free", e con l'identificazione di summary statistics a bassa dimensionalità, che possono essere costruite con tecniche di machine learning o con l'uso di variabili motivate dalle caratteristiche fisiche dei processi studiati. Il secondo, ovvero la cattiva specificazione del modello generativo, che necessita pertanto l'inclusione di parametri di disturbo, riduce l'utilità delle summary statistics create con algoritmi di machine learning. Alcune delle tecniche di analisi dati formalmente discusse nella parte introduttiva sono anche sfruttate per studiare il processo di produzione pp->HH->bbbb a LHC nel contesto del modello standard (SM) e delle sue estensioni in teorie di campo efficace (EFT), basate su accoppiamenti anomali del campo di Higgs. Dati raccolti nel 2016 dal rivelatore CMS corrispondenti a un totale di 35.9 femtobarns inversi di collisioni protone-protone sono usati per fissare un limite al 95% di livello di confidenza a 847 fb sulla sezione d'urto di produzione sigma(pp->HH->bbbb) nello SM. Limiti superiori sono ottenuti anche per le sezioni d'urto corrispondenti ad un insieme rappresentativo di punti dello spazio dei parametri delle teorie EFT. E' altresì discussa la combinazione di questi risultati con quelli derivanti dallo studio di altri canali di decadimento delle coppie HH. In aggiunta, il risultato dell'esercizio di riformulare i goals dell'analisi in fisica delle alte energie come un problema di inferenza statistica è stato combinato con l'uso di strumenti avanzati di machine learning per sviluppare una nuova tecnica, chiamata "inference-aware neural optimization", che produce summary statistics che minimizzano direttamente l'incertezza attesa sui parametri di interesse, tenendo conto in maniera ottimale dell'effetto dei parametri di disturbo. L'applicazione di questa tecnica ad un problema di test dimostra che le summary statistics ottenute con questo metodo sono considerevolmente più efficaci di quelle ottenute con approcci standard di supervised learning quando l'effetto dei parametri di disturbo è significativo. Assumendo la sua scalabilità a scenari di analisi dati a LHC, questa tecnica potrebbe rivelarsi rivoluzionaria per analisi dominate da incertezze sistematiche.

Statistical Learning and Inference at Particle Collider Experiments

Pablo, De Castro Manzano
2019

Abstract

I progressi nelle tecniche di analisi dei dati possono giocare un ruolo decisivo nelle prospettive di scoperta degli esperimenti ai colliders, tuttavia l'acquisizione di expertise e nuove tecniche in machine learning e statistica da altre discipline quantitative incontra barriere significative, sopratutto causate dall'uso di diverso linguaggio e formalismi. Una gran parte di questo documento, pensata anche come introduzione alla descrizione di un'analisi che ricerca la produzione non risonante di coppie di bosoni di Higgs in dati raccolti dal rivelatore CMS al Large Hadron Collider (LHC), è per questo motivo rivolta ad una ridefinizione dei concetti rilevanti per i problemi in fisica sperimentale delle particelle elementari che permetta loro di venir collegati a quelli di altri campi di ricerca, in modo tale che le soluzioni trovate possano essere riutilizzate. L'esplorazione formale delle proprietà dei modelli statistici ai colliders di particelle è utile per sottolineare le principali sfide poste dalla pratica dell'inferenza statistica: la natura multi-dimensionale dei modelli, che sono studiabili solamente con metodi generativi (cioè attraverso simulazioni), e l'effetto di parametri di disturbo. Il primo problema può essere affrontato con metodi di inferenza "likelihood-free", e con l'identificazione di summary statistics a bassa dimensionalità, che possono essere costruite con tecniche di machine learning o con l'uso di variabili motivate dalle caratteristiche fisiche dei processi studiati. Il secondo, ovvero la cattiva specificazione del modello generativo, che necessita pertanto l'inclusione di parametri di disturbo, riduce l'utilità delle summary statistics create con algoritmi di machine learning. Alcune delle tecniche di analisi dati formalmente discusse nella parte introduttiva sono anche sfruttate per studiare il processo di produzione pp->HH->bbbb a LHC nel contesto del modello standard (SM) e delle sue estensioni in teorie di campo efficace (EFT), basate su accoppiamenti anomali del campo di Higgs. Dati raccolti nel 2016 dal rivelatore CMS corrispondenti a un totale di 35.9 femtobarns inversi di collisioni protone-protone sono usati per fissare un limite al 95% di livello di confidenza a 847 fb sulla sezione d'urto di produzione sigma(pp->HH->bbbb) nello SM. Limiti superiori sono ottenuti anche per le sezioni d'urto corrispondenti ad un insieme rappresentativo di punti dello spazio dei parametri delle teorie EFT. E' altresì discussa la combinazione di questi risultati con quelli derivanti dallo studio di altri canali di decadimento delle coppie HH. In aggiunta, il risultato dell'esercizio di riformulare i goals dell'analisi in fisica delle alte energie come un problema di inferenza statistica è stato combinato con l'uso di strumenti avanzati di machine learning per sviluppare una nuova tecnica, chiamata "inference-aware neural optimization", che produce summary statistics che minimizzano direttamente l'incertezza attesa sui parametri di interesse, tenendo conto in maniera ottimale dell'effetto dei parametri di disturbo. L'applicazione di questa tecnica ad un problema di test dimostra che le summary statistics ottenute con questo metodo sono considerevolmente più efficaci di quelle ottenute con approcci standard di supervised learning quando l'effetto dei parametri di disturbo è significativo. Assumendo la sua scalabilità a scenari di analisi dati a LHC, questa tecnica potrebbe rivelarsi rivoluzionaria per analisi dominate da incertezze sistematiche.
29-mar-2019
Inglese
inference, learning, physics, LHC, CMS
Università degli studi di Padova
File in questo prodotto:
File Dimensione Formato  
DeCastroManzano_Pablo_thesis.pdf

accesso aperto

Dimensione 11.22 MB
Formato Adobe PDF
11.22 MB Adobe PDF Visualizza/Apri

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14242/119641
Il codice NBN di questa tesi è URN:NBN:IT:UNIPD-119641