This thesis addresses the problem of outlier detection, also referred to as anomaly detection or novelty detection. A flexible, distribution-free method is developed for collective outlier detection and enumeration, designed for situations in which the presence of outliers can be detected powerfully even though their precise identification may be challenging due to the sparsity, weakness, or elusiveness of their signals. This method builds upon recent developments in Conformal Inference and integrates classical ideas from other areas, including Multiple Testing and rank tests. The key innovation lies in developing a principled and effective approach for automatically choosing the most appropriate Machine Learning classifier and two-sample testing procedure for a given data set. The performance of the proposed method is investigated through extensive empirical demonstrations, including an analysis of the LHCO high-energy particle collision data set.
Questa tesi affronta il problema della rilevazione di osservationi anomale, a cui spesso ci si riferisce anche con il nome di outlier. Viene proposto un metodo non parametrico in grado di rilevarne la presenza, quantificarne il numero ed eventualmente identificarle. Il metodo è progettato per situazioni in cui la presenza di osservazioni anomale può essere rilevata anche se la loro identificazione precisa può risultare difficile a causa della scarsità o dell’elusività di tali osservazioni. Questo metodo si basa su recenti sviluppi nel campo della Conformal Inference e integra idee classiche provenienti da altre aree, tra cui il Multiple Testing e i test basati sui ranghi. L’innovazione chiave consiste nello sviluppo di un approccio rigoroso ed efficace per la selezione automatica del classificatore di Machine Learning e della procedura di test a due campioni più appropriato per un determinato insieme di dati. Le prestazioni del metodo proposto sono valutate attraverso simulationi e analisi di dati reali, inclusa un’analisi dei dati sulle collisioni di particelle ad alta energia.
Distribution-free Outlier Detection
MAGNANI, CHIARA GAIA
2026
Abstract
This thesis addresses the problem of outlier detection, also referred to as anomaly detection or novelty detection. A flexible, distribution-free method is developed for collective outlier detection and enumeration, designed for situations in which the presence of outliers can be detected powerfully even though their precise identification may be challenging due to the sparsity, weakness, or elusiveness of their signals. This method builds upon recent developments in Conformal Inference and integrates classical ideas from other areas, including Multiple Testing and rank tests. The key innovation lies in developing a principled and effective approach for automatically choosing the most appropriate Machine Learning classifier and two-sample testing procedure for a given data set. The performance of the proposed method is investigated through extensive empirical demonstrations, including an analysis of the LHCO high-energy particle collision data set.| File | Dimensione | Formato | |
|---|---|---|---|
|
phd_unimib_849037.pdf
accesso aperto
Licenza:
Tutti i diritti riservati
Dimensione
1.54 MB
Formato
Adobe PDF
|
1.54 MB | Adobe PDF | Visualizza/Apri |
I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/20.500.14242/359628
URN:NBN:IT:UNIMIB-359628