This thesis addresses the problem of outlier detection, also referred to as anomaly detection or novelty detection. A flexible, distribution-free method is developed for collective outlier detection and enumeration, designed for situations in which the presence of outliers can be detected powerfully even though their precise identification may be challenging due to the sparsity, weakness, or elusiveness of their signals. This method builds upon recent developments in Conformal Inference and integrates classical ideas from other areas, including Multiple Testing and rank tests. The key innovation lies in developing a principled and effective approach for automatically choosing the most appropriate Machine Learning classifier and two-sample testing procedure for a given data set. The performance of the proposed method is investigated through extensive empirical demonstrations, including an analysis of the LHCO high-energy particle collision data set.

Questa tesi affronta il problema della rilevazione di osservationi anomale, a cui spesso ci si riferisce anche con il nome di outlier. Viene proposto un metodo non parametrico in grado di rilevarne la presenza, quantificarne il numero ed eventualmente identificarle. Il metodo è progettato per situazioni in cui la presenza di osservazioni anomale può essere rilevata anche se la loro identificazione precisa può risultare difficile a causa della scarsità o dell’elusività di tali osservazioni. Questo metodo si basa su recenti sviluppi nel campo della Conformal Inference e integra idee classiche provenienti da altre aree, tra cui il Multiple Testing e i test basati sui ranghi. L’innovazione chiave consiste nello sviluppo di un approccio rigoroso ed efficace per la selezione automatica del classificatore di Machine Learning e della procedura di test a due campioni più appropriato per un determinato insieme di dati. Le prestazioni del metodo proposto sono valutate attraverso simulationi e analisi di dati reali, inclusa un’analisi dei dati sulle collisioni di particelle ad alta energia.

Distribution-free Outlier Detection

MAGNANI, CHIARA GAIA
2026

Abstract

This thesis addresses the problem of outlier detection, also referred to as anomaly detection or novelty detection. A flexible, distribution-free method is developed for collective outlier detection and enumeration, designed for situations in which the presence of outliers can be detected powerfully even though their precise identification may be challenging due to the sparsity, weakness, or elusiveness of their signals. This method builds upon recent developments in Conformal Inference and integrates classical ideas from other areas, including Multiple Testing and rank tests. The key innovation lies in developing a principled and effective approach for automatically choosing the most appropriate Machine Learning classifier and two-sample testing procedure for a given data set. The performance of the proposed method is investigated through extensive empirical demonstrations, including an analysis of the LHCO high-energy particle collision data set.
3-mar-2026
Inglese
Questa tesi affronta il problema della rilevazione di osservationi anomale, a cui spesso ci si riferisce anche con il nome di outlier. Viene proposto un metodo non parametrico in grado di rilevarne la presenza, quantificarne il numero ed eventualmente identificarle. Il metodo è progettato per situazioni in cui la presenza di osservazioni anomale può essere rilevata anche se la loro identificazione precisa può risultare difficile a causa della scarsità o dell’elusività di tali osservazioni. Questo metodo si basa su recenti sviluppi nel campo della Conformal Inference e integra idee classiche provenienti da altre aree, tra cui il Multiple Testing e i test basati sui ranghi. L’innovazione chiave consiste nello sviluppo di un approccio rigoroso ed efficace per la selezione automatica del classificatore di Machine Learning e della procedura di test a due campioni più appropriato per un determinato insieme di dati. Le prestazioni del metodo proposto sono valutate attraverso simulationi e analisi di dati reali, inclusa un’analisi dei dati sulle collisioni di particelle ad alta energia.
Conformal Inference; Closed Testing; Nonparametric Method; Rank Tests; Outlier Detection
SOLARI, ALDO
File in questo prodotto:
File Dimensione Formato  
phd_unimib_849037.pdf

accesso aperto

Licenza: Tutti i diritti riservati
Dimensione 1.54 MB
Formato Adobe PDF
1.54 MB Adobe PDF Visualizza/Apri

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14242/359628
Il codice NBN di questa tesi è URN:NBN:IT:UNIMIB-359628