Dati tabulari sintetici all'incrocio tra IA e privacy: una valutazione formale dei rischi di divulgazione e dei meccanismi di protezione

Plasencia Palacios, Milton Nicolas

The rapid advancement of generative artificial intelligence has positioned synthetic tabular data as a promising solution for privacy-preserving data sharing. By generating artificial records that mirror the statistical properties of sensitive datasets, organizations aim to navigate the restrictive barriers of data protection regulations such as the GDPR. However, the tension between data utility and privacy remains a critical challenge. Modern deep generative models are prone to memorizing training instances, potentially leaking sensitive information through "singling out," "linkability," or "inference" attacks—the three pillars of data anonymity defined by the Article 29 Working Party (WP29). This thesis investigates this intersection of AI and privacy, providing a formal evaluation of disclosure risks and proposing novel mechanisms for robust data protection. The first major contribution of this research is the development of a systematic taxonomy and a rigorous evaluation framework for privacy metrics. Current assessment methods often lack standardization, making it difficult to compare the safety of different generative models. We address this by introducing an attack-based metrics framework that utilizes Contrastive Learning to identify vulnerable "outlier" records. By framing privacy as a membership and attribute inference problem, we demonstrate how contrastive loss can more efficiently detect records at high risk of disclosure compared to traditional distance-based heuristics. Furthermore, we establish a validation protocol using controlled "Risk Models"—such as Overfitting and Differential Privacy models—to empirically test the sensitivity and reliability of these metrics under varying levels of vulnerability. The second core contribution is the introduction of a Hybrid Data Synthesis Pipeline. Recognizing that neither traditional anonymization nor pure deep learning models satisfy the dual requirement of high utility and formal safety, we propose a layered architecture. This pipeline first applies formal statistical disclosure control, specifically k-anonymity, to create a structurally sanitized data backbone. We then utilize state-of-the-art generative models, including CTGAN and REaLTabFormer, to learn from this anonymized distribution and restore the complex statistical correlations lost during the initial sanitization phase. This approach ensures that the generative model is fundamentally restricted from memorizing unique, sensitive records, thereby providing a "layered privacy assurance" guarantee. Experimental results across diverse datasets demonstrate that while the hybrid approach successfully mitigates specific disclosure risks, it also highlights the inherent trade-offs between localized fidelity and global privacy. The findings suggest that while attack-based metrics offer superior granularity in detecting leaks, the choice of data transition methods within the hybrid pipeline is critical to maintaining the utility-privacy frontier. Ultimately, this thesis provides a comprehensive roadmap for the deployment of synthetic data, offering both a standardized language for risk assessment and a pragmatic engineering solution for secure data synthesis in highly regulated environments.

Il rapido progresso dell'intelligenza artificiale generativa ha posizionato i dati tabulari sintetici come una soluzione promettente per la condivisione dei dati nel rispetto della privacy. Generando record artificiali che rispecchiano le proprietà statistiche dei set di dati sensibili, le organizzazioni mirano a superare le barriere restrittive delle normative sulla protezione dei dati come il GDPR. Tuttavia, la tensione tra l'utilità dei dati e la privacy rimane una sfida critica. I moderni modelli generativi profondi tendono a memorizzare le istanze di addestramento, con il rischio di divulgare informazioni sensibili attraverso attacchi di “singling out”, ‘linkability’ o “inference”, i tre pilastri dell'anonimato dei dati definiti dal Articolo 29 Working Party (WP29). Questa tesi indaga l'intersezione tra IA e privacy, fornendo una valutazione formale dei rischi di divulgazione e proponendo nuovi meccanismi per una protezione dei dati robusta. Il primo importante contributo di questa ricerca è lo sviluppo di una tassonomia sistematica e di un rigoroso quadro di valutazione per le metriche sulla privacy. Gli attuali metodi di valutazione spesso mancano di standardizzazione, rendendo difficile confrontare la sicurezza dei diversi modelli generativi. Affrontiamo questo problema introducendo un quadro di metriche basato sugli attacchi che utilizza l'apprendimento contrastivo per identificare i record “anomali” vulnerabili. Inquadrando la privacy come un problema di appartenenza e di inferenza degli attributi, dimostriamo come la perdita contrastiva possa rilevare in modo più efficiente i record ad alto rischio di divulgazione rispetto alle tradizionali euristiche basate sulla distanza. Inoltre, stabiliamo un protocollo di convalida utilizzando “modelli di rischio” controllati, come i modelli di overfitting e di privacy differenziale, per testare empiricamente la sensibilità e l'affidabilità di queste metriche a diversi livelli di vulnerabilità. Il secondo contributo fondamentale è l'introduzione di una pipeline di sintesi dei dati ibrida. Riconoscendo che né l'anonimizzazione tradizionale né i modelli di deep learning puro soddisfano il duplice requisito di elevata utilità e sicurezza formale, proponiamo un'architettura a più livelli. Questa pipeline applica innanzitutto un controllo formale della divulgazione statistica, in particolare k-anonymity per creare una struttura dati strutturalmente sanificata. Utilizziamo quindi modelli generativi all'avanguardia, tra cui CTGAN e REaLTabFormer, per apprendere da questa distribuzione anonimizzata e ripristinare le complesse correlazioni statistiche perse durante la fase iniziale di sanificazione. Questo approccio garantisce che il modello generativo sia fondamentalmente limitato nella memorizzazione di record unici e sensibili, fornendo così una garanzia di “privacy a più livelli”. I risultati sperimentali su diversi set di dati dimostrano che, sebbene l'approccio ibrido mitighi con successo specifici rischi di divulgazione, evidenzia anche i compromessi intrinseci tra fedeltà localizzata e privacy globale. I risultati suggeriscono che, sebbene le metriche basate sugli attacchi offrano una granularità superiore nel rilevare le fughe di dati, la scelta dei metodi di transizione dei dati all'interno della pipeline ibrida è fondamentale per mantenere il confine tra utilità e privacy. In definitiva, questa tesi fornisce una roadmap completa per l'implementazione dei dati sintetici, offrendo sia un linguaggio standardizzato per la valutazione dei rischi sia una soluzione ingegneristica pragmatica per la sintesi sicura dei dati in ambienti altamente regolamentati.