Metodi basati sull'intelligenza artificiale per la generazione di dati avversariali e sintetici nella sicurezza informatica

Imran, Muhammad

During the last decade, the cybersecurity literature has conferred a high-level role to the Artificial Intelligence (AI) as a powerful security paradigm to recognise malicious software in modern anti malware systems. However, a non-negligible limitation of AI methods used to train decision models is that adversarial attacks can easily fool them. Adversarial attacks are attack samples produced by carefully manipulating the samples at the test time to violate the model integrity by causing detection mistakes. In this thesis, we analyse the performance of five realistic, literature, target-based adversarial attacks, namely Extend, Full DOS, Shift, FGSM padding + slack and GAMMA, against two AI-based, state-of-the-art models, namely MalConv and LGBM, commonly used to recognise Windows Portable Executable (PE) malware files. Specifically, MalConv is a Convolutional Neural Network (CNN) model learned from the raw bytes of Windows PE files. LGBM is a Gradient-Boosted Decision Tree model learned from engineered features extracted through the static analysis of Windows PE files performed with the LIEF library. Notably, the attack methods and AI models considered in this thesis are state-of-the-art methods broadly used in the AI literature for Windows PE malware detection tasks. In addition, we carry out an exploratory study that uses both distance analysis and SHAPanalysis to explain how the considered adversarial attack methods change Windows PE malware to fool the evaluated decision models. In addition, we explore the performance of the adversarial training strategy as a means to secure effective decision models against adversarial Windows PE malware files generated with the considered attack methods. We explain how GAMMA can actually be considered the most effective evasion method according to the performed comparative analysis and the adversarial training strategy can actually help in recognising adversarial Windows PE malware generated with GAMMA by also explaining how it changes model decisions. In addition, we generate the tabular synthetic data (TSD) with CTGAN and Focal-AuxCTGAN (Pre-training and Joint training) and evaluated the utility of TSD generated for several classification tasks comprising problems of network intrusion detection and malware classification. Achieved results show that data-specific characteristics such as, number of classes, class distribution and features type may have an effect on the utility performance of both TSD methods.

Nell'ultimo decennio, la letteratura sulla sicurezza informatica ha conferito un ruolo cruciale all’Intelligenza Artificiale (IA) come efficace paradigma di sicurezza per riconoscere software dannosi (malware) nei moderni sistemi anti-malware. Tuttavia, una limitazione non trascurabile dei metodi di IA utilizzati per addestrare i modelli di decisione è rappresentata dal fatto che esempi avversari (attacchi) possono essere creati per evadere tali modelli. Gli esempi avversari sono esempi di attacco prodotti manipolando attentamente gli esempi di test per violare l'integrità del modello di decisione causando errori nella identificazione dei malware. In questa tesi, si analizzano le prestazioni di cinque metodi per generare esempi avversari di Windows Portable Executable (PE) malware capaci di evadere due modelli di IA addestrati per la scoperta di Windows PE malware. In particolare, i metodi di evasione considerati sono: Extend, Full DOS, Shift, FGSM padding + slack e GAMMA, mente i modelli di IA considerati sono: MalConv e LGBM. MalConv è un modello di rete neurale convoluzionale (CNN) appreso dalla rappresentazione binaria dei file Windows PE. LGBM è un modello Gradient-Boosted Decision Tree appreso da caratteristiche estratte tramite l'analisi statica dei file Windows PE eseguita con la libreria LIEF. In particolare, i metodi di evasione e i modelli di IA considerati in questa tesi sono tra i metodi più efficaci comunemente utilizzati nella letteratura di IA per la identificazione di Windows PE malware. Inoltre, nella tesi si esegue uno studio esplorativo che utilizza sia l'analisi della distanza sia l'analisi SHAP per spiegare come i metodi di evasione considerati modificano i Windows PE malware per ingannare i modelli di decisione valutati. Inoltre, si esplorano le prestazioni della strategia difensiva, denominata adversarial training, come mezzo per ridurre la vulnerabilità dei modelli di decisione verso esempi avversari di Windows PE malware. Lo studio empirico condotto ha mostrato che GAMMA può essere considerato il metodo di più efficace tra quelli valutati anche quando usato nella fase difensiva con la strategia di adversarial training. Inoltre, nella tesi, si è affrontato il problema della generazione dei dati sintetici tabulari (TSD) con i metodi CTGAN e Focal- AuxCTGAN (in modalità Pre-training e Joint-training) e si è valutata l'utilità dei TSD generati per diversi problemi di classificazione compresi problemi di network intrusion detection e malware detection. I risultati ottenuti mostrano che le caratteristiche specifiche dei dati, come numero di classi, distribuzione delle classi e tipologia di variabili, possono avere un effetto sulle prestazioni di utilità di entrambi i metodi TSD.