Realizzazione di un generatore di malware basato su tecniche di AI
di Laura Nardi
Il premio "Innovare la sicurezza delle Informazioni", che Clusit riserva alle tesi universitarie più innovative in materia di sicurezza informatica, ha lo scopo di incentivare gli studenti a confrontarsi con i temi della cybersecurity, ma anche di promuovere una collaborazione tra aziende, Università e studenti, favorendo un punto di incontro e confronto tra mondo produttivo e mondo scientifico, tra studenti e mondo del lavoro.
Durante l’ultima edizione del Security Summit, a novembre 2021, il Clusit ha premiato le migliori tesi universitarie del 2020. Tra queste, si è distinta la tesi di Laura Nardi, dal titolo “Realization of an engine for GAN-driven malware manipulation”. Abbiamo chiesto a Laura, membro delle Women for Security, di raccontarci in modo sintetico cosa ha voluto dimostrare nel suo studio.
***
Il Machine Learning è ampiamente utilizzato per rilevare e classificare malware. Sfortunatamente, il machine learning è vulnerabile agli attacchi avversariali (Adversarial Attacks). In questo articolo, esaminiamo come approcci generativi avversariali potrebbero influenzare le prestazioni di un sistema di rilevamento basato sull'apprendimento automatico.
Applicate alla creazione di malware, le GAN (Generative Adversarial Network) sono in grado di generare una nuova istanza di una famiglia di malware senza conoscere un modello esplicito della distribuzione iniziale dei dati. Quindi, un utente malintenzionato potrebbe utilizzare le GAN per ingannare i sistemi di rilevamento semplicemente campionando i dati forniti. D'altra parte, le GAN sono anche utili per costruire modelli di apprendimento automatico più robusti che aiutano nello sviluppo di un training set migliore.
Il progetto sviluppato è di grande interesse scientifico e consiste nella realizzazione di un generatore di malware basato su tecniche di Intelligenza Artificiale. Tale “motore” è in grado di implementare attacchi avversariali a classificatori di malware basati su Machine Learning. Il sistema, dunque, acquisendo i vettori di feature prodotti da una GAN, modifica malware esistenti in modo che espongano tali vettori di feature. Grazie a questo, i malware verranno classificati come goodware e dunque non più riconosciuti.
Nella valutazione, sono state addestrate diverse reti neurali per il rilevamento di malware sul dataset EMBER [1] e quindi costruita una GAN (Generative Adversarial Network) per la generazione di sample avversariali. Si sono poi valutate le prestazioni della GAN, in uno scenario grey-box, calcolando il tasso di evasione (Evasion Rate) raggiunto dai sample avversariali generati.
L'Evasion Rate, rappresenta la capacità del generatore di malware nel produrre adversarial samples che vengono misclassificati e viene definito come il rapporto fra il numero di Falsi Negativi degli adversarial sample (numero di malware che viene classificato come goodware), e il numero totale di adversarial sample generati. Tale valore è pari a 98.8% e indica che il motore riesce a modificare correttamente le feature del malware all'interno dei vettori in input. Ciò significa che i rilevatori di malware basati su machine e deep learning potrebbero essere ingannati da sample avversariali malevoli con un evasion rate di circa il 99% fornendo ulteriori opportunità di attacco.
Il progetto rappresenta un significativo avanzamento nello stato dell’arte che aprirà all’esplorazione di nuovi strumenti per il riconoscimento e la classificazione del malware. Si consideri che in letteratura non esistono lavori scientifici che generano malware (funzionante) a partire dai vettori prodotti dalle GAN.
Referenze:
[1] Hyrum S Anderson and Phil Roth. Ember: an open dataset for training static pe malware machine learning models. arXiv preprint arXiv:1804.04637, 2018.
Per approfondimenti, la tesi di Laura Nardi è consultabile qui: https://github.com/LauraNardi/MasterThesis
Per candidare la tua tesi alla 17° edizione del Premio "Innovare la sicurezza delle Informazioni" hai tempo fino al 14 marzo 2022: https://tesi.clusit.it/