Upcoming events in the PIRAT team
Defense of Pierre-Victor BESSON
22 novembre 2024 à 14h
CentraleSupélec
Title:
Automated generation of variable vulnerable architectures
French Abstract :
L’objectif de cette thèse est de proposer un nouveau paradigme de déploiement d’architectures vulnérables, capable de modéliser un scénario d’attaque à un haut niveau d’abstraction avant de convertir cette modélisation en multiples instances décrite à un bas niveau d’abstraction, déployables et jouables sur un réseau.
Un tel paradigme facilite le design et déploiement d’exercices de cyber-sécurité, ainsi que la récolte de données d’attaques, utile pour d’autres travaux de recherche. En particulier, ce travail de conversion à partir d’une description haut niveau permet de faciliter la réutilisation d’une description de scénario donnée, en proposant automatiquement plusieurs variations d’un unique scénario.
Une publication décrivant ce paradigme, son fonctionnement, ses applications, ainsi que l’outil issue de ce travail (URSID) a été publié à FPS 2023.
Cette thèse décrit tout d’abord le fonctionnement de sa modélisation haut niveau d’un scénario d’attaque. En combinant la notion de position d’attaque (session accédée par un attaquant sur une machine), de secrets (données acquises par l’attaquant au court du scénario) et de techniques d’attaque (actions performées par l’attaquant pour acquérir des secrets et des nouvelles positions), ce formalisme est capable de décrire un scénario d’attaque à un haut niveau d’abstraction apte à la réutilisation de ce scénario. Nous faisons usage de la nomenclature MITRE ATT&CK pour labelliser nos transitions.
Une fois un scénario décrit à ce haut niveau d’abstraction, il est nécessaire de le convertir à un niveau d’abstraction plus bas afin de pouvoir décrire l’architecture vulnérable qui en résultera, i.e les fichiers, systèmes d’exploitations or logiciels à installer sur les machines. En associant à chaque technique d’attaque (description haut niveau d’une action d’un attaquant) plusieurs procédures d’attaque (détails technique de cette action), un unique scénario au niveau technique est converti en une variation de scénarios au niveau procédural, qui peuvent ensuite être convertis en fichiers de descriptions d’architectures virtuelles destinées à des outils de déploiement tels que Vagrant et Ansible. Afin d’éviter des incompatibilités dans le choix de procédures, nous introduisons le concept de contraintes d’architectures, qui permettent de décrire les conséquences que le choix d’une procédure a sur l’architecture en terme de fichiers, systèmes d’exploitations, logiciels et comptes à installer sur la machine.
Cette thèse et son outil résultant URSID furent d’abord utilisé afin de déployer un exercice de type Capture-The-Flag dans le cadre de l’European Cyber School en Avril 2024. Ce projet visait à initier des étudiants aux travaux de pentesteurs professionels (Red team et Blue team), tout en récoltant des données d’attaques. Ce projet a donné lieu à une publication à IEEE International Conference on Big Data en 2023, qui en particulier a rendu disponible à la communauté scientifique les données d’attaques récoltées durant l’expérience.
URSID fut ensuite la base d’un exercice dans le cadre de BreizhCTF, une compétition de Capture-The-Flag à Rennes en Mai 2024 regroupant plus de 600 participants. Cet exercice – intitulé Casinolimit – était l’un des challenges proposes aux joueurs. D’un point de vue recherche, cette expérience a permis de tester les capacités de l’outil URSID à s’adapter à une architecture de déploiement grande échelle, tout en récoltant de nouveaux jeux de données d’attaquants qui bénéficie les travaux d’autres membres de l’équipe.
L’outil URSID est toujours en développement continu et est disponible et documenté en ligne pour le bénéfice de la communauté scientifique.
English Abstract :
The goal of this thesis is to offer a new paradigm for the deployment of vulnerable architectures. This paradigm is able to describe an attack scenario on a high level of abstraction, before converting this description into multiple instances on a lower level, which may be deployed and attacked on a network.
This paradigm makes it easier to design and deploy Cyber Security exercises as well as gathering attacker data, which may be relevant for other research works. In particular, this conversion work from a high to a low level of description allows for better re-usability of a given scenario description by offering automatically multiple low level variations of said scenario.
An article describing this paradigm, its applications as well as the tool developed during this thesis (URSID) which makes use of this paradigm, has been published at FPS 2023.
This thesis first describes how it formalizes an attack scenario on a high level of abstraction. By combining the concepts of attack positions (sessions opened by the attacker on a machine), secrets (data acquired by the attacker during the scenario) and attack techniques (actions performed by the attacker which provide them with secrets and new positions), this formalism may describe attack scenarios on a high level which increases the re-usability of this scenario. We make use of the MITRE ATT&CK nomenclature in order to label our transitions.
Once a scenario has been description on this high level of abstraction, it is necessary to convert it to a lower level in order to describe the resulting vulnerable architecture, i.e files, operating systems or software to install on the machines. By associating to each attack technique (high level descriptions of an attacker action) several procedures (technical details of such an attack), a single technical level scenario is able to be converted into several varied procedural level scenarios, which then may be converted into virtual architecture description files adapted for deployment software such as Vagrant and Ansible. In order to avoid incompatibilities when choosing procedures, we introduce the concept of architectural constraints, which can describe the consequences of a specific procedure choice on an architecture, relative to the files, software, operating system and account configurations which have to be installed or tweaked on each machine.
This thesis, as well as the resulting tool URSID which implements the concepts introduced in this thesis, were first used in order to deploy a Capture-The-Flag exercise in April 2024. This project aimed to introduce students to the work of professional pentesters (Red team and Blue team), as well as gathering attacker data. The results of this experiment, as well as the gathered dataset, code and instructions on how to reproduce such an experiment, were published at the IEEE International Conference on Big Data in 2023.
This thesis and URSID were then the basis for an other exercise as part of BreizhCTF, a Capture-The-Flag competition in may 2024 with more than 600 participants. This exercise – named Casinolimit – was one of the challenges available to players during this event. From a research standpoint, this experiment showcased the abilities of this thesis’ work to be applied to larger deployment scales, as well as gathering more attacker dataset which were beneficial to other members of this author’s research team.
The URSID tool is still under ongoing development at the moment, and is available and documented online for the benefits of the scientific community.
Members of jury :
– Mr BONFANTE Guillaume
– Mr ROBERT Jean-Marc
– Mme VIDEAU Marion
– Mr NICOMETTE Vincent
– Mme VIET TRIEM TONG Valérie
– Mr GUETTE Gilles
– Mr PIOLLE Guillaume
– Mr ABGRALL Erwan.
Defense of Maxime LANVIN
17 décembre 2024 à 14h
CentraleSupélec
Title:
Correction et production de jeux de données pour la détection d’intrusion réseau et génération d’explications pour les alertes produites par une version améliorée d’un NIDS fonctionnant à partir d’un Auto-Encodeur
French Abstract:
Les systèmes de détection d’intrusion (IDS) permettent de détecter des attaques contre les systèmes d’information et, éventuellement, d’y réagir. La détection se fait soit au niveau du réseau, soit au niveau des machines hôtes. Dans cette thèse nous nous intéressons plus particulièrement aux IDS utilisant les données du réseau (NIDS).
L’apprentissage machine (ML) est aujourd’hui largement exploré dans le monde de la recherche pour réaliser la détection. Cependant, ces approches génèrent une grande quantité de fausses alertes et, selon les modèles utilisés, les alertes peuvent être difficiles à comprendre à cause du manque de transparence de ces modèles. En outre, l’évaluation des performances est complexe ; celle-ci repose sur des jeux de données dont la qualité est très variable.
Ainsi, nous avons relevé de multiples défauts dans plusieurs jeux de données de référence dont CICIDS2017 qui est très utilisé pour l’évaluation des IDS. L’identification, la correction des problèmes identifiés et l’évaluation de leur impact constitue la première contribution de cette thèse.
Face à l’ampleur des problèmes identifiés et étant donné le peu d’alternatives satisfaisantes disponibles, nous avons produit un nouveau jeu de données pour la détection d’intrusion nommé miniDEDALE. Il a été obtenu en améliorant en profondeur la plateforme SOCBED, qui fournit un système d’information virtualisé. Cela constitue la deuxième contribution de la thèse.
Face au manque de transparence des approches de détection utilisant de l’apprentissage automatique (en l’occurrence un auto-encodeur), la troisième contribution de cette thèse est une méthode, AE-pvalues, permettant d’expliquer les alertes. En pratique, ces explications permettent aux analystes de cerner rapidement les caractéristiques réseau qui sont anormales et permettent de démarrer plus facilement l’investigation. Nous avons aussi montré que les explications pouvaient permettre de regrouper les alertes liées au même type d’attaque. Enfin, une étude est proposée concernant l’utilisation de ces explications pour réduire le nombre de fausses alertes automatiquement.
English abstract:
Intrusion Detection Systems (IDS) are used to detect and, if possible, respond to attacks on information systems. Detection takes place either at the network level or at the host level. This thesis focuses on IDS using network data (NIDS).
Machine learning (ML) is now widely explored in the research community as a means of detection. However, these approaches generate a large number of false alerts, and depending on the models used, alerts can be difficult to understand due to the lack of transparency of these models. In addition, performance evaluation is complex, relying on datasets of widely varying quality.
For example, we found multiple defects in several reference datasets, including CICIDS2017, which is widely used for IDS evaluation. Identifying and correcting the problems identified and assessing their impact is the first contribution of this thesis.
Given the significance of these issues and the limited availability of high-quality alternatives, we introduce a new intrusion detection dataset, miniDEDALE, created by significantly enhancing the SOCBED platform—a virtualized information system. This is the second contribution.
Given the lack of transparency of detection approaches using machine learning (in particular, an auto-encoder), the third contribution of this thesis is AE-pvalues, which is a method for explaining alerts. In practice, these explanations enable analysts to swiftly pinpoint abnormal network features and facilitate the start of investigations. Additionally, we show that these explanations can be leveraged to cluster alerts from similar attack types. Finally, a study is proposed on the use of these explanations to reduce the number of false alerts automatically.
Members of jury :
– XIANGLIANG Zhang, Full Professor, Université Notre-Dame, Notre Dame, IN, États-Unis
– DEBAR Hervé, Professeur, Télécom-SudParis, Paris, France
– FRANÇOIS Jérôme, Senior Research Scientist, Université du Luxembourg, Luxembourg, Luxembourg
– MÉ Ludovic, Chercheur Contractuel Sénior ARP, Inria, Rennes, France
– GIMENEZ Pierre-François, Chercheur ISFP, Inria, Rennes, France
– TOTEL Eric, Professeur, Télécom-SudParis, Paris, France
Invités :
– HAN Yufei, Chercheur Contractuel Sénior à Inria, Rennes, France
– MAJORCZYK Frédéric, Ingénieur à DGA-MI, Bruz, France
Defense of Adrien SCHOEN
Le 18 décembre à 9h30
CentraleSupélec, Salle BL
Title :
Network Traffic Generation for Evaluation of Intrusion Detection Tool: Machine learning based generation of synthetic network flows
French abstract :
Avec la montée en puissance des infrastructures numériques, la cybersécurité est devenue une priorité mondiale. Les systèmes de détection d’intrusion réseau (NIDS) sont essentiels pour sécuriser les communications en détectant les activités malveillantes. Cependant, pour évaluer l’efficacité des NIDS, il est nécessaire de disposer de grands volumes de trafic réseau bénin. Or, l’acquisition de ces données pose des problèmes de confidentialité, d’étiquetage, et les méthodes de simulation de trafic atteignent leurs limites. Face à ces défis, la recherche s’oriente vers la génération de trafic synthétique, qui permet de protéger la vie privée et de passer à l’échelle, mais souffre encore d’un manque de cadre standard pour évaluer la qualité des données générées, et son efficacité par rapport aux simulations traditionnelles reste à démontrer.
Cette thèse s’inscrit dans cet effort de remplacement des simulations par des approches de génération de trafic synthétique. Nous commençons par un état de l’art détaillé des méthodes existantes, en mettant en lumière leurs tendances et leurs limites. Constatant l’absence d’un cadre d’évaluation standardisé, nous proposons un protocole d’évaluation permettant de mesurer la qualité du trafic généré par différents modèles. Par ailleurs, nous introduisons deux nouvelles approches de génération de flux réseau : la première, basée sur des réseaux bayésiens, se montre plus performante que les méthodes actuelles reposant sur des GANs ; la seconde, fondée sur la découverte de motifs récurrents, produit un trafic diversifié et réaliste, offrant ainsi une alternative prometteuse aux simulations traditionnelles.
Ces contributions visent à positionner la génération de trafic synthétique comme une solution crédible pour remplacer les simulations, en fournissant à la communauté de la sécurité des réseaux des outils plus efficaces et adaptés à la création de jeux de données synthétiques de qualité. Le protocole d’évaluation et les méthodes proposées représentent un pas important vers une évaluation plus rigoureuse et cohérente des techniques de génération de trafic.
English abstract:
The increasing reliance on digital infrastructures has made cybersecurity a critical global concern. Network Intrusion Detection Systems (NIDS) play a vital role in safeguarding network communications by detecting malicious activities. However, evaluating the effectiveness of NIDS requires large, representative datasets of benign network traffic, which are difficult to obtain due to privacy concerns, labeling challenges, and the limitations of simulated traffic. To address these challenges, the research community has turned to model-based synthetic data generation, which offers privacy preservation and scalability but lacks comprehensive evaluation standards and proven effectiveness over traditional simulation methods.
This thesis contributes to the ongoing effort to replace simulation with model-based network traffic generation. We first conduct a comprehensive survey of model-based methods, highlighting current trends and limitations. Recognizing the absence of a standardized evaluation framework, we develop a benchmark for assessing the quality of generated traffic across various generative models. Furthermore, we propose two novel methods for generating network flows: one based on Bayesian Networks that outperforms existing GAN-based methods, and another based on Pattern Mining that produces realistic, diverse network traffic. The latter method offers the potential to substitute traditional simulation in network traffic generation, particularly for NIDS evaluation.
Through these contributions, we aim to establish model-based generation as a viable alternative to simulation, providing the network security community with more efficient and scalable tools for creating high-quality synthetic datasets. Our proposed benchmark and generation methods represent a significant step towards this goal, facilitating more rigorous and meaningful comparisons in future research.
Members of jury :
– Jilles VREEKENS tenured faculty, CISPA Helmholtz Center for Information Security
– Herve DEBAR Professeur, Telecom SudParis
– Maryline LAURENT Professeur, Telecom SudParis
– Pierre-Henri WUILLEMIN Maitre de conférences, Sorbonne Université
– Ludovic ME Chercheur Contractuel Sénior, INRIA
– Gregory BLANC Maitre de conférences, Telecom SudParis
– Frederic MAJORCZYK Ingénieur, DGA-MI
– Yufei HAN Chercheur Contractuel Sénior, INRIA