Fouille de données pour la découverte d’anomalies et l’aide à l’analyse de réseaux de télécommunications

Contact

René Quiniou (rene.quiniou@inria.fr), Laurence Rozé

Mots-clés

fouille de données, séries temporelles, données de réseaux de télécommunication, découverte d’anomalie

Contexte

Les applications utilisant les réseaux de télécommunications, comme celles liées à l’e-commerce, aux services bancaires ou au business, en général, nécessitent une qualité de service élevée pour éviter des conséquences financières néfastes, à la fois pour les entreprises concernées et leurs clients. La détection précoce ou la prédiction de dysfonctionnents d’équipements réseau est donc primordiale pour assurer le bon fonctionnement et une haute qualité de service du réseau. Avec l’avènement du Cloud Computing et la multiplication des équipements informatiques (ordinateurs, smartphones), le trafic réseau continue de croître de manière considérable ce qui augmente encore la difficulté des tâches de détection ou de prédiction.

Problématique

La fouille de données (data mining) regroupe des méthodes telles que le regroupement (clustering), la classification ou la recherche de motifs. Les méthodes et algorithmes correspondants ont été conçus pour « passer à l’échelle » et permettre l’analyse de données volumineuses. Ainsi, la fouille de données a été utilisée pour la détection d’intrusion ou de la dégradation de la qualité de service. Toutefois, le volume des données et leur complexité ont augmenté dans des proportions telles qu’il faut adapter les méthodes de fouille de données originelles afin de faire face au défi du Big Data.

Travail

Dans le cas de la surveillance de réseau, les données de monitoring se présentent sous forme de séries temporelles et arrivent en flux continus. L’objectif du stage est, dans un premier temps, de faire un tour d’horizon des méthodes de fouille de données permettant de traiter ce type de données. Dans un deuxième temps, on se focalisera sur la tâche de découverte et d’aide à l’analyse d’anomalies à partir de gros volumes de séries temporelles.
Les données seront fournies par un industriel spécialisé dans l’analyse de données réseau, avec qui l’équipe Dream débute une collaboration. Le stagiaire déterminera les types d’algorithmes présentant le meilleur potentiel pour traiter les volumes de données en jeu. Il mettra en oeuvre les adaptations d’algorithmes nécessaires ou développera de nouveaux algorithmes pour mener à bien la tâche de découverte et d’analyse d’anomalies réseau.

Candidat

Le candidat devra avoir de bonnes connaissances en fouille de données, particulièrement la fouille de motifs. Des connaissances en réseaux de télécommunication seront un plus.

Bibliographie

Manish Joshi and Theyazn Hassn Hadi. A Review of Network Traffic Analysis and Prediction Techniques. 2015 (http://arxiv.org/abs/1507.05722)
Marie-Odile Cordier, Roberto Micalizio, Sophie Robin, Laurence Rozé. Adapting Web Services to Maintain QoS Even When Faults Occur. ICWS 2013: 403-410
Wei Wang, Thomas Guyet, René Quiniou, Marie-Odile Cordier, Florent Masseglia, Xiangliang Zhang. Autonomic intrusion detection: Adaptively detecting anomalies over unlabeled audit data streams in computer networks. Knowl.-Based Syst. 70: 103-117 (2014)
Thomas Guyet, René Quiniou. Extracting Temporal Patterns from Interval-Based Sequences. IJCAI 2011: 1306-1311 (2011)