(English) Research directions

Automatiser l’exploration de l’espace de rechenrche KDD

Modélisation de l’espace de recherche

Dans le but d’automatiser l’exploration de l’espace de recherche KDD (Knowledge Discovery from Data – Découverte de Connaissances à partir de Données), le premier besoin concerne en un cadre unificateur permettant de représenter tous les composants des workflows KDD (données, opérateurs, modèles, connaissances du domaine) selon un base théorique solide et de les composer. A l’heure actuelle un tel framework n’existe pas

Notre objectif principal consiste à étudier un système de type d’opérateurs KDD, exploitant des constructions de types expressives, par exemple des types dépendants. Cette solution, non explorée jusqu’à présent, paraît tout-à-fait naturelle au vu de la nature fonctionnelle des opérateurs KDD et s’avère efficiente pour tester la composition d’opérateurs. Si le besoin de plus d’expressivité se faisait sentir (pour éventuellement capturer une partie de la sémantique des opérateurs), nous prévoyons d’étudier les sketchs relationnels qui se sont avérés tout-à-fait adaptés pour la représentation d’opérateurs KDD complexes. Dans les deux cas, nous souhaitons déterminer comment représenter, dans ce formalisme, une variété étendue d’opérateurs ainsi que des pans significatifs de la connaissances du domaine.

Exploration de l’espace de recherche

Indépendamment du formalisme choisi, l’espace de recherche KDD est vaste : une exploration efficace nécessite des méthodes adaptées et des heuristiques .

Dans le contexte d’une représentation basée sur un système de types, une direction de recherche originale consiste à adapter des assistants de preuve (par exemple Coq) afin d’utiliser les opérateurs comme des “théorèmes” et laisser l’assistant effectuer la composition, avec, éventuellement, des suggestions (appelées “tactiques” dans le domaine) pour guider le système, et provenant, soit d’analystes humains, soit de résultats issus du pré-traitement des données. Nous prévoyons également d’explorer d’autres manières de parcourir l’espace de recherche, telles que celles basées sur l’utilisation du langage logique ASP (Answer Set Programming).

Sélection de modèle

Une fois les workflows KDD générés, leur exécution produit des modèles, chacun expliquant certains aspects des données. De tels modèles peuvent fournir, par exemple, un regroupement (clustering) des données, une large variété de motifs décrivant des structures récurrentes, ou, au contraire, des anomalies dans les données. Une tâche critique est alors de sélectionner les modèles les plus à même d’apporter des connaissances nouvelles et utiles à l’utilisateur.

Notre recherche s’intéresse à procurer des “multi-modèles”, combinant les résultats de plusieurs modèles. Nous souhaitons étudier des techniques telles que Minimum Description Length (MDL) sur des modèles de différents types, alors que les approches existantes se contentent d’un seul modèle.  Nous souhaitons exploiter les préférences de l’utilisateur au moyen de motifs skyline. Une autre direction est d’exploiter des simulateurs complexes du domaine en tant que “connaissance du domaine paramétrique” pour aider à l’émergence de nouvelles connaissances dans des situations non rencontrées.

Opérateurs de fouille de motifs

Plusieurs membres de l’équipe sont bien connus pour leur expertise concernant les opérateurs de fouille de motifs permettant la découverte de régularités dans les données.
Nous poursuivons la recherche dans ce domaine, avec un focus sur l’intégration de la connaissance du domaine à la fouille de motifs et un intérêt particulier pour les opérateurs de fouille de données conçus spécialement pour la découverte automatique de workflows, et couplés avec des techniques de sélection de modèles basées sur des préférences utilisateur et des critères de qualité. Le résultat escompté est l’obtention de nouveaux compromis : les approches courantes se focalisent sur la fourniture de peu de résultats à l’utilisateur, alors qu’ici le but est de permettre au système automatique d’explorer une partie aussi étendue que possible de l’espace des solutions.

Passage à l’échelle par des approches in-memory

Un seul workflow KDD requiert généralement des ressources de calcul importantes. Les approches relatives à l’exploration des espaces de plusieurs workflows KDD requièrent encore plus de ressources de calcul alors que les utilisateurs souhaitent des réponses rapides. Nous nous intéressons à deux types de plate-formes de calcul parallèle : premièrement, les grands clusters dotés de modèles de programmation modernes tels que Apache Spark, afin de prendre en main des jeux de données énormes; deuxièmement, les ordinateurs multi/many cœurs, pour garantir des calculs rapides sur l’ordinateur portable de l’analyste.

Dans les deux cas, nous nous intéressons à la conception de nouveaux algorithmes adaptés à ces environnements parallèle spécifiques, nécessitant un partitionnement adéquat des données ainsi que des tâches des algorithmes. Pour les ordinateurs multi/many cœurs, une complexité supplémentaire est de réduire la pression sur la  bande passante occasionnée par les algorithmes. Nous étudions des algorithmes de caches aware/oblivious pour solutionner ce problème.

Interactions utilisateur/système

L’approche poursuivie par LACODAM vise à procurer des connaissances nouvelles et utiles aux utilisateurs : elle requiert des méthodes d’interaction efficaces pour présenter la connaissance extraite aux utilisateurs et pour collecter leurs avis.

Premièrement, la connaissance découverte peut conduire à la recommandation d’actions. L’équipe vise à étendre son expertise concernant l’apprentissage incrémental de règles, en utilisant ses approches de fouille de motif les plus performantes comme point de départ de la découverte de règles, afin d’aboutir à une recommandation d’action basée sur des workflows KDD trouvés de manière automatique. Deuxièmement, nous étudions des techniques de visualisation, au sein de collaborations que nous développerons. Ce travail concerne la visualisation de résultats fournis par des opérateurs de fouille de motifs. Nous travaillons également sur la manière de visualiser et d’interagir avec les workflows et les modèles découverts par le système afin d’acquérir des avis pour enrichir et améliorer le système. Troisièmement, nous nous intéressons aux façons d’expliquer/justifier les résultats à l’utilisateur. Pour ce point, nous souhaitons utiliser les compétences de certains membres de LACODAM dans le domaine de la logique de l’argumentation. Un autre intérêt est de pouvoir fournir aux utilisateurs des moyens puissants pour exprimer leur propres intérêts sur les résultats afin d’enrichir les méthodes de sélection de modèle. Enfin, LACODAM accueille Torsten Schaub (INRIA International Chair) sur un projet concernant l’utilisation d’ASP (Answer Set Programming), un langage de programmation logique puissant, pour faciliter la conception de filtres post-fouille.

Gestion collaborative de la connaissance et des retours/avis

Le cadre traditionnel de la fouille de données est un analyste unique travaillant sur un seul jeu de données. Dans un tel cadre, un tel analyste ne peut bénéficier des découvertes d’autres analystes travaillant sur des données similaires, et les autres analystes ne peuvent non plus bénéficier de ses résultats : chacun doit démarrer de zéro à chaque fois. La vision de LACODAM est de s’orienter vers une approche centrée sur des espaces de travail en ligne pour un domaine et une communauté spécifiques (bio informatique ou agriculture, par exemple). Un espace de travail centralisant plusieurs jeux de données publics, des workflows KDD et des connaissances du domaine, devint un point d’entrée unique pour des analystes du domaine souhaitant analyser un jeu de données public ou privé. Les éléments de connaissance explicités peuvent être mis à la disposition de toute la communauté, diminuant grandement la charge du travail individuel. Les retours et avis sur, à la fois, les workflows KDD et la connaissance extraite peuvent à tout moment être utilisés pour améliorer le système.

Dans un premier temps, nous allons nous focaliser sur la connaissance du domaine ainsi que sur la mémorisation et la réutilisation des retours dans les approches KDD que nous proposons.

Les commentaires sont fermés.