Étude de la qualité d’un ensemble de règles obtenues par apprentissage automatique.

Mots-clés: Intelligence artificielle, apprentissage symbolique,qualité d’un ensemble de règles, règles de classification

Lieu: Équipe DREAM, UMR IRISA, Campus de Beaulieu, Rennes

Encadreurs: Véronique Masson

Contacts: veronique.masson@irisa.fr,

Description:

L’apprentissage automatique symbolique permet d’acquérir un ensemble de règles interprétables classifiant ou caractérisant un ensemble de données. Nous nous situons dans le cas où les règles apprises doivent être facilement lisibles par l’utilisateur (à la différence de l’apprentissage de type « boite noire ») et doivent permettre « l’explication » des données. Ces règles peuvent ainsi être utilisées dans un système d’aide à la décision (par exemple dans le système Sacadeau(4)) ou pour éviter des situations non désirées (comme des crashs de smartphones(5) par exemple). Nous considérons des règles exprimées en logique propositionnelle (de type attribut-valeur) et comportant aussi bien des attributs numériques que des attributs nominaux (prenant leur valeur dans un ensemble fini particulier).

Beaucoup d’algorithmes d’apprentissage utilisent une notion de qualité d’une règle lors de son induction mais peu d’études ont été effectuées sur la qualité globale d’un ensemble de règles. Des questions comme « Toutes les explications d’une situations ont-elles été trouvées ? » , « Y a t-il des contradictions dans les explications fournies par les règles? », etc, restent sans réponse.

L’objectif de ce stage est, dans un premier temps, de formaliser le raisonnement sur un ensemble de règles et la notion de qualité d’un tel ensemble. Sachant que l’on dispose des exemples de données qui ont permis l’apprentissage des règles, l’idée est d’essayer de déterminer, dans un second temps, le type de données manquantes qui permettrait d’améliorer l’apprentissage. Dans le cas de données obtenues par un simulateur, on pourrait ainsi permettre un apprentissage incrémental : à chaque étape, l’ensemble de règles obtenu serait analysé, des caractéristiques de données à simuler seraient déterminées et un nouvel ensemble de règles serait inféré après de nouvelles simulations.

L’application de cette recherche bénéficiera de nombreuses données utilisées dans l’équipe Dream, et de règles déjà obtenues comme, par exemple, celles d’un système d’aide à la décision pour l’amélioration de la qualité des eaux des bassins versants (système Sacadeau(4)). L’aspect visualisation des résultats fournis à l’utilisateur (liens entre règles et exemples représentés, de similarité/dissimilarité entre règles, etc) sera également à prendre en compte.

Bibliographie:

  1. «Evaluation of Association Rules Quality Measure through Feature Extraction » J. Balcazar, F. Dogbay, in IDA, 2013
  2. « Measures of ruleset quality for general rules extraction methods » M. Holena, in International Approximate Reasoning, vol 50, issue 6 , 2009
  3. « Association rules interestingness measures : experimental and theorical studies » P. Lenca, B. Vaillant, P. Meyer, S. Lallich, in Quality measures in data mining, Springer Verlag, 2007
  4. « Mining simulation data rule induction to determine critical source areas of stream water pollution by herbicides », R. Trepos, V. Masson, M.O. Cordier, C. Gascuel, J. Salmon-Monviola, COMPAG 86, 2012
  5. http://www.irisa.fr/dream/ManageYourself/Site/ManageYourself.htm

Leave a Reply

Your email address will not be published.