HiePACS Working Group

The next HiePACS Working Group will take place on Friday 22 September 2017 at 9:30 in Alan Turing 2.
Alain Franc, INRA BioGeCo & INRIA Pleiade

Une partie non négligeable de « machine learning » ou de la reconnaissance de formes repose in fine sur des méthodes linéaires d’analyse des données, qui se sont fortement développées dans les années 70-80 avec l’essor du calcul numérique matriciel. Plusieurs méthodes classiques se rattachent à cet ensemble, et partent soit de matrices éléments x caractéristiques (ACP, AFC), soit de matrices de distances (MDS). Les données peuvent être qualitatives (AFC) ou quantitatives (ACP). Il peut y avoir, ou non, des contraintes extérieures (ACP-VI, AFC-VI). Plusieurs tableaux peuvent être étudiés simultanément dans une sorte de généralisation multidimensionnelle de la corrélation (Analyse Canonique). Toutes ces méthodes reposent sur une chaîne parcourant les données → le prétraitement → le traitement → le post-traitement. Le traitement est en général soit une diagonalisation, soit une décomposition en valeurs singulières, et est en général cubique en fonction du nombre d’éléments à traiter (dimensions de la matrice). Le prétraitement repose souvent sur des produits matriciels, des marginalisations, des racines carrées de matrices. On est ainsi amené à créer des chaînes de calcul matriciel, avec plusieurs étapes, parfois complexes, sur des matrices denses de grande taille. Un enjeu est d’utiliser les outils et méthodes récentes du calcul matriciel dense, pour optimiser ces chaînes et passer à l’échelle en traitement des données en conservant la qualité des méthodes, c.a.d. sans heuristiques. Plusieurs chaînes de traitement seront ainsi présentées, pour discuter les possibilités d’optimisation et passage à l’échelle.

Comments are closed.