Clustering de séries temporelles en agronomie : regrouper les plantes pour mieux les étudier.

Sujet de Stage M2R Info, 2012-13.

Florent Masseglia, Inria-Lirmm, florent.masseglia@inria.fr

François Tardieu, Inra, francois.tardieu@supagro.inra.fr

Patrick Valduriez, Inria-Lirmm, patrick.valduriez@inria.fr

Plus une plante est arrosée et éclairée, plus elle pousse… Cette « analyse » n’est pas très informative, surtout pour la recherche en agronomie qui demande des résultats plus fins sur les données qu’elle produit. Malheureusement, de telles évidences sont dominantes dans certaines études, parce qu’elles sont très caractéristiques de la réalité. Et cette domination est un obstacle pour la découverte de connaissances plus fines et plus instructives dans ces données, en particulier dans le domaine du phénotypage.

Le phénotypage étudie les relations entre le génotype (le patrimoine génétique) et le phénotype (le comportement) des plantes, dans plusieurs scénarios environnementaux. En d’autres termes, il s’agit de comparer l’évolution de plusieurs variétés génétiques d’une plante dans un même environnement. Cette comparaison permet de mieux comprendre certaines caractéristiques (capacité de production, résistance aux conditions climatiques, etc.) des plantes en fonction de leurs variétés.

Pour étudier ces réactions, chaque génotype est représenté plusieurs fois (e.g. de 3 à 10 plantes) afin de diminuer les risques d’exceptions statistiques. L’ensemble des plantes qui partagent le même génotype est appelé une « accession » ci après. La plateforme PhénoArch permet l’analyse de 1650 plantes, qui correspondent à un ensemble de 100 – 400 accessions suivant le nombre de traitements expérimentaux. La plateforme recueille des informations sur les plantes et sur leur environnement à intervalles régulier. Les données issues de la plateforme PhénoArch se présentent sous forme de séries temporelles (des mesures prises à intervalles réguliers) et peuvent concerner l’environnement (e.g. l’éclairement, la température de l’air, l’humidité) ou des variables directement mesurées sur les plantes (e.g. la croissance, le nombre de feuilles, la transpiration).

Analyser ces séries temporelles présente à la fois un enjeu scientifique pour le phénotypage et des défis techniques pour la recherche en informatique.

Nettoyage des données

Les données issues de la plateforme concernent des accessions qui sont chacune représentée par plusieurs plantes. Un premier problème lors de l’analyse de ces données consiste à nettoyer les données issues de plantes qui ont un comportement “déviant” (une plante parmi les 3 à 6 représentant cette accession et qui se comporte de manière anormale). Un premier ensemble d’outils permettrait à ce stade de mieux détecter ces données aberrantes. Il peut s’agir de mettre en place une distance entre les séries afin de détecter si l’une d’elles s’éloigne particulièrement du lot. Cette détection serait alors utilisée sous forme « d’alarme » par les experts afin de mieux cibler les données à examiner pour l’analyse à venir.

Analyse des données

Une fois nettoyées, les données des plantes (i.e. des individus) peuvent permettre d’obtenir des données caractérisant une accession, sous forme de généralisation. Autrement dit, à partir des séries temporelles de 3 à 6 plantes d’une accession, on peut obtenir une série unique (une sorte de série agrégée pour cette accession). Avec une série par accession, on peut alors produire un clustering de l’ensemble des séries temporelles associées à ces accessions.

Le travail de ce stage consiste en trois étapes principales :

  1. Etat de l’art. L’étudiant devra proposer un état de l’art sur l’analyse de séries temporelles. Cela devra couvrir les questions de discrétisation, régression et clustering.

  2. Application d’une technique de l’état de l’art (choisie en concertation avec les encadrants) sur un jeu de données réelles issues de la plateforme PhénoArch en ne considérant qu’une seule variable phénotypique (e.g. la croissance). Cette application devra être réalisée via une implémentation, par l’étudiant, de la technique sélectionnée, dans un des langages C/C++ ou Java.

  3. Proposition d’une méthode permettant de prendre en compte plusieurs variables dans le processus de clustering.

Permanent link to this article: https://team.inria.fr/zenith/clustering-de-series-temporelles-en-agronomie-regrouper-les-plantes-pour-mieux-les-etudier/