Projet de Recherche Lagadic

Ma thèse, en attente de soutenance, est intitulée "Localisation et cartographie simultanées en vision monoculaire et en temps réel basé sur les structures planes". Elle fut effectuée dans le cadre d'une convention CIFRE entre l'IRISA et le département de R&D du groupe Orange. Mon directeur de thèse est le Dr Eric Marchand de l'équipe Lagadic et mon responsable industriel est Pascal Houlier (Ingénieur R&D) de la société Orange Labs. Elle a fait l'objet d'articles de conférence et d'un prototype logiciel livré à la société.

La société Orange s'intéresse à la problématique de la réalité augmentée en temps réel et avec des terminaux mobiles. La réalité augmentée pose de multiples problèmes industriels et scientifiques. Cette thèse s'intéresse particulièrement à l'estimation en temps réel du déplacement de la caméra dans des scènes intérieurs et/ou urbaines. Elle décrit une solution utilisant les plans que l'on trouve abondamment dans ces environnements. Une caméra bas-coût est utilisée et est complétée par des capteurs inertiels de type MEMS. De l'initialisation au suivi en passant par la fusion des capteurs, un pipeline complet de traitement est proposé. Il permet une complète automatisation du processus d'estimation du déplacement et une utilisation robuste à long terme. Des vidéos de résultats sont présentées dans cette page web.

J'ai obtenu un Master recherche en 'Modélisation et Simulation des Systèmes Complexes' en juillet 2005 a l'université du littoral-Cote d'Opale (Calais). Le stage de recherche effectué pendant ce Master a porté sur la programmation génétique. L'objectif était d'étudier et de réaliser un système de programmation génétique sur machine à pile. Les programmes générés sont injectés directement dans la machine virtuelle Java en pseudo-assembleur. L'utilisation d'une machine à pile contraint fortement la génération mais permet toutefois d'obtenir des programmes mieux structurés et beaucoup plus rapides que par la génération d'un arbre logique. Ce stage a débouché sur la réalisation d'un module pour la librairie JEB et d'un article de conférence.

Thématiques de recherche

Cette thèse est basée sur le principe du "Simultaneous Localization and Mapping" (EKF-SLAM) monoculaire introduit par Dr. Davison. L'environnement étant constitué de nombreux plans, le travail a consisté a étudier une approche du SLAM permettant d'utiliser ces plans comme primitives géométriques. Cette méthode permet d'obtenir une estimation du déplacement qui prend en compte les incertitudes des mesures et qui permet une estimation robuste. L'utilisation des plans permet tout d'abord d'améliorer l'estimation puisqu'ils fournissent plus d'informations que les points habituellement utilisés. Elle permet également de réduire les coûts calculatoire en permettant une factorisation de la carte par regroupement des éléments appartenant au même plan.

Vidéo HD à regarder en plein écran. Application de la méthode développée dans cette thèse sur une scène de la cathédrale de Rouen.
A noter à la fin de la vidéo l'utilisation de la méthode d'extraction des plans pour compenser le manque de régions reconnues.

Le suivi est assuré par une version améliorée du suivi de régions basé sur les transformations homographiques proposé par Dr. Benhimanne. Il permet un suivi très rapide et robuste de régions planes. L'homographie retournée par le suivi est la mesure de notre EKF-SLAM. La qualité du suivi est renforcée par l'utilisation de la prédiction de la mesure fournie par le SLAM pour initialiser la minimisation (permettant ainsi des mouvements plus importants entre deux images). La matrice d'homographie est comparée à la prédiction et est écartée si elle s'en éloigne trop pour augmenter la robustese de l'estimation.

Vidéo HD à regarder en plein écran. Application de la méthode développée dans cette thèse sur une scène avec plusieurs plans.
La fin de la vidéo contient une représentation de la carte. La vidéo est accélérée.
Les zones vertes représentent les zones prédites. Les zones jaunes représentent les zones suivies. Les zones rouges les zones suivies dont le plan est connu avec une certitude importante.

Une problématique de l'EKF-SLAM monoculaire est qu'il nécessite que les variables aléatoires estimées soient gaussiennes. Les mesures fournies par les caméras étant en deux dimensions, une dimension est perdue et est donc à considérer comme une variable aléatoire uniforme. Il est impossible d'introduire un nouveau plan avec une notation conventionnelle sans a priori puisqu'il n'est pas défini entièrement par une seule mesure caméra. Une solution permettant d'introduire immédiatement les plans en utilisant une représentation spéciale est proposée. Elle permet d'utiliser des plans sans aucune information préalable.

Application de la méthode développée dans cette thèse sur une scène avec plusieurs plans en intérieur.
La droite de la vidéo contient une représentation de la carte du SLAM en temps réel
Les zones vertes représentent les zones prédites. Les zones jaunes représentent les zones suivies. Les zones rouges les zones suivies dont le plan est connu avec une certitude importante.

L'autre problématique est de savoir quel zone de l'image choisir comme région plane, puisqu'elles ne le sont pas toutes. Une première solution basée sur la reconnaissance de région est proposée. Puisque les régions contenues dans notre base de données sont connues pour être planes, la reconnaissance de ces régions dans l'image nous assure de la planarité de celles-ci. Une méthode basée sur les SIFT et une K-Means hiérarchique est proposée.

Vidéo HD avec du son à regarder en plein écran. Application de la méthode développée dans cette thèse sur une scène du musée de Rennes.
Cette vidéo est un résultat intermédiaire du projet ANR GAMME.

L'autre solution est d'extraire de la séquence d'image des régions dont le déplacement laisse penser qu'elle est plane. La solution classique est de considérer un nuage de points et, après un déplacement suffisant, d'extraire les régions dont le contour est formé par les groupes de points respectant une même homographie. Cette solution a pour principal inconvénient de nécessiter un déplacement conséquent de la caméra avant de pouvoir extraire des régions et de les utiliser comme mesure. Cela peut conduire à des périodes où aucune mesure n'est disponible, ce qui est inacceptable. Cette thèse propose une solution appellée "localisation et extraction de régions planes simultanées". Chaque profondeur des points du nuage est ajoutée à la carte du SLAM. Une triangulation de delaunay sur le nuage de points est calculée. A chaque nouvelle image, une homographie sur chaque triangle à l'aide de la matrice fondamentale est estimée et sert de mesure pour mettre à jour les points correspondants. Lorsque les points d'un même triangle ont leur profondeur suffisamment bien estimée, ils sont regroupés avec les autres triangles coplanaires et la région formée est considérée comme une région plane. De cette manière, la pose continue à etre estimée quand bien même l'extraction des plans n'est pas terminée.

Exemple d'extraction des régions planaires. Les zones vertes représentent les zones planaires extraites
On peut observer que la pose est correctement estimée malgrès l'absence de plans au début.
L'orientation de la pose affichée bouge car elle est calculée en fonction de la normale du plan du bureau.

Parceque la mesure image peut-être bruitée, qu'elle peut ne contenir aucune information intéressante, la fusion avec la mesure de capteurs inertiels a été étudiée. Ces capteurs inertiels fournissent à 100hz l'accélération en translation et la vitesse de rotation instantanée. Ils permettent de compenser les problèmes des caméras. Ils permettent également de connaitre le facteur d'échelle de la scène, chôse impossible avec une caméra sans modèle de l'environnement. Statistiquement, ils réduisent l'incertitude de l'estimation et donc améliorent l'estimation numérique et la prédiction de la mesure, rendant d'autant plus robuste l'algorithme dans sa totalité.

Illustration des avantages des capteurs inertiels lors de problème vidéos.
A visualiser en plein écran.

Toutes ces solutions proposées mises ensemble permettent d'obtenir un pipeline d'estimation de la transformation de la caméra robuste sur le long terme et dont le coût calculatoire est réduit.

Fabien Servant

Coordonnées

Nouvelle page www

Cursus

Thématiques de recherche

Vidéo HD à regarder en plein écran. Application de la méthode développée dans cette thèse sur une scène de la cathédrale de Rouen.
A noter à la fin de la vidéo l'utilisation de la méthode d'extraction des plans pour compenser le manque de régions reconnues.

Vidéo HD avec du son à regarder en plein écran. Application de la méthode développée dans cette thèse sur une scène du musée de Rennes.
Cette vidéo est un résultat intermédiaire du projet ANR GAMME.

Illustration des avantages des capteurs inertiels lors de problème vidéos.
A visualiser en plein écran.

Publications

Fabien Servant

Coordonnées

Nouvelle page www

Cursus

Thématiques de recherche

Vidéo HD à regarder en plein écran. Application de la méthode développée dans cette thèse sur une scène de la cathédrale de Rouen. A noter à la fin de la vidéo l'utilisation de la méthode d'extraction des plans pour compenser le manque de régions reconnues.

Vidéo HD avec du son à regarder en plein écran. Application de la méthode développée dans cette thèse sur une scène du musée de Rennes. Cette vidéo est un résultat intermédiaire du projet ANR GAMME.

Illustration des avantages des capteurs inertiels lors de problème vidéos. A visualiser en plein écran.

Publications

Vidéo HD à regarder en plein écran. Application de la méthode développée dans cette thèse sur une scène de la cathédrale de Rouen.
A noter à la fin de la vidéo l'utilisation de la méthode d'extraction des plans pour compenser le manque de régions reconnues.

Vidéo HD avec du son à regarder en plein écran. Application de la méthode développée dans cette thèse sur une scène du musée de Rennes.
Cette vidéo est un résultat intermédiaire du projet ANR GAMME.

Illustration des avantages des capteurs inertiels lors de problème vidéos.
A visualiser en plein écran.