sujet2019-rhopomdp

Recherche active d’information avec un robot mobile

Auteur : Olivier Buffet et Vincent Thomas

Informations générales

Encadrants Olivier Buffet Vincent Thomas
Adresse
Téléphone 03 54 95 86 15 03 54 95 85 08
Email olivier.buffet@loria.fr vincent.thomas@loria.fr
Bureau C124 C125

Motivation

De nombreux travaux s’attachent à contrôler l’état d’un système dynamique, que ce soit pour atteindre un état de victoire dans un jeu ou pour qu’un robot atteigne une situation en respectant certaines contraintes. Il est plus rare de choisir des actions dans le but d’acquérir des informations, par exemple localiser une victime dans des décombres sans chercher à l’atteindre. L’objectif de ce stage est de proposer des solutions à ce dernier problème dans le cas d’espaces (d’états, d’observations et d’actions) de grandes tailles.

Sujet

Le cadre des POMDP (processus de décision Markoviens partiellement observables) a été proposé pour formaliser des problèmes de contrôle sous observabilité partielle de l’état du système, et des algorithmes ont été proposés récemment pour traiter des espaces de grandes tailles (voire infinies). Les ρ-POMDP ont été introduits pour pouvoir formaliser des problèmes de recherche active d’information, accompagnés seulement d’algorithmes pour des espaces de «petites tailles». L’objectif du stage consistera (i) à s’inspirer des algorithmes ci-dessus pour en proposer de nouveaux qui soient adaptés aux ρ-POMDP de grande taille, et (ii) à valider ces algorithmes sur un robot mobile simple devant se localiser ou localiser un objet dans un environnement connu à l’aide de capteurs de proximité.

Cadre du travail

Dans un premier temps, il faudra se familiariser avec les formalismes et les algorithmes sus-mentionnés, entre autres en implémentant les algorithmes pour POMDP de grande taille. Dans un second temps, on prendra en main la plate-forme robotique (Thymio) en résolvant des tâches de contrôle à l’aide des algorithmes sus-cités. Dans un troisième temps, on proposera des algorithmes pour ρ-POMDP de grande taille. Ceux-ci seront ensuite implémentés et évalués expérimentalement et théoriquement.

References

Åström K. 1965. Optimal control of Markov processes with incomplete state information. In Journal of Mathematical Analysis and Applications, 10:1,174–205, 1965.

Sunberg, Z. N. and Kochenderfer, M. J. 2018. Online Algorithms for POMDPs with Continuous State, Action, and Observation Spaces. In Proceedings of the Twenty-Eighth International Conference on Automated Planning and Scheduling (ICAPS-18).

Araya-López, M., Buffet, O., Thomas, V. and Charpillet, F. 2010. A POMDP Extension with Belief-dependent Rewards. In Advances in Neural Information Processing Systems 23 (NIPS-10), Vancouver, Canada.

Comments are closed.