Planification dans les jeux stochastiques partiellement observables

Auteur : Olivier Buffet et Jilles Dibangoye

Informations générales

Encadrants	Olivier Buffet	Jilles Dibangoye
Adresse	LORIA/INRIA, Villers-lès-Nancy	Équipe Chroma, INRIA, INSA-Lyon, CITI-Lab
Téléphone	03 54 95 86 15	–
Email	olivier.buffet@loria.fr	jilles-steeve.dibangoye@insa-lyon.fr
Bureau	C124	–

Motivation

De nos jours, certaines applications reposent largement sur des systèmes multi-agents (SMA), c’est-à-dire des groupes d’agents autonomes en interaction au sein d’un environnement commun, tels que des robots, des drones, etc. La pénétration croissantes des SMA dans la société va requérir un changement de paradigme, de la planification mono-agent à la planification multi-agent, se reposant sur des percées récentes. Dans ce but, ce sujet vise à concevoir des algorithmes génériques pouvant calculer des stratégies rationnelles pour un groupe d’agents coopérant ou en compétition, malgré les incertitudes de leurs actions et de leurs perceptions. Notre objectif est de contribuer aux fondations théoriques systèmes multi-agents intelligents en caractérisant la structure sous-jacente de tels problèmes de décision et en concevant des algorithmes de planification efficaces avec des garanties de performance.

Sujet

L’idée principale de ce projet est qu’il est possible de réduire un problème de décision multi-agent (tel que les jeux stochastiques partiellement observables (POSG)) à un jeu stochastique complètement observable, lequel serait résolu par des algorithmes génériques reposant sur des avancées récentes. Le candidat devra étudier les réductions pour des sous-classes de POSG (par ex., à 2 joueurs et somme nulle, potentiels, ou de sécurité) et les algorithmes de planification correspondants. Ces algorithmes devront avant tout s’appliquer dans des problèmes de grande taille, éventuellement continus.

Cadre du travail

Ce stage de master a lieu dans le cadre du projet ANR PLASMA, en collaboration entre Nancy et Lyon. Une poursuite en thèse est envisageable.

References

K. Horák, B. Bošansky, and M. Pechoucek. Heuristic search value iteration for one-sided partially observable stochastic games. In Proceedings of the AAAI Conference on Artificial Intelligence, 2017.

J. S. Dibangoye, C. Amato, O. Buffet and F. Charpillet. Optimally Solving Dec-POMDPs as Continuous-State MDPs. In Journal of Artificial Intelligence Research, 2016.

A. Nayyar, A. Gupta, C. Langbort and T. Basar. Common information based Markov perfect equilibria for stochastic games with asymmetric information: Finite games. In Transaction in Automatic Control, 59(3):555–570, 2014.

M.K. Ghosh, D. McDonald, and S. Sinha. Zero-sum stochastic games with partial information. In Journal of optimization theory and applications, 121(1):99–118, 2004.

Michael Littman. . PhD thesis. Brown University, Providence, USA. 1996.

sujet2019-posg

Planification dans les jeux stochastiques partiellement observables

Informations générales

Motivation

Sujet

Cadre du travail

References

Meta