Publications

Please scroll-down a little bit to reach our publications, or click here.

Software

The Reinforcement Learning Gym Scool

Along the time, Scool members have developed a set of Gym environments for various tasks, to be used as RL environments.

Other Scool software

Older software on SequeL website.

Publications

Previous publications are on our former group website (SequeL).

Publications HAL du labo/EPI 1042631

2024

Reports

titre
Learning HJB Viscosity Solutions with PINNs for Continuous-Time Reinforcement Learning
auteur
Alena Shilova, Thomas Delliaux, Philippe Preux, Bruno Raffin
article
RR-9541, Inria Lille – Nord Europe, CRIStAL – Centre de Recherche en Informatique, Signal et Automatique de Lille – UMR 9189; Univ. Lille, CNRS, Centrale Lille, Inria UMR 9189 – CRIStAL,INRIA Lille Nord Europe, Villeneuve d’Ascq, France; Univ. Grenoble Alps, CNRS, Inria, Grenoble INP, LIG, 38000 Grenoble, France. 2024, pp.1-30
Accès au texte intégral et bibtex
https://inria.hal.science/hal-04445160/file/RR-9541.pdf BibTex

2023

Journal articles

titre
Impact of Robotic Assistance on Complications in Bariatric Surgery at Expert Laparoscopic Surgery Centers: A Retrospective Comparative Study With Propensity Score
auteur
Robert Caiazzo, Pierre Bauvin, Camille Marciniak, Patrick Saux, Geoffrey Jacqmin, Raymond Arnoux, Salomon Benchetrit, Jerome Dargent, Jean-Marc Chevallier, Vincent Frering, Jean Gugenheim, David Lechaux, Simon Msika, Adrien Sterkers, Philippe Topart, Grégory Baud, François Pattou
article
Annals of Surgery, 2023, 278 (4), pp.489-496. ⟨10.1097/SLA.0000000000005969⟩
Accès au bibtex
BibTex
titre
Development and validation of an interpretable machine learning-based calculator for predicting 5-year weight trajectories after bariatric surgery: a multinational retrospective cohort SOPHIA study
auteur
Patrick Saux, Pierre Bauvin, Violeta Raverdy, Julien Teigny, Hélène Verkindt, Tomy Soumphonphakdy, Maxence Debert, Anne Jacobs, Daan Jacobs, Valerie Monpellier, Phong Ching Lee, Chin Hong Lim, Johanna C Andersson-Assarsson, Lena Carlsson, Per-Arne Svensson, Florence Galtier, Guelareh Dezfoulian, Mihaela Moldovanu, Severine Andrieux, Julien Couster, Marie Lepage, Erminia Lembo, Ornella Verrastro, Maud Robert, Paulina Salminen, Geltrude Mingrone, Ralph Peterli, Ricardo V Cohen, Carlos Zerrweck, David Nocca, Carel W Le Roux, Robert Caiazzo, Philippe Preux, François Pattou
article
The Lancet Digital Health, 2023, ⟨10.1016/S2589-7500(23)00135-8⟩
Accès au texte intégral et bibtex
https://hal.science/hal-04192198/file/22tldig1227.pdf BibTex
titre
Elbow trauma in children: development and evaluation of radiological artificial intelligence models
auteur
Clémence Rozwag, Franck Valentini, Anne Cotten, Xavier Demondion, Philippe Preux, Thibaut Jacques
article
Research in Diagnostic and Interventional Imaging, 2023, 6, ⟨10.1016/j.redii.2023.100029⟩
Accès au texte intégral et bibtex
https://hal.science/hal-04244410/file/article%20scientifique.pdf BibTex
titre
General System Architecture and COTS Prototyping of an AIoT-Enabled Sailboat for Autonomous Aquatic Ecosystem Monitoring
auteur
André P D Araújo, Dickson Daniel, Raphael Guerra, Diego Brandão, Eduardo Charles Vasconcellos, Alvaro Negreiros, Esteban Clua, Luiz Goncalves, Philippe Preux
article
IEEE Internet of Things Journal, In press, ⟨10.1109/JIOT.2023.3324525⟩
Accès au texte intégral et bibtex
https://hal.science/hal-04355027/file/bare_jrnl_R1.pdf BibTex

Conference papers

titre
Reinforcement-learning robotic sailboats: simulator and preliminary results
auteur
Eduardo Charles Vasconcellos, Ronald M Sampaio, André P D Araújo, Esteban Walter Gonzales Clua, Philippe Preux, Raphael Guerra, Luiz M G Gonçalves, Luis Martí, Hernan Lira, Nayat Sanchez-Pi
article
NeurIPS 2023 Workshop on Robot Learning Workshop: Pretraining, Fine-Tuning, and Generalization with Large Scale Models, Dec 2023, New Orelans, United States
Accès au texte intégral et bibtex
https://inria.hal.science/hal-04395990/file/neurips_wrl2023.pdf BibTex
titre
Non-Asymptotic Analysis of a UCB-based Top Two Algorithm
auteur
Marc Jourdan, Rémy Degenne
article
Thirty-seventh Conference on Neural Information Processing Systems, Dec 2023, New Orleans (Louisiana), United States
Accès au bibtex
https://arxiv.org/pdf/2210.05431 BibTex
titre
An ε-Best-Arm Identification Algorithm for Fixed-Confidence and Beyond
auteur
Marc Jourdan, Rémy Degenne, Emilie Kaufmann
article
Advances in Neural Information Processing Systems (NeurIPS), Dec 2023, New Orleans, United States
Accès au texte intégral et bibtex
https://hal.science/hal-04306214/file/TTeBAI.pdf BibTex
titre
Adaptive Algorithms for Relaxed Pareto Set Identification
auteur
Cyrille Kone, Emilie Kaufmann, Laura Richert
article
NeurIPS 2023 – 37th Conference on Neural Information Processing Systems, Dec 2023, La Nouvelle Orléans, LA, United States
Accès au texte intégral et bibtex
https://hal.science/hal-04306210/file/KKR23.pdf BibTex
titre
Fast Asymptotically Optimal Algorithms for Non-Parametric Stochastic Bandits
auteur
Dorian Baudry, Fabien Pesquerel, Rémy Degenne, Odalric-Ambrym Maillard
article
NeurIPS 2023 – Thirty-seventh Conference on Neural Information Processing Systems, Dec 2023, New Orleans (Louisiana), United States
Accès au texte intégral et bibtex
https://inria.hal.science/hal-04337742/file/5313_fast_asymptotically_optimal_al.pdf BibTex
titre
On the Complexity of Differentially Private Best-Arm Identification with Fixed Confidence
auteur
Achraf Azize, Marc Jourdan, Aymen Al Marjani, Debabrota Basu
article
NeurIPS 2023 – Conference on Neural Information Processing Systems, Dec 2023, New Orleans (US), United States
Accès au bibtex
https://arxiv.org/pdf/2309.02202 BibTex
titre
Marich: A Query-efficient Distributionally Equivalent Model Extraction Attack using Public Data
auteur
Pratik Karmakar, Debabrota Basu
article
Advances in Neural Information Processing Systems (NeurIPS), Dec 2023, New orleans, USA, United States
Accès au bibtex
https://arxiv.org/pdf/2302.08466 BibTex
titre
Pure Exploration in Bandits with Linear Constraints
auteur
Emil Carlsson, Debabrota Basu, Fredrik D. Johansson, Devdatt Dubhashi
article
EWRL 2023 – European Workshop on Reinforcement Learning, Sep 2023, Brussels, Belgium
Accès au bibtex
https://arxiv.org/pdf/2306.12774 BibTex
titre
Interactive and Concentrated Differential Privacy for Bandits
auteur
Achraf Azize, Debabrota Basu
article
EWRL 2023 – European Workshop on Reinforcement Learning, Sep 2023, Brussels (Belgium), Belgium
Accès au bibtex
https://arxiv.org/pdf/2309.00557 BibTex
titre
On the Existence of a Complexity in Fixed Budget Bandit Identification
auteur
Rémy Degenne
article
Thirty Sixth Conference on Learning Theory, Jul 2023, Bengaluru (Bangalore), India
Accès au texte intégral et bibtex
https://inria.hal.science/hal-04337726/file/2303.09468.pdf BibTex
titre
Active Coverage for PAC Reinforcement Learning
auteur
Aymen Al-Marjani, Andrea Tirinzoni, Emilie Kaufmann
article
Conference on Learning Theory 2023, Jul 2023, Bangalore, India
Accès au texte intégral et bibtex
https://hal.science/hal-04215441/file/COLT23.pdf BibTex
titre
Bregman Deviations of Generic Exponential Families
auteur
Sayak Ray Chowdhury, Patrick Saux, Odalric-Ambrym Maillard, Aditya Gopalan
article
Conference On Learning Theory (COLT), Jul 2023, Bangalore, India
Accès au texte intégral et bibtex
https://hal.science/hal-04161043/file/Bregman-Deviations-Laplace%2Fmain.pdf BibTex
titre
From Noisy Fixed-Point Iterations to Private ADMM for Centralized and Federated Learning
auteur
Edwige Cyffers, Aurélien Bellet, Debabrota Basu
article
Proceedings of the 40th International Conference on Machine Learning (ICML), Jul 2023, Honolulu, United States
Accès au bibtex
https://arxiv.org/pdf/2302.12559 BibTex
titre
How Biased are Your Features?”: Computing Fairness Influence Functions with Global Sensitivity Analysis
auteur
Bishwamittra Ghosh, Debabrota Basu, Kuldeep Meel
article
FAccT ’23: the 2023 ACM Conference on Fairness, Accountability, and Transparency, Jun 2023, Chicago IL, United States. pp.138-148, ⟨10.1145/3593013.3593983⟩
Accès au bibtex
https://arxiv.org/pdf/2206.00667 BibTex
titre
Risk-aware linear bandits with convex loss
auteur
Patrick Saux, Odalric-Ambrym Maillard
article
International Conference on Artificial Intelligence and Statistics (AISTATS), Apr 2023, Valencia, Spain
Accès au texte intégral et bibtex
https://hal.science/hal-04044440/file/main.pdf BibTex
titre
Dealing with Unknown Variances in Best-Arm Identification
auteur
Marc Jourdan, Rémy Degenne, Emilie Kaufmann
article
Algorithmic Learning Theory (ALT), Feb 2023, Singapore (SG), Singapore
Accès au texte intégral et bibtex
https://hal.science/hal-04306221/file/BAIUV.pdf BibTex
titre
Optimistic PAC Reinforcement Learning: the Instance-Dependent View
auteur
Andrea Tirinzoni, Aymen Al-Marjani, Emilie Kaufmann
article
Algorithmic Learning Theory (ALT), Feb 2023, Singapore (SG), Singapore
Accès au texte intégral et bibtex
https://hal.science/hal-04306228/file/TAMK23.pdf BibTex
titre
Farm-gym: A modular reinforcement learning platform for stochastic agronomic games
auteur
Odalric-Ambrym Maillard, Timothée Mathieu, Debabrota Basu
article
AIAFS 2023 – Artificial Intelligence for Agriculture and Food Systems, Feb 2023, Wahington DC, United States
Accès au texte intégral et bibtex
https://inria.hal.science/hal-03960683/file/2022_AAAI_AIAFS%20%282%29.pdf BibTex
titre
Learning crop management by reinforcement: gym-DSSAT
auteur
Romain Gautron, Emilio J Padrón, Philippe Preux, Julien Bigot, Odalric-Ambrym Maillard, Gerrit Hoogenboom, Julien Teigny
article
AIAFS 2023 – 2nd AAAI Workshop on AI for Agriculture and Food Systems, Feb 2023, Washignton DC, United States
Accès au texte intégral et bibtex
https://inria.hal.science/hal-03976393/file/AI4AFS.pdf BibTex
titre
Soft Action Priors: Towards Robust Policy Transfer
auteur
Matheus Centa, Philippe Preux
article
AAAI 2023 – Thirty-Seventh AAAI Conference on Artificial Intelligence, Feb 2023, Washington DC, United States
Accès au texte intégral et bibtex
https://inria.hal.science/hal-03976459/file/aaai23.pdf BibTex
titre
Bilinear Exponential Family of MDPs: Frequentist Regret Bound with Tractable Exploration & Planning
auteur
Reda Ouhamma, Debabrota Basu, Odalric-Ambrym Maillard
article
Proceedings of the AAAI Conference on Artificial Intelligence, Feb 2023, Washignton DC, United States. pp.9336-9344, ⟨10.1609/aaai.v37i8.26119⟩
Accès au texte intégral et bibtex
https://hal.science/hal-03790997/file/bef_rlsvi.pdf BibTex
titre
A Formalization of Doob’s Martingale Convergence Theorems in mathlib
auteur
Kexing Ying, Rémy Degenne
article
12th ACM SIGPLAN International Conference on Certified Programs and Proofs, Jan 2023, Boston (Massachusetts), United States. ⟨10.1145/3573105.3575675⟩
Accès au texte intégral et bibtex
https://inria.hal.science/hal-04337785/file/2212.05578.pdf BibTex

Reports

titre
AdaStop: sequential testing for efficient and reliable comparisons of Deep RL Agents
auteur
Timothée Mathieu, Riccardo Della Vecchia, Alena Shilova, Matheus Centa de Medeiros, Hector Kohler, Odalric-Ambrym Maillard, Philippe Preux
article
RR-9513, Inria Lille Nord Europe – Laboratoire CRIStAL – Université de Lille. 2023
Accès au texte intégral et bibtex
https://inria.hal.science/hal-04132861/file/RR-9513.pdf BibTex
titre
Optimal Interpretability-Performance Trade-off of Classification Trees with Black-Box Reinforcement Learning
auteur
Hector Kohler, Riad Akrour, Philippe Preux
article
RR-9503, Inria Lille Nord Europe – Laboratoire CRIStAL – Université de Lille. 2023
Accès au texte intégral et bibtex
https://hal.science/hal-04060986/file/9503.pdf BibTex

Theses

titre
Information per unit of interaction in stochastic sequential decision making
auteur
Fabien Pesquerel
article
Artificial Intelligence [cs.AI]. Université de Lille, 2023. English. ⟨NNT : ⟩
Accès au texte intégral et bibtex
https://hal.science/tel-04501905/file/phd_thesis_manuscript_fabien_pesquerel_2023.pdf BibTex
titre
Reinforcement learning for combinatorial optimization : leveraging uncertainty, structure and priors
auteur
Nathan Grinsztajn
article
Artificial Intelligence [cs.AI]. Université de Lille, 2023. English. ⟨NNT : 2023ULILB013⟩
Accès au texte intégral et bibtex
https://theses.hal.science/tel-04353766/file/These_GRINSZTAJN_Nathan.pdf BibTex
titre
Toward realistic reinforcement learning
auteur
Reda Ouhamma
article
Artificial Intelligence [cs.AI]. Université de Lille, 2023. English. ⟨NNT : 2023ULILB007⟩
Accès au texte intégral et bibtex
https://theses.hal.science/tel-04324714/file/These_OUHAMMA_Reda.pdf BibTex

Preprints, Working Papers, …

titre
Reinforcement Learning in the Wild with Maximum Likelihood-based Model Transfer
auteur
Hannes Eriksson, Debabrota Basu, Tommy Tram, Mina Alibeigi, Christos Dimitrakakis
article
2023
Accès au bibtex
https://arxiv.org/pdf/2302.09273 BibTex
titre
CRIMED: Lower and Upper Bounds on Regret for Bandits with Unbounded Stochastic Corruption
auteur
Shubhada Agrawal, Timothée Mathieu, Debabrota Basu, Odalric-Ambrym Maillard
article
2023
Accès au bibtex
https://arxiv.org/pdf/2309.16563 BibTex
titre
Towards Instance-Optimality in Online PAC Reinforcement Learning
auteur
Aymen Al-Marjani, Andrea Tirinzoni, Emilie Kaufmann
article
2023
Accès au texte intégral et bibtex
https://hal.science/hal-04270888/file/main.pdf BibTex
titre
Online Instrumental Variable Regression: Regret Analysis and Bandit Feedback
auteur
Riccardo Della Vecchia, Debabrota Basu
article
2023
Accès au texte intégral et bibtex
https://hal.science/hal-03831210/file/o2sls.pdf BibTex

2022

Journal articles

titre
A channel selection game for multi-operator LoRaWAN deployments
auteur
Kinda Khawam, Hassan Fawaz, Samer Lahoud, Odalric-Ambrym Maillard, Steven Martin
article
Computer Networks, 2022, 216, pp.109185. ⟨10.1016/j.comnet.2022.109185⟩
Accès au bibtex
BibTex
titre
Reinforcement Learning for crop management
auteur
Romain Gautron, Odalric-Ambrym Maillard, Philippe Preux, Marc Corbeels, Régis Sabbadin
article
Computers and Electronics in Agriculture, 2022, 200, pp.107182. ⟨10.1016/j.compag.2022.107182⟩
Accès au texte intégral et bibtex
https://inria.hal.science/hal-03834290/file/main.pdf BibTex
titre
Efficient Change-Point Detection for Tackling Piecewise-Stationary Bandits
auteur
Lilian Besson, Emilie Kaufmann, Odalric-Ambrym Maillard, Julien Seznec
article
Journal of Machine Learning Research, 2022
Accès au texte intégral et bibtex
https://inria.hal.science/hal-02006471/file/BKMS22%20%281%29.pdf BibTex
titre
Concentration study of M-estimators using the influence function
auteur
Timothée Mathieu
article
Electronic Journal of Statistics , 2022, 16 (1), pp.3695-3750. ⟨10.1214/22-ejs2030⟩
Accès au texte intégral et bibtex
https://hal.science/hal-03757720/file/22-EJS2030.pdf BibTex
titre
Topics in robust statistical learning
auteur
Claire Brécheteau, Edouard Genetay, Timothee Mathieu, Adrien Saumard
article
ESAIM: Proceedings and Surveys, In press
Accès au texte intégral et bibtex
https://hal.science/hal-03605702/file/Session_Robust_Learning_ESAIM_PROC.pdf BibTex
titre
SofaGym: An open platform for Reinforcement Learning based on Soft Robot simulations
auteur
Etienne Ménager, Pierre Schegg, Elie Khairallah, Damien Marchal, Jérémie Dequidt, Philippe Preux, Christian Duriez
article
Soft Robotics, In press
Accès au texte intégral et bibtex
https://inria.hal.science/hal-03778189/file/SofaGym.pdf BibTex
titre
Collaborative Algorithms for Online Personalized Mean Estimation
auteur
Mahsa Asadi, Aurélien Bellet, Odalric-Ambrym Maillard, Marc Tommasi
article
Transactions on Machine Learning Research Journal, 2022
Accès au texte intégral et bibtex
https://inria.hal.science/hal-03905917/file/tmlr.pdf BibTex

Conference papers

titre
Better state exploration using action sequence equivalence
auteur
Nathan Grinsztajn, Toby Johnstone, Johan Ferret, Philippe Preux
article
NeurIPS 2022 – Deep Reinforcement Learning Workshop, Dec 2022, Virtual, United States
Accès au texte intégral et bibtex
https://inria.hal.science/hal-03920349/file/iclr2023_conference.pdf BibTex
titre
Near-Optimal Collaborative Learning in Bandits
auteur
Clémence Réda, Sattar Vakili, Emilie Kaufmann
article
NeurIPS 2022 – 36th Conference on Neural Information Processing System, Dec 2022, New Orleans, United States
Accès au texte intégral et bibtex
https://hal.science/hal-03825099/file/RVK22.pdf BibTex
titre
When Privacy Meets Partial Information: A Refined Analysis of Differentially Private Bandits
auteur
Achraf Azize, Debabrota Basu
article
Advances in Neural Information Processing Systems, Dec 2022, New Orleans, United States
Accès au texte intégral et bibtex
https://hal.science/hal-03781600/file/When_Privacy_Meets_Partial_Information-2.pdf BibTex
titre
On Elimination Strategies for Bandit Fixed-Confidence Identification
auteur
Andrea Tirinzoni, Rémy Degenne
article
NeurIPS 2022 – 36th Conference on Neural Information Processing System, Nov 2022, New Orleans, United States
Accès au bibtex
https://arxiv.org/pdf/2205.10936 BibTex
titre
Top Two Algorithms Revisited
auteur
Marc Jourdan, Rémy Degenne, Dorian Baudry, Rianne de Heide, Emilie Kaufmann
article
NeurIPS 2022 – 36th Conference on Neural Information Processing System, Nov 2022, New Orleans, United States
Accès au texte intégral et bibtex
https://hal.science/hal-03825103/file/npbai.pdf BibTex
titre
IMED-RL: Regret optimal learning of ergodic Markov decision processes
auteur
Fabien Pesquerel, Odalric-Ambrym Maillard
article
NeurIPS 2022 – Thirty-sixth Conference on Neural Information Processing Systems, Nov 2022, New-Orleans, United States
Accès au texte intégral et bibtex
https://hal.science/hal-03825423/file/IMED_RL_pesquerel_neurips.pdf BibTex
titre
Near Instance-Optimal PAC Reinforcement Learning for Deterministic MDPs
auteur
Andrea Tirinzoni, Aymen Al-Marjani, Emilie Kaufmann
article
NeurIPS 2022 – 36th Conference on Neural Information Processing System, Nov 2022, New Orleans, United States
Accès au texte intégral et bibtex
https://hal.science/hal-03825101/file/TAMK22.pdf BibTex
titre
On Meritocracy in Optimal Set Selection
auteur
Thomas Kleine Buening, Meirav Segal, Debabrota Basu, Anne-Marie George, Christos Dimitrakakis
article
EAAMO 2022- Equity and Access in Algorithms, Mechanisms, and Optimization, ACM, Oct 2022, Arlington, United States
Accès au bibtex
https://arxiv.org/pdf/2102.11932 BibTex
titre
Risk-aware linear bandits with convex loss
auteur
Patrick Saux, Odalric-Ambrym Maillard
article
European Workshop on Reinforcement Learning, Sep 2022, Milan, Italy
Accès au texte intégral et bibtex
https://hal.science/hal-03776680/file/main.pdf BibTex
titre
Near Instance-Optimal PAC Reinforcement Learning for Deterministic MDPs
auteur
Andrea Tirinzoni, Aymen Al-Marjani, Emilie Kaufmann
article
EWRL 2022 – European Workshop on Reinforcement Learning, Sep 2022, Milan, Italy
Accès au texte intégral et bibtex
https://hal.science/hal-03767412/file/eprl_ewrl.pdf BibTex
titre
Optimistic PAC Reinforcement Learning: the Instance-Dependent View
auteur
Andrea Tirinzoni, Aymen Al-Marjani, Emilie Kaufmann
article
EWRL 2022 – European Workshop on Reinforcement Learning, Sep 2022, Milan, Italy
Accès au texte intégral et bibtex
https://hal.science/hal-03767409/file/bpi_ucrl.pdf BibTex
titre
UDO: Universal Database Optimization using Reinforcement Learning
auteur
Junxiong Wang, Immanuel Trummer, Debabrota Basu
article
Proceedings of the VLDB Endowment, Sep 2022, Sydney, Australia. pp.3402-3414, ⟨10.14778/3484224.3484236⟩
Accès au bibtex
https://arxiv.org/pdf/2104.01744 BibTex
titre
SENTINEL: Taming Uncertainty with Ensemble-based Distributional Reinforcement Learning
auteur
Hannes Eriksson, Debabrota Basu, Mina Alibeigi, Christos Dimitrakakis
article
UAI 2022- Proceedings of the Thirty-Eighth Conference on Uncertainty in Artificial Intelligence, Aug 2022, Eindhoven, Netherlands. pp.631-640
Accès au texte intégral et bibtex
https://hal.science/hal-03150823/file/eriksson22a-supp.pdf BibTex
titre
Survey on Large Scale Neural Network Training
auteur
Julia Gusak, Daria Cherniuk, Alena Shilova, Alexandr Katrutsa, Daniel Bershatsky, Xunyi Zhao, Lionel Eyraud-Dubois, Oleh Shliazhko, Denis Dimitrov, Ivan Oseledets, Olivier Beaumont
article
IJCAI-ECAI 2022 – 31st International Joint Conference on Artificial Intelligence, Jul 2022, Vienna, Austria. pp.5494-5501, ⟨10.24963/ijcai.2022/769⟩
Accès au texte intégral et bibtex
https://inria.hal.science/hal-03952171/file/ijcai2022_survey_large_scale_model_training-1.pdf BibTex
titre
Meta-learning from Learning Curves: Challenge Design and Baseline Results
auteur
Manh Hung Nguyen, Lisheng Sun-Hosoya, Nathan Grinsztajn, Isabelle Guyon
article
IJCNN 2022 – International Joint Conference on Neural Networks, Jul 2022, Padua, Italy. pp.1-8, ⟨10.1109/IJCNN55064.2022.9892534⟩
Accès au texte intégral et bibtex
https://hal.science/hal-03740118/file/conference_101719.pdf BibTex
titre
Choosing Answers in epsilon-Best-Answer Identification for Linear Bandits
auteur
Rémy Degenne, Marc Jourdan
article
39th International Conference on Machine Learning (ICML 2022), Jul 2022, Baltimore, United States
Accès au bibtex
https://arxiv.org/pdf/2206.04456 BibTex
titre
SAAC: Safe Reinforcement Learning as an Adversarial Game of Actor-Critics
auteur
Yannis Flet-Berliac, Debabrota Basu
article
RLDM 2022 – The Multi-disciplinary Conference on Reinforcement Learning and Decision Making, Jun 2022, Providence, United States
Accès au texte intégral et bibtex
https://hal.science/hal-03771734/file/saac%20arxiv.pdf BibTex
titre
MadPipe: Memory Aware Dynamic Programming Algorithm for Pipelined Model Parallelism
auteur
Olivier Beaumont, Lionel Eyraud-Dubois, Alena Shilova
article
ScaDL 2022 – Scalable Deep Learning over Parallel and Distributed Infrastructure – An IPDPS 2022 Workshop, Jun 2022, Lyon / Virtual, France
Accès au texte intégral et bibtex
https://hal.science/hal-03025305/file/MadPipeRR.pdf BibTex
titre
Risk-Sensitive Bayesian Games for Multi-Agent Reinforcement Learning under Policy Uncertainty
auteur
Hannes Eriksson, Debabrota Basu, Mina Alibeigi, Christos Dimitrakakis
article
OptLearnMAS@AAMAS, May 2022, Virtual, New Zealand
Accès au bibtex
https://arxiv.org/pdf/2203.10045 BibTex
titre
Automated planning for robotic guidewire navigation in the coronary arteries
auteur
Pierre Schegg, Jérémie Dequidt, Eulalie Coevoet, Edouard Leurent, Rémi Sabatier, Philippe Preux, Christian Duriez
article
Robosoft 2022 – International Conference on Soft Robotics, Apr 2022, Edimbourg, United Kingdom
Accès au texte intégral et bibtex
https://inria.hal.science/hal-03778352/file/Automated_planning_for_robotic_guidewire_navigation_in_the_coronary_arteries.pdf BibTex
titre
Efficient Algorithms for Extreme Bandits
auteur
Dorian Baudry, Yoan Russac, Emilie Kaufmann
article
International conference on Artificial Intelligence and Statistics (AISTATS), Mar 2022, Virtual Conference, Spain
Accès au texte intégral et bibtex
https://hal.science/hal-03741302/file/RBK22.pdf BibTex
titre
Interpretable Knowledge Tracing: Simple and Efficient Student Modeling with Causal Relations
auteur
Sein Minn, Jill-Jênn Vie, Koh Takeuchi, Hisashi Kashima, Feida Zhu
article
Proceedings of the AAAI Conference on Artificial Intelligence, Feb 2022, Vancouver, Canada. pp.12810-12818, ⟨10.1609/aaai.v36i11.21560⟩
Accès au texte intégral et bibtex
https://inria.hal.science/hal-03895625/file/IKT_EAAI.pdf BibTex
titre
Algorithmic fairness verification with graphical models
auteur
Bishwamittra Ghosh, Debabrota Basu, Kuldeep S. Meel
article
AAAI-2022 – 36th AAAI Conference on Artificial Intelligence, Feb 2022, Virtual, United States
Accès au texte intégral et bibtex
https://hal.science/hal-03770361/file/2109.09447.pdf BibTex
titre
Offline Reinforcement Learning as Anti-Exploration
auteur
Shideh Rezaeifar, Robert Dadashi, Nino Vieillard, Léonard Hussenot, Olivier Bachem, Olivier Pietquin, Matthieu Geist
article
AAAI 2022 – 36th AAAI Conference on Artificial Intelligence, Association for the Advancement of Artificial Intelligence (AAAI), Feb 2022, Vancouver, Canada
Accès au bibtex
https://arxiv.org/pdf/2106.06431 BibTex
titre
Procrastinated Tree Search: Black-box Optimization with Delayed, Noisy, and Multi-fidelity Feedback
auteur
Junxiong Wang, Debabrota Basu, Immanuel Trummer
article
AAAI Conference on Artificial Intelligence, Feb 2022, Virtual, United States. pp.10381-10390
Accès au texte intégral et bibtex
https://hal.science/hal-03445909/file/2110.07232v2%20%281%29.pdf BibTex

Book sections

titre
Foundations and state of the art
auteur
Nathalie Mitton, Ludovic Brossard, Tassadit Bouadi, Frédérick Garcia, Romain Gautron, Nadine Hilgert, Dino Ienco, Christine Largouët, Evelyne Lutton, Véronique Masson, Roger Martin-Clouaire, Marie-Laure Mugnier, Pascal Neveu, Philippe Preux, Helene Raynal, Catherine Roussey, Alexandre Termier, Véronique Bellon Maurel
article
Agriculture and Digital Technology: Getting the most out of digital technology to contribute to the transition to sustainable agriculture and food systems, 6, INRIA, pp.30-75, 2022, White book Inrira
Accès au texte intégral et bibtex
https://hal.inrae.fr/hal-03609470/file/Chap3_Bellon-Maurel_2022_White_Book.pdf BibTex
titre
De l’échantillonnage adaptatif à la résolution de jeux
auteur
Nathanaël Fijalkow, Emilie Kaufmann
article
Informatique Mathématique Une photographie en 2022, 2022
Accès au texte intégral et bibtex
https://hal.science/hal-04152484/file/ejcim.pdf BibTex

Poster communications

titre
Petits jeux de données et prédiction en Intelligence Artificielle, vers une meilleure cohabitation : Application à la gestion durable de l’enherbement des systèmes agricoles à La Réunion
auteur
Frédérick Fabre Ferber, Jean Diatta, Jean-Christophe Soulié, Dominique Gay, Odalric-Ambrym Maillard, Thomas Le Bourgeois, Sandrine Auzoux
article
Comité scientifique et technique du DPP CapTerre, Nov 2022, Saint-Leu de La Réunion, Réunion
Accès au texte intégral et bibtex
https://hal.science/hal-03971262/file/CST-%202022%20-%20V3-FFF.pdf BibTex

Reports

titre
Entropy Regularized Reinforcement Learning with Cascading Networks
auteur
Riccardo Della Vecchia, Alena Shilova, Philippe Preux, Riad Akrour
article
[Research Report] 7003, Inria Lille Nord Europe – Laboratoire CRIStAL – Université de Lille. 2022, pp.16
Accès au texte intégral et bibtex
https://hal.science/hal-03793130/file/MirrorRL-9.pdf BibTex
titre
gym-DSSAT: a crop model turned into a Reinforcement Learning environment
auteur
Romain Gautron, Emilio J. Padrón, Philippe Preux, Julien Bigot, Odalric-Ambrym Maillard, David Emukpere
article
[Research Report] RR-9460, Inria Lille. 2022, pp.31
Accès au texte intégral et bibtex
https://inria.hal.science/hal-03711132/file/RR-9460.pdf BibTex
titre
An Integer Linear Programming Approach for Pipelined Model Parallelism
auteur
Olivier Beaumont, Lionel Eyraud-Dubois, Alena Shilova
article
[Research Report] RR-9452, Inria. 2022
Accès au texte intégral et bibtex
https://inria.hal.science/hal-03549009/file/RR-9452.pdf BibTex

Theses

titre
Structure adaptation in bandit theory
auteur
Hassan Saber
article
Artificial Intelligence [cs.AI]. Université de Lille, 2022. English. ⟨NNT : 2022ULILB049⟩
Accès au texte intégral et bibtex
https://theses.hal.science/tel-04143097/file/These_SABER_Hassan.pdf BibTex
titre
Apprentissage par démonstrations : transfert des motivations humaines aux algorithmes
auteur
Léonard Hussenot
article
Artificial Intelligence [cs.AI]. Université de Lille, 2022. English. ⟨NNT : 2022ULILB043⟩
Accès au texte intégral et bibtex
https://theses.hal.science/tel-04130285/file/These_HUSSENOT_Leonard.pdf BibTex
titre
Combination of gene regulatory networks and sequential machine learning for drug repurposing
auteur
Clémence Réda
article
Genetics. Université Paris Cité, 2022. English. ⟨NNT : 2022UNIP5057⟩
Accès au texte intégral et bibtex
https://hal.science/tel-03846072/file/va_Reda_Clemence.pdf BibTex
titre
Goal-oriented exploration for reinforcement learning
auteur
Jean Tarbouriech
article
Artificial Intelligence [cs.AI]. Université de Lille, 2022. English. ⟨NNT : 2022ULILB014⟩
Accès au texte intégral et bibtex
https://theses.hal.science/tel-03947676/file/These_TARBOURIECH_Jean.pdf BibTex
titre
On actions that matter : credit assignment and interpretability in reinforcement learning
auteur
Johan Ferret
article
Artificial Intelligence [cs.AI]. Université de Lille, 2022. English. ⟨NNT : 2022ULILB018⟩
Accès au texte intégral et bibtex
https://theses.hal.science/tel-03958482/file/These_FERRET_Johan.pdf BibTex

Preprints, Working Papers, …

titre
Meta-learning from Learning Curves Challenge: Lessons learned from the First Round and Design of the Second Round
auteur
Manh Hung Nguyen, Lisheng Sun, Nathan Grinsztajn, Isabelle Guyon
article
2022
Accès au texte intégral et bibtex
https://hal.science/hal-03725313/file/main.pdf BibTex
titre
Bandits Corrupted by Nature: Lower Bounds on Regret and Robust Optimistic Algorithm
auteur
Debabrota Basu, Odalric-Ambrym Maillard, Timothée Mathieu
article
2022
Accès au texte intégral et bibtex
https://hal.science/hal-03611816/file/main.pdf BibTex
titre
Weight Offloading Strategies for Training Large DNN Models
auteur
Olivier Beaumont, Lionel Eyraud-Dubois, Alena Shilova, Xunyi Zhao
article
2022
Accès au texte intégral et bibtex
https://inria.hal.science/hal-03580767/file/rr.pdf BibTex

2021

Journal articles

titre
Mixture Martingales Revisited with Applications to Sequential Tests and Confidence Intervals
auteur
Emilie Kaufmann, Wouter M. Koolen
article
Journal of Machine Learning Research, 2021
Accès au texte intégral et bibtex
https://hal.science/hal-01886612/file/KK21.pdf BibTex
titre
Non-Asymptotic Sequential Tests for Overlapping Hypotheses and application to near optimal arm identification in bandit models
auteur
Aurélien Garivier, Emilie Kaufmann
article
Sequential Analysis, 2021
Accès au texte intégral et bibtex
https://hal.science/hal-02123833/file/GK_SQA.pdf BibTex
titre
Deep Learning for Deep Waters: An Expert-in-the-Loop Machine Learning Framework for Marine Sciences
auteur
Igor Ryazanov, Amanda Nylund, Debabrota Basu, Ida-Maja Hassellöv, Alexander Schliep
article
Journal of Marine Science and Engineering, 2021, 9 (2), pp.169. ⟨10.3390/jmse9020169⟩
Accès au bibtex
BibTex
titre
Fast sampling from beta-ensembles
auteur
Guillaume Gautier, Rémi Bardenet, Michal Valko
article
Statistics and Computing, 2021, 31 (7), ⟨10.1007/s11222-020-09984-0⟩
Accès au bibtex
https://arxiv.org/pdf/2003.02344 BibTex
titre
On Multi-Armed Bandit Designs for Dose-Finding Trials
auteur
Maryam Aziz, Emilie Kaufmann, Marie-Karelle Riviere
article
Journal of Machine Learning Research, 2021
Accès au texte intégral et bibtex
https://hal.science/hal-02533297/file/AKR_ClinicalTrials20.pdf https://hal.science/hal-02533297/file/doses.pdf https://hal.science/hal-02533297/file/doses2.pdf BibTex

Conference papers

titre
Stochastic Online Linear Regression: the Forward Algorithm to Replace Ridge
auteur
Reda Ouhamma, Odalric Maillard, Vianney Perchet
article
NeurIPS 2021 – 35th International Conference on Neural Information Processing Systems, Dec 2021, Virtual, Canada
Accès au texte intégral et bibtex
https://inria.hal.science/hal-03410901/file/Neurips_Forward_Algo.pdf BibTex
titre
From Optimality to Robustness: Dirichlet Sampling Strategies in Stochastic Bandits
auteur
Dorian Baudry, Patrick Saux, Odalric-Ambrym Maillard
article
NeurIPS 2021 – 35th International Conference on Neural Information Processing Systems, Dec 2021, Sydney, Australia
Accès au texte intégral et bibtex
https://hal.science/hal-03421252/file/main.pdf BibTex
titre
Online Sign Identification: Minimization of the Number of Errors in Thresholding Bandits
auteur
Reda Ouhamma, Rémy Degenne, Pierre Gaillard, Vianney Perchet
article
NeurIPS 2021 – 35th International Conference on Neural Information Processing Systems, Dec 2021, Virtual, Canada. pp.1-25
Accès au texte intégral et bibtex
https://inria.hal.science/hal-03363014/file/neurips_2021.pdf BibTex
titre
Stochastic bandits with groups of similar arms
auteur
Fabien Pesquerel, Hassan Saber, Odalric-Ambrym Maillard
article
NeurIPS 2021 – Thirty-fifth Conference on Neural Information Processing Systems, Dec 2021, Sydney, Australia
Accès au texte intégral et bibtex
https://hal.science/hal-03427597/file/Neurips_Submission.pdf BibTex
titre
Stochastic Shortest Path: Minimax, Parameter-Free and Towards Horizon-Free Regret
auteur
Jean Tarbouriech, Runlong Zhou, Simon S Du, Matteo Pirotta, Michal Valko, Alessandro Lazaric
article
Neural Information Processing Systems (NeurIPS), Dec 2021, Virtual/Sydney, Australia
Accès au texte intégral et bibtex
https://inria.hal.science/hal-03479782/file/Stochastic%20Shortest%20Path.pdf BibTex
titre
A Provably Efficient Sample Collection Strategy for Reinforcement Learning
auteur
Jean Tarbouriech, Matteo Pirotta, Michal Valko, Alessandro Lazaric
article
Neural Information Processing Systems (NeurIPS), Dec 2021, Virtual/Sydney, Australia
Accès au texte intégral et bibtex
https://inria.hal.science/hal-03479827/file/A%20Provably%20Efficient%20Sample%20Collection%20Strategy%20for%20Reinforcement%20Learning.pdf BibTex
titre
There Is No Turning Back: A Self-Supervised Approach for Reversibility-Aware Reinforcement Learning
auteur
Nathan Grinsztajn, Johan Ferret, Olivier Pietquin, Philippe Preux, Matthieu Geist
article
Neural Information Processing Systems (2021), Dec 2021, Virtual, France
Accès au texte intégral et bibtex
https://hal.science/hal-03454640/file/Reversibility_Aware_Reinforcement_Learning__NeurIPS_.pdf BibTex
titre
Reinforcement Learning in Linear MDPs: Constant Regret and Representation Selection
auteur
Matteo Papini, Andrea Tirinzoni, Aldo Pacchiano, Marcello Restilli, Alessandro Lazaric, Matteo Pirotta
article
Thirty-Fifth Conference on Neural Information Processing Systems, Dec 2021, Virtual, France
Accès au texte intégral et bibtex
https://inria.hal.science/hal-03479324/file/unisoft.pdf BibTex
titre
Indexed Minimum Empirical Divergence for Unimodal Bandits
auteur
Hassan Saber, Pierre Ménard, Odalric-Ambrym Maillard
article
NeurIPS 2021 – International Conference on Neural Information Processing Systems, Dec 2021, Virtual-only Conference, United States
Accès au texte intégral et bibtex
https://hal.science/hal-03446617/file/UnimodalBandits.pdf BibTex
titre
Routine Bandits: Minimizing Regret on Recurring Problems
auteur
Hassan Saber, Léo Saci, Odalric-Ambrym Maillard, Audrey Durand
article
ECML-PKDD 2021, Sep 2021, Bilbao, Spain
Accès au texte intégral et bibtex
https://hal.science/hal-03286539/file/ECML2021_RoutineBandits%20%28Camera-Ready%29.pdf BibTex
titre
MetaREVEAL: RL-based Meta-learning from Learning Curves
auteur
Manh Hung Nguyen, Nathan Grinsztajn, Isabelle Guyon, Lisheng Sun-Hosoya
article
Workshop on Interactive Adaptive Learning co-located with European Conference on Machine Learning and Principles and Practice of Knowledge Discovery in Databases (ECML PKDD 2021), Sep 2021, Bilbao/Virtual, Spain
Accès au texte intégral et bibtex
https://inria.hal.science/hal-03502358/file/MetaREVEAL.pdf BibTex
titre
READYS: A Reinforcement Learning Based Strategy for Heterogeneous Dynamic Scheduling
auteur
Nathan Grinsztajn, Olivier Beaumont, Emmanuel Jeannot, Philippe Preux
article
IEEE Cluster 2021, Sep 2021, Portland / Virtual, United States
Accès au texte intégral et bibtex
https://inria.hal.science/hal-03313229/file/cluster.pdf BibTex
titre
Mean Field Games Flock! The Reinforcement Learning Way
auteur
Sarah Perrin, Mathieu Laurière, Julien Pérolat, Matthieu Geist, Romuald Élie, Olivier Pietquin
article
IJCAI, Aug 2021, Montreal, Canada
Accès au bibtex
https://arxiv.org/pdf/2105.07933 BibTex
titre
Don’t Do What Doesn’t Matter: Intrinsic Motivation with Action Usefulness
auteur
Mathieu Seurin, Florian Strub, Philippe Preux, Olivier Pietquin
article
Internationnal Joint Conference on Artificial Intelligence (IJCAI), Aug 2021, Montreal, Canada. pp.2950–2956
Accès au texte intégral et bibtex
https://hal.science/hal-03259315/file/Rare_Actions_Matter_IJCAI.pdf BibTex
titre
On Limited-Memory Subsampling Strategies for Bandits
auteur
Dorian Baudry, Yoan Russac, Olivier Cappé
article
ICML 2021- International Conference on Machine Learning, Jul 2021, Vienna / Virtual, Austria
Accès au texte intégral et bibtex
https://hal.science/hal-03265442/file/main.pdf BibTex
titre
Kernel-based reinforcement Learning: A finite-time analysis
auteur
Omar D Domingues, Pierre Ménard, Matteo Pirotta, Emilie Kaufmann, Michal Valko
article
International Conference on Machine Learning, Jul 2021, Vienna / Virtual, Austria
Accès au texte intégral et bibtex
https://inria.hal.science/hal-02541790/file/domingues2021kernel-based.pdf BibTex
titre
Fast active learning for pure exploration in reinforcement learning
auteur
Pierre Ménard, Omar Darwiche Domingues, Emilie Kaufmann, Anders Jonsson, Edouard Leurent, Michal Valko
article
International Conference on Machine Learning, Jul 2021, Vienna, Austria
Accès au texte intégral et bibtex
https://inria.hal.science/hal-02906985/file/menard2021fast.pdf BibTex
titre
Optimal Thompson Sampling strategies for support-aware CVaR bandits
auteur
Dorian Baudry, Romain Gautron, Emilie Kaufmann, Odalric-Ambrym Maillard
article
38th International Conference on Machine Learning, Jul 2021, Virtual, United States
Accès au texte intégral et bibtex
https://hal.science/hal-03447244/file/main.pdf BibTex
titre
UCB Momentum Q-learning: Correcting the bias without forgetting
auteur
Pierre Ménard, Omar Darwiche Domingues, Xuedong Shang, Michal Valko
article
International Conference on Machine Learning, Jul 2021, Vienna / Virtual, Austria
Accès au texte intégral et bibtex
https://inria.hal.science/hal-03289033/file/menard2021ucb.pdf BibTex
titre
Offline Reinforcement Learning with Pseudometric Learning
auteur
Robert Dadashi, Shideh Rezaeifar, Nino Vieillard, Léonard Hussenot, Olivier Pietquin, Matthieu Geist
article
ICML 2021 – 38th International Conference on Machine Learning, Jun 2021, virtual, France
Accès au bibtex
https://arxiv.org/pdf/2103.01948 BibTex
titre
Demonstrating UDO: A Unified Approach for Optimizing Transaction Code, Physical Design, and System Parameters via Reinforcement Learning
auteur
Junxiong Wang, Immanuel Trummer, Debabrota Basu
article
SIGMOD/PODS ’21: International Conference on Management of Data, Jun 2021, Virtual Event, China. pp.2794-2797, ⟨10.1145/3448016.3452754⟩
Accès au bibtex
BibTex
titre
Low-Rank Projections of GCNs Laplacian
auteur
Nathan Grinsztajn, Philippe Preux, Edouard Oyallon
article
ICLR 2021 Workshop GTRL, May 2021, Online, France
Accès au texte intégral et bibtex
https://hal.science/hal-03248056/file/main.pdf BibTex
titre
Learning Value Functions in Deep Policy Gradients using Residual Variance
auteur
Yannis Flet-Berliac, Reda Ouhamma, Odalric-Ambrym Maillard, Philippe Preux
article
ICLR 2021 – International Conference on Learning Representations, May 2021, Vienna / Virtual, Austria
Accès au texte intégral et bibtex
https://hal.science/hal-02964174/file/iclr_avec.pdf BibTex
titre
Primal Wasserstein Imitation Learning
auteur
Robert Dadashi, Léonard Hussenot, Matthieu Geist, Olivier Pietquin
article
ICLR 2021 – Ninth International Conference on Learning Representations, May 2021, Vienna / Virtual, Austria
Accès au texte intégral et bibtex
https://inria.hal.science/hal-03162526/file/2006.04678.pdf BibTex
titre
Adversarially Guided Actor-Critic
auteur
Yannis Flet-Berliac, Johan Ferret, Olivier Pietquin, Philippe Preux, Matthieu Geist
article
ICLR 2021 – International Conference on Learning Representations, May 2021, Vienna / Virtual, Austria
Accès au texte intégral et bibtex
https://inria.hal.science/hal-03167169/file/AGAC.pdf BibTex
titre
What Matters In On-Policy Reinforcement Learning? A Large-Scale Empirical Study
auteur
Marcin Andrychowicz, Anton Raichuk, Piotr Stańczyk, Manu Orsini, Sertan Girgin, Raphaël Marinier, Léonard Hussenot, Matthieu Geist, Olivier Pietquin, Marcin Michalski, Sylvain Gelly, Olivier Bachem
article
ICLR 2021 – Ninth International Conference on Learning Representations, May 2021, Vienna / Virtual, Austria
Accès au texte intégral et bibtex
https://inria.hal.science/hal-03162554/file/2006.05990.pdf BibTex
titre
Self-Imitation Advantage Learning
auteur
Johan Ferret, Olivier Pietquin, Matthieu Geist
article
AAMAS 2021 – 20th International Conference on Autonomous Agents and Multiagent Systems, May 2021, Londres / Virtual, United Kingdom
Accès au texte intégral et bibtex
https://inria.hal.science/hal-03159815/file/2012.11989.pdf BibTex
titre
Show me the Way: Intrinsic Motivation from Demonstrations
auteur
Léonard Hussenot, Robert Dadashi, Matthieu Geist, Olivier Pietquin
article
AAMAS 2021 – 20th International Conference on Autonomous Agents and Multiagent Systems, May 2021, Virtual, United Kingdom
Accès au texte intégral et bibtex
https://inria.hal.science/hal-03162139/file/sample.pdf BibTex
titre
A kernel-based approach to non-stationary reinforcement learning in metric spaces
auteur
Omar D Domingues, Pierre Ménard, Matteo Pirotta, Emilie Kaufmann, Michal Valko
article
International Conference on Artificial Intelligence and Statistics, Apr 2021, San Diego / Virtual, United States
Accès au texte intégral et bibtex
https://inria.hal.science/hal-03289026/file/domingues2021kernel-based-non-stationary.pdf BibTex
titre
Episodic reinforcement learning in finite MDPs: Minimax lower bounds revisited
auteur
Omar Darwiche Domingues, Pierre Ménard, Emilie Kaufmann, Michal Valko
article
Algorithmic Learning Theory, Mar 2021, Paris / Virtual, France
Accès au texte intégral et bibtex
https://inria.hal.science/hal-03289004/file/domingues2021episodic.pdf BibTex
titre
Evaluating DAS3H on the EdNet Dataset
auteur
Benoît Choffin, Fabrice Popineau, Yolaine Bourda, Jill-Jênn Vie
article
AAAI 2021 – The 35th Conference on Artificial Intelligence / Imagining Post-COVID Education with AI, Feb 2021, Virtual, United States
Accès au texte intégral et bibtex
https://hal.science/hal-03175874/file/DAS3H_AAAI_2021_Workshop_on_AIED_HAL.pdf BibTex
titre
Justicia: A Stochastic SAT Approach to Formally Verify Fairness
auteur
Bishwamittra Ghosh, Debabrota Basu, Kuldeep S. Meel
article
AAAI Conference on Artificial Intelligence, Feb 2021, Virtual, Canada. pp.7554-7563
Accès au bibtex
https://arxiv.org/pdf/2009.06516 BibTex
titre
Improved Exploration in Factored Average-Reward MDPs
auteur
Sadegh Talebi, Anders Jonsson, Odalric-Ambrym Maillard
article
24th International Conference on Artificial Intelligence and Statistics, 2021, San diego (virtual), United States
Accès au texte intégral et bibtex
https://hal.science/hal-03780564/file/talebi21a.pdf BibTex
titre
Dealing With Misspecification In Fixed-Confidence Linear Top-m Identification
auteur
Clémence Réda, Andrea Tirinzoni, Rémy Degenne
article
35th Conference on Neural Information Processing Systems, 2021, Virtual, France
Accès au texte intégral et bibtex
https://hal.science/hal-03409205/file/reda2021dealing.pdf BibTex
titre
Sample complexity bounds for stochastic shortest path with a generative model
auteur
Jean Tarbouriech, Matteo Pirotta, Michal Valko, Alessandro Lazaric
article
Algorithmic Learning Theory, 2021, Paris, France
Accès au texte intégral et bibtex
https://inria.hal.science/hal-03288988/file/tarbouriech2021sample.pdf BibTex
titre
Reinforcement Learning in Parametric MDPs with Exponential Families
auteur
Sayak Ray Chowdhury, Aditya Gopalan, Odalric-Ambrym Maillard
article
International Conference on Artificial Intelligence and Statistics, 2021, San diego, United States. pp.1855-1863
Accès au texte intégral et bibtex
https://hal.science/hal-03472116/file/chowdhury21b.pdf BibTex
titre
Adaptive reward-free exploration
auteur
Emilie Kaufmann, Pierre Ménard, Omar Darwiche Domingues, Anders Jonsson, Edouard Leurent, Michal Valko
article
Algorithmic Learning Theory, 2021, Paris, France
Accès au texte intégral et bibtex
https://hal.science/hal-02864574/file/arxiv_rf.pdf BibTex
titre
Top-m identification for linear bandits
auteur
Clémence Réda, Emilie Kaufmann, Andrée Delahaye-Duriez
article
Proceedings of the 24th International Conference on Artificial Intelligence and Statistics (AISTATS), 2021, Virtual, United States
Accès au texte intégral et bibtex
https://hal.science/hal-03172145/file/reda2021top.pdf BibTex

Book sections

titre
Federated Learning of Oligonucleotide Drug Molecule Thermodynamics with Differentially Private ADMM-Based SVM
auteur
Shirin Tavara, Alexander Schliep, Debabrota Basu
article
Machine Learning and Principles and Practice of Knowledge Discovery in Databases, 1525, Springer International Publishing; Springer International Publishing, pp.459-467, 2021, Communications in Computer and Information Science, ⟨10.1007/978-3-030-93733-1_34⟩
Accès au bibtex
BibTex

Theses

titre
Sample-efficient deep reinforcement learning for control, exploration and safety
auteur
Yannis Flet-Berliac
article
Machine Learning [cs.LG]. Université de Lille, 2021. English. ⟨NNT : 2021LILUB009⟩
Accès au texte intégral et bibtex
https://theses.hal.science/tel-03526401/file/These_FLET-BERLIAC_Yannis.pdf BibTex
titre
Adaptive methods for optimization in stochastic environments
auteur
Xuedong Shang
article
Artificial Intelligence [cs.AI]. Université de Lille, 2021. English. ⟨NNT : 2021LILUB007⟩
Accès au texte intégral et bibtex
https://theses.hal.science/tel-03466525/file/These_SHANG_Xuedong.pdf BibTex

Preprints, Working Papers, …

titre
VISUALHINTS: A Visual-Lingual Environment for Multimodal Reinforcement Learning
auteur
Thomas Carta, Subhajit Chaudhury, Kartik Talamadupula, Michiaki Tatsubori
article
2021
Accès au texte intégral et bibtex
https://hal.science/hal-03466647/file/VISUALHINTS%20A%20Visual-Lingual%20Environment%20forMultimodal%20Reinforcement%20Learning.pdf BibTex
titre
Generalization in Mean Field Games by Learning Master Policies
auteur
Sarah Perrin, Mathieu Laurière, Julien Pérolat, Romuald Élie, Matthieu Geist, Olivier Pietquin
article
2021
Accès au bibtex
https://arxiv.org/pdf/2109.09717 BibTex
titre
Solving N-player dynamic routing games with congestion: a mean field approach
auteur
Theophile Cabannes, Mathieu Lauriere, Julien Perolat, Raphael Marinier, Sertan Girgin, Sarah Perrin, Olivier Pietquin, Alexandre M. Bayen, Eric Goubault, Romuald Elie
article
2021
Accès au bibtex
https://arxiv.org/pdf/2110.11943 BibTex
titre
Scaling up Mean Field Games with Online Mirror Descent
auteur
Julien Perolat, Sarah Perrin, Romuald Elie, Mathieu Laurière, Georgios Piliouras, Matthieu Geist, Karl Tuyls, Olivier Pietquin
article
2021
Accès au bibtex
https://arxiv.org/pdf/2103.00623 BibTex
titre
Concave Utility Reinforcement Learning: the Mean-field Game viewpoint
auteur
Matthieu Geist, Julien Pérolat, Mathieu Laurière, Romuald Elie, Sarah Perrin, Olivier Bachem, Rémi Munos, Olivier Pietquin
article
2021
Accès au bibtex
https://arxiv.org/pdf/2106.03787 BibTex
titre
Interferometric Graph Transform for Community Labeling
auteur
Nathan Grinsztajn, Louis Leconte, Philippe Preux, Edouard Oyallon
article
2021
Accès au texte intégral et bibtex
https://hal.science/hal-03247781/file/hal_version.pdf BibTex

2020

Journal articles

titre
International electronic health record-derived COVID-19 clinical course profiles: the 4CE consortium
auteur
Gabriel A. Brat, Griffin M. Weber, Nils Gehlenborg, Paul Avillach, Nathan P. Palmer, Luca Chiovato, James Cimino, Brett K. Beaulieu-Jones, Sehi L’Yi, Mark S. Keller, Douglas S. Bell, Robert W. Follett, Lav P. Patel, Anne Sophie Jannot, Lemuel R. Waitman, Gilbert Omenn, Alberto Malovini, Jason H. Moore, Valentina Tibollo, Shawn N Murphy, Riccardo Bellazzi, David A Hanauer, Arnaud Serret-Larmande, Alba Gutierrez-Sacristan, John J Holmes, Douglas Bell, Kenneth D. Mandl, Jeffrey G Klann, Douglas A Murad, Luigia Scudeller, Mauro Bucalo, Katie Kirchoff, Jean Craig, Jihad Obeid, Vianney Jouhet, Romain Griffier, Sébastien Cossin, Bertrand Moal, Antonio Bellasi, Hans U Prokosch, Detlef Kraska, Piotr Sliz, Amelia L.M. Tan, Kee Yuan Ngiam, Alberto Zambelli, Danielle L Mowery, Emily Schiver, Batsal Devkota, Robert Bradford, Mohamad Daniar, Christel Daniel, Vincent Benoit, Romain Bey, Nicolas Paris, Patricia Serre, Nina Orlova, Julien Dubiel, Martin Hilka, Stephane Breant, Judith Leblanc, Nicolas Griffon, Anita Burgun, Melodie Bernaux, Arnaud Sandrin, Elisa Salamanca, Sylvie Cormont, Thomas Ganslandt, Tobias Gradinger, Julien Champ, Martin Boeker, Patricia Martel, Loïc Estève, Alexandre Gramfort, Olivier Grisel, Damien Leprovost, Thomas Moreau, Gael Varoquaux, Jill-Jênn Vie, Demian Wassermann, Arthur Mensch, Charlotte Caucheteux, Christian Haverkamp, Guillaume Lemaître, Silvano Bosari, Andrew South, Tianxi Cai, Isaac Kohane
article
npj Digital Medicine, 2020, 3 (1), pp.#109. ⟨10.1038/s41746-020-00308-0⟩
Accès au texte intégral et bibtex
https://hal.science/hal-02918344/file/covid_ehr.pdf BibTex
titre
Interdisciplinary Research in Artificial Intelligence: Challenges and Opportunities
auteur
Remy Kusters, Dusan Misevic, Hugues Berry, Antoine Cully, Yann Le Cunff, Loic Dandoy, Natalia Díaz-Rodríguez, Marion Ficher, Jonathan Grizou, Alice Othmani, Themis Palpanas, Matthieu Komorowski, Patrick Loiseau, Clément Moulin-Frier, Santino Nanini, Daniele Quercia, Michele Sebag, Françoise Soulié Fogelman, Sofiane Taleb, Liubov Tupikina, Vaibhav Sahu, Jill-Jênn Vie, Fatima Wehbi
article
Frontiers in Big Data, 2020, 3, ⟨10.3389/fdata.2020.577974⟩
Accès au texte intégral et bibtex
https://inria.hal.science/hal-03111148/file/pdf BibTex
titre
Spectral bandits
auteur
Tomáš Kocák, Rémi Munos, Branislav Kveton, Shipra Agrawal, Michal Valko
article
Journal of Machine Learning Research, 2020
Accès au texte intégral et bibtex
https://inria.hal.science/hal-03084249/file/kocak2020spectral.pdf BibTex
titre
Machine learning applications in drug development
auteur
Clémence Réda, Emilie Kaufmann, Andrée Delahaye-Duriez
article
Computational and Structural Biotechnology Journal, 2020, 18, pp.241-252. ⟨10.1016/j.csbj.2019.12.006⟩
Accès au texte intégral et bibtex
https://hal.science/hal-02533303/file/RKD20_CSBJ.pdf BibTex
titre
The challenge of controlling microgrids in the presence of rare events with Deep Reinforcement Learning
auteur
Tanguy Levent, Philippe Preux, Gonzague Henri, Réda Alami, Philippe Cordier, Yvan Bonnassieux
article
IET Smart Grid, In press, ⟨10.1049/stg2.12003⟩
Accès au texte intégral et bibtex
https://hal.science/hal-02971554/file/stg2.12003.pdf BibTex

Conference papers

titre
Robust-Adaptive Interval Predictive Control for Linear Uncertain Systems
auteur
Edouard Leurent, Denis Efimov, Odalric-Ambrym Maillard
article
CDC 2020 – 59th IEEE Conference on Decision and Control, Dec 2020, Jeju Island / Virtual, South Korea
Accès au texte intégral et bibtex
https://inria.hal.science/hal-02942414/file/CDC20_Edouard.pdf BibTex
titre
Inferential Induction: A Novel Framework for Bayesian Reinforcement Learning
auteur
Emilio Jorge, Hannes Eriksson, Christos Dimitrakakis, Debabrota Basu, Divya Grover
article
“I Can’t Believe It’s Not Better!” at NeurIPS Workshops, Dec 2020, Vancouver, Canada. pp.43-52
Accès au texte intégral et bibtex
https://hal.science/hal-03125100/file/inferential_induction_a_novel_framework_for_bayesian_reinforcement_learning.pdf BibTex
titre
Sub-sampling for Efficient Non-Parametric Bandit Exploration
auteur
Dorian Baudry, Emilie Kaufmann, Odalric-Ambrym Maillard
article
NeurIPS 2020, Dec 2020, Vancouver, Canada
Accès au texte intégral et bibtex
https://hal.science/hal-02977552/file/sda_hal.pdf BibTex
titre
Robust-Adaptive Control of Linear Systems: beyond Quadratic Costs
auteur
Edouard Leurent, Denis Efimov, Odalric-Ambrym Maillard
article
NeurIPS 2020 – 34th Conference on Neural Information Processing Systems, Dec 2020, Vancouver / Virtual, Canada
Accès au texte intégral et bibtex
https://inria.hal.science/hal-03004060/file/main.pdf BibTex
titre
Statistical efficiency of Thompson sampling for combinatorial semi-bandits
auteur
Pierre Perrault, Etienne Boursier, Vianney Perchet, Michal Valko
article
Neural Information Processing Systems, Dec 2020, Virtual, France
Accès au bibtex
https://arxiv.org/pdf/2006.06613 BibTex
titre
HIGhER: Improving instruction following with Hindsight Generation for Experience Replay
auteur
Geoffrey Cideron, Mathieu Seurin, Florian Strub, Olivier Pietquin
article
ADPRL 2020 – IEEE SSCI Conference on Adaptive Dynamic Programming and Reinforcement Learning, Dec 2020, Camberra / Virtual, Australia
Accès au texte intégral et bibtex
https://hal.science/hal-03123981/file/HIGhER___ADPRL.pdf BibTex
titre
Geometric Deep Reinforcement Learning for Dynamic DAG Scheduling
auteur
Nathan Grinsztajn, Olivier Beaumont, Emmanuel Jeannot, Philippe Preux
article
IEEE SSCI 2020 – Symposium Series on Computational Intelligence, Dec 2020, Canberra / Virtual, Australia
Accès au texte intégral et bibtex
https://inria.hal.science/hal-03028981/file/HPC_ADPRL.pdf BibTex
titre
Confidentialité différentielle à risque : Relier les sources d’aléa et un budget de confidentialité
auteur
Ashish Dandekar, Debabrota Basu, Pierre Senellart, Stéphane Bressan
article
BDA 2020 – 36ème Conférence sur la Gestion de Données – Principes, Technologies et Applications, Oct 2020, Paris / Virtuel, France
Accès au texte intégral et bibtex
https://inria.hal.science/hal-03103528/file/BDA.pdf BibTex
titre
A Machine of Few Words Interactive Speaker Recognition with Reinforcement Learning
auteur
Mathieu Seurin, Florian Strub, Philippe Preux, Olivier Pietquin
article
Conference of the International Speech Communication Association (INTERSPEECH), Oct 2020, Shanghai, China. ⟨10.21437/Interspeech.2020-2892⟩
Accès au texte intégral et bibtex
https://hal.science/hal-03123999/file/Interspeech_2020.pdf BibTex
titre
A Practical Algorithm for Multiplayer Bandits when Arm Means Vary Among Players
auteur
Etienne Boursier, Emilie Kaufmann, Abbas Mehrabian, Vianney Perchet
article
AISTATS 2020 – 23rd International Conference on Artificial Intelligence and Statistics, Aug 2020, Palermo, Italy
Accès au texte intégral et bibtex
https://hal.science/hal-02006069/file/aistats20.pdf BibTex
titre
A single algorithm for both restless and rested rotting bandits
auteur
Julien Seznec, Pierre Menard, Alessandro Lazaric, Michal Valko
article
International Conference on Artificial Intelligence and Statistics, Aug 2020, Palermo / Virtual, Italy
Accès au texte intégral et bibtex
https://inria.hal.science/hal-03287835/file/seznec2020single.pdf BibTex
titre
Gamification of pure exploration for linear bandits
auteur
Rémy Degenne, Pierre Ménard, Xuedong Shang, Michal Valko
article
ICML 2020 – International Conference on Machine Learning, Aug 2020, Vienna / Virtual, Austria
Accès au texte intégral et bibtex
https://hal.science/hal-02884330/file/supp.pdf BibTex
titre
I’m sorry Dave, I’m afraid I can’t do that” Deep Q-Learning From Forbidden Actions
auteur
Mathieu Seurin, Philippe Preux, Olivier Pietquin
article
Internationnal Joint Conference on Neural Networks, Jul 2020, Glasgow, United Kingdom
Accès au texte intégral et bibtex
https://inria.hal.science/hal-02387419/file/Dave_IJCNN.pdf BibTex
titre
Self-Attentional Credit Assignment for Transfer in Reinforcement Learning
auteur
Johan Ferret, Raphaël Marinier, Matthieu Geist, Olivier Pietquin
article
IJCAI 2020 – 29th International Joint Conference on Artificial Intelligence, Jul 2020, Yokohama / Virtual, Japan
Accès au texte intégral et bibtex
https://inria.hal.science/hal-03159832/file/Credit_Alignment_HAL%20%281%29.pdf BibTex
titre
Only Relevant Information Matters: Filtering Out Noisy Samples to Boost RL
auteur
Yannis Flet-Berliac, Philippe Preux
article
IJCAI 2020 – International Joint Conference on Artificial Intelligence, Jul 2020, Yokohama, Japan. ⟨10.24963/ijcai.2020/376⟩
Accès au texte intégral et bibtex
https://inria.hal.science/hal-02091547/file/sauna_ijcai_camera_ready.pdf BibTex
titre
The Influence of Shape Constraints on the Thresholding Bandit Problem
auteur
James Cheshire, Pierre Ménard, Alexandra Carpentier
article
COLT 2020 – Thirty Third Conference on Learning Theory, Jul 2020, Graz / Virtual, Austria. pp.1228-1275
Accès au texte intégral et bibtex
https://hal.science/hal-03001947/file/COLT2020.pdf BibTex
titre
Tightening Exploration in Upper Confidence Reinforcement Learning
auteur
Hippolyte Bourel, Odalric-Ambrym Maillard, Mohammad Sadegh Talebi
article
International Conference on Machine Learning, Jul 2020, Vienna, Austria
Accès au texte intégral et bibtex
https://hal.science/hal-03000664/file/ICML2020_UCRL3_FinalVersion.pdf BibTex
titre
Restarted Bayesian Online Change-point Detector achieves Optimal Detection Delay
auteur
Réda Alami, Odalric-Ambrym Maillard, Raphael Féraud
article
International Conference on Machine Learning, Jul 2020, Wien, Austria
Accès au texte intégral et bibtex
https://hal.science/hal-03021712/file/paper.pdf BibTex
titre
CopyCAT: Taking Control of Neural Policies with Constant Attacks
auteur
Léonard Hussenot, Matthieu Geist, Olivier Pietquin
article
AAMAS 2020 – 19th International Conference on Autonomous Agents and Multi-Agent Systems, May 2020, Virtual, New Zealand
Accès au texte intégral et bibtex
https://inria.hal.science/hal-03162124/file/1905.12282.pdf BibTex
titre
Solving Bernoulli Rank-One Bandits with Unimodal Thompson Sampling
auteur
Cindy Trinh, Emilie Kaufmann, Claire Vernade, Richard Combes
article
ALT 2020 – 31st International Conference on Algorithmic Learning Theory, Feb 2020, San Diego, United States. pp.1 – 28
Accès au texte intégral et bibtex
https://hal.science/hal-02396943/file/Trinh20.pdf BibTex
titre
Covariance-adapting algorithm for semi-bandits with application to sparse outcomes
auteur
Pierre Perrault, Vianney Perchet, Michal Valko
article
Conference on Learning Theory, 2020, Graz, Austria
Accès au texte intégral et bibtex
https://hal.science/hal-02876102/file/colt.pdf BibTex
titre
Adaptive multi-fidelity optimization with fast learning rates
auteur
Côme Fiegel, Victor Gabillon, Michal Valko
article
International Conference on Artificial Intelligence and Statistics, 2020, Palermo, Italy
Accès au texte intégral et bibtex
https://inria.hal.science/hal-03288879/file/fiegel2020adaptive.pdf BibTex
titre
No-regret exploration in goal-oriented reinforcement learning
auteur
Jean Tarbouriech, Evrard Garcelon, Michal Valko, Matteo Pirotta, Alessandro Lazaric
article
International Conference on Machine Learning, 2020, Vienna / Virtual, Austria
Accès au texte intégral et bibtex
https://inria.hal.science/hal-03287824/file/tarbouriech2020no-regret.pdf BibTex
titre
Sampling from a k-DPP without looking at all items
auteur
Daniele Calandriello, Michał Dereziński, Michal Valko
article
Neural Information Processing Systems, 2020, Montréal, Canada
Accès au texte intégral et bibtex
https://inria.hal.science/hal-03287832/file/calandriello2020sampling.pdf BibTex
titre
Fixed-confidence guarantees for Bayesian best-arm identification
auteur
Xuedong Shang, Rianne de Heide, Emilie Kaufmann, Pierre Ménard, Michal Valko
article
International Conference on Artificial Intelligence and Statistics, 2020, Palermo, Italy
Accès au texte intégral et bibtex
https://hal.science/hal-02330187/file/main.pdf BibTex
titre
Planning in Markov Decision Processes with Gap-Dependent Sample Complexity
auteur
Anders Jonsson, Emilie Kaufmann, Pierre Ménard, Omar D Domingues, Edouard Leurent, Michal Valko
article
Neural Information Processing Systems, 2020, Vancouver, France
Accès au texte intégral et bibtex
https://hal.science/hal-02863486/file/MDPGapE_hal.pdf BibTex
titre
Budgeted online influence maximization
auteur
Pierre Perrault, Jennifer Healey, Zheng Wen, Michal Valko
article
International Conference on Machine Learning, 2020, Vienna, Austria
Accès au texte intégral et bibtex
https://hal.science/hal-02904278/file/icml2020_boim__Version_2293_.pdf BibTex
titre
Reward-free exploration beyond finite-horizon
auteur
Jean Tarbouriech, Matteo Pirotta, Michal Valko, Alessandro Lazaric
article
ICML 2020 Workshop on Theoretical Foundations of Reinforcement Learning, 2020, Vienna, France
Accès au texte intégral et bibtex
https://inria.hal.science/hal-03288970/file/tarbouriech2020reward-free.pdf BibTex
titre
Improved sample complexity for incremental autonomous exploration in MDPs
auteur
Jean Tarbouriech, Matteo Pirotta, Michal Valko, Alessandro Lazaric
article
Neural Information Processing Systems, 2020, Montréal, Canada
Accès au texte intégral et bibtex
https://inria.hal.science/hal-03287829/file/tarbouriech2020improved.pdf BibTex

Habilitation à diriger des recherches

titre
Contributions to the Optimal Solution of Several Bandit Problems
auteur
Emilie Kaufmann
article
Machine Learning [stat.ML]. Université de Lille, 2020
Accès au texte intégral et bibtex
https://theses.hal.science/tel-03825097/file/HDR_EmilieKaufmann.pdf BibTex

Theses

titre
Sequential machine learning for intelligent tutoring systems
auteur
Julien Seznec
article
Machine Learning [cs.LG]. Université de Lille, 2020. English. ⟨NNT : 2020LILUI084⟩
Accès au texte intégral et bibtex
https://theses.hal.science/tel-03490620/file/These_SEZNEC_Julien.pdf BibTex
titre
Efficient Learning in Stochastic Combinatorial Semi-Bandits
auteur
Pierre Perrault
article
Mathematics [math]. Univeristé Paris-Saclay, 2020. English. ⟨NNT : ⟩
Accès au texte intégral et bibtex
https://theses.hal.science/tel-03093268/file/phd.pdf BibTex
titre
Safe and Efficient Reinforcement Learning for Behavioural Planning in Autonomous Driving
auteur
Edouard Leurent
article
Computer Science [cs]. Université de Lille, 2020. English. ⟨NNT : ⟩
Accès au texte intégral et bibtex
https://inria.hal.science/tel-03035705/file/PhD_thesis__Edouard_Leurent.pdf BibTex
titre
Multimodal and Interactive Models for Visually Grounded Language Learning
auteur
Florian Strub
article
Neural and Evolutionary Computing [cs.NE]. Université de Lille; École doctorale, ED SPI 074 : Sciences pour l’Ingénieur, 2020. English. ⟨NNT : ⟩
Accès au texte intégral et bibtex
https://theses.hal.science/tel-03018038/file/Thesis_hal.pdf BibTex

Preprints, Working Papers, …

titre
Adversarial Attacks on Linear Contextual Bandits
auteur
Evrard Garcelon, Baptiste Roziere, Laurent Meunier, Jean Tarbouriech, Olivier Teytaud, Alessandro Lazaric, Matteo Pirotta
article
2020
Accès au bibtex
https://arxiv.org/pdf/2002.03839 BibTex
titre
Stochastic bandits with vector losses: Minimizing $\ell^\infty$-norm of relative losses
auteur
Xuedong Shang, Han Shao, Jian Qian
article
2020
Accès au texte intégral et bibtex
https://hal.science/hal-02968536/file/shang2020vector.pdf BibTex
titre
Fictitious Play for Mean Field Games: Continuous Time Analysis and Applications
auteur
Sarah Perrin, Julien Pérolat, Mathieu Laurière, Matthieu Geist, Romuald Elie, Olivier Pietquin
article
2020
Accès au bibtex
https://arxiv.org/pdf/2007.03458 BibTex
titre
Optimal Strategies for Graph-Structured Bandits
auteur
Hassan Saber, Pierre Ménard, Odalric-Ambrym Maillard
article
2020
Accès au texte intégral et bibtex
https://hal.science/hal-02891139/file/Optimal%20Strategies%20for%20Graph-Structured%20Bandits.pdf BibTex
titre
Forced-exploration free Strategies for Unimodal Bandits
auteur
Hassan Saber, Pierre Ménard, Odalric-Ambrym Maillard
article
2020
Accès au texte intégral et bibtex
https://hal.science/hal-02883907/file/Forced-exploration%20free%20Strategies%20for%20Unimodal%20Bandits.pdf BibTex

Comments are closed.