Publications

Software

Older software on SequeL website.

Publications

Previous publications are on our former group website (SequeL).

Publications HAL du labo/EPI 1042631

2022

Conference papers

titre
UDO: Universal Database Optimization using Reinforcement Learning
auteur
Junxiong Wang, Immanuel Trummer, Debabrota Basu
article
Proceedings of the VLDB Endowment, Sep 2022, Sydney, Australia. pp.3402-3414, ⟨10.14778/3484224.3484236⟩
Accès au bibtex
https://arxiv.org/pdf/2104.01744 BibTex

2021

Journal articles

titre
Non-Asymptotic Sequential Tests for Overlapping Hypotheses and application to near optimal arm identification in bandit models
auteur
Aurélien Garivier, Emilie Kaufmann
article
Sequential Analysis, Taylor & Francis, 2021
Accès au texte intégral et bibtex
https://hal.archives-ouvertes.fr/hal-02123833/file/GK_SQA.pdf BibTex
titre
Deep Learning for Deep Waters: An Expert-in-the-Loop Machine Learning Framework for Marine Sciences
auteur
Igor Ryazanov, Amanda Nylund, Debabrota Basu, Ida-Maja Hassellöv, Alexander Schliep
article
Journal of Marine Science and Engineering, MDPI, 2021, 9 (2), pp.169. ⟨10.3390/jmse9020169⟩
Accès au bibtex
BibTex
titre
Fast sampling from beta-ensembles
auteur
Guillaume Gautier, Rémi Bardenet, Michal Valko
article
Statistics and Computing, Springer Verlag (Germany), 2021, 31 (7), ⟨10.1007/s11222-020-09984-0⟩
Accès au bibtex
https://arxiv.org/pdf/2003.02344 BibTex
titre
On Multi-Armed Bandit Designs for Dose-Finding Trials
auteur
Maryam Aziz, Emilie Kaufmann, Marie-Karelle Riviere
article
Journal of Machine Learning Research, Microtome Publishing, 2021
Accès au texte intégral et bibtex
https://hal.archives-ouvertes.fr/hal-02533297/file/AKR_ClinicalTrials20.pdf https://hal.archives-ouvertes.fr/hal-02533297/file/doses.pdf https://hal.archives-ouvertes.fr/hal-02533297/file/doses2.pdf BibTex

Conference papers

titre
From Optimality to Robustness: Dirichlet Sampling Strategies in Stochastic Bandits
auteur
Dorian Baudry, Patrick Saux, Odalric-Ambrym Maillard
article
Neurips 2021, Dec 2021, Sydney, Australia
Accès au texte intégral et bibtex
https://hal.archives-ouvertes.fr/hal-03421252/file/main.pdf BibTex
titre
Stochastic Online Linear Regression: the Forward Algorithm to Replace Ridge
auteur
Reda Ouhamma, Odalric Maillard, Vianney Perchet
article
NeurIPS 2021 – 35th International Conference on Neural Information Processing Systems, Dec 2021, Virtual, Canada
Accès au texte intégral et bibtex
https://hal.inria.fr/hal-03410901/file/Neurips_Forward_Algo.pdf BibTex
titre
There Is No Turning Back: A Self-Supervised Approach for Reversibility-Aware Reinforcement Learning
auteur
Nathan Grinsztajn, Johan Ferret, Olivier Pietquin, Philippe Preux, Matthieu Geist
article
Thirty-fifth Conference on Neural Information Processing Systems, Dec 2021, Virtual, France
Accès au texte intégral et bibtex
https://hal.archives-ouvertes.fr/hal-03454640/file/Reversibility_Aware_Reinforcement_Learning__NeurIPS_.pdf BibTex
titre
Online Sign Identification: Minimization of the Number of Errors in Thresholding Bandits
auteur
Reda Ouhamma, Rémy Degenne, Pierre Gaillard, Vianney Perchet
article
NeurIPS 2021 – 35th International Conference on Neural Information Processing Systems, Dec 2021, Virtual, Canada. pp.1-25
Accès au texte intégral et bibtex
https://hal.inria.fr/hal-03363014/file/neurips_2021.pdf BibTex
titre
Stochastic bandits with groups of similar arms
auteur
Fabien Pesquerel, Hassan Saber, Odalric-Ambrym Maillard
article
NeurIPS, Dec 2021, Sydney, Australia
Accès au texte intégral et bibtex
https://hal.archives-ouvertes.fr/hal-03427597/file/Neurips_Submission.pdf BibTex
titre
Routine Bandits: Minimizing Regret on Recurring Problems
auteur
Hassan Saber, Léo Saci, Odalric-Ambrym Maillard, Audrey Durand
article
ECML-PKDD 2021, Sep 2021, Bilbao, Spain
Accès au texte intégral et bibtex
https://hal.archives-ouvertes.fr/hal-03286539/file/ECML2021_RoutineBandits%20%28Camera-Ready%29.pdf BibTex
titre
READYS: A Reinforcement Learning Based Strategy for Heterogeneous Dynamic Scheduling
auteur
Nathan Grinsztajn, Olivier Beaumont, Emmanuel Jeannot, Philippe Preux
article
IEEE Cluster 2021, Sep 2021, Portland / Virtual, United States
Accès au texte intégral et bibtex
https://hal.inria.fr/hal-03313229/file/cluster.pdf BibTex
titre
Mean Field Games Flock! The Reinforcement Learning Way
auteur
Sarah Perrin, Mathieu Laurière, Julien Pérolat, Matthieu Geist, Romuald Élie, Olivier Pietquin
article
IJCAI, Aug 2021, Montreal, Canada
Accès au bibtex
https://arxiv.org/pdf/2105.07933 BibTex
titre
Don’t Do What Doesn’t Matter: Intrinsic Motivation with Action Usefulness
auteur
Mathieu Seurin, Florian Strub, Philippe Preux, Olivier Pietquin
article
Internationnal Joint Conference on Artificial Intelligence (IJCAI), Aug 2021, Montreal, Canada
Accès au texte intégral et bibtex
https://hal.archives-ouvertes.fr/hal-03259315/file/Rare_Actions_Matter_IJCAI.pdf BibTex
titre
On Limited-Memory Subsampling Strategies for Bandits
auteur
Dorian Baudry, Yoan Russac, Olivier Cappé
article
ICML 2021- International Conference on Machine Learning, Jul 2021, Vienna / Virtual, Austria
Accès au texte intégral et bibtex
https://hal.archives-ouvertes.fr/hal-03265442/file/main.pdf BibTex
titre
Kernel-based reinforcement Learning: A finite-time analysis
auteur
Omar Domingues, Pierre Ménard, Matteo Pirotta, Emilie Kaufmann, Michal Valko
article
International Conference on Machine Learning, Jul 2021, Vienna / Virtual, Austria
Accès au texte intégral et bibtex
https://hal.inria.fr/hal-02541790/file/domingues2021kernel-based.pdf BibTex
titre
Fast active learning for pure exploration in reinforcement learning
auteur
Pierre Ménard, Omar Darwiche Domingues, Emilie Kaufmann, Anders Jonsson, Edouard Leurent, Michal Valko
article
International Conference on Machine Learning, Jul 2021, Vienna, Austria
Accès au texte intégral et bibtex
https://hal.inria.fr/hal-02906985/file/menard2021fast.pdf BibTex
titre
UCB Momentum Q-learning: Correcting the bias without forgetting
auteur
Pierre Ménard, Omar Domingues, Xuedong Shang, Michal Valko
article
International Conference on Machine Learning, Jul 2021, Vienna / Virtual, Austria
Accès au texte intégral et bibtex
https://hal.inria.fr/hal-03289033/file/menard2021ucb.pdf BibTex
titre
Optimal Thompson Sampling strategies for support-aware CVaR bandits
auteur
Dorian Baudry, Romain Gautron, Emilie Kaufmann, Odalric-Ambryn Maillard
article
38th International Conference on Machine Learning, Jul 2021, Virtual, France
Accès au texte intégral et bibtex
https://hal.archives-ouvertes.fr/hal-03447244/file/main.pdf BibTex
titre
Demonstrating UDO: A Unified Approach for Optimizing Transaction Code, Physical Design, and System Parameters via Reinforcement Learning
auteur
Junxiong Wang, Immanuel Trummer, Debabrota Basu
article
SIGMOD/PODS ’21: International Conference on Management of Data, Jun 2021, Virtual Event, China. pp.2794-2797, ⟨10.1145/3448016.3452754⟩
Accès au bibtex
BibTex
titre
Low-Rank Projections of GCNs Laplacian
auteur
Nathan Grinsztajn, Philippe Preux, Edouard Oyallon
article
ICLR 2021 Workshop GTRL, May 2021, Online, France
Accès au texte intégral et bibtex
https://hal.archives-ouvertes.fr/hal-03248056/file/main.pdf BibTex
titre
What Matters In On-Policy Reinforcement Learning? A Large-Scale Empirical Study
auteur
Marcin Andrychowicz, Anton Raichuk, Piotr Stańczyk, Manu Orsini, Sertan Girgin, Raphaël Marinier, Léonard Hussenot, Matthieu Geist, Olivier Pietquin, Marcin Michalski, Sylvain Gelly, Olivier Bachem
article
ICLR 2021 – Ninth International Conference on Learning Representations, May 2021, Vienna / Virtual, Austria
Accès au texte intégral et bibtex
https://hal.inria.fr/hal-03162554/file/2006.05990.pdf BibTex
titre
Primal Wasserstein Imitation Learning
auteur
Robert Dadashi, Léonard Hussenot, Matthieu Geist, Olivier Pietquin
article
ICLR 2021 – Ninth International Conference on Learning Representations, May 2021, Vienna / Virtual, Austria
Accès au texte intégral et bibtex
https://hal.inria.fr/hal-03162526/file/2006.04678.pdf BibTex
titre
Adversarially Guided Actor-Critic
auteur
Yannis Flet-Berliac, Johan Ferret, Olivier Pietquin, Philippe Preux, Matthieu Geist
article
ICLR 2021 – International Conference on Learning Representations, May 2021, Vienna / Virtual, Austria
Accès au texte intégral et bibtex
https://hal.inria.fr/hal-03167169/file/AGAC.pdf BibTex
titre
Learning Value Functions in Deep Policy Gradients using Residual Variance
auteur
Yannis Flet-Berliac, Reda Ouhamma, Odalric-Ambrym Maillard, Philippe Preux
article
ICLR 2021 – International Conference on Learning Representations, May 2021, Vienna / Virtual, Austria
Accès au texte intégral et bibtex
https://hal.archives-ouvertes.fr/hal-02964174/file/iclr_avec.pdf BibTex
titre
Show me the Way: Intrinsic Motivation from Demonstrations
auteur
Léonard Hussenot, Robert Dadashi, Matthieu Geist, Olivier Pietquin
article
AAMAS 2021 – 20th International Conference on Autonomous Agents and Multiagent Systems, May 2021, Virtual, United Kingdom
Accès au texte intégral et bibtex
https://hal.inria.fr/hal-03162139/file/sample.pdf BibTex
titre
Self-Imitation Advantage Learning
auteur
Johan Ferret, Olivier Pietquin, Matthieu Geist
article
AAMAS 2021 – 20th International Conference on Autonomous Agents and Multiagent Systems, May 2021, Londres / Virtual, United Kingdom
Accès au texte intégral et bibtex
https://hal.inria.fr/hal-03159815/file/2012.11989.pdf BibTex
titre
A kernel-based approach to non-stationary reinforcement learning in metric spaces
auteur
Omar Domingues, Pierre Ménard, Matteo Pirotta, Emilie Kaufmann, Michal Valko
article
International Conference on Artificial Intelligence and Statistics, Apr 2021, San Diego / Virtual, United States
Accès au texte intégral et bibtex
https://hal.inria.fr/hal-03289026/file/domingues2021kernel-based-non-stationary.pdf BibTex
titre
Episodic reinforcement learning in finite MDPs: Minimax lower bounds revisited
auteur
Omar Domingues, Pierre Ménard, Emilie Kaufmann, Michal Valko
article
Algorithmic Learning Theory, Mar 2021, Paris / Virtual, France
Accès au texte intégral et bibtex
https://hal.inria.fr/hal-03289004/file/domingues2021episodic.pdf BibTex
titre
Evaluating DAS3H on the EdNet Dataset
auteur
Benoît Choffin, Fabrice Popineau, Yolaine Bourda, Jill-Jênn Vie
article
AAAI 2021 – The 35th Conference on Artificial Intelligence / Imagining Post-COVID Education with AI, Feb 2021, Virtual, United States
Accès au texte intégral et bibtex
https://hal.archives-ouvertes.fr/hal-03175874/file/DAS3H_AAAI_2021_Workshop_on_AIED_HAL.pdf BibTex
titre
Justicia: A Stochastic SAT Approach to Formally Verify Fairness
auteur
Bishwamittra Ghosh, Debabrota Basu, Kuldeep S. Meel
article
AAAI Conference on Artificial Intelligence, Feb 2021, Virtual, Canada. pp.7554-7563
Accès au bibtex
https://arxiv.org/pdf/2009.06516 BibTex
titre
Sample complexity bounds for stochastic shortest path with a generative model
auteur
Jean Tarbouriech, Matteo Pirotta, Michal Valko, Alessandro Lazaric
article
Algorithmic Learning Theory, 2021, Paris, France
Accès au texte intégral et bibtex
https://hal.inria.fr/hal-03288988/file/tarbouriech2021sample.pdf BibTex
titre
Top-m identification for linear bandits
auteur
Clémence Réda, Emilie Kaufmann, Andrée Delahaye-Duriez
article
Proceedings of the 24th International Conference on Artificial Intelligence and Statistics (AISTATS), 2021, Virtual, United States
Accès au texte intégral et bibtex
https://hal.archives-ouvertes.fr/hal-03172145/file/reda2021top.pdf BibTex
titre
Dealing With Misspecification In Fixed-Confidence Linear Top-m Identification
auteur
Clémence Réda, Andrea Tirinzoni, Rémy Degenne
article
35th Conference on Neural Information Processing Systems, 2021, Virtual, France
Accès au texte intégral et bibtex
https://hal.archives-ouvertes.fr/hal-03409205/file/reda2021dealing.pdf BibTex
titre
Adaptive reward-free exploration
auteur
Emilie Kaufmann, Pierre Ménard, Omar Darwiche Domingues, Anders Jonsson, Edouard Leurent, Michal Valko
article
Algorithmic Learning Theory, 2021, Paris, France
Accès au texte intégral et bibtex
https://hal.archives-ouvertes.fr/hal-02864574/file/arxiv_rf.pdf BibTex

Theses

titre
Sample-Efficient Deep Reinforcement Learning for Control, Exploration and Safety
auteur
Yannis Flet-Berliac
article
Computer Science [cs]. Université de Lille – Faculté des Sciences et Technologies, 2021. English
Accès au texte intégral et bibtex
https://tel.archives-ouvertes.fr/tel-03431652/file/phd_thesis_yfb.pdf BibTex
titre
Learning to Interact, Interacting to Learn Action-centric Reinforcement Learning
auteur
Mathieu Seurin
article
Machine Learning [cs.LG]. Université de Lille – Faculté des Sciences et Technologies, 2021. English
Accès au texte intégral et bibtex
https://tel.archives-ouvertes.fr/tel-03432794/file/main.pdf BibTex

Preprints, Working Papers, …

titre
On Meritocracy in Optimal Set Selection
auteur
Thomas Kleine Buening, Meirav Segal, Debabrota Basu, Christos Dimitrakakis, Anne-Marie George
article
2021
Accès au bibtex
https://arxiv.org/pdf/2102.11932 BibTex
titre
Procrastinated Tree Search: Black-box Optimization with Delayed, Noisy, and Multi-fidelity Feedback
auteur
Junxiong Wang, Debabrota Basu, Immanuel Trummer
article
2021
Accès au bibtex
https://arxiv.org/pdf/2110.07232 BibTex
titre
Generalization in Mean Field Games by Learning Master Policies
auteur
Sarah Perrin, Mathieu Laurière, Julien Pérolat, Romuald Élie, Matthieu Geist, Olivier Pietquin
article
2021
Accès au bibtex
https://arxiv.org/pdf/2109.09717 BibTex
titre
Concave Utility Reinforcement Learning: the Mean-field Game viewpoint
auteur
Matthieu Geist, Julien Pérolat, Mathieu Laurière, Romuald Elie, Sarah Perrin, Olivier Bachem, Rémi Munos, Olivier Pietquin
article
2021
Accès au bibtex
https://arxiv.org/pdf/2106.03787 BibTex
titre
Scaling up Mean Field Games with Online Mirror Descent
auteur
Julien Perolat, Sarah Perrin, Romuald Elie, Mathieu Laurière, Georgios Piliouras, Matthieu Geist, Karl Tuyls, Olivier Pietquin
article
2021
Accès au bibtex
https://arxiv.org/pdf/2103.00623 BibTex
titre
Solving N-player dynamic routing games with congestion: a mean field approach
auteur
Theophile Cabannes, Mathieu Lauriere, Julien Perolat, Raphael Marinier, Sertan Girgin, Sarah Perrin, Olivier Pietquin, Alexandre M. Bayen, Eric Goubault, Romuald Elie
article
2021
Accès au bibtex
https://arxiv.org/pdf/2110.11943 BibTex
titre
Interferometric Graph Transform for Community Labeling
auteur
Nathan Grinsztajn, Louis Leconte, Philippe Preux, Edouard Oyallon
article
2021
Accès au texte intégral et bibtex
https://hal.archives-ouvertes.fr/hal-03247781/file/hal_version.pdf BibTex
titre
SENTINEL: Taming Uncertainty with Ensemble-based Distributional Reinforcement Learning
auteur
Hannes Eriksson, Debabrota Basu, Mina Alibeigi, Christos Dimitrakakis
article
2021
Accès au texte intégral et bibtex
https://hal.archives-ouvertes.fr/hal-03150823/file/sentinel.pdf BibTex

2020

Journal articles

titre
International electronic health record-derived COVID-19 clinical course profiles: the 4CE consortium
auteur
Gabriel Brat, Griffin Weber, Nils Gehlenborg, Paul Avillach, Nathan Palmer, Luca Chiovato, James Cimino, Brett Beaulieu-Jones, Sehi l’Yi, Mark Keller, Douglas Bell, Robert Follett, Lav Patel, Anne Jannot, Lemuel Waitman, Gilbert Omenn, Alberto Malovini, Jason Moore, Valentina Tibollo, Shawn Murphy, Riccardo Bellazzi, David Hanauer, Arnaud Serret-Larmande, Alba Gutierrez-Sacristan, John Holmes, Douglas Bell, Kenneth Mandl, Jeffrey Klann, Douglas Murad, Luigia Scudeller, Mauro Bucalo, Katie Kirchoff, Jean Craig, Jihad Obeid, Vianney Jouhet, Romain Griffier, Sébastien Cossin, Bertrand Moal, Antonio Bellasi, Hans Prokosch, Detlef Kraska, Piotr Sliz, Amelia Tan, Kee Yuan Ngiam, Alberto Zambelli, Danielle Mowery, Emily Schiver, Batsal Devkota, Robert Bradford, Mohamad Daniar, Christel Daniel, Vincent Benoit, Romain Bey, Nicolas Paris, Patricia Serre, Nina Orlova, Julien Dubiel, Martin Hilka, Stephane Breant, Judith Leblanc, Nicolas Griffon, Anita Burgun, Melodie Bernaux, Arnaud Sandrin, Elisa Salamanca, Sylvie Cormont, Thomas Ganslandt, Tobias Gradinger, Julien Champ, Martin Boeker, Patricia Martel, Loïc Estève, Alexandre Gramfort, Olivier Grisel, Damien Leprovost, Thomas Moreau, Gael Varoquaux, Jill-Jênn Vie, Demian Wassermann, Arthur Mensch, Charlotte Caucheteux, Christian Haverkamp, Guillaume Lemaître, Silvano Bosari, Andrew South, Tianxi Cai, Isaac Kohane
article
npj Digital Medicine, Nature Research 2020, 3 (1), pp.#109. ⟨10.1038/s41746-020-00308-0⟩
Accès au texte intégral et bibtex
https://hal.archives-ouvertes.fr/hal-02918344/file/covid_ehr.pdf BibTex
titre
Interdisciplinary Research in Artificial Intelligence: Challenges and Opportunities
auteur
Remy Kusters, Dusan Misevic, Hugues Berry, Antoine Cully, Yann Le Cunff, Loic Dandoy, Natalia Díaz-Rodríguez, Marion Ficher, Jonathan Grizou, Alice Othmani, Themis Palpanas, Matthieu Komorowski, Patrick Loiseau, Clément Moulin-Frier, Santino Nanini, Daniele Quercia, Michele Sebag, Françoise Soulié Fogelman, Sofiane Taleb, Liubov Tupikina, Vaibhav Sahu, Jill-Jênn Vie, Fatima Wehbi
article
Frontiers in Big Data, Frontiers, 2020, 3, ⟨10.3389/fdata.2020.577974⟩
Accès au texte intégral et bibtex
https://hal.inria.fr/hal-03111148/file/pdf BibTex
titre
The challenge of controlling microgrids in the presence of rare events with Deep Reinforcement Learning
auteur
Tanguy Levent, Philippe Preux, Gonzague Henri, Réda Alami, Philippe Cordier, Yvan Bonnassieux
article
IET Smart Grid, Institution of Engineering and Technology, In press, ⟨10.1049/stg2.12003⟩
Accès au texte intégral et bibtex
https://hal.archives-ouvertes.fr/hal-02971554/file/stg2.12003.pdf BibTex
titre
Machine learning applications in drug development
auteur
Clémence Réda, Emilie Kaufmann, Andrée Delahaye-Duriez
article
Computational and Structural Biotechnology Journal, Elsevier, 2020, 18, pp.241-252. ⟨10.1016/j.csbj.2019.12.006⟩
Accès au texte intégral et bibtex
https://hal.archives-ouvertes.fr/hal-02533303/file/RKD20_CSBJ.pdf BibTex
titre
Spectral bandits
auteur
Tomáš Kocák, Rémi Munos, Branislav Kveton, Shipra Agrawal, Michal Valko
article
Journal of Machine Learning Research, Microtome Publishing, 2020
Accès au texte intégral et bibtex
https://hal.inria.fr/hal-03084249/file/kocak2020spectral.pdf BibTex

Conference papers

titre
Robust-Adaptive Interval Predictive Control for Linear Uncertain Systems
auteur
Edouard Leurent, Denis Efimov, Odalric-Ambrym Maillard
article
CDC 2020 – 59th IEEE Conference on Decision and Control, Dec 2020, Jeju Island / Virtual, South Korea
Accès au texte intégral et bibtex
https://hal.inria.fr/hal-02942414/file/CDC20_Edouard.pdf BibTex
titre
Inferential Induction: A Novel Framework for Bayesian Reinforcement Learning
auteur
Emilio Jorge, Hannes Eriksson, Christos Dimitrakakis, Debabrota Basu, Divya Grover
article
“I Can’t Believe It’s Not Better!” at NeurIPS Workshops, Dec 2020, Vancouver, Canada. pp.43-52
Accès au texte intégral et bibtex
https://hal.archives-ouvertes.fr/hal-03125100/file/inferential_induction_a_novel_framework_for_bayesian_reinforcement_learning.pdf BibTex
titre
Sub-sampling for Efficient Non-Parametric Bandit Exploration
auteur
Dorian Baudry, Emilie Kaufmann, Odalric-Ambrym Maillard
article
NeurIPS 2020, Dec 2020, Vancouver, Canada
Accès au texte intégral et bibtex
https://hal.archives-ouvertes.fr/hal-02977552/file/sda_hal.pdf BibTex
titre
Robust-Adaptive Control of Linear Systems: beyond Quadratic Costs
auteur
Edouard Leurent, Denis Efimov, Odalric-Ambrym Maillard
article
NeurIPS 2020 – 34th Conference on Neural Information Processing Systems, Dec 2020, Vancouver / Virtual, Canada
Accès au texte intégral et bibtex
https://hal.inria.fr/hal-03004060/file/main.pdf BibTex
titre
HIGhER: Improving instruction following with Hindsight Generation for Experience Replay
auteur
Geoffrey Cideron, Mathieu Seurin, Florian Strub, Olivier Pietquin
article
ADPRL 2020 – IEEE SSCI Conference on Adaptive Dynamic Programming and Reinforcement Learning, Dec 2020, Camberra / Virtual, Australia
Accès au texte intégral et bibtex
https://hal.archives-ouvertes.fr/hal-03123981/file/HIGhER___ADPRL.pdf BibTex
titre
Geometric Deep Reinforcement Learning for Dynamic DAG Scheduling
auteur
Nathan Grinsztajn, Olivier Beaumont, Emmanuel Jeannot, Philippe Preux
article
IEEE SSCI 2020 – Symposium Series on Computational Intelligence, Dec 2020, Canberra / Virtual, Australia
Accès au texte intégral et bibtex
https://hal.inria.fr/hal-03028981/file/HPC_ADPRL.pdf BibTex
titre
Confidentialité différentielle à risque : Relier les sources d’aléa et un budget de confidentialité
auteur
Ashish Dandekar, Debabrota Basu, Pierre Senellart, Stéphane Bressan
article
BDA 2020 – 36ème Conférence sur la Gestion de Données – Principes, Technologies et Applications, Oct 2020, Paris / Virtuel, France
Accès au texte intégral et bibtex
https://hal.inria.fr/hal-03103528/file/BDA.pdf BibTex
titre
A Machine of Few Words Interactive Speaker Recognition with Reinforcement Learning
auteur
Mathieu Seurin, Florian Strub, Philippe Preux, Olivier Pietquin
article
Conference of the International Speech Communication Association (INTERSPEECH), Oct 2020, Shanghai, China. ⟨10.21437/Interspeech.2020-2892⟩
Accès au texte intégral et bibtex
https://hal.archives-ouvertes.fr/hal-03123999/file/Interspeech_2020.pdf BibTex
titre
A Practical Algorithm for Multiplayer Bandits when Arm Means Vary Among Players
auteur
Etienne Boursier, Emilie Kaufmann, Abbas Mehrabian, Vianney Perchet
article
AISTATS 2020 – 23rd International Conference on Artificial Intelligence and Statistics, Aug 2020, Palermo, Italy
Accès au texte intégral et bibtex
https://hal.archives-ouvertes.fr/hal-02006069/file/aistats20.pdf BibTex
titre
A single algorithm for both restless and rested rotting bandits
auteur
Julien Seznec, Pierre Menard, Alessandro Lazaric, Michal Valko
article
International Conference on Artificial Intelligence and Statistics, Aug 2020, Palermo / Virtual, Italy
Accès au texte intégral et bibtex
https://hal.inria.fr/hal-03287835/file/seznec2020single.pdf BibTex
titre
I’m sorry Dave, I’m afraid I can’t do that” Deep Q-Learning From Forbidden Actions
auteur
Mathieu Seurin, Philippe Preux, Olivier Pietquin
article
Internationnal Joint Conference on Neural Networks, Jul 2020, Glasgow, United Kingdom
Accès au texte intégral et bibtex
https://hal.inria.fr/hal-02387419/file/Dave_IJCNN.pdf BibTex
titre
Self-Attentional Credit Assignment for Transfer in Reinforcement Learning
auteur
Johan Ferret, Raphaël Marinier, Matthieu Geist, Olivier Pietquin
article
IJCAI 2020 – 29th International Joint Conference on Artificial Intelligence, Jul 2020, Yokohama / Virtual, Japan
Accès au texte intégral et bibtex
https://hal.inria.fr/hal-03159832/file/Credit_Alignment_HAL%20%281%29.pdf BibTex
titre
Only Relevant Information Matters: Filtering Out Noisy Samples to Boost RL
auteur
Yannis Flet-Berliac, Philippe Preux
article
IJCAI 2020 – International Joint Conference on Artificial Intelligence, Jul 2020, Yokohama, Japan. ⟨10.24963/ijcai.2020/376⟩
Accès au texte intégral et bibtex
https://hal.inria.fr/hal-02091547/file/sauna_ijcai_camera_ready.pdf BibTex
titre
The Influence of Shape Constraints on the Thresholding Bandit Problem
auteur
James Cheshire, Pierre Ménard, Alexandra Carpentier
article
COLT 2020 – Thirty Third Conference on Learning Theory, Jul 2020, Graz / Virtual, Austria. pp.1228-1275
Accès au texte intégral et bibtex
https://hal.archives-ouvertes.fr/hal-03001947/file/COLT2020.pdf BibTex
titre
Tightening Exploration in Upper Confidence Reinforcement Learning
auteur
Hippolyte Bourel, Odalric-Ambrym Maillard, Mohammad Talebi
article
International Conference on Machine Learning, Jul 2020, Vienna, Austria
Accès au texte intégral et bibtex
https://hal.archives-ouvertes.fr/hal-03000664/file/ICML2020_UCRL3_FinalVersion.pdf BibTex
titre
Restarted Bayesian Online Change-point Detector achieves Optimal Detection Delay
auteur
Réda Alami, Odalric-Ambrym Maillard, Raphael Féraud
article
International Conference on Machine Learning, Jul 2020, Wien, Austria
Accès au texte intégral et bibtex
https://hal.archives-ouvertes.fr/hal-03021712/file/paper.pdf BibTex
titre
CopyCAT: Taking Control of Neural Policies with Constant Attacks
auteur
Léonard Hussenot, Matthieu Geist, Olivier Pietquin
article
AAMAS 2020 – 19th International Conference on Autonomous Agents and Multi-Agent Systems, May 2020, Virtual, New Zealand
Accès au texte intégral et bibtex
https://hal.inria.fr/hal-03162124/file/1905.12282.pdf BibTex
titre
Solving Bernoulli Rank-One Bandits with Unimodal Thompson Sampling
auteur
Cindy Trinh, Emilie Kaufmann, Claire Vernade, Richard Combes
article
ALT 2020 – 31st International Conference on Algorithmic Learning Theory, Feb 2020, San Diego, United States. pp.1 – 28
Accès au texte intégral et bibtex
https://hal.archives-ouvertes.fr/hal-02396943/file/Trinh20.pdf BibTex
titre
Sampling from a k-DPP without looking at all items
auteur
Daniele Calandriello, Michał Dereziński, Michal Valko
article
Neural Information Processing Systems, 2020, Montréal, Canada
Accès au texte intégral et bibtex
https://hal.inria.fr/hal-03287832/file/calandriello2020sampling.pdf BibTex
titre
Improved sample complexity for incremental autonomous exploration in MDPs
auteur
Jean Tarbouriech, Matteo Pirotta, Michal Valko, Alessandro Lazaric
article
Neural Information Processing Systems, 2020, Montréal, Canada
Accès au texte intégral et bibtex
https://hal.inria.fr/hal-03287829/file/tarbouriech2020improved.pdf BibTex
titre
Reward-free exploration beyond finite-horizon
auteur
Jean Tarbouriech, Matteo Pirotta, Michal Valko, Alessandro Lazaric
article
ICML 2020 Workshop on Theoretical Foundations of Reinforcement Learning, 2020, Vienna, France
Accès au texte intégral et bibtex
https://hal.inria.fr/hal-03288970/file/tarbouriech2020reward-free.pdf BibTex
titre
Adaptive multi-fidelity optimization with fast learning rates
auteur
Côme Fiegel, Victor Gabillon, Michal Valko
article
International Conference on Artificial Intelligence and Statistics, 2020, Palermo, Italy
Accès au texte intégral et bibtex
https://hal.inria.fr/hal-03288879/file/fiegel2020adaptive.pdf BibTex
titre
Covariance-adapting algorithm for semi-bandits with application to sparse outcomes
auteur
Pierre Perrault, Vianney Perchet, Michal Valko
article
Conference on Learning Theory, 2020, Graz, Austria
Accès au texte intégral et bibtex
https://hal.archives-ouvertes.fr/hal-02876102/file/colt.pdf BibTex
titre
Budgeted online influence maximization
auteur
Pierre Perrault, Jennifer Healey, Zheng Wen, Michal Valko
article
International Conference on Machine Learning, 2020, Vienna, Austria
Accès au texte intégral et bibtex
https://hal.archives-ouvertes.fr/hal-02904278/file/icml2020_boim__Version_2293_.pdf BibTex
titre
Planning in Markov Decision Processes with Gap-Dependent Sample Complexity
auteur
Anders Jonsson, Emilie Kaufmann, Pierre Ménard, Omar Domingues, Edouard Leurent, Michal Valko
article
Neural Information Processing Systems, 2020, Vancouver, France
Accès au texte intégral et bibtex
https://hal.archives-ouvertes.fr/hal-02863486/file/MDPGapE_hal.pdf BibTex
titre
Fixed-confidence guarantees for Bayesian best-arm identification
auteur
Xuedong Shang, Rianne de Heide, Emilie Kaufmann, Pierre Ménard, Michal Valko
article
International Conference on Artificial Intelligence and Statistics, 2020, Palermo, Italy
Accès au texte intégral et bibtex
https://hal.archives-ouvertes.fr/hal-02330187/file/main.pdf BibTex
titre
No-regret exploration in goal-oriented reinforcement learning
auteur
Jean Tarbouriech, Evrard Garcelon, Michal Valko, Matteo Pirotta, Alessandro Lazaric
article
International Conference on Machine Learning, 2020, Vienna / Virtual, Austria
Accès au texte intégral et bibtex
https://hal.inria.fr/hal-03287824/file/tarbouriech2020no-regret.pdf BibTex
titre
Gamification of pure exploration for linear bandits
auteur
Rémy Degenne, Pierre Ménard, Xuedong Shang, Michal Valko
article
International Conference on Machine Learning, 2020, Vienna / Virtual, Austria
Accès au texte intégral et bibtex
https://hal.archives-ouvertes.fr/hal-02884330/file/supp.pdf BibTex

Books

titre
Competitive Programming in Python
auteur
Christoph Dürr, Jill-Jênn Vie
article
Cambridge University Press, 2020, 9781108716826
Accès au bibtex
BibTex

Theses

titre
Efficient Learning in Stochastic Combinatorial Semi-Bandits
auteur
Pierre Perrault
article
Mathematics [math]. Univeristé Paris-Saclay, 2020. English
Accès au texte intégral et bibtex
https://tel.archives-ouvertes.fr/tel-03093268/file/phd.pdf BibTex
titre
Safe and Efficient Reinforcement Learning for Behavioural Planning in Autonomous Driving
auteur
Edouard Leurent
article
Computer Science [cs]. Université de Lille, 2020. English
Accès au texte intégral et bibtex
https://hal.inria.fr/tel-03035705/file/PhD_thesis__Edouard_Leurent.pdf BibTex
titre
Multimodal and Interactive Models for Visually Grounded Language Learning
auteur
Florian Strub
article
Neural and Evolutionary Computing [cs.NE]. Université de Lille; École doctorale, ED SPI 074 : Sciences pour l’Ingénieur, 2020. English
Accès au texte intégral et bibtex
https://tel.archives-ouvertes.fr/tel-03018038/file/Thesis_hal.pdf BibTex

Preprints, Working Papers, …

titre
Efficient Change-Point Detection for Tackling Piecewise-Stationary Bandits
auteur
Lilian Besson, Emilie Kaufmann, Odalric-Ambrym Maillard, Julien Seznec
article
2020
Accès au texte intégral et bibtex
https://hal.inria.fr/hal-02006471/file/BKMS20.pdf BibTex
titre
Adversarial Attacks on Linear Contextual Bandits
auteur
Evrard Garcelon, Baptiste Roziere, Laurent Meunier, Jean Tarbouriech, Olivier Teytaud, Alessandro Lazaric, Matteo Pirotta
article
2020
Accès au bibtex
https://arxiv.org/pdf/2002.03839 BibTex
titre
Stochastic bandits with vector losses: Minimizing $\ell^\infty$-norm of relative losses
auteur
Xuedong Shang, Han Shao, Jian Qian
article
2020
Accès au texte intégral et bibtex
https://hal.archives-ouvertes.fr/hal-02968536/file/shang2020vector.pdf BibTex
titre
Fictitious Play for Mean Field Games: Continuous Time Analysis and Applications
auteur
Sarah Perrin, Julien Pérolat, Mathieu Laurière, Matthieu Geist, Romuald Elie, Olivier Pietquin
article
2020
Accès au bibtex
https://arxiv.org/pdf/2007.03458 BibTex
titre
Optimal Strategies for Graph-Structured Bandits
auteur
Hassan Saber, Pierre Ménard, Odalric-Ambrym Maillard
article
2020
Accès au texte intégral et bibtex
https://hal.archives-ouvertes.fr/hal-02891139/file/Optimal%20Strategies%20for%20Graph-Structured%20Bandits.pdf BibTex
titre
Forced-exploration free Strategies for Unimodal Bandits
auteur
Hassan Saber, Pierre Ménard, Odalric-Ambrym Maillard
article
2020
Accès au texte intégral et bibtex
https://hal.archives-ouvertes.fr/hal-02883907/file/Forced-exploration%20free%20Strategies%20for%20Unimodal%20Bandits.pdf BibTex

Comments are closed.