Publications

Please scroll-down a little bit to reach our publications, or click here.

Software

The Reinforcement Learning Gym Scool

Along the time, Scool members have developed a set of Gym environments for various tasks, to be used as RL environments.

2023: adastop: python code associated to the adastop paper which is a sequential test to compare the performance of different programs.
2022: we collaborate on SofaGym which is a gym environment to control soft robots. Main development done in Defrost research group.
2021: gym-dssat: an easy to manipulate crop environment for Reinforcement Learning based on the celebrated “Decision Support System for Agrotechnology Transfer” (DSSAT)software
2021: rlberry: Our Scool-made Reinforcement Learning Library for Research and Education
2021: gym-barricades: a gym environment for the game Barricades to train an RL agent
2021: gym-morpion-solitaire: a gym environment for the game “morpion solitaire” to train an RL agent
2020: highway-env: A gym environment to learn to drive on a (simulated) highway
2019: gym-tdgammon: A gym environment for Backgammon
2019: gym-rubik: A gym environment for the Rubik’s cube

Other Scool software

Older software on SequeL website.

Previous publications are on our former group website (SequeL).

Publications HAL du labo/EPI 1042631

2025

Journal articles

titre: Yara: An Ocean Virtual Environment for Research and Development of Autonomous Sailing Robots and Other Unmanned Surface Vessels
auteur: Eduardo Charles Vasconcellos, Álvaro Pinto Fernandes Negreiros, André Paulo Dantas de Araújo, Raphael Guerra, Philippe Preux, Davi Henrique dos Santos, Luiz Marcos Garcia Gonçalves, Esteban Walter Gonzalez Clua
article: Journal of Intelligent and Robotic Systems, 2025, 111 (3), pp.78. ⟨10.1007/s10846-024-02212-1⟩
Accès au texte intégral et bibtex

titre: The Fair Game: Auditing & debiasing AI algorithms over time
auteur: Debabrota Basu, Udvas Das
article: Cambridge Forum on AI: Law and Governance, 2025, 1, pp.27. ⟨10.1017/cfl.2025.8⟩
Accès au texte intégral et bibtex

titre: Studying Exploration in RL: An Optimal Transport Analysis of Occupancy Measure Trajectories
auteur: Reabetswe M. Nkhumise, Debabrota Basu, Tony J. Prescott, Aditya Gilra
article: Transactions on Machine Learning Research Journal, 2025
Accès au bibtex

Conference papers

titre: A Continual Offline Reinforcement Learning Benchmark for Navigation Tasks
auteur: Anthony Kobanda, Odalric-Ambrym Maillard, Rémy Portelas
article: COG 2025 – IEEE Conference on Games, Aug 2025, Lisboa, Portugal
Accès au texte intégral et bibtex

titre: Breiman meets Bellman: Non-Greedy Decision Trees with MDPs
auteur: Hector Kohler, Riad Akrour, Philippe Preux
article: KDD 2025 – The 31st ACM SIGKDD Conference on Knowledge Discovery and Data Mining, Aug 2025, Toronto, Canada. pp.1207-1218, ⟨10.1145/3711896.3736868⟩
Accès au texte intégral et bibtex

titre: Constrained Pareto Set Identification with Bandit Feedback
auteur: Cyrille Kone, Emilie Kaufmann, Laura Richert
article: ICML 2025 – 42nd International Conference on Machine Learning, Jul 2025, Vancouver, Canada
Accès au texte intégral et bibtex

titre: Best-Arm Identification in Unimodal Bandits
auteur: Riccardo Poiani, Marc Jourdan, Emilie Kaufmann, Rémy Degenne
article: AISTATS 2025 – 28th International Conference on Artificial Intelligence and Statistics, May 2025, Phuket, Thailand
Accès au texte intégral et bibtex

titre: Pareto Set Identification With Posterior Sampling
auteur: Cyrille Kone, Marc Jourdan, Emilie Kaufmann
article: AISTATS 2025 – 28th International Conference on Artificial In- telligence and Statistic, May 2025, Phuket, Thailand
Accès au texte intégral et bibtex

titre: Bandit Pareto Set Identification in a Multi-Output Linear Model
auteur: Cyrille Kone, Emilie Kaufmann, Laura Richert
article: AISTATS 2025 – 28th International Conference on Artificial Intelligence and Statistics, May 2025, Phuket, Thailand
Accès au texte intégral et bibtex

titre: FLIPHAT: Joint Differential Privacy for High Dimensional Sparse Linear Bandits
auteur: Sunrit Chakraborty, Saptarshi Roy, Debabrota Basu
article: AISTATS 2025 – International Conference on Artificial Intelligence and Statistics, May 2025, Phuket, Thailand
Accès au bibtex

titre: Some Targets Are Harder to Identify than Others: Quantifying the Target-dependent Membership Leakage
auteur: Achraf Azize, Debabrota Basu
article: AISTATS 2025 – International Conference on Artificial Intelligence and Statistics, May 2025, Phuket, Thailand
Accès au bibtex

titre: Efficient Active Imitation Learning with Random Network Distillation
auteur: Emilien Biré, Anthony Kobanda, Ludovic Denoyer, Rémy Portelas
article: ICLR 2025 – Thirteenth International Conference on Learning Representations, Apr 2025, Singapore, Singapore
Accès au texte intégral et bibtex

titre: Hierarchical Subspaces of Policies for Continual Offline Reinforcement Learning
auteur: Anthony Kobanda, Rémy Portelas, Odalric-Ambrym Maillard, Ludovic Denoyer
article: ICLR-MCDC 2025 – Workshop on Modularity for Collaborative, Decentralized, and Continual Deep Learning, Apr 2025, Singapore, Singapore
Accès au texte intégral et bibtex

titre: Active Fourier Auditor for Estimating Distributional Properties of ML Models
auteur: Ayoub Ajarra, Bishwamittra Ghosh, Debabrota Basu
article: AAAI Conference on Artificial Intelligence, Feb 2025, Philadelphia, United States
Accès au bibtex

titre: When Witnesses Defend: A Witness Graph Topological Layer for Adversarial Graph Learning
auteur: Naheed Anjum Arafat, Debabrota Basu, Yulia Gel, Yuzhou Chen
article: AAAI Conference on Artificial Intelligence, Feb 2025, Philadelphia, United States
Accès au bibtex

titre: Stochastic Online Instrumental Variable Regression: Regrets for Endogeneity and Bandit Feedback
auteur: Riccardo Della Vecchia, Debabrota Basu
article: AAAI Conference on Artificial Intelligence, Feb 2025, Philadelphia, United States
Accès au texte intégral et bibtex

Preprints, Working Papers, …

titre: DP-SPRT: Differentially Private Sequential Probability Ratio Tests
auteur: Thomas Michel, Debabrota Basu, Emilie Kaufmann
article: 2025
Accès au bibtex

titre: PB²: Preference Space Exploration via Population-Based Methods in Preference-Based Reinforcement Learning
auteur: Brahim Driss, Alex Davey, Riad Akrour
article: 2025
Accès au texte intégral et bibtex

titre: Optimal Regret of Bernoulli Bandits under Global Differential Privacy
auteur: Achraf Azize, Yulian Wu, Junya Honda, Francesco Orabona, Shinji Ito, Debabrota Basu
article: 2025
Accès au bibtex

titre: Lagrangian-based Equilibrium Propagation: generalisation to arbitrary boundary conditions & equivalence with Hamiltonian Echo Learning
auteur: Guillaume Pourcel, Debabrota Basu, Maxence Ernoult, Aditya Gilra
article: 2025
Accès au bibtex

titre: Sublinear Algorithms for Wasserstein and Total Variation Distances: Applications to Fairness and Privacy Auditing
auteur: Debabrota Basu, Debarshi Chanda
article: 2025
Accès au bibtex

titre: Isoperimetry is All We Need: Langevin Posterior Sampling for RL with Sublinear Regret
auteur: Emilio Jorge, Christos Dimitrakakis, Debabrota Basu
article: 2025
Accès au bibtex

titre: Kriging and Gaussian Process Interpolation for Georeferenced Data Augmentation
auteur: Frédérick Fabre Ferber, Dominique Gay, Jean-Christophe Soulié, Jean Diatta, Odalric-Ambrym Maillard
article: 2025
Accès au texte intégral et bibtex

2024

Journal articles

titre: The Steepest Slope toward a Quantum Few-body Solution
auteur: Paolo Recchia, Debabrota Basu, Mario Gattobigio, Christian Miniatura, Stéphane Bressan
article: Few-Body Systems, 2024, 65 (4), pp.102. ⟨10.1007/s00601-024-01965-7⟩
Accès au texte intégral et bibtex

titre: Bistability in the sunspot cycle
auteur: Sumit Vashishtha, Katepalli Sreenivasan
article: EPL – Europhysics Letters, In press, 148 (2), pp.23001. ⟨10.1209/0295-5075/ad7f85⟩
Accès au texte intégral et bibtex

titre: Bandits with Stochastic Corruption: Lower Bounds on Regret and Robust Optimistic Algorithms
auteur: Timothée Mathieu, Debabrota Basu, Odalric-Ambrym Maillard
article: Transactions on Machine Learning Research Journal, 2024
Accès au texte intégral et bibtex

titre: AdaStop: adaptive statistical testing for sound comparisons of Deep RL agents
auteur: Timothée Mathieu, Riccardo Della Vecchia, Alena Shilova, Matheus Medeiros Centa, Hector Kohler, Odalric-Ambrym Maillard, Philippe Preux
article: Transactions on Machine Learning Research Journal, 2024
Accès au texte intégral et bibtex

Conference papers

titre: Optimal Multi-Fidelity Best-Arm Identification
auteur: Riccardo Poiani, Rémy Degenne, Emilie Kaufmann, Alberto Maria Metelli, Marcello Restelli
article: Advances in Neural Information Processing Systems (NeurIPS), Dec 2024, Vancouver (BC), Canada
Accès au texte intégral et bibtex

titre: Finding good policies in average-reward Markov Decision Processes without prior knowledge
auteur: Adrienne Tuynman, Rémy Degenne, Emilie Kaufmann
article: NeurIPS, Dec 2024, Vancouver (Canada), Canada
Accès au texte intégral et bibtex

titre: Preference-based Pure Exploration
auteur: Apurv Shukla, Debabrota Basu
article: Advances in Neural Information Processing Systems (NeurIPS), Dec 2024, Vancouver (CA), Canada
Accès au texte intégral et bibtex

titre: Interpretable and Editable Programmatic Tree Policies for Reinforcement Learning
auteur: Hector Kohler, Quentin Delfosse, Riad Akrour, Kristian Kersting, Philippe Preux
article: European Workshop on Reinforcement Learning, Oct 2024, Toulouse, France
Accès au texte intégral et bibtex

titre: Learning to Explore with Lagrangians for Bandits under Unknown Linear Constraints
auteur: Udvas Das, Debabrota Basu
article: Seventeenth European Workshop on Reinforcement Learning (EWRL 2024), Oct 2024, Toulouse, France
Accès au bibtex

titre: Bandits with Multimodal Structure
auteur: Hassan Saber, Odalric-Ambrym Maillard
article: RLC 2024 – Reinforcement Learning Conference, Aug 2024, Amherst Massachusetts, United States. pp.39
Accès au texte intégral et bibtex

titre: Power Mean Estimation in Stochastic Monte-Carlo Tree Search
auteur: Tuan Quang Tuan Dam, Odalric-Ambrym Maillard, Emilie Kaufmann
article: Uncertainty in Artificial Intelligence, Jul 2024, Barcelona, Spain
Accès au texte intégral et bibtex

titre: Open Problem: What is the Complexity of Joint Differential Privacy in Linear Contextual Bandits?
auteur: Achraf Azize, Debabrota Basu
article: Proceedings of Thirty Seventh Conference on Learning Theory, Jul 2024, Edmonton (Alberta), Canada
Accès au texte intégral et bibtex

titre: Bandit Pareto Set Identification: the Fixed Budget Setting
auteur: Cyrille Kone, Emilie Kaufmann, Laura Richert
article: AISTATS 2024 – 27th International Conference on Artifi- cial Intelligence and Statistics, May 2024, Valencia, Spain
Accès au texte intégral et bibtex

titre: Augmented Bayesian Policy Search
auteur: Mahdi Kallel, Debabrota Basu, Riad Akrour, Carlo d’Eramo
article: The Twelfth International Conference on Learning Representations (ICLR), May 2024, Vienna, Austria
Accès au texte intégral et bibtex

titre: Pure Exploration in Bandits with Linear Constraints
auteur: Emil Carlsson, Debabrota Basu, Fredrik D. Johansson, Devdatt Dubhashi
article: International Conference on Artificial Intelligence and Statistics, May 2024, Valencia (Espagne), Spain. pp.334-342
Accès au bibtex

titre: Reinforcement Learning in the Wild with Maximum Likelihood-based Model Transfer
auteur: Hannes Eriksson, Tommy Tram, Debabrota Basu, Mina Alibeigi, Christos Dimitrakakis
article: 23rd International Conference on Autonomous Agents and Multiagent Systems (AAMAS), May 2024, Auckland, New Zealand. pp.516-524, ⟨10.5555/3635637.3662902⟩
Accès au bibtex

titre: Concentrated Differential Privacy for Bandits
auteur: Achraf Azize, Debabrota Basu
article: 2024 IEEE Conference on Secure and Trustworthy Machine Learning (SaTML), IEEE, Apr 2024, Toronto, Canada. pp.78-109, ⟨10.1109/SaTML59370.2024.00013⟩
Accès au bibtex

titre: CRIMED: Lower and Upper Bounds on Regret for Bandits with Unbounded Stochastic Corruption
auteur: Shubhada Agrawal, Timothée Mathieu, Debabrota Basu, Odalric-Ambrym Maillard
article: International Conference on Algorithmic Learning Theory (ALT), Feb 2024, San Diego (CA), United States. pp.74-124
Accès au bibtex

Poster communications

titre: Évaluation de critères de sélection de noyaux pour la régression Ridge à noyau dans un contexte de petits jeux de données
auteur: Frédérick Fabre Ferber, Dominique Gay, Jean-Christophe Soulié, Jean Diatta, Odalric-Ambrym Maillard
article: 24ème conférence francophone sur l’Extraction et la Gestion des Connaissances EGC 2024, Jan 2024, Dijon, France. RNTI E-40
Accès au texte intégral et bibtex

Proceedings

titre: Statistical comparison in empirical computer science with minimal computation usage
auteur: Timothée Mathieu, Philippe Preux
article: ACM REP ’24: ACM Conference on Reproducibility and Replicability, 35, ACM, pp.20-24, 2024, ⟨10.1145/3641525.3663618⟩
Accès au texte intégral et bibtex

Reports

titre: IDEQ: an improved diffusion model for the TSP
auteur: Mickael Basson, Philippe Preux
article: RR-9558, INRIA Lille – Nord Europe. 2024
Accès au texte intégral et bibtex

titre: Learning HJB Viscosity Solutions with PINNs for Continuous-Time Reinforcement Learning
auteur: Alena Shilova, Thomas Delliaux, Philippe Preux, Bruno Raffin
article: RR-9541, Inria Lille – Nord Europe, CRIStAL – Centre de Recherche en Informatique, Signal et Automatique de Lille – UMR 9189; Univ. Lille, CNRS, Centrale Lille, Inria UMR 9189 – CRIStAL,INRIA Lille Nord Europe, Villeneuve d’Ascq, France; Univ. Grenoble Alps, CNRS, Inria, Grenoble INP, LIG, 38000 Grenoble, France. 2024, pp.1-30
Accès au texte intégral et bibtex

Theses

titre: Solving pure exploration problems with the Top Two approach
auteur: Marc Jourdan
article: Computer Science and Game Theory [cs.GT]. Université de Lille, 2024. English. ⟨NNT : 2024ULILB011⟩
Accès au texte intégral et bibtex

titre: Mathematics of statistical sequential decision making : concentration, risk-awareness and modelling in stochastic bandits, with applications to bariatric surgery
auteur: Patrick Saux
article: Data Structures and Algorithms [cs.DS]. Université de Lille, 2024. English. ⟨NNT : 2024ULILB001⟩
Accès au texte intégral et bibtex

Preprints, Working Papers, …

titre: Dynamical-VAE-based Hindsight to Learn the Causal Dynamics of Factored-POMDPs
auteur: Chao Han, Debabrota Basu, Michael Mangan, Eleni Vasilaki, Aditya Gilra
article: 2024
Accès au bibtex

titre: Testing Credibility of Public and Private Surveys through the Lens of Regression
auteur: Debabrota Basu, Sourav Chakraborty, Debarshi Chanda, Buddha Dev Das, Arijit Ghosh, Arnab Ray
article: 2024
Accès au bibtex

titre: An Anytime Algorithm for Good Arm Identification
auteur: Marc Jourdan, Clémence Réda
article: 2024
Accès au texte intégral et bibtex

titre: Differentially Private Best-Arm Identification
auteur: Achraf Azize, Marc Jourdan, Aymen Al Marjani, Debabrota Basu
article: 2024
Accès au bibtex

titre: Don’t Forget What I did?: Assessing Client Contributions in Federated Learning
auteur: Bishwamittra Ghosh, Debabrota Basu, Fu Huazhu, Wang Yuan, Renuga Kanagavelu, Jiang Jin Peng, Liu Yong, Goh Siow Mong Rick, Wei Qingsong
article: 2024
Accès au bibtex

2023

Journal articles

titre: NORDic: a Network-Oriented package for the Repurposing of Drugs
auteur: Clémence Réda, Andrée Delahaye-Duriez
article: Journal of Open Source Software, 2023, 8 (90), pp.5532. ⟨10.21105/joss.05532⟩
Accès au texte intégral et bibtex

titre: Impact of Robotic Assistance on Complications in Bariatric Surgery at Expert Laparoscopic Surgery Centers: A Retrospective Comparative Study With Propensity Score
auteur: Robert Caiazzo, Pierre Bauvin, Camille Marciniak, Patrick Saux, Geoffrey Jacqmin, Raymond Arnoux, Salomon Benchetrit, Jerome Dargent, Jean-Marc Chevallier, Vincent Frering, Jean Gugenheim, David Lechaux, Simon Msika, Adrien Sterkers, Philippe Topart, Grégory Baud, François Pattou
article: Annals of Surgery, 2023, 278 (4), pp.489-496. ⟨10.1097/SLA.0000000000005969⟩
Accès au bibtex

titre: Development and validation of an interpretable machine learning-based calculator for predicting 5-year weight trajectories after bariatric surgery: a multinational retrospective cohort SOPHIA study
auteur: Patrick Saux, Pierre Bauvin, Violeta Raverdy, Julien Teigny, Hélène Verkindt, Tomy Soumphonphakdy, Maxence Debert, Anne Jacobs, Daan Jacobs, Valerie Monpellier, Phong Ching Lee, Chin Hong Lim, Johanna C Andersson-Assarsson, Lena Carlsson, Per-Arne Svensson, Florence Galtier, Guelareh Dezfoulian, Mihaela Moldovanu, Severine Andrieux, Julien Couster, Marie Lepage, Erminia Lembo, Ornella Verrastro, Maud Robert, Paulina Salminen, Geltrude Mingrone, Ralph Peterli, Ricardo V Cohen, Carlos Zerrweck, David Nocca, Carel W Le Roux, Robert Caiazzo, Philippe Preux, François Pattou
article: The Lancet Digital Health, 2023, ⟨10.1016/S2589-7500(23)00135-8⟩
Accès au texte intégral et bibtex

titre: Elbow trauma in children: development and evaluation of radiological artificial intelligence models
auteur: Clémence Rozwag, Franck Valentini, Anne Cotten, Xavier Demondion, Philippe Preux, Thibaut Jacques
article: Research in Diagnostic and Interventional Imaging, 2023, 6, ⟨10.1016/j.redii.2023.100029⟩
Accès au texte intégral et bibtex

titre: General System Architecture and COTS Prototyping of an AIoT-Enabled Sailboat for Autonomous Aquatic Ecosystem Monitoring
auteur: André P D Araújo, Dickson Daniel, Raphael Guerra, Diego Brandão, Eduardo Charles Vasconcellos, Alvaro Negreiros, Esteban Clua, Luiz Goncalves, Philippe Preux
article: IEEE Internet of Things Journal, In press, ⟨10.1109/JIOT.2023.3324525⟩
Accès au texte intégral et bibtex

Conference papers

titre: Reinforcement-learning robotic sailboats: simulator and preliminary results
auteur: Eduardo Charles Vasconcellos, Ronald M Sampaio, André P D Araújo, Esteban Walter Gonzales Clua, Philippe Preux, Raphael Guerra, Luiz M G Gonçalves, Luis Martí, Hernan Lira, Nayat Sanchez-Pi
article: NeurIPS 2023 Workshop on Robot Learning Workshop: Pretraining, Fine-Tuning, and Generalization with Large Scale Models, Dec 2023, New Orelans, United States
Accès au texte intégral et bibtex

titre: Adaptive Algorithms for Relaxed Pareto Set Identification
auteur: Cyrille Kone, Emilie Kaufmann, Laura Richert
article: NeurIPS 2023 – 37th Conference on Neural Information Processing Systems, Dec 2023, La Nouvelle Orléans, LA, United States
Accès au texte intégral et bibtex

titre: Fast Asymptotically Optimal Algorithms for Non-Parametric Stochastic Bandits
auteur: Dorian Baudry, Fabien Pesquerel, Rémy Degenne, Odalric-Ambrym Maillard
article: NeurIPS 2023 – Thirty-seventh Conference on Neural Information Processing Systems, Dec 2023, New Orleans (Louisiana), United States
Accès au texte intégral et bibtex

titre: Non-Asymptotic Analysis of a UCB-based Top Two Algorithm
auteur: Marc Jourdan, Rémy Degenne
article: Thirty-seventh Conference on Neural Information Processing Systems, Dec 2023, New Orleans (Louisiana), United States
Accès au bibtex

titre: An ε-Best-Arm Identification Algorithm for Fixed-Confidence and Beyond
auteur: Marc Jourdan, Rémy Degenne, Emilie Kaufmann
article: Advances in Neural Information Processing Systems (NeurIPS), Dec 2023, New Orleans, United States
Accès au texte intégral et bibtex

titre: On the Complexity of Differentially Private Best-Arm Identification with Fixed Confidence
auteur: Achraf Azize, Marc Jourdan, Aymen Al Marjani, Debabrota Basu
article: NeurIPS 2023 – Conference on Neural Information Processing Systems, Dec 2023, New Orleans (US), United States. pp.71150–71194
Accès au bibtex

titre: Marich: A Query-efficient Distributionally Equivalent Model Extraction Attack using Public Data
auteur: Pratik Karmakar, Debabrota Basu
article: Advances in Neural Information Processing Systems (NeurIPS), Dec 2023, New orleans, USA, United States
Accès au bibtex

titre: Logarithmic regret in communicating MDPs: Leveraging known dynamics with bandits
auteur: Hassan Saber, Fabien Pesquerel, Odalric-Ambrym Maillard, Mohammad Sadegh Talebi
article: Asian Conference on Machine Learning, Nov 2023, Istanbul, Turkey
Accès au texte intégral et bibtex

titre: Revisiting Continuous-Time Reinforcement Learning. A Study of HJB Solvers Based on PINNs and FEMs
auteur: Alena Shilova, Thomas Delliaux, Philippe Preux, Bruno Raffin
article: EWRL 2023 Workshop, Sep 2023, Brussels, Belgium
Accès au texte intégral et bibtex

titre: Interactive and Concentrated Differential Privacy for Bandits
auteur: Achraf Azize, Debabrota Basu
article: EWRL 2023 – European Workshop on Reinforcement Learning, Sep 2023, Brussels (Belgium), Belgium
Accès au bibtex

titre: On the Existence of a Complexity in Fixed Budget Bandit Identification
auteur: Rémy Degenne
article: Thirty Sixth Conference on Learning Theory, Jul 2023, Bengaluru (Bangalore), India
Accès au texte intégral et bibtex

titre: Active Coverage for PAC Reinforcement Learning
auteur: Aymen Al-Marjani, Andrea Tirinzoni, Emilie Kaufmann
article: Conference on Learning Theory 2023, Jul 2023, Bangalore, India
Accès au texte intégral et bibtex

titre: Bregman Deviations of Generic Exponential Families
auteur: Sayak Ray Chowdhury, Patrick Saux, Odalric-Ambrym Maillard, Aditya Gopalan
article: Conference On Learning Theory (COLT), Jul 2023, Bangalore, India
Accès au texte intégral et bibtex

titre: From Noisy Fixed-Point Iterations to Private ADMM for Centralized and Federated Learning
auteur: Edwige Cyffers, Aurélien Bellet, Debabrota Basu
article: Proceedings of the 40th International Conference on Machine Learning (ICML), Jul 2023, Honolulu, United States
Accès au bibtex

titre: Vision of the Seas: Open Visual Perception Framework for Autonomous Sailing Vessels
auteur: André P D Araújo, Ganadev Prajapathy Chandrasekharan, Phillipe Preux, Esteban Walter Gonzalez Clua, Eduardo Charles Vasconcellos, Luiz Marcos
article: The 30th International Conference on Systems, Signals and Image Processing, IWSSIP 2023, IEEE; Faculty of electrical engineering and information technologies – Skopje, Jun 2023, Ohrid, Republic of Macedonia, Macedonia. pp.5, ⟨10.1109/IWSSIP58668.2023.10180295⟩
Accès au texte intégral et bibtex

titre: How Biased are Your Features?”: Computing Fairness Influence Functions with Global Sensitivity Analysis
auteur: Bishwamittra Ghosh, Debabrota Basu, Kuldeep Meel
article: FAccT ’23: the 2023 ACM Conference on Fairness, Accountability, and Transparency, Jun 2023, Chicago IL, United States. pp.138-148, ⟨10.1145/3593013.3593983⟩
Accès au bibtex

titre: Risk-aware linear bandits with convex loss
auteur: Patrick Saux, Odalric-Ambrym Maillard
article: International Conference on Artificial Intelligence and Statistics (AISTATS), Apr 2023, Valencia, Spain
Accès au texte intégral et bibtex

titre: Dealing with Unknown Variances in Best-Arm Identification
auteur: Marc Jourdan, Rémy Degenne, Emilie Kaufmann
article: Algorithmic Learning Theory (ALT), Feb 2023, Singapore (SG), Singapore
Accès au texte intégral et bibtex

titre: Optimistic PAC Reinforcement Learning: the Instance-Dependent View
auteur: Andrea Tirinzoni, Aymen Al-Marjani, Emilie Kaufmann
article: Algorithmic Learning Theory (ALT), Feb 2023, Singapore (SG), Singapore
Accès au texte intégral et bibtex

titre: Farm-gym: A modular reinforcement learning platform for stochastic agronomic games
auteur: Odalric-Ambrym Maillard, Timothée Mathieu, Debabrota Basu
article: AIAFS 2023 – Artificial Intelligence for Agriculture and Food Systems, Feb 2023, Wahington DC, United States
Accès au texte intégral et bibtex

titre: Learning crop management by reinforcement: gym-DSSAT
auteur: Romain Gautron, Emilio J Padrón, Philippe Preux, Julien Bigot, Odalric-Ambrym Maillard, Gerrit Hoogenboom, Julien Teigny
article: AIAFS 2023 – 2nd AAAI Workshop on AI for Agriculture and Food Systems, Feb 2023, Washignton DC, United States
Accès au texte intégral et bibtex

titre: Soft Action Priors: Towards Robust Policy Transfer
auteur: Matheus Centa, Philippe Preux
article: AAAI 2023 – Thirty-Seventh AAAI Conference on Artificial Intelligence, Feb 2023, Washington DC, United States
Accès au texte intégral et bibtex

titre: Bilinear Exponential Family of MDPs: Frequentist Regret Bound with Tractable Exploration & Planning
auteur: Reda Ouhamma, Debabrota Basu, Odalric-Ambrym Maillard
article: Proceedings of the AAAI Conference on Artificial Intelligence, Feb 2023, Washignton DC, United States. pp.9336-9344, ⟨10.1609/aaai.v37i8.26119⟩
Accès au texte intégral et bibtex

titre: A Formalization of Doob’s Martingale Convergence Theorems in mathlib
auteur: Kexing Ying, Rémy Degenne
article: 12th ACM SIGPLAN International Conference on Certified Programs and Proofs, Jan 2023, Boston (Massachusetts), United States. ⟨10.1145/3573105.3575675⟩
Accès au texte intégral et bibtex

Poster communications

titre: Easy to use and interpretable model based on artificial intelligence for predicting 5-year weight trajectories after bariatric surgery
auteur: Patrick Saux, Pierre Bauvin, Julien Teigny, Violetta Raverdy, Hélène Verkindt, Guelareh Dezfoulian, Mihaela Moldovanu, Séverine Andrieux, Julien Couster, Marie Lepage, Anne Jacobs, Daan Jacobs, Valérie Monpellier, Florence Galtier, David Nocca, Robert Caiazzo, Philippe Preux, François Pattou
article: 26th World Congress of the International Federation for the Surgery of Obesity and Metabolic Disorders (IFSO 2023), Aug 2023, Naples, Italy.
Accès au bibtex

Reports

titre: Optimal Interpretability-Performance Trade-off of Classification Trees with Black-Box Reinforcement Learning
auteur: Hector Kohler, Riad Akrour, Philippe Preux
article: RR-9503, Inria Lille Nord Europe – Laboratoire CRIStAL – Université de Lille. 2023
Accès au texte intégral et bibtex

Theses

titre: Information per unit of interaction in stochastic sequential decision making
auteur: Fabien Pesquerel
article: Machine Learning [cs.LG]. Université de Lille, 2023. English. ⟨NNT : 2023ULILB048⟩
Accès au texte intégral et bibtex

titre: Reinforcement learning for combinatorial optimization : leveraging uncertainty, structure and priors
auteur: Nathan Grinsztajn
article: Artificial Intelligence [cs.AI]. Université de Lille, 2023. English. ⟨NNT : 2023ULILB013⟩
Accès au texte intégral et bibtex

titre: Toward realistic reinforcement learning
auteur: Reda Ouhamma
article: Artificial Intelligence [cs.AI]. Université de Lille, 2023. English. ⟨NNT : 2023ULILB007⟩
Accès au texte intégral et bibtex

Preprints, Working Papers, …

titre: Towards Instance-Optimality in Online PAC Reinforcement Learning
auteur: Aymen Al-Marjani, Andrea Tirinzoni, Emilie Kaufmann
article: 2023
Accès au texte intégral et bibtex

2022

Journal articles

titre: A channel selection game for multi-operator LoRaWAN deployments
auteur: Kinda Khawam, Hassan Fawaz, Samer Lahoud, Odalric-Ambrym Maillard, Steven Martin
article: Computer Networks, 2022, 216, pp.109185. ⟨10.1016/j.comnet.2022.109185⟩
Accès au bibtex

titre: Reinforcement Learning for crop management
auteur: Romain Gautron, Odalric-Ambrym Maillard, Philippe Preux, Marc Corbeels, Régis Sabbadin
article: Computers and Electronics in Agriculture, 2022, 200, pp.107182. ⟨10.1016/j.compag.2022.107182⟩
Accès au texte intégral et bibtex

titre: Efficient Change-Point Detection for Tackling Piecewise-Stationary Bandits
auteur: Lilian Besson, Emilie Kaufmann, Odalric-Ambrym Maillard, Julien Seznec
article: Journal of Machine Learning Research, 2022
Accès au texte intégral et bibtex

titre: Concentration study of M-estimators using the influence function
auteur: Timothée Mathieu
article: Electronic Journal of Statistics , 2022, 16 (1), pp.3695-3750. ⟨10.1214/22-ejs2030⟩
Accès au texte intégral et bibtex

titre: Topics in robust statistical learning
auteur: Claire Brécheteau, Edouard Genetay, Timothee Mathieu, Adrien Saumard
article: ESAIM: Proceedings and Surveys, In press
Accès au texte intégral et bibtex

titre: SofaGym: An open platform for Reinforcement Learning based on Soft Robot simulations
auteur: Etienne Ménager, Pierre Schegg, Elie Khairallah, Damien Marchal, Jérémie Dequidt, Philippe Preux, Christian Duriez
article: Soft Robotics, In press
Accès au texte intégral et bibtex

titre: Collaborative Algorithms for Online Personalized Mean Estimation
auteur: Mahsa Asadi, Aurélien Bellet, Odalric-Ambrym Maillard, Marc Tommasi
article: Transactions on Machine Learning Research Journal, 2022
Accès au texte intégral et bibtex

Conference papers

titre: Better state exploration using action sequence equivalence
auteur: Nathan Grinsztajn, Toby Johnstone, Johan Ferret, Philippe Preux
article: NeurIPS 2022 – Deep Reinforcement Learning Workshop, Dec 2022, Virtual, United States
Accès au texte intégral et bibtex

titre: Near-Optimal Collaborative Learning in Bandits
auteur: Clémence Réda, Sattar Vakili, Emilie Kaufmann
article: NeurIPS 2022 – 36th Conference on Neural Information Processing System, Dec 2022, New Orleans, United States
Accès au texte intégral et bibtex

titre: When Privacy Meets Partial Information: A Refined Analysis of Differentially Private Bandits
auteur: Achraf Azize, Debabrota Basu
article: Advances in Neural Information Processing Systems, Dec 2022, New Orleans, United States
Accès au texte intégral et bibtex

titre: On Elimination Strategies for Bandit Fixed-Confidence Identification
auteur: Andrea Tirinzoni, Rémy Degenne
article: NeurIPS 2022 – 36th Conference on Neural Information Processing System, Nov 2022, New Orleans, United States
Accès au bibtex

titre: IMED-RL: Regret optimal learning of ergodic Markov decision processes
auteur: Fabien Pesquerel, Odalric-Ambrym Maillard
article: NeurIPS 2022 – Thirty-sixth Conference on Neural Information Processing Systems, Nov 2022, New-Orleans, United States
Accès au texte intégral et bibtex

titre: Top Two Algorithms Revisited
auteur: Marc Jourdan, Rémy Degenne, Dorian Baudry, Rianne de Heide, Emilie Kaufmann
article: NeurIPS 2022 – 36th Conference on Neural Information Processing System, Nov 2022, New Orleans, United States
Accès au texte intégral et bibtex

titre: Near Instance-Optimal PAC Reinforcement Learning for Deterministic MDPs
auteur: Andrea Tirinzoni, Aymen Al-Marjani, Emilie Kaufmann
article: NeurIPS 2022 – 36th Conference on Neural Information Processing System, Nov 2022, New Orleans, United States
Accès au texte intégral et bibtex

titre: On Meritocracy in Optimal Set Selection
auteur: Thomas Kleine Buening, Meirav Segal, Debabrota Basu, Anne-Marie George, Christos Dimitrakakis
article: EAAMO 2022- Equity and Access in Algorithms, Mechanisms, and Optimization, ACM, Oct 2022, Arlington, United States
Accès au bibtex

titre: Optimistic PAC Reinforcement Learning: the Instance-Dependent View
auteur: Andrea Tirinzoni, Aymen Al-Marjani, Emilie Kaufmann
article: EWRL 2022 – European Workshop on Reinforcement Learning, Sep 2022, Milan, Italy
Accès au texte intégral et bibtex

titre: Risk-aware linear bandits with convex loss
auteur: Patrick Saux, Odalric-Ambrym Maillard
article: European Workshop on Reinforcement Learning, Sep 2022, Milan, Italy
Accès au texte intégral et bibtex

titre: Near Instance-Optimal PAC Reinforcement Learning for Deterministic MDPs
auteur: Andrea Tirinzoni, Aymen Al-Marjani, Emilie Kaufmann
article: EWRL 2022 – European Workshop on Reinforcement Learning, Sep 2022, Milan, Italy
Accès au texte intégral et bibtex

titre: UDO: Universal Database Optimization using Reinforcement Learning
auteur: Junxiong Wang, Immanuel Trummer, Debabrota Basu
article: Proceedings of the VLDB Endowment, Sep 2022, Sydney, Australia. pp.3402-3414, ⟨10.14778/3484224.3484236⟩
Accès au bibtex

titre: SENTINEL: Taming Uncertainty with Ensemble-based Distributional Reinforcement Learning
auteur: Hannes Eriksson, Debabrota Basu, Mina Alibeigi, Christos Dimitrakakis
article: UAI 2022- Proceedings of the Thirty-Eighth Conference on Uncertainty in Artificial Intelligence, Aug 2022, Eindhoven, Netherlands. pp.631-640
Accès au texte intégral et bibtex

titre: Survey on Large Scale Neural Network Training
auteur: Julia Gusak, Daria Cherniuk, Alena Shilova, Alexandr Katrutsa, Daniel Bershatsky, Xunyi Zhao, Lionel Eyraud-Dubois, Oleh Shliazhko, Denis Dimitrov, Ivan Oseledets, Olivier Beaumont
article: IJCAI-ECAI 2022 – 31st International Joint Conference on Artificial Intelligence, Jul 2022, Vienna, Austria. pp.5494-5501, ⟨10.24963/ijcai.2022/769⟩
Accès au texte intégral et bibtex

titre: Meta-learning from Learning Curves: Challenge Design and Baseline Results
auteur: Manh Hung Nguyen, Lisheng Sun-Hosoya, Nathan Grinsztajn, Isabelle Guyon
article: IJCNN 2022 – International Joint Conference on Neural Networks, Jul 2022, Padua, Italy. pp.1-8, ⟨10.1109/IJCNN55064.2022.9892534⟩
Accès au texte intégral et bibtex

titre: Choosing Answers in epsilon-Best-Answer Identification for Linear Bandits
auteur: Rémy Degenne, Marc Jourdan
article: 39th International Conference on Machine Learning (ICML 2022), Jul 2022, Baltimore, United States
Accès au bibtex

titre: SAAC: Safe Reinforcement Learning as an Adversarial Game of Actor-Critics
auteur: Yannis Flet-Berliac, Debabrota Basu
article: RLDM 2022 – The Multi-disciplinary Conference on Reinforcement Learning and Decision Making, Jun 2022, Providence, United States
Accès au texte intégral et bibtex

titre: MadPipe: Memory Aware Dynamic Programming Algorithm for Pipelined Model Parallelism
auteur: Olivier Beaumont, Lionel Eyraud-Dubois, Alena Shilova
article: ScaDL 2022 – Scalable Deep Learning over Parallel and Distributed Infrastructure – An IPDPS 2022 Workshop, Jun 2022, Lyon / Virtual, France
Accès au texte intégral et bibtex

titre: Risk-Sensitive Bayesian Games for Multi-Agent Reinforcement Learning under Policy Uncertainty
auteur: Hannes Eriksson, Debabrota Basu, Mina Alibeigi, Christos Dimitrakakis
article: OptLearnMAS@AAMAS, May 2022, Virtual, New Zealand
Accès au bibtex

titre: Automated planning for robotic guidewire navigation in the coronary arteries
auteur: Pierre Schegg, Jérémie Dequidt, Eulalie Coevoet, Edouard Leurent, Rémi Sabatier, Philippe Preux, Christian Duriez
article: Robosoft 2022 – International Conference on Soft Robotics, Apr 2022, Edimbourg, United Kingdom
Accès au texte intégral et bibtex

titre: Efficient Algorithms for Extreme Bandits
auteur: Dorian Baudry, Yoan Russac, Emilie Kaufmann
article: International conference on Artificial Intelligence and Statistics (AISTATS), Mar 2022, Virtual Conference, Spain
Accès au texte intégral et bibtex

titre: Interpretable Knowledge Tracing: Simple and Efficient Student Modeling with Causal Relations
auteur: Sein Minn, Jill-Jênn Vie, Koh Takeuchi, Hisashi Kashima, Feida Zhu
article: Proceedings of the AAAI Conference on Artificial Intelligence, Feb 2022, Vancouver, Canada. pp.12810-12818, ⟨10.1609/aaai.v36i11.21560⟩
Accès au texte intégral et bibtex

titre: Algorithmic fairness verification with graphical models
auteur: Bishwamittra Ghosh, Debabrota Basu, Kuldeep S. Meel
article: AAAI-2022 – 36th AAAI Conference on Artificial Intelligence, Feb 2022, Virtual, United States
Accès au texte intégral et bibtex

titre: Offline Reinforcement Learning as Anti-Exploration
auteur: Shideh Rezaeifar, Robert Dadashi, Nino Vieillard, Léonard Hussenot, Olivier Bachem, Olivier Pietquin, Matthieu Geist
article: AAAI 2022 – 36th AAAI Conference on Artificial Intelligence, Association for the Advancement of Artificial Intelligence (AAAI), Feb 2022, Vancouver, Canada
Accès au bibtex

titre: Procrastinated Tree Search: Black-box Optimization with Delayed, Noisy, and Multi-fidelity Feedback
auteur: Junxiong Wang, Debabrota Basu, Immanuel Trummer
article: AAAI Conference on Artificial Intelligence, Feb 2022, Virtual, United States. pp.10381-10390
Accès au texte intégral et bibtex

Book sections

titre: De l’échantillonnage adaptatif à la résolution de jeux
auteur: Nathanaël Fijalkow, Emilie Kaufmann
article: Informatique Mathématique Une photographie en 2022, 2022
Accès au texte intégral et bibtex

titre: Foundations and state of the art
auteur: Nathalie Mitton, Ludovic Brossard, Tassadit Bouadi, Frédérick Garcia, Romain Gautron, Nadine Hilgert, Dino Ienco, Christine Largouët, Evelyne Lutton, Véronique Masson, Roger Martin-Clouaire, Marie-Laure Mugnier, Pascal Neveu, Philippe Preux, Helene Raynal, Catherine Roussey, Alexandre Termier, Véronique Bellon Maurel
article: Agriculture and Digital Technology: Getting the most out of digital technology to contribute to the transition to sustainable agriculture and food systems, 6, INRIA, pp.30-75, 2022, White book Inrira
Accès au texte intégral et bibtex

Poster communications

titre: Petits jeux de données et prédiction en Intelligence Artificielle, vers une meilleure cohabitation : Application à la gestion durable de l’enherbement des systèmes agricoles à La Réunion
auteur: Frédérick Fabre Ferber, Jean Diatta, Jean-Christophe Soulié, Dominique Gay, Odalric-Ambrym Maillard, Thomas Le Bourgeois, Sandrine Auzoux
article: Comité scientifique et technique du DPP CapTerre, Nov 2022, Saint-Leu, La Réunion
Accès au texte intégral et bibtex

Reports

titre: Entropy Regularized Reinforcement Learning with Cascading Networks
auteur: Riccardo Della Vecchia, Alena Shilova, Philippe Preux, Riad Akrour
article: [Research Report] 7003, Inria Lille Nord Europe – Laboratoire CRIStAL – Université de Lille. 2022, pp.16
Accès au texte intégral et bibtex

titre: gym-DSSAT: a crop model turned into a Reinforcement Learning environment
auteur: Romain Gautron, Emilio J. Padrón, Philippe Preux, Julien Bigot, Odalric-Ambrym Maillard, David Emukpere
article: [Research Report] RR-9460, Inria Lille. 2022, pp.31
Accès au texte intégral et bibtex

titre: An Integer Linear Programming Approach for Pipelined Model Parallelism
auteur: Olivier Beaumont, Lionel Eyraud-Dubois, Alena Shilova
article: [Research Report] RR-9452, Inria. 2022
Accès au texte intégral et bibtex

Theses

titre: Structure adaptation in bandit theory
auteur: Hassan Saber
article: Artificial Intelligence [cs.AI]. Université de Lille, 2022. English. ⟨NNT : 2022ULILB049⟩
Accès au texte intégral et bibtex

titre: Apprentissage par démonstrations : transfert des motivations humaines aux algorithmes
auteur: Léonard Hussenot
article: Artificial Intelligence [cs.AI]. Université de Lille, 2022. English. ⟨NNT : 2022ULILB043⟩
Accès au texte intégral et bibtex

titre: Combination of gene regulatory networks and sequential machine learning for drug repurposing
auteur: Clémence Réda
article: Genetics. Université Paris Cité, 2022. English. ⟨NNT : 2022UNIP5057⟩
Accès au texte intégral et bibtex

titre: Goal-oriented exploration for reinforcement learning
auteur: Jean Tarbouriech
article: Artificial Intelligence [cs.AI]. Université de Lille, 2022. English. ⟨NNT : 2022ULILB014⟩
Accès au texte intégral et bibtex

titre: On actions that matter : credit assignment and interpretability in reinforcement learning
auteur: Johan Ferret
article: Artificial Intelligence [cs.AI]. Université de Lille, 2022. English. ⟨NNT : 2022ULILB018⟩
Accès au texte intégral et bibtex

Preprints, Working Papers, …

titre: Meta-learning from Learning Curves Challenge: Lessons learned from the First Round and Design of the Second Round
auteur: Manh Hung Nguyen, Lisheng Sun, Nathan Grinsztajn, Isabelle Guyon
article: 2022
Accès au texte intégral et bibtex

titre: Bandits Corrupted by Nature: Lower Bounds on Regret and Robust Optimistic Algorithm
auteur: Debabrota Basu, Odalric-Ambrym Maillard, Timothée Mathieu
article: 2022
Accès au texte intégral et bibtex

titre: Weight Offloading Strategies for Training Large DNN Models
auteur: Olivier Beaumont, Lionel Eyraud-Dubois, Alena Shilova, Xunyi Zhao
article: 2022
Accès au texte intégral et bibtex

2021

Journal articles

titre: Mixture Martingales Revisited with Applications to Sequential Tests and Confidence Intervals
auteur: Emilie Kaufmann, Wouter M. Koolen
article: Journal of Machine Learning Research, 2021
Accès au texte intégral et bibtex

titre: Non-Asymptotic Sequential Tests for Overlapping Hypotheses and application to near optimal arm identification in bandit models
auteur: Aurélien Garivier, Emilie Kaufmann
article: Sequential Analysis, 2021, 40 (1), pp.61-96. ⟨10.1080/07474946.2021.1847965⟩
Accès au texte intégral et bibtex

titre: Deep Learning for Deep Waters: An Expert-in-the-Loop Machine Learning Framework for Marine Sciences
auteur: Igor Ryazanov, Amanda Nylund, Debabrota Basu, Ida-Maja Hassellöv, Alexander Schliep
article: Journal of Marine Science and Engineering, 2021, 9 (2), pp.169. ⟨10.3390/jmse9020169⟩
Accès au texte intégral et bibtex

titre: Fast sampling from beta-ensembles
auteur: Guillaume Gautier, Rémi Bardenet, Michal Valko
article: Statistics and Computing, 2021, 31 (7), ⟨10.1007/s11222-020-09984-0⟩
Accès au bibtex

titre: On Multi-Armed Bandit Designs for Dose-Finding Trials
auteur: Maryam Aziz, Emilie Kaufmann, Marie-Karelle Riviere
article: Journal of Machine Learning Research, 2021
Accès au texte intégral et bibtex

Conference papers

titre: Indexed Minimum Empirical Divergence for Unimodal Bandits
auteur: Hassan Saber, Pierre Ménard, Odalric-Ambrym Maillard
article: NeurIPS 2021 – International Conference on Neural Information Processing Systems, Dec 2021, Virtual-only Conference, United States
Accès au texte intégral et bibtex

titre: Stochastic Online Linear Regression: the Forward Algorithm to Replace Ridge
auteur: Reda Ouhamma, Odalric Maillard, Vianney Perchet
article: NeurIPS 2021 – 35th International Conference on Neural Information Processing Systems, Dec 2021, Virtual, Canada
Accès au texte intégral et bibtex

titre: Online Sign Identification: Minimization of the Number of Errors in Thresholding Bandits
auteur: Reda Ouhamma, Rémy Degenne, Pierre Gaillard, Vianney Perchet
article: NeurIPS 2021 – 35th International Conference on Neural Information Processing Systems, Dec 2021, Virtual, Canada. pp.1-25, ⟨10.5555/3540261.3541681⟩
Accès au texte intégral et bibtex

titre: Stochastic bandits with groups of similar arms
auteur: Fabien Pesquerel, Hassan Saber, Odalric-Ambrym Maillard
article: NeurIPS 2021 – Thirty-fifth Conference on Neural Information Processing Systems, Dec 2021, Sydney, Australia
Accès au texte intégral et bibtex

titre: From Optimality to Robustness: Dirichlet Sampling Strategies in Stochastic Bandits
auteur: Dorian Baudry, Patrick Saux, Odalric-Ambrym Maillard
article: NeurIPS 2021 – 35th International Conference on Neural Information Processing Systems, Dec 2021, Sydney, Australia
Accès au texte intégral et bibtex

titre: A Provably Efficient Sample Collection Strategy for Reinforcement Learning
auteur: Jean Tarbouriech, Matteo Pirotta, Michal Valko, Alessandro Lazaric
article: Neural Information Processing Systems (NeurIPS), Dec 2021, Virtual/Sydney, Australia
Accès au texte intégral et bibtex

titre: Stochastic Shortest Path: Minimax, Parameter-Free and Towards Horizon-Free Regret
auteur: Jean Tarbouriech, Runlong Zhou, Simon S Du, Matteo Pirotta, Michal Valko, Alessandro Lazaric
article: Neural Information Processing Systems (NeurIPS), Dec 2021, Virtual/Sydney, Australia
Accès au texte intégral et bibtex

titre: There Is No Turning Back: A Self-Supervised Approach for Reversibility-Aware Reinforcement Learning
auteur: Nathan Grinsztajn, Johan Ferret, Olivier Pietquin, Philippe Preux, Matthieu Geist
article: Neural Information Processing Systems (2021), Dec 2021, Virtual, France
Accès au texte intégral et bibtex

titre: Reinforcement Learning in Linear MDPs: Constant Regret and Representation Selection
auteur: Matteo Papini, Andrea Tirinzoni, Aldo Pacchiano, Marcello Restilli, Alessandro Lazaric, Matteo Pirotta
article: Thirty-Fifth Conference on Neural Information Processing Systems, Dec 2021, Virtual, France
Accès au texte intégral et bibtex

titre: MetaREVEAL: RL-based Meta-learning from Learning Curves
auteur: Manh Hung Nguyen, Nathan Grinsztajn, Isabelle Guyon, Lisheng Sun-Hosoya
article: Workshop on Interactive Adaptive Learning co-located with European Conference on Machine Learning and Principles and Practice of Knowledge Discovery in Databases (ECML PKDD 2021), Sep 2021, Bilbao/Virtual, Spain
Accès au texte intégral et bibtex

titre: Routine Bandits: Minimizing Regret on Recurring Problems
auteur: Hassan Saber, Léo Saci, Odalric-Ambrym Maillard, Audrey Durand
article: ECML-PKDD 2021, Sep 2021, Bilbao, Spain
Accès au texte intégral et bibtex

titre: READYS: A Reinforcement Learning Based Strategy for Heterogeneous Dynamic Scheduling
auteur: Nathan Grinsztajn, Olivier Beaumont, Emmanuel Jeannot, Philippe Preux
article: IEEE Cluster 2021, Sep 2021, Portland / Virtual, United States
Accès au texte intégral et bibtex

titre: Mean Field Games Flock! The Reinforcement Learning Way
auteur: Sarah Perrin, Mathieu Laurière, Julien Pérolat, Matthieu Geist, Romuald Élie, Olivier Pietquin
article: IJCAI, Aug 2021, Montreal, Canada
Accès au bibtex

titre: Don’t Do What Doesn’t Matter: Intrinsic Motivation with Action Usefulness
auteur: Mathieu Seurin, Florian Strub, Philippe Preux, Olivier Pietquin
article: Internationnal Joint Conference on Artificial Intelligence (IJCAI), Aug 2021, Montreal, Canada. pp.2950–2956
Accès au texte intégral et bibtex

titre: Kernel-based reinforcement Learning: A finite-time analysis
auteur: Omar D Domingues, Pierre Ménard, Matteo Pirotta, Emilie Kaufmann, Michal Valko
article: International Conference on Machine Learning, Jul 2021, Vienna / Virtual, Austria
Accès au texte intégral et bibtex

titre: Fast active learning for pure exploration in reinforcement learning
auteur: Pierre Ménard, Omar Darwiche Domingues, Emilie Kaufmann, Anders Jonsson, Edouard Leurent, Michal Valko
article: International Conference on Machine Learning, Jul 2021, Vienna, Austria
Accès au texte intégral et bibtex

titre: On Limited-Memory Subsampling Strategies for Bandits
auteur: Dorian Baudry, Yoan Russac, Olivier Cappé
article: ICML 2021- International Conference on Machine Learning, Jul 2021, Vienna / Virtual, Austria
Accès au texte intégral et bibtex

titre: Optimal Thompson Sampling strategies for support-aware CVaR bandits
auteur: Dorian Baudry, Romain Gautron, Emilie Kaufmann, Odalric-Ambrym Maillard
article: 38th International Conference on Machine Learning, Jul 2021, Virtual, United States
Accès au texte intégral et bibtex

titre: UCB Momentum Q-learning: Correcting the bias without forgetting
auteur: Pierre Ménard, Omar Darwiche Domingues, Xuedong Shang, Michal Valko
article: International Conference on Machine Learning, Jul 2021, Vienna / Virtual, Austria
Accès au texte intégral et bibtex

titre: Offline Reinforcement Learning with Pseudometric Learning
auteur: Robert Dadashi, Shideh Rezaeifar, Nino Vieillard, Léonard Hussenot, Olivier Pietquin, Matthieu Geist
article: ICML 2021 – 38th International Conference on Machine Learning, Jun 2021, virtual, France. pp.2307-2318, ⟨10.48550/arXiv.2103.01948⟩
Accès au texte intégral et bibtex

titre: Demonstrating UDO: A Unified Approach for Optimizing Transaction Code, Physical Design, and System Parameters via Reinforcement Learning
auteur: Junxiong Wang, Immanuel Trummer, Debabrota Basu
article: SIGMOD/PODS ’21: International Conference on Management of Data, Jun 2021, Virtual Event, China. pp.2794-2797, ⟨10.1145/3448016.3452754⟩
Accès au bibtex

titre: Low-Rank Projections of GCNs Laplacian
auteur: Nathan Grinsztajn, Philippe Preux, Edouard Oyallon
article: ICLR 2021 Workshop GTRL, May 2021, Online, France
Accès au texte intégral et bibtex

titre: Learning Value Functions in Deep Policy Gradients using Residual Variance
auteur: Yannis Flet-Berliac, Reda Ouhamma, Odalric-Ambrym Maillard, Philippe Preux
article: ICLR 2021 – International Conference on Learning Representations, May 2021, Vienna / Virtual, Austria
Accès au texte intégral et bibtex

titre: Primal Wasserstein Imitation Learning
auteur: Robert Dadashi, Léonard Hussenot, Matthieu Geist, Olivier Pietquin
article: ICLR 2021 – Ninth International Conference on Learning Representations, May 2021, Vienna / Virtual, Austria
Accès au texte intégral et bibtex

titre: What Matters In On-Policy Reinforcement Learning? A Large-Scale Empirical Study
auteur: Marcin Andrychowicz, Anton Raichuk, Piotr Stańczyk, Manu Orsini, Sertan Girgin, Raphaël Marinier, Léonard Hussenot, Matthieu Geist, Olivier Pietquin, Marcin Michalski, Sylvain Gelly, Olivier Bachem
article: ICLR 2021 – Ninth International Conference on Learning Representations, May 2021, Vienna / Virtual, Austria
Accès au texte intégral et bibtex

titre: Adversarially Guided Actor-Critic
auteur: Yannis Flet-Berliac, Johan Ferret, Olivier Pietquin, Philippe Preux, Matthieu Geist
article: ICLR 2021 – International Conference on Learning Representations, May 2021, Vienna / Virtual, Austria
Accès au texte intégral et bibtex

titre: Self-Imitation Advantage Learning
auteur: Johan Ferret, Olivier Pietquin, Matthieu Geist
article: AAMAS 2021 – 20th International Conference on Autonomous Agents and Multiagent Systems, May 2021, Londres / Virtual, United Kingdom
Accès au texte intégral et bibtex

titre: Show me the Way: Intrinsic Motivation from Demonstrations
auteur: Léonard Hussenot, Robert Dadashi, Matthieu Geist, Olivier Pietquin
article: AAMAS 2021 – 20th International Conference on Autonomous Agents and Multiagent Systems, May 2021, Virtual, United Kingdom
Accès au texte intégral et bibtex

titre: A kernel-based approach to non-stationary reinforcement learning in metric spaces
auteur: Omar D Domingues, Pierre Ménard, Matteo Pirotta, Emilie Kaufmann, Michal Valko
article: International Conference on Artificial Intelligence and Statistics, Apr 2021, San Diego / Virtual, United States
Accès au texte intégral et bibtex

titre: Episodic reinforcement learning in finite MDPs: Minimax lower bounds revisited
auteur: Omar Darwiche Domingues, Pierre Ménard, Emilie Kaufmann, Michal Valko
article: Algorithmic Learning Theory, Mar 2021, Paris / Virtual, France
Accès au texte intégral et bibtex

titre: Evaluating DAS3H on the EdNet Dataset
auteur: Benoît Choffin, Fabrice Popineau, Yolaine Bourda, Jill-Jênn Vie
article: AAAI 2021 – The 35th Conference on Artificial Intelligence / Imagining Post-COVID Education with AI, Feb 2021, Virtual, United States
Accès au texte intégral et bibtex

titre: Justicia: A Stochastic SAT Approach to Formally Verify Fairness
auteur: Bishwamittra Ghosh, Debabrota Basu, Kuldeep S. Meel
article: AAAI Conference on Artificial Intelligence, Feb 2021, Virtual, Canada. pp.7554-7563
Accès au bibtex

titre: Adaptive reward-free exploration
auteur: Emilie Kaufmann, Pierre Ménard, Omar Darwiche Domingues, Anders Jonsson, Edouard Leurent, Michal Valko
article: Algorithmic Learning Theory, 2021, Paris, France
Accès au texte intégral et bibtex

titre: Top-m identification for linear bandits
auteur: Clémence Réda, Emilie Kaufmann, Andrée Delahaye-Duriez
article: Proceedings of the 24th International Conference on Artificial Intelligence and Statistics (AISTATS), 2021, Virtual, United States
Accès au texte intégral et bibtex

titre: Improved Exploration in Factored Average-Reward MDPs
auteur: Sadegh Talebi, Anders Jonsson, Odalric-Ambrym Maillard
article: 24th International Conference on Artificial Intelligence and Statistics, 2021, San diego (virtual), United States
Accès au texte intégral et bibtex

titre: Dealing With Misspecification In Fixed-Confidence Linear Top-m Identification
auteur: Clémence Réda, Andrea Tirinzoni, Rémy Degenne
article: 35th Conference on Neural Information Processing Systems, 2021, Virtual, France
Accès au texte intégral et bibtex

titre: Sample complexity bounds for stochastic shortest path with a generative model
auteur: Jean Tarbouriech, Matteo Pirotta, Michal Valko, Alessandro Lazaric
article: Algorithmic Learning Theory, 2021, Paris, France
Accès au texte intégral et bibtex

titre: Reinforcement Learning in Parametric MDPs with Exponential Families
auteur: Sayak Ray Chowdhury, Aditya Gopalan, Odalric-Ambrym Maillard
article: International Conference on Artificial Intelligence and Statistics, 2021, San diego, United States. pp.1855-1863
Accès au texte intégral et bibtex

Book sections

titre: Federated Learning of Oligonucleotide Drug Molecule Thermodynamics with Differentially Private ADMM-Based SVM
auteur: Shirin Tavara, Alexander Schliep, Debabrota Basu
article: Machine Learning and Principles and Practice of Knowledge Discovery in Databases, 1525, Springer International Publishing; Springer International Publishing, pp.459-467, 2021, Communications in Computer and Information Science, ⟨10.1007/978-3-030-93733-1_34⟩
Accès au bibtex

Theses

titre: Sample-efficient deep reinforcement learning for control, exploration and safety
auteur: Yannis Flet-Berliac
article: Machine Learning [cs.LG]. Université de Lille, 2021. English. ⟨NNT : 2021LILUB009⟩
Accès au texte intégral et bibtex

titre: Adaptive methods for optimization in stochastic environments
auteur: Xuedong Shang
article: Artificial Intelligence [cs.AI]. Université de Lille, 2021. English. ⟨NNT : 2021LILUB007⟩
Accès au texte intégral et bibtex

Preprints, Working Papers, …

titre: VISUALHINTS: A Visual-Lingual Environment for Multimodal Reinforcement Learning
auteur: Thomas Carta, Subhajit Chaudhury, Kartik Talamadupula, Michiaki Tatsubori
article: 2021
Accès au texte intégral et bibtex

titre: Solving N-player dynamic routing games with congestion: a mean field approach
auteur: Theophile Cabannes, Mathieu Lauriere, Julien Perolat, Raphael Marinier, Sertan Girgin, Sarah Perrin, Olivier Pietquin, Alexandre M. Bayen, Eric Goubault, Romuald Elie
article: 2021
Accès au bibtex

titre: Generalization in Mean Field Games by Learning Master Policies
auteur: Sarah Perrin, Mathieu Laurière, Julien Pérolat, Romuald Élie, Matthieu Geist, Olivier Pietquin
article: 2021
Accès au bibtex

titre: Scaling up Mean Field Games with Online Mirror Descent
auteur: Julien Perolat, Sarah Perrin, Romuald Elie, Mathieu Laurière, Georgios Piliouras, Matthieu Geist, Karl Tuyls, Olivier Pietquin
article: 2021
Accès au bibtex

titre: Concave Utility Reinforcement Learning: the Mean-field Game viewpoint
auteur: Matthieu Geist, Julien Pérolat, Mathieu Laurière, Romuald Elie, Sarah Perrin, Olivier Bachem, Rémi Munos, Olivier Pietquin
article: 2021
Accès au bibtex

titre: Interferometric Graph Transform for Community Labeling
auteur: Nathan Grinsztajn, Louis Leconte, Philippe Preux, Edouard Oyallon
article: 2021
Accès au texte intégral et bibtex

2020

Journal articles

titre: International electronic health record-derived COVID-19 clinical course profiles: the 4CE consortium
auteur: Gabriel A. Brat, Griffin M. Weber, Nils Gehlenborg, Paul Avillach, Nathan P. Palmer, Luca Chiovato, James Cimino, Brett K. Beaulieu-Jones, Sehi L’Yi, Mark S. Keller, Douglas S. Bell, Robert W. Follett, Lav P. Patel, Anne Sophie Jannot, Lemuel R. Waitman, Gilbert Omenn, Alberto Malovini, Jason H. Moore, Valentina Tibollo, Shawn N Murphy, Riccardo Bellazzi, David A Hanauer, Arnaud Serret-Larmande, Alba Gutierrez-Sacristan, John J Holmes, Douglas Bell, Kenneth D. Mandl, Jeffrey G Klann, Douglas A Murad, Luigia Scudeller, Mauro Bucalo, Katie Kirchoff, Jean Craig, Jihad Obeid, Vianney Jouhet, Romain Griffier, Sébastien Cossin, Bertrand Moal, Antonio Bellasi, Hans U Prokosch, Detlef Kraska, Piotr Sliz, Amelia L.M. Tan, Kee Yuan Ngiam, Alberto Zambelli, Danielle L Mowery, Emily Schiver, Batsal Devkota, Robert Bradford, Mohamad Daniar, Christel Daniel, Vincent Benoit, Romain Bey, Nicolas Paris, Patricia Serre, Nina Orlova, Julien Dubiel, Martin Hilka, Stephane Breant, Judith Leblanc, Nicolas Griffon, Anita Burgun, Melodie Bernaux, Arnaud Sandrin, Elisa Salamanca, Sylvie Cormont, Thomas Ganslandt, Tobias Gradinger, Julien Champ, Martin Boeker, Patricia Martel, Loïc Estève, Alexandre Gramfort, Olivier Grisel, Damien Leprovost, Thomas Moreau, Gael Varoquaux, Jill-Jênn Vie, Demian Wassermann, Arthur Mensch, Charlotte Caucheteux, Christian Haverkamp, Guillaume Lemaître, Silvano Bosari, Andrew South, Tianxi Cai, Isaac Kohane
article: npj Digital Medicine, 2020, 3 (1), pp.#109. ⟨10.1038/s41746-020-00308-0⟩
Accès au texte intégral et bibtex

titre: Interdisciplinary Research in Artificial Intelligence: Challenges and Opportunities
auteur: Remy Kusters, Dusan Misevic, Hugues Berry, Antoine Cully, Yann Le Cunff, Loic Dandoy, Natalia Díaz-Rodríguez, Marion Ficher, Jonathan Grizou, Alice Othmani, Themis Palpanas, Matthieu Komorowski, Patrick Loiseau, Clément Moulin-Frier, Santino Nanini, Daniele Quercia, Michele Sebag, Françoise Soulié Fogelman, Sofiane Taleb, Liubov Tupikina, Vaibhav Sahu, Jill-Jênn Vie, Fatima Wehbi
article: Frontiers in Big Data, 2020, 3, pp.577974. ⟨10.3389/fdata.2020.577974⟩
Accès au texte intégral et bibtex

titre: Temperature Decreases Spread Parameters of the New Covid-19 Case Dynamics
auteur: Jacques Demongeot, Yannis Flet-Berliac, Hervé Seligmann
article: Biology, 2020, 9 (5), pp.94. ⟨10.3390/biology9050094⟩
Accès au bibtex

titre: The challenge of controlling microgrids in the presence of rare events with Deep Reinforcement Learning
auteur: Tanguy Levent, Philippe Preux, Gonzague Henri, Réda Alami, Philippe Cordier, Yvan Bonnassieux
article: IET Smart Grid, In press, ⟨10.1049/stg2.12003⟩
Accès au texte intégral et bibtex

titre: Spectral bandits
auteur: Tomáš Kocák, Rémi Munos, Branislav Kveton, Shipra Agrawal, Michal Valko
article: Journal of Machine Learning Research, 2020
Accès au texte intégral et bibtex

titre: Machine learning applications in drug development
auteur: Clémence Réda, Emilie Kaufmann, Andrée Delahaye-Duriez
article: Computational and Structural Biotechnology Journal, 2020, 18, pp.241-252. ⟨10.1016/j.csbj.2019.12.006⟩
Accès au texte intégral et bibtex

Conference papers

titre: Robust-Adaptive Interval Predictive Control for Linear Uncertain Systems
auteur: Edouard Leurent, Denis Efimov, Odalric-Ambrym Maillard
article: CDC 2020 – 59th IEEE Conference on Decision and Control, Dec 2020, Jeju Island / Virtual, South Korea
Accès au texte intégral et bibtex

titre: Inferential Induction: A Novel Framework for Bayesian Reinforcement Learning
auteur: Emilio Jorge, Hannes Eriksson, Christos Dimitrakakis, Debabrota Basu, Divya Grover
article: “I Can’t Believe It’s Not Better!” at NeurIPS Workshops, Dec 2020, Vancouver, Canada. pp.43-52
Accès au texte intégral et bibtex

titre: Sub-sampling for Efficient Non-Parametric Bandit Exploration
auteur: Dorian Baudry, Emilie Kaufmann, Odalric-Ambrym Maillard
article: NeurIPS 2020, Dec 2020, Vancouver, Canada
Accès au texte intégral et bibtex

titre: Statistical efficiency of Thompson sampling for combinatorial semi-bandits
auteur: Pierre Perrault, Etienne Boursier, Vianney Perchet, Michal Valko
article: Neural Information Processing Systems, Dec 2020, Virtual, France
Accès au bibtex

titre: Robust-Adaptive Control of Linear Systems: beyond Quadratic Costs
auteur: Edouard Leurent, Denis Efimov, Odalric-Ambrym Maillard
article: NeurIPS 2020 – 34th Conference on Neural Information Processing Systems, Dec 2020, Vancouver / Virtual, Canada
Accès au texte intégral et bibtex

titre: Geometric Deep Reinforcement Learning for Dynamic DAG Scheduling
auteur: Nathan Grinsztajn, Olivier Beaumont, Emmanuel Jeannot, Philippe Preux
article: IEEE SSCI 2020 – Symposium Series on Computational Intelligence, Dec 2020, Canberra / Virtual, Australia
Accès au texte intégral et bibtex

titre: HIGhER: Improving instruction following with Hindsight Generation for Experience Replay
auteur: Geoffrey Cideron, Mathieu Seurin, Florian Strub, Olivier Pietquin
article: ADPRL 2020 – IEEE SSCI Conference on Adaptive Dynamic Programming and Reinforcement Learning, Dec 2020, Camberra / Virtual, Australia
Accès au texte intégral et bibtex

titre: Confidentialité différentielle à risque : Relier les sources d’aléa et un budget de confidentialité
auteur: Ashish Dandekar, Debabrota Basu, Pierre Senellart, Stéphane Bressan
article: BDA 2020 – 36ème Conférence sur la Gestion de Données – Principes, Technologies et Applications, Oct 2020, Paris / Virtuel, France
Accès au texte intégral et bibtex

titre: A Machine of Few Words Interactive Speaker Recognition with Reinforcement Learning
auteur: Mathieu Seurin, Florian Strub, Philippe Preux, Olivier Pietquin
article: Conference of the International Speech Communication Association (INTERSPEECH), Oct 2020, Shanghai, China. ⟨10.21437/Interspeech.2020-2892⟩
Accès au texte intégral et bibtex

titre: A Practical Algorithm for Multiplayer Bandits when Arm Means Vary Among Players
auteur: Etienne Boursier, Emilie Kaufmann, Abbas Mehrabian, Vianney Perchet
article: AISTATS 2020 – 23rd International Conference on Artificial Intelligence and Statistics, Aug 2020, Palermo, Italy
Accès au texte intégral et bibtex

titre: A single algorithm for both restless and rested rotting bandits
auteur: Julien Seznec, Pierre Menard, Alessandro Lazaric, Michal Valko
article: International Conference on Artificial Intelligence and Statistics, Aug 2020, Palermo / Virtual, Italy
Accès au texte intégral et bibtex

titre: Gamification of pure exploration for linear bandits
auteur: Rémy Degenne, Pierre Ménard, Xuedong Shang, Michal Valko
article: ICML 2020 – International Conference on Machine Learning, Aug 2020, Vienna / Virtual, Austria
Accès au texte intégral et bibtex

titre: I’m sorry Dave, I’m afraid I can’t do that” Deep Q-Learning From Forbidden Actions
auteur: Mathieu Seurin, Philippe Preux, Olivier Pietquin
article: Internationnal Joint Conference on Neural Networks, Jul 2020, Glasgow, United Kingdom
Accès au texte intégral et bibtex

titre: Self-Attentional Credit Assignment for Transfer in Reinforcement Learning
auteur: Johan Ferret, Raphaël Marinier, Matthieu Geist, Olivier Pietquin
article: IJCAI 2020 – 29th International Joint Conference on Artificial Intelligence, Jul 2020, Yokohama / Virtual, Japan
Accès au texte intégral et bibtex

titre: Only Relevant Information Matters: Filtering Out Noisy Samples to Boost RL
auteur: Yannis Flet-Berliac, Philippe Preux
article: IJCAI 2020 – International Joint Conference on Artificial Intelligence, Jul 2020, Yokohama, Japan. ⟨10.24963/ijcai.2020/376⟩
Accès au texte intégral et bibtex

titre: The Influence of Shape Constraints on the Thresholding Bandit Problem
auteur: James Cheshire, Pierre Ménard, Alexandra Carpentier
article: COLT 2020 – Thirty Third Conference on Learning Theory, Jul 2020, Graz / Virtual, Austria. pp.1228-1275
Accès au texte intégral et bibtex

titre: Tightening Exploration in Upper Confidence Reinforcement Learning
auteur: Hippolyte Bourel, Odalric-Ambrym Maillard, Mohammad Sadegh Talebi
article: International Conference on Machine Learning, Jul 2020, Vienna, Austria
Accès au texte intégral et bibtex

titre: Restarted Bayesian Online Change-point Detector achieves Optimal Detection Delay
auteur: Réda Alami, Odalric-Ambrym Maillard, Raphael Féraud
article: International Conference on Machine Learning, Jul 2020, Wien, Austria
Accès au texte intégral et bibtex

titre: CopyCAT: Taking Control of Neural Policies with Constant Attacks
auteur: Léonard Hussenot, Matthieu Geist, Olivier Pietquin
article: AAMAS 2020 – 19th International Conference on Autonomous Agents and Multi-Agent Systems, May 2020, Virtual, New Zealand
Accès au texte intégral et bibtex

titre: Solving Bernoulli Rank-One Bandits with Unimodal Thompson Sampling
auteur: Cindy Trinh, Emilie Kaufmann, Claire Vernade, Richard Combes
article: ALT 2020 – 31st International Conference on Algorithmic Learning Theory, Feb 2020, San Diego, United States. pp.1 – 28
Accès au texte intégral et bibtex

titre: Covariance-adapting algorithm for semi-bandits with application to sparse outcomes
auteur: Pierre Perrault, Vianney Perchet, Michal Valko
article: Conference on Learning Theory, 2020, Graz, Austria
Accès au texte intégral et bibtex

titre: Adaptive multi-fidelity optimization with fast learning rates
auteur: Côme Fiegel, Victor Gabillon, Michal Valko
article: International Conference on Artificial Intelligence and Statistics, 2020, Palermo, Italy
Accès au texte intégral et bibtex

titre: Fixed-confidence guarantees for Bayesian best-arm identification
auteur: Xuedong Shang, Rianne de Heide, Emilie Kaufmann, Pierre Ménard, Michal Valko
article: International Conference on Artificial Intelligence and Statistics, 2020, Palermo, Italy
Accès au texte intégral et bibtex

titre: Sampling from a k-DPP without looking at all items
auteur: Daniele Calandriello, Michał Dereziński, Michal Valko
article: Neural Information Processing Systems, 2020, Montréal, Canada
Accès au texte intégral et bibtex

titre: No-regret exploration in goal-oriented reinforcement learning
auteur: Jean Tarbouriech, Evrard Garcelon, Michal Valko, Matteo Pirotta, Alessandro Lazaric
article: International Conference on Machine Learning, 2020, Vienna / Virtual, Austria
Accès au texte intégral et bibtex

titre: Planning in Markov Decision Processes with Gap-Dependent Sample Complexity
auteur: Anders Jonsson, Emilie Kaufmann, Pierre Ménard, Omar D Domingues, Edouard Leurent, Michal Valko
article: Neural Information Processing Systems, 2020, Vancouver, France
Accès au texte intégral et bibtex

titre: Budgeted online influence maximization
auteur: Pierre Perrault, Jennifer Healey, Zheng Wen, Michal Valko
article: International Conference on Machine Learning, 2020, Vienna, Austria
Accès au texte intégral et bibtex

titre: Reward-free exploration beyond finite-horizon
auteur: Jean Tarbouriech, Matteo Pirotta, Michal Valko, Alessandro Lazaric
article: ICML 2020 Workshop on Theoretical Foundations of Reinforcement Learning, 2020, Vienna, France
Accès au texte intégral et bibtex

titre: Improved sample complexity for incremental autonomous exploration in MDPs
auteur: Jean Tarbouriech, Matteo Pirotta, Michal Valko, Alessandro Lazaric
article: Neural Information Processing Systems, 2020, Montréal, Canada
Accès au texte intégral et bibtex

Habilitation à diriger des recherches

titre: Contributions to the Optimal Solution of Several Bandit Problems
auteur: Emilie Kaufmann
article: Machine Learning [stat.ML]. Université de Lille, 2020
Accès au texte intégral et bibtex

Theses

titre: Sequential machine learning for intelligent tutoring systems
auteur: Julien Seznec
article: Machine Learning [cs.LG]. Université de Lille, 2020. English. ⟨NNT : 2020LILUI084⟩
Accès au texte intégral et bibtex

titre: Efficient Learning in Stochastic Combinatorial Semi-Bandits
auteur: Pierre Perrault
article: Mathematics [math]. Univeristé Paris-Saclay, 2020. English. ⟨NNT : ⟩
Accès au texte intégral et bibtex

titre: Safe and Efficient Reinforcement Learning for Behavioural Planning in Autonomous Driving
auteur: Edouard Leurent
article: Computer Science [cs]. Université de Lille, 2020. English. ⟨NNT : ⟩
Accès au texte intégral et bibtex

titre: Multimodal and Interactive Models for Visually Grounded Language Learning
auteur: Florian Strub
article: Neural and Evolutionary Computing [cs.NE]. Université de Lille; École doctorale, ED SPI 074 : Sciences pour l’Ingénieur, 2020. English. ⟨NNT : ⟩
Accès au texte intégral et bibtex

Preprints, Working Papers, …

titre: Adversarial Attacks on Linear Contextual Bandits
auteur: Evrard Garcelon, Baptiste Roziere, Laurent Meunier, Jean Tarbouriech, Olivier Teytaud, Alessandro Lazaric, Matteo Pirotta
article: 2020
Accès au bibtex

titre: Stochastic bandits with vector losses: Minimizing $\ell^\infty$-norm of relative losses
auteur: Xuedong Shang, Han Shao, Jian Qian
article: 2020
Accès au texte intégral et bibtex

titre: Fictitious Play for Mean Field Games: Continuous Time Analysis and Applications
auteur: Sarah Perrin, Julien Pérolat, Mathieu Laurière, Matthieu Geist, Romuald Elie, Olivier Pietquin
article: 2020
Accès au bibtex

titre: Optimal Strategies for Graph-Structured Bandits
auteur: Hassan Saber, Pierre Ménard, Odalric-Ambrym Maillard
article: 2020
Accès au texte intégral et bibtex

titre: Forced-exploration free Strategies for Unimodal Bandits
auteur: Hassan Saber, Pierre Ménard, Odalric-Ambrym Maillard
article: 2020
Accès au texte intégral et bibtex