Organizer: Benjamin Guedj.
Rémi Bardenet
-
Date: 21/06/2016 at 16.00
-
Affiliation: CNRS & CRIStAL, Université de Lille
-
Webpage: Link.
-
Title: On Markov chain Monte Carlo for tall data.
-
Abstract: Markov chain Monte Carlo methods are often deemed far too computationally intensive to be of any practical use for big data applications, and in particular for inference on datasets containing a large number of individual data points, also known as tall datasets. In the case where the model assumes independence of the data, various approaches to scale up Metropolis-Hastings (MH) have been recently proposed in machine learning and statistics. These approaches can be grouped in two categories: subsampling-based algorithms and divide-and-conquer approaches. In this talk, I will give a tutorial introduction to subsampling-based approaches, which randomly subsample the dataset at each MH iteration. I will illustrate existing theoretical results (or lack thereof) with simple examples. This talk is based on the following paper, which is joint work with Arnaud Doucet and Chris Holmes, and is both a survey and a follow-up to work I presented at a Modal seminar in 2014. Of course I will assume everyone remembers perfectly what I said back then. Link to the paper.
-
Slides: Link.
Stéphane Chrétien
-
Date: 24/05/2016 at 14.00
-
Affiliation: National Physical Laboratory, United Kingdom.
-
Webpage: Link.
-
Title: Recent advances in Convex clustering.
-
Abstract: Le clustering est un problème très étudié en Machine Learning et a démontré sa pertinence pour de très nombreuses applications. Le but de cet exposé est de faire le point sur les approches utilisant un critère convexe pour lesquelles des résultats théoriques sont maintenant disponibles. Une nouvelle approche sera aussi proposée avec des garanties en forte probabilité.
Rémi Lebret
-
Date: 04/05/2016 at 14.00
-
Affiliation: École Polytechnique Fédérale de Lausanne.
-
Webpage: Link.
-
Title: Applied Deep Learning.
-
Abstract: Les modèles issus du deep learning (traduit “apprentissage profond”) s’annoncent comme des outils incontournables dans le monde de demain. Ces modèles dits “intelligents” vont conduire nos voitures, répondre en temps réel à toutes nos interrogations, traduire nos propos dans toutes les langues, ou encore assister nos médecins pour mieux nous guérir. Dans cette présentation, j’introduirai brièvement les principes fondamentaux du deep learning qui se basent sur les réseaux de neurones artificiels. Je présenterai ensuite trois domaines d’application où ces modèles se montrent très performants: la traitement d’image, la reconnaissance de la parole et le traitement du langage naturel.
-
Slides: Link.
Camille Ternynck
-
Date: 15/03/2016 at 14.00
-
Affiliation: CERIM, Université de Lille.
-
Webpage: Link.
-
Title: Modélisation non paramétrique de la régression pour variables explicatives fonctionnelles et erreurs autocorrélées.
-
Abstract: Nous introduisons une nouvelle approche basée sur l’estimateur à noyau pour estimer le modèle de régression non linéaire en présence de variables explicatives à valeurs dans un espace fonctionnel. Nous étudions la situation où la variable réponse prend ses valeurs dans Rd, d≥1. Par ailleurs, le processus résiduel est considéré stationnaire et auto-corrélé. La procédure consiste à pré-blanchir la variable dépendante en se basant sur l’auto-corrélation estimée. L’idée principale est de transformer le modèle de régression original de sorte que le terme d’erreur du modèle transformé devienne non corrélé. Nous établissons la convergence de l’estimateur de la régression ainsi que sa normalité asymptotique en considérant des variables explicatives α-mélangeantes. Bien que, dans la littérature sur les méthodes à noyau, il est généralement préférable d’ignorer entièrement la structure de corrélation, nous montrons ici que la fonction d’autocorrélation du processus des erreurs apporte de l’information utile permettant d’améliorer l’estimation de la fonction de régression. Nous appliquons l’estimateur proposé à des données simulées ainsi qu’à des données de concentration en ozone dans l’air. Lorsque le processus des erreurs présente une forte corrélation, nous constatons que notre procédure permet d’améliorer les résultats obtenus avec l’estimateur classique.
-
Slides: Link.
Cristian Preda
-
Date: 08/03/2016 at 14.00
-
Affiliation: Laboratoire Paul Painlevé, Université de Lille & Modal, Inria Lille – Nord Europe.
-
Webpage: Link.
-
Title: Clustering categorical functional data.
-
Abstract: Categorical functional data represented by paths of a stochastic jump process with continuous time are considered for clustering. For Markov models we propose an EM algorithm to estimate a mixture of Markov processes. A simulation study as well as a real application on hospital stays will be presented. Joint work with Vincent Vandewalle and Cristina Preda.
-
Slides: Link.
Etienne Roquain
-
Date: 26/01/2016 at 14.00
-
Affiliation: Laboratoire de Probabilités et Modèles Aléatoires, Université Pierre et Marie Curie.
-
Webpage: Link.
-
Title: A la recherche d’éléments statistiquement significatifs avec le test multiple.
-
Abstract: Chercher une aiguille dans une botte de foin est le défi quotidien posé par l’analyse statistique des données massives (en neuro-imagerie ou en génomique par exemple). A cette fin, de nombreuses stratégies statistiques ont été mises en place, souvent basées sur des modèles dits de “grande dimension”. Dans cet exposé, nous explorons la méthodologie liée au test multiple d’hypothèses, qui a rencontré un engouement particulièrement important ces dernières décennies, notamment après le fameux papier de Benjamini et Hochberg (1995). Nous débuterons par une partie non-technique qui nous permettra de nous familiariser avec le problème. Le deuxième volet de l’exposé présentera certains aspects de ma recherche dans ce domaine, en particulier pour traiter le problème délicat de la dépendance entre les tests.
-
Slides: Link.
Faicel Chamroukhi
-
Date: 12/01/2016 at 14.00
-
Affiliation: LSIS, Université de Toulon.
-
Webpage: Link.
-
Title: On some mixtures for modeling complex datasets.
-
Abstract: Mixture models are being increasingly used to model complex and heterogeneous data. Attention has been focused on mixtures for multivariate data and to provide a clustering of such data. In this talk, I will first consider extended mixtures for non-stationary temporal data modeling and segmentation. Then, I will consider the problem of functional data analysis and present functional mixture models for the classification and segmentation of such data. Bayesian models’ regularization is considered for temporal data as well as for spatial data. For multivariate continuous data, a part of this talk will be focused on Bayesian non-parametric parsimonious mixtures. Finally, I will outline recent work on the use of non-normal distributions in the framework of mixture of experts, to accommodate situations where the data are possibly noisy and non-symmetric.
-
Slides: Link.
Quentin Berthet
-
Date: 08/12/2015 at 14.00
-
Affiliation: Statistical Laboratory, University of Cambridge.
-
Webpage: Link.
-
Title: Trade-offs in Statistical Learning.
-
Abstract: I will talk about the notion of constraints on learning procedures, and discuss the impact that they can have on statistical precision. This is inspired by real-life concerns such as limits on time for computation, on a budget to obtain data, on communication between agents. I will show how these constraints can be shown to have a concrete cost on the statistical performance of these procedures, and talk about management of these trade-offs, from the point of view of resource allocation.
-
Slides: Link.
Sébastien Loustau
-
Date: 01/12/2015 at 15.00
-
Affiliation: Université d’Angers.
-
Webpage: Link.
-
Title: Quantization, learning and games.
-
Abstract: Dans cet exposé, on présentera une version non-supervisée de l’apprentissage séquentiel. Après quelques rappels historiques sur le sujet, plusieurs bornes de regrets parcimonieuses (sparsity regret bounds) seront présentées pour un algorithme de clustering séquentiel. Enfin, ces résultats seront illustrés par une interface web qui est l’objet d’un transfert vers l’industrie digitale. Travail en collaboration avec l’indispensable Benjamin Guedj, le lumineux Le Li et le magicien Wajdi Farhani
-
Slides: Link.
Julyan Arbel
-
Date: 17/11/2015 at 14.00
-
Affiliation: Collegio Carlo Alberto, Università di Torino.
-
Webpage: Link.
-
Title: Infinite mixture models: from (some) theory to (some) applications.
-
Abstract: We introduce large classes of infinite mixture models encountered in Bayesian nonparametrics, review some fundamental properties, and present a broad range of challenging applications. Our general approach relies on Bayesian nonparametric prior distributions whose realizations enjoy (almost surely) the following two key properties: (i) they are discrete, and (ii) they are probability distributions. The first allows us to write realizations as sums of Dirac masses at random variables (locations), while the second implies that the random weights in the sums add up to one, hence providing appropriate mixing distributions where the cluster labels are identified by the locations. We conclude by presenting applications of infinite mixture models to survival analysis, species models and ecological science.
-
Slides: Link.
Yann Guermeur
-
Date: 03/11/2015 at 14.00
-
Affiliation: CNRS – Loria.
-
Webpage: Link.
-
Title: Guaranteed Risk for Margin Multi-category Classifiers.
-
Abstract: In the framework of distribution-free learning, the two basic parameters of a multi-class discrimination problem are the sample size m and the number of categories C. In 2007, we contributed to the Vapnik-Chervonenkis theory of large margin multi-category classifiers by introducing the appropriate class of generalized Vapnik-Chervonenkis dimensions: the class of gamma-psi-dimensions. However, the guaranteed risk we derived exhibited a suboptimal convergence rate. In 2014, Mohri and his co-authors obtained the optimal rate: m−1/2. This came at the expense of a suboptimal linear dependency of the control term on C. In this talk, we establish that this result can be improved so as to obtain a control term growing only as the square root of C.
-
Slides: Link.
Gildas Mazo
-
Date: 13/10/2015 at 10.30
-
Affiliation: Université Catholique de Louvain.
-
Title: Constructing balanced high-dimensional copulas.
-
Abstract: The construction of multivariate, possibly high-dimensional, copulas has been an active area of research and several construction principles exist in the literature. Yet many models must sacrify one desirable property to get another. In this talk, we shall present families of copulas which exhibit a good balance between tractability and flexibility. Beforehand, we will have provided the key answers to why and how copulas can be useful when modeling multivariate distributions.
-
Slides: Link.
Erwan Scornet
-
Date: 29/09/2015 at 14.00
-
Affiliation: Laboratoire de Statistique Théorique et Appliquée, Université Pierre et Marie Curie.
-
Webpage: Link.
-
Title: Promenade en forêts aléatoires.
-
Abstract: Les forêts aléatoires, inventées par Breiman en 2001, comptent parmi les algorithmes les plus utilisés pour résoudre des problèmes de régression et de classification, notamment en grande dimension. Elles possèdent en pratique de bonnes capacités prédictives et sont faciles à utiliser puisqu’elles ne nécessitent pas la calibration de multiples paramètres. Cependant les résultats théoriques actuels ne permettent pas d’appréhender complètement les mécanismes à l’oeuvre dans les forêts aléatoires. Dans cet exposé, je présenterai un premier résultat de convergence pour les forêts de Breiman. L’étude des forêts médianes permettra également de mettre en lumière certaines propriétés des forêts, que ne possèdent pas les arbres de régression.
-
Slides: Link.
Ester Mariucci
-
Date: 22/09/2015 at 14.00
-
Affiliation: Laboratoire Jean Kuntzmann, Grenoble.
-
Webpage: Link.
-
Title: Équivalence asymptotique entre une expérience associée à un processus de Lévy à sauts purs et un bruit blanc gaussien.
-
Abstract: Nous présentons un résultat d’équivalence asymptotique, au sens de Le Cam, entre les expériences associées à l’observation discrète (haute fréquence) ou continue d’un processus de Lévy à sauts purs et un modèle de bruit blanc gaussien observé jusqu’à un temps T qui tend vers l’infini. Ici, le paramètre d’intérêt est la densité de Lévy. Après avoir discuté les grandes lignes de la preuve, nous verrons comme des idées apparaissant dans la démonstration de ce résultat s’avèrent être utiles pour obtenir une extension du résultat bien connu sur l’équivalence entre un modèle à densité et un modèle de bruit blanc gaussien. Notre extension consiste à élargir la classe non paramétrique des densités possibles. Plus précisément, nous pouvons considérer des densités définies sur n’importe quel sous-intervalle de R aussi bien que des densités discontinues ou non bornées. Les deux résultats sont constructifs : toutes les équivalences asymptotiques sont établies en construisant des noyaux de Markov.
-
Slides: Link.
Julien Stoehr
-
Date: 15/09/2015 at 14.00
-
Affiliation: Institut Montpelliérain Alexandre Grothendieck.
-
Webpage: Link.
-
Title: On model choice for hidden Markov random fields, approximate Bayesian computation versus BIC approximations.
-
Abstract: Due to the Markovian dependence structure, the normalizing constant of Markov random fields cannot be computed with standard analytical or numerical methods. This forms a central issue in terms of model selection as the computation of the likelihood is an integral part of the procedure. To answer the question from a Bayesian viewpoint, we propose to explore the opportunities offered by approximate Bayesian computation (ABC) algorithms and Bayesian Information Criterion (BIC). We first perform model selection between hidden Markov random fields with ABC algorithms that compare the observed data and many Monte-Carlo simulations through summary statistics. To make up for the absence of sufficient statistics with regard to this model choice, we introduce summary statistics based on the connected components of the dependency graph of each model in competition. We assess their efficiency using a novel conditional misclassification rate that evaluates their local power to discriminate between models. We set up an efficient procedure that reduces the computational cost while improving the quality of decision and using this local error rate we build up an ABC procedure that adapts the summary statistics to the observed data. Secondly we focus on BIC, an asymptotical estimate of the evidence whose exact computation within the context of Markov random field is not feasible due to the intrinsic challenges of intractable likelihoods. To circumvent the computational burden, we extend the mean field-like approaches by replacing the likelihood with a product of distributions of random vectors, namely blocks of the lattice. On that basis, we derive BLIC (Block Likelihood Information Criterion) that answers model choice questions of a wider scope than ABC. We study the performances of BLIC in terms of image segmentation and perform a comparison with ABC algorithms.
-
Slides: Link.
Christophe Biernacki
-
Date: 08/09/2015 at 14.00
-
Affiliation: Laboratoire Paul Painlevé, Université de Lille & Modal, Inria Lille – Nord Europe.
-
Webpage: Link.
-
Title: High dimensional model-based clustering.
-
Abstract: Cet exposé est une review sur la problématique et les méthodes en classification non supervisée à base de modèles de mélange en haute dimension (HD), incluant aussi les données fonctionnelles mais pas seulement. Un message important est que la HD est une bénédiction en classification… pourvu que les variables présentes soient significativement informatives au regard de la partition recherchée. C’est ici un élément différenciant de l’estimation de densité où la HD est perçue généralement, et à juste titre ici, comme une malédiction. Nous donnerons des éléments pour bien percevoir cette différence. Cependant le choix de variables en classification non supervisée par modèles génératifs n’est pas aussi direct qu’en classification supervisée par modèles prédictifs. Un point clé de l’exposé sera donc de présenter le contrôle des variables pertinentes pour la classification sous forme de modèles assurant le compromis biais/variance de différentes façons : méthodes canoniques (Gaussian sparsity, co-clustering) et méthodes non canoniques (factor analysers, spectral HD decomposition, functional PCA).
-
Slides: Link.