Modal Seminar, 2016-2017 (10 sessions)

Organizer: Benjamin Guedj.

Matthieu Saumard
  • Date: 07/03/2017 at 14.00
  • AffiliationCEDRIC, Conservatoire National des Arts et Métiers.
  • WebpageLink.
  • Title: Causality with functional time series.
  • Abstract: In this talk, we investigate the causality in the sense of Granger for functional time series. The concept of causality for functional time series is defined and a statistical procedure of testing the hypothesis of non-causality is proposed. This procedure is based on a test of equality of covariance operators for dependent processes.
  • SlidesLink.

Damien Garreau

  • Date: 28/02/2017 at 14.00
  • AffiliationSIERRA, Inria de Paris.
  • WebpageLink.
  • Title: Consistent change-point detection with kernels.
  • Abstract: In this talk I will present a kernel change-point detection procedure introduced by Arlot, Celisse and Harchaoui (2012) and some results regarding its consistency. Reference https://arxiv.org/abs/1612.04740
  • SlidesLink.

Rémi Gribonval

  • Date: 31/01/2017 at 14.00
  • AffiliationPANAMA, Inria Rennes – Bretagne Atlantique.
  • WebpageLink.
  • Title: Random Moments for Compressive Learning.
  • Abstract: L’apprentissage automatique permet de tirer parti de collections d’entraînement pour ajuster les paramètres d’outils de reconnaissance et de classification, ainsi que pour découvrir de façon non supervisée des structures cachées (clustering, apprentissage de représentation, de dictionnaire …). Les volumes des collections disponibles dans certains domaines, combinées aux ressources de calcul conséquentes offertes par les GPUs, ont mené à des résultats spectaculaires par exemple en reconnaissance de la parole ou en analyse de scènes visuelles. Comment exploiter les opportunités offertes par les grands volumes de données lorsque les ressources de calcul sont limitées, par exemple à bord de dispositifs autonomes, avares en énergie ? Peut-on compresser drastiquement une collection d’entraînement avant apprentissage, tout en préservant la capacité à exploiter l’information qu’elle contient en vue de l’apprentissage ? Cet exposé donnera un aperçu d’une approche, inspirée du compressed sensing, appelée apprentissage compressé. Il s’agit de représenter l’ensemble de la collection par un unique vecteur, appelé sketch, rassemblant quelques moments empiriques aléatoires. Nous verrons que par nature, un tel sketch peut être calculé via une architecture de calcul naturellement distribuable qui rappelle par bien des aspects une couche de certains réseaux de neurones convolutionnels. Deux cas d’étude seront présentés: le clustering compressif et l’estimation de mélanges de Gaussiennes, avec une illustration en vérification de locuteur à grande échelle. L’apprentissage compressé s’apparente sur ces exemples à une méthode des moments généralisée, et fonctionne à budget mémoire constant indépendant de la taille de la collection. A performance égale, des gains en temps de calcul de deux ordres de grandeur ont été observés sur des grandes collections. Nous discuterons pour finir quelques garanties théoriques récentes sur la préservation d’information par sketching, et les perspectives qu’elles ouvrent en terme de compréhension mathématique de certains aspects des réseaux de neurones profonds (rassemble des travaux issus de collaborations avec Gilles Blanchard, Anthony Bourrier, Nicolas Keriven, Patrick Perez, Yann Traonmilin, Nicolas Tremblay).
  • SlidesLink.
Pascal Germain
  • Date: 24/01/2017 at 14.00
  • AffiliationSIERRA, Inria de Paris.
  • WebpageLink.
  • Title: Generalization of the PAC-Bayesian Theory, and Applications to Semi-Supervised Learning.
  • Abstract: In this talk, I will present the main ideas underlying the PAC-Bayesian learning theory – which provides statistical guarantees on the expected loss of an averaging/aggregation/ensemble of multiple predictors – using a simplified approach. This approach leads to a general theorem that embraces several existing PAC-Bayesian results, and eases the “customization” of PAC-Bayesian theorems. In particular, I will show how this can be used to express generalization bounds and design new learning algorithms for semi-supervised learning and similar frameworks, like transductive learning and domain adaptation.
  • SlidesLink.

Olivier Lopez

  • Date: 17/01/2017 at 14.00
  • AffiliationLaboratoire de Statistique Théorique et Appliquée, Université Pierre et Marie Curie.
  • WebpageLink.
  • Title: Nouvelles méthodes statistiques pour le provisionnement micro-level en assurance non-vie.
  • Abstract: La question de l’évaluation du montant des sinistres réalisés (provisionnement) est une question importante en assurance. Sur certains types de garanties, plusieurs années sont nécessaires pour que la vision du coût d’un sinistre qui s’est produit par le passé soit complète. L’incertitude liée à cette évaluation représente une masse financière importante qui possède des répercussions négatives aussi bien sur l’assureur que sur l’assuré. La plupart des méthodes de provisionnement utilisées à l’heure actuelle sont extrêmement frustes, et basées sur une vision agrégée de l’information, qui ne met pas à profit la richesse des bases de données disponibles. Dans cet exposé, nous présentons un cadre général pour passer de ce cadre agrégé à une vision dite “micro-level”. Nous montrons comment, en combinant des méthodes d’apprentissage statistique, d’analyse de survie et de théorie des copules, les techniques de provisionnement actuelles peuvent être grandement améliorées.

Vincent Audigier

  • Date: 22/11/2016 at 14.00
  • AffiliationINSERM.
  • WebpageLink.
  • Title: Imputation multiple par analyse factorielle.
  • Abstract: Les données manquantes constituent un problème incontournable dans la pratique de la statistique. Une solution commune pour gérer ces données manquantes consiste à remplacer chacune d’entre elles par plusieurs valeurs plausibles. On parle alors d’imputation multiple. Cet exposé porte sur de nouvelles méthodes d’imputation multiples basées sur des techniques d’analyse factorielle. Les méthodes factorielles, ici en tant que méthodes d’imputation, offrent de grandes perspectives en termes de diversité du type de données imputées d’une part, et en termes de dimensions de jeux de données imputés d’autre part. Leur propriété de réduction de la dimension limitant en effet le nombre de paramètres à estimer. Dans un premier temps, une méthode d’imputation simple par analyse factorielle de données mixtes sera présentée. Les performances de cette méthode seront éprouvées via une comparaison à l’imputation par forêts aléatoires. Ceci permettra de mettre en évidence les propriétés générales des méthodes d’imputation basées sur les méthodes d’analyse factorielle, en particulier leurs capacités à gérer la diversité des liaisons mises en jeu, à prendre en compte les modalités rares ou encore à s’appliquer sur des jeux de dimensions variées. Dans un second temps, nous verrons deux extensions de cette méthode d’imputation simple à des méthodes d’imputation multiples. D’abord une méthode d’imputation multiple pour des données quantitatives, basée sur une approche Bayésienne du modèle d’analyse en composantes principales. Celle-ci permet notamment d’inférer en présence de données manquantes y compris quand le nombre d’individus est petit devant le nombre de variables, ou quand les corrélations entre variables sont fortes. Ensuite, une méthode d’imputation multiple pour des données qualitatives par analyse des correspondances multiples (ACM) sera proposée. La variabilité de prédiction des données manquantes est ici reflétée via un bootstrap non-paramétrique. L’imputation multiple par ACM offre une réponse au problème de l’explosion combinatoire limitant les méthodes concurrentes dès lors que le nombre de variables ou de modalités est élevé. Cet exposé sera conclu par une présentation des principales fonctions du package R missMDA permettant l’application de ces différentes méthodes.
  • SlidesLink.

Davy Paindaveine

  • Date: 08/11/2016 at 14.00
  • WebpageLink.
  • Title: Testing uniformity on high-dimensional spheres against monotone rotationally symmetric alternatives.
  • Abstract: We consider the problem of testing uniformity on high-dimensional unit spheres. We are primarily interested in non-null issues. We show that rotationally symmetric alternatives lead to two Local Asymptotic Normality (LAN) structures. The first one is for fixed modal location θ and allows to derive locally asymptotically most powerful tests under specified θ. The second one, that addresses the Fisher–von Mises–Langevin (FvML) case, relates to the unspecified-θ problem and shows that the high-dimensional Rayleigh test is locally asymptotically most powerful invariant. Under mild assumptions, we derive the asymptotic non-null distribution of this test, which allows to extend away from the FvML case the asymptotic powers obtained there from Le Cam’s third lemma. Throughout, we allow the dimension p to go to infinity in an arbitrary way as a function of the sample size n. Some of our results also strengthen the local optimality properties of the Rayleigh test in low dimensions. We perform a Monte Carlo study to illustrate our asymptotic results. Finally, we treat an application related to testing for sphericity in high dimensions.
  • SlidesLink.

Alain Durmus

  • Date: 11/10/2016 at 14.00
  • AffiliationTelecom ParisTech.
  • WebpageLink.
  • Title: High dimensional sampling with the Unadjusted Langevin Algorithm.
  • Abstract: Recently, the problem of designing MCMC sampler adapted to high-dimensional distributions and with sensible theoretical guarantees has received a lot of interest. The applications are numerous, including large-scale inference in machine learning, Bayesian nonparametrics, Bayesian inverse problem, aggregation of experts among others. When the density is L-smooth (the log-density is continuously differentiable and its derivative is Lipshitz), we will advocate the use of a “rejection-free” algorithm, based on the discretization of the Euler diffusion with either constant or decreasing stepsizes. We will present several new results allowing convergence to stationarity under different conditions for the log-density (from the weakest, bounded oscillations on a compact set and super-exponential in the tails to the log concave). When the density is strongly log-concave, the convergence of an appropriately weighted empirical measure is also investigated and bounds for the mean square error and exponential deviation inequality for bounded measurable functions will be reported. Finally, based on optimization techniques we will propose new methods to sample from high dimensional distributions. In particular, we will be interested in densities which are not continuously differentiable. Some Monte Carlo experiments will be presented to support our findings.

Emilien Joly

  • Date: 27/09/2016 at 14.00
  • WebpageLink.
  • Title: Concentration for robust mean estimation: some theoretical results.
  • Abstract: This talk has as main purpose the estimation of the mean of heavy-tailed distributions. This field is not new and it is known from Huber’s work that it is possible to create estimators insensible to outliers and that satisfy a Central Limit Theorem. Recently, new robust estimators have been proposed that satisfy concentration inequalities – hence at finite and fixed n – with sub-Gaussian speed under a small moment assumption (finite variance). The robust estimation of the mean for real valued random variables is a starting point for extensions of robust estimators to more complex probability fields. The definition of a robust estimator and its concentration in the case of multivariate (in Rd) distributions will be the main purpose of this talk.
  • SlidesLink.

Nicolas Chopin

  • Date: 06/09/2016 at 14.00
  • AffiliationENSAE ParisTech.
  • WebpageLink.
  • Title: Sequential quasi-Monte Carlo, new applications.
  • Abstract: The objective of this talk is twofold. First, I would like to present SQMC (Sequential quasi-Monte Carlo), a class of algorithms that merges particle filtering and QMC. Contrary to previous presentations, I will not assume prior knowledge from the audience regarding particle filtering, state-space modelling and Feynmac-Kac representations. I will thus take to introduce these notions and the motivation to perform particle filtering. Second, I would like to discuss some recent extensions and applications of SQMC, in particular to partly observed diffusion models, which are infinitely-dimensional. QMC techniques, and particularly SQMC, tend to suffer from a curse of dimensionality: their performance gain, relative to Monte Carlo tends to vanish for large-dimensional problems. However, by exploiting well-known properties of partly observed diffusion models, we are able to implement SQMC so that it outperforms significantly standard particle filtering.
  • SlidesLink.

Comments are closed.