Catégorie : Séminaires

Semi-supervised learning with deep neural networks for relative transfer function inverse regression

Speaker : Emmanuel Vincent Date : le 07 juin 2018 Résumé : Prior knowledge of the relative transfer function (RTF) is useful in many applications but remains little studied. In this work, we propose a semi-supervised learning algorithm based on deep neural networks (DNNs) for RTF inverse regression, that is to generate the full-band RTF vector …

Lire la suite

Leveraging Word Contexts in Wikipedia for OOV Proper Nouns Recovery in Speech Recognition

Speaker : Badr Abdullah Date : le 31 mai 2018 Résumé : Automatic Speech Recognition (ASR) systems are usually trained on static data and a finite vocabulary. When a spoken utterance contains Out-Of-Vocabulary (OOV) words, ASR systems misrecognize these words as in-vocabulary words with similar acoustic properties, but with entirely different meaning. The majority of OOV …

Lire la suite

Speech/non-speech segmentation for speech recognition

Speaker : Odile Mella et Dominique Fohr Date : le 24 mai 2018 Résumé : Multiple-input neural network-based residual echo suppression

Multiple-input neural network-based residual echo suppression

Speaker : Guillaume Carbajal Date : le 12 avril 2018 Résumé : A residual echo suppressor (RES) aims to suppress the residual echo in the output of an acoustic echo canceler (AEC). Spectral-based RES approaches typically estimate the magnitude spectra of the near-end speech and the residual echo from a single input, that is either the …

Lire la suite

Multichannel speech separation with RNN from high-order ambisonics recordings

Speaker : Lauréline Pérotin Date : le 29 mars 2018 Résumé : We present a source separation system for high-order ambisonics (HOA) contents. We derive a multichannel spatial filter from a mask estimated by a long short-term memory (LSTM) recurrent neural network. We combine one channel of the mixture with the outputs of basic HOA beamformers …

Lire la suite

VisArtico : Logiciel de visualisation multimodale – Présent & futur

Speakers : Slim Ouni et Sara Dahmani Date et lieu : le 19 mars 2018 – C005 Résumé : VisArtico est un logiciel de visualisation de données multimodales ( acoustiques, articulatoires, visuelles, gestuelles) qui a été développé au sein de l’équipe. Ce logiciel a subi plusieurs évolutions sur plusieurs années. Lors de cet exposé, nous vous …

Lire la suite

Retour sur l’analyse de texte et la reconnaissance d’émotions dans la voix utilisant le deep learning

Speaker : Nicolas Turpault Date : le 15 février 2018 Résumé : – Un stage de 3 mois dans une startup londienne m’a permis de développer un outil de reconnaissance d’émotion dans la voix. Pour ce faire, on a principalement utilisé les MFCC comme entrée d’un RNN (LSTM) pour prédire ces émotions. SEMAINE et Avec sont …

Lire la suite

Biomechanical models of speech articulators to understand speech motor control

Speaker: Pascal Perrier (Gipsa-lab Grenoble) Date: January 18, 2018 Abstract: We have been working for the last 20 years on the development of 2D and the 3D biomechanical models of speech articulators in the aim to better understand (1) how speech movements are constrained, (2) which degrees of freedom speakers have to deal with the goals …

Lire la suite

(English) Arabic speech synthesis

Désolé, cet article est seulement disponible en Anglais Américain.

(English) An annihilation filter approach for the blind identification of speech excited SIMO acoustic systems

Désolé, cet article est seulement disponible en Anglais Américain.