(in French) Reconnaissance de la parole dans des environnements sonores complexes », des travaux de nouveau récompensés par un bestpaper award ISCA !

Emmanuel Vincent, directeur de recherche Inria au sein de l’équipe Multispeech (Inria/Loria) a reçu pour la seconde fois le prix de l’International Speech Communication Association (ISCA). L’article récompensé «An analysis of environment, microphone and data simulation mismatches in robust speech recognition» a été sélectionné comme meilleur article publié dans la revue Computer Speech and Language au cours de ces cinq dernières années. Les travaux menés ont également impliqué Aditya Arie Nugraha, ancien doctorant Inria de l’équipe.

Extrait figure 1 publication hal-01399180 “Example spectrograms of channel 5 of two different noise instances for each environment”

Cette annonce a été officialisée lors de la cérémonie de clôture de la conférence Interspeech. Organisée du 30 août au 3 septembre, cet événement mondial est l’événement de référence pour les professionnels, scientifiques du secteur public ou acteurs du privé, travaillant dans le domaine de la parole.

Le premier prix obtenu en 2018 récompensait les conclusions du 1er défi CHiME organisé en 2011. Depuis, Emmanuel et ses collègues de l’Université de Sheffield et de l’Université Carnegie Mellon, poursuivent leurs travaux sur le traitement et la reconnaissance de la parole « mains libres » dans des scènes sonores complexes (réverbération, bruit, locuteurs parlant en même temps).  Cette année, l’article sélectionné présente une analyse exhaustive de l’impact des différences entre données d’apprentissage et de test sur les différents modules de traitement. Cette analyse a été effectuée sur les données du 3ème défi CHiME organisé en 2015. Plusieurs évolutions sont notables. Emmanuel nous les présente :

« Dans un premier temps, contrairement à CHiME-1 qui reposait sur des données simulées, CHiME-3 repose sur des enregistrements in situ de plusieurs personnes parlant à une tablette dans différents environnements sonores : des bus, des cafés, des zones piétonnes, et des rues. Il s’agit du premier jeu de données de cette taille collecté in situ pour cette tâche.

Ensuite, l’analyse est beaucoup plus détaillée. En particulier, nous avons montré que, à une exception près, les algorithmes fonctionnent de manière similaire sur les enregistrements in situ et les données simulées et bénéficient d’un apprentissage sur des données simulées.

Enfin, nous avons constaté également que l’apprentissage sur des données issues de différents environnements sonores affecte peu les résultats, surtout lorsque plusieurs environnements sont présents dans l’ensemble d’apprentissage.

Le logiciel fourni aux participants de CHiME-3 en 2015 faisait 33% d’erreurs sur les mots retranscrits. Un an et demi plus tard, à la fin du défi CHiME-4 fin 2016, le taux d’erreur était tombé à 2%. Ces deux défis ont donc eu un impact important sur l’avancée des recherches de la communauté et sur la multiplication des assistants vocaux mains-libres. »