Retour sur l’analyse de texte et la reconnaissance d’émotions dans la voix utilisant le deep learning

Speaker : Nicolas Turpault

Date : le 15 février 2018

Résumé :

– Un stage de 3 mois dans une startup londienne m’a permis de développer un outil de reconnaissance d’émotion dans la voix. Pour ce faire, on a principalement utilisé les MFCC comme entrée d’un RNN (LSTM) pour prédire ces émotions. SEMAINE et Avec sont les bases de données annotées utilisées pour faire cet apprentissage supervisé. Une contrainte donnée par la startup était d’être capable d’intégrer ce système dans une application mobile.

– Mon apprentissage, m’a lui permis de développer un outil d’aide à la décision pour un logiciel de gestion d’incidents. Le but étant de prédire l’équipe capable de résoudre le ticket à partir du texte seulement. Pour ce faire, après un peu de preprocessing (lemmatisation) du texte, j’ai comparé différentes architectures qui utilisaient des RNN (LSTM/BLSTM). J’ai aussi comparé la différence entre une “embedding layer” dans le réseau avec une entrée de réseau correspondant à la sortie d’un Word2Vec. J’ai aussi montré l’impact d’un finetuning pour ce cas particulier.

Je vais essayer de faire une présentation courte des problèmes et solutions pour permettre une discussion ou des questions à la suite de celle-ci.