Domaines d’application

Le traitement et la modélisation des signaux audio sont les deux thèmes centraux de l’équipe-projet PANAMA, et s’appuie sur les interactions industrielles bien établies et qui continuent à se développer dans le domaine. Cependant, étant données les nombreuses applications bien au-delà de l’audio des modèles, méthodes et algorithmes que PANAMA développe, des applications à d’autres types de signaux sont envisagées, en particulier dans le domaine biomédical. Ces applications sont prioritairement étudiées en partenariat avec des groupes de recherche ayant l’expertise nécessaire.

L’activité de recherche de PANAMA s’appuie sur une dialectique constante entre la conception d’outils et de principes algorithmiquement efficaces basés sur des fondations mathématiques solides et leur évaluation sur des applications ciblées, qui alimentent en retour les principes proposés. Les applications ciblées en priorité par PANAMA sont :

L’acquisition de scènes acoustiques. Les champs acoustiques sont riches en information sur les sources sonores (instruments de musique, locuteurs, etc.) et leur environnement (par exemple, l’acoustique d’une église diffère sensiblement de celle d’un bureau). Un défi particulier consiste à mesurer autant d’information que possible à partir d’une champs acoustique complet 3D+t associé à une scène acoustique, en utilisant aussi peu de capteurs que possible. Le projet projet ANR-DEFIS ECHANGE, que METISS a coordonné, a démontré la faisabilité du compressed sensing pour s’attaquer à ce défi dans certains scénarios. La mise en oeuvre effective de ces principes est une des première applications envisagées. En pratique, on peut imaginer des applications sur des scénarios tels que la télé-surveillance pour détecter des événements anormaux, par exemple pour le maintien à domicile de personnes âgées ou la sécurité dans les transports en commun.
Séparation de signaux sonores en environnements réverbérants. La séparation de signaux sonores consiste à extraire le son de divers instruments ou locuteurs à partir d’un enregistrement où ils sont mélangés. Si, dans le cas académique de mélanges linéaires instantanés, le problème a été essentiellement résolu, la plupart des « vrais » enregistrements sont effectués dans des environnements réverbérants, et posent des défis difficiles qui sont loin d’avoir trouvé des solutions satisfaisantes, surtout dans le case d’un grand nombre de sources et d’un petit nombre de canaux d’enregistrement. L’essentiel de la difficulté vient de l’estimation de la réponse impulsionnelle inconnue de la salle – associée à une matrice de filtres de mélange – que l’on peut exprimer comme un problème d’apprentissage de dictionnaire. Les solutions à ce problème auront potentiellement un impact dans l’industrie musicale et celle du jeu, par exemple pour le développement de nouvelles techniques de re-mastering numérique et d’outils de réalité virtuelle, mais également en télé-surveillance, où la localisation de sources audio est importante.

La stratégie de PANAMA consiste à assurer un bon équilibre entre les applications des modèles et méthodes développés d’une part dans le domaine de l’audio, en s’appuyant sur le savoir-faire solidement établi de METISS, et d’autre part dans d’autres domaines (indexation multimedia, biomédical) via des collaborations avec des équipes spécialisées existantes (TEXMEX, VISAGES, …).

Les contenus audiovisuels et multimedia engendrent des flux de données volumineux (audio, video, données associées telles que du texte, etc.). La manipulation de grandes collections de tels contenus nécessite des techniques efficaces pour : segmenter les flux en séquences cohérentes ; les annoter selon les mots, la langue, l’identité du locuteur, et plus généralement le type de contenu ; les indexer pour des recherches rapides et faciles, etc. Etant donné que les prochaines générations d’outils de recherche en ligne devront offrir des moyens d’effectuer de la recherche par le contenu, le besoin de réduire drastiquement la complexité algorithmique de telles tâches devient d’autant plus important que la consommation énergétique des centres de calcul devient une préoccupation d’envergure. La plupart des techniques actuelles pour traiter de tels flux audio volumineux s’appuient sur l’extraction de caractéristiques telles que les MFCC (Mel Frequency Cepstral Coefficients) et l’apprentissage de modèles statistiques de grande dimension tels que des mélanges de gaussiennes avec des milliers de paramètres. Via l’exploration de principes d’apprentissage compressé, PANAMA vise à produire de nouvelles techniques de traitement efficace de tels flux pour segmenter, classifier, etc., dans le domaine compressé.

Domaines d’application

Dans cette section

News

Links