Projet de Master : Propagation d’étiquettes structurées pour le traitement automatique des langues

Titre : Propagation d’étiquettes structurées pour le traitement automatique des langues
Equipe : MAGNET
Responsable HDR : Marc Tommasi
Encadrant : Pascal Denis

Problématique :

Le traitement automatique des langues (TAL) offre deux défis centraux aux algorithmes d’apprentissage automatique: d’une part, la très grande dimensionalité de leur espace des sorties (leur nombre est le plus souvent exponentiel en la taille de l’input), et d’autre part, le faible volume de données annotées disponibles (qui vient du coût important associé à la collecte d’annotations linguistiques). Ces deux problèmes ont mené au développement d’algorithmes d’apprentissage qui intègrent ces sorties complexes, ainsi qu’à des approches qui exploitent, en plus des données annotées, des données non étiquetées (plus largement disponibles). Parmi ces dernières approches, les approches par graphe (basées notamment sur la propagation d’étiquettes et la régularisation par variété) se sont montrées extrêmement prometteuses. Malheureusement, ces approches par graphe n’ont jusqu’à présent pas été généralisées au cas des sorties structurées. La question est en effet de déterminer comment on peut propager des étiquettes structurées (p.ex., des séquences d’étiquettes ou des arbres en dépendances) à l’intérieur d’un graphe.

Travail réaliser :

Il s’agira tout d’abord pour l’étudiant de se familiariser, par le biais de lectures et l’écriture d’une synthèse, avec la littérature sur la prédiction de structure, l’apprentissage semi-supervisé par graphe, ainsi qu’un ou plusieurs problèmes de TAL (tels que l’analyse en partie de discours, le parsing syntaxique, ou l’analyse discursive) et les approches état-de-l’art pour ces problèmes. Dans un deuxième temps, l’étudiant reproduira quelques algorithmes état-de-l’art et les éprouvera sur des benchmarks. Enfin, l’étudiant tentera de combiner approches de prédiction de structures et de propagation par graphe.

Bibliographie :

Zhu, X., & Ghahramani, Z. (2002). Learning from labeled and unlabeled data with label propagation (Technical Report CMU-CALD-02-107). Carnegie Mellon University

Belkin, M., Niyogi, P., & Sindhwani, V. (2006). Manifold regularization: a geometric framework for learning from Labeled and Unlabeled Examples. Journal of Machine Learning Research, 7, 2399–2434.

A. Subramanya, S. Petrov, and F. C. N. Pereira. “Efficient Graph-Based Semi-Supervised Learning of Structured Tagging Models”. In: EMNLP. 2010, pp. 167–176.

D. Das and S. Petrov. “Unsupervised Part-of-Speech Tagging with Bilingual Graph-Based Projections”. In: ACL. 2011, pp. 600–609.