MElt

MElt set un étiqueteur séquentiel état-de-l’art librement disponible (LGPL) prévu pour être entraîné au moyen d’un corpus annoté et d’un lexique externe. Il a été initialement développé par Pascal Denis et Benoît Sagot. Les développements récents ont été réalisés par Benoît Sagot. MElt peut faire usage comme modèle probabiliste sous-jacent d’un modèle de type chaîne de Markov à maximum d’entropie (MEMM) ou à perceptron multiclasse (multitron). Son format de sortie est le format Brown (une phrase par ligne, chaque phrase étant une séquence de mots annotés, au format mot/étiquette, séparés par des espaces).

MElt a été entraîné sur divers corpus annotés, avec par exemple les lexiques Alexina comme source d’informations lexicales.

MElt inclut également un wrapper de normalisation pour le traitement de textes bruités, tels que les textes publiés sur le web (forums, blogs, réseaux sociaux). Ce wrapper n’est disponible que pour le français et l’anglais.

MElt peut être réentraîné sur de nouvelles données, à condition qu’elles soient mises au format Brown, au moyen du script MElt-train. Un fichier contenant un lexique externe est nécessaire, mais ce fichier peut être vide si l’on ne souhaite pas faire usage d’informations lexicales externes.

Si vous utilisez MElt, merci de citer l’une et/ou l’autre des publications suivantes:

  • Pascal Denis and Benoît Sagot (2012). Coupling an annotated corpus and a lexicon for state-of-the-art POS tagging. In Language Resources and Evaluation, DOI 10.1007/s10579-012-9193-0.
  • Benoît Sagot (2016). External Lexical Information for Multilingual Part-of-Speech Tagging. INRIA Scientific Report 8924.

Toute question, commentaire ou rapport de bug peut être envoyé à Benoît Sagot (benoit.sagot@inria.fr)

Télécharger MElt — la dernière version de MElt est toujours accessible sur le dépôt subversion du projet Alpage Linguistic Workbench hébergé sur la GForge INRIA

Les versions antérieures peuvent être récupérées sur la page de téléchargement sur la GForge INRIA.

Les commentaires sont clos.