OSCAR / goclassy

OSCAR est un très gros corpus multilingue obtenu par classification par langue et filtrage du corpus Common Crawl à l’aide de l’architecture goclassy distribuée librement ici. Il peut être téléchargé ici.

Si vous utilisez OSCAR ou goclassy, merci de citer cet article.

Les commentaires sont clos.