Accroître la vitalité et la visibilité numérique des langues de France :
descriptions linguistiques et corpus annotés

ANR logo
ANR-21-CE27-0004

Accroître la vitalité et la visibilité numérique des langues de France : <br>
descriptions linguistiques et corpus annotés

Description

Ce projet vise à accroître la vitalité et la visibilité de plusieurs langues de France : l’alsacien, le corse, l’occitan et le poitevin-saintongeais. Il se positionne à la croisée de la linguistique descriptive et de la linguistique de corpus. Son but principal est la constitution de ressources, en particulier de corpus bruts et annotés, avec plusieurs objectifs :

  • Construire (i) des corpus monolingues dans des genres proches ou transcrivant la langue orale, par exemple des pièces de théâtre ou des ethnotextes narratifs, et (ii) des corpus parallèles (à partir de traductions) ;
  • Développer des corpus annotés dans le cadre des “Universal Dependencies” ;
  • Produire des descriptions complètes et actualisées et des formalisations linguistiques à partir des corpus ;
  • Sensibiliser la communauté du TAL (Traitement Automatique des Langues) aux problématiques des langues non standardisées et à la nécessité de prendre en compte la variation dans les systèmes de TAL ;
  • Partager et transférer les expériences et les outils entre les langues du projet et explorer les méthodes de transfert technologique.