Accroître la vitalité et la visibilité numérique des langues de France :
descriptions linguistiques et corpus annotés

ANR logo
ANR-21-CE27-0004

Accroître la vitalité et la visibilité numérique des langues de France : <br>
descriptions linguistiques et corpus annotés

Description

Ce projet vise à accroître la vitalité et la visibilité de plusieurs langues de France : l’alsacien, le corse, l’occitan et le poitevin-saintongeais. Il se positionne à la croisée de la linguistique descriptive et de la linguistique de corpus. Son but principal est la constitution de ressources, en particulier de corpus bruts et annotés, avec plusieurs objectifs :

  • Construire (i) des corpus monolingues dans des genres proches ou transcrivant la langue orale, par exemple des pièces de théâtre ou des ethnotextes narratifs, et (ii) des corpus parallèles (à partir de traductions) ;
  • Développer des corpus annotés dans le cadre des “Universal Dependencies” ;
  • Produire des descriptions complètes et actualisées et des formalisations linguistiques à partir des corpus ;
  • Sensibiliser la communauté du TAL (Traitement Automatique des Langues) aux problématiques des langues non standardisées et à la nécessité de prendre en compte la variation dans les systèmes de TAL ;
  • Partager et transférer les expériences et les outils entre les langues du projet et explorer les méthodes de transfert technologique.

Dernières actualités

Participation aux journées scientifiques du GdR Linguistique Informatique, Formelle et de Terrain

Des travaux réalisés dans le cadre du projet DIVITAL ont été présentés lors des journées scientifiques du GdR Linguistique Informatique, Formelle et de Terrain les 20 et 21 novembre 2023, à Nancy :

  • Cristina Garcia Holgado. More than just data : Dialectal variation and NLP resources for Corsican and Poitevin- Saintongeais
  • Delphine Bernhard. Transfert zero-shot pour l’étiquetage morphosyntaxique : analyse de l’impact de la transformation des données à étiqueter pour les dialectes alsaciens