Accroître la vitalité et la visibilité numérique des langues de France :
descriptions linguistiques et corpus annotés

ANR-21-CE27-0004

Description

Ce projet vise à accroître la vitalité et la visibilité de plusieurs langues de France : l’alsacien, le corse, l’occitan et le poitevin-saintongeais. Il se positionne à la croisée de la linguistique descriptive et de la linguistique de corpus. Son but principal est la constitution de ressources, en particulier de corpus bruts et annotés, avec plusieurs objectifs :

Construire (i) des corpus monolingues dans des genres proches ou transcrivant la langue orale, par exemple des pièces de théâtre ou des ethnotextes narratifs, et (ii) des corpus parallèles (à partir de traductions) ;
Développer des corpus annotés dans le cadre des “Universal Dependencies” ;
Produire des descriptions complètes et actualisées et des formalisations linguistiques à partir des corpus ;
Sensibiliser la communauté du TAL (Traitement Automatique des Langues) aux problématiques des langues non standardisées et à la nécessité de prendre en compte la variation dans les systèmes de TAL ;
Partager et transférer les expériences et les outils entre les langues du projet et explorer les méthodes de transfert technologique.

Dernières actualités

20/05/2024 1 min de lecture

Articles issus du projet DIVITAL à LREC-COLING 2024 et SIGUL 2024

Plusieurs articles issus de travaux réalisés dans le cadre du projet DIVITAL ont été présentés lors de la conférence LREC-COLING 2024 qui a eu lieu du 20 au 25 mai 204 à Turin en Italie :

Empowering Low-Resource Regional Languages with Lexicons : A Comparative Study of NLP Tools for Morphosyntactic Analysis (Garcia Holgado & Vergez-Couret, LREC-COLING 2024)
Agettivu, Aggitivu o Aghjettivu? POS Tagging Corsican Dialects (Millour et al., LREC-COLING 2024)
The ParCoLab Parallel Corpus and Its Extension to Four Regional Languages of France (Stosic et al., LREC-COLING 2024)
Loflòc: A Morphological Lexicon for Occitan using Universal Dependencies (Vergez-Couret et al., LREC-COLING 2024)

Un autre article a été présenté lors de l’atelier SIGUL 2024 :

Managing Fine-grained Metadata for Text Bases in Extremely Low Resource Languages: The Cases of Two Regional Languages of France (Vergez-Couret et al., SIGUL-WS 2024)

24/11/2023 1 min de lecture

Participation aux journées scientifiques du GdR Linguistique Informatique, Formelle et de Terrain

Des travaux réalisés dans le cadre du projet DIVITAL ont été présentés lors des journées scientifiques du GdR Linguistique Informatique, Formelle et de Terrain les 20 et 21 novembre 2023, à Nancy :

Cristina Garcia Holgado. More than just data : Dialectal variation and NLP resources for Corsican and Poitevin- Saintongeais
Delphine Bernhard. Transfert zero-shot pour l’étiquetage morphosyntaxique : analyse de l’impact de la transformation des données à étiqueter pour les dialectes alsaciens

30/05/2022 1 min de lecture

Participation à l'école thématique d'été « Annotations »

Trois membres du projet DIVITAL participent à l’école thématique d’été « Annotations » organisée par le GDR LIFT.

Plus de posts

Équipe du projet →

Accroître la vitalité et la visibilité numérique des langues de France : descriptions linguistiques et corpus annotés

Description

Dernières actualités

Accroître la vitalité et la visibilité numérique des langues de France :
descriptions linguistiques et corpus annotés