Restaure – RESsources informatisées et Traitement AUtomatique pour les langues REgionales

Budget : 394674 €

ANR

Anne-Laure LIGOZAT

Les travaux visant à produire des ressources et des outils pour les langues peu dotées connaissent actuellement un regain d'intérêt, en particulier à travers la constitution de corpus et lexiques. Le but ultime est d'aider à préserver et à diffuser le patrimoine culturel. Les langues régionales de France peuvent être considérés comme peu dotées du point de vue des ressources et outils linguistiques. Toutes les langues disposant de peu de ressources ont en commun que leur informatisation a une faible rentabilité qui ne compense pas des coûts de développement considérables. Cependant, doter ces langues de ressources électroniques (corpus, lexiques, dictionnaires) et d'outils est une préoccupation majeure pour leur diffusion, leur protection et leur enseignement (y compris pour les néolocuteurs). Dans une perspective plus large, c'est la diversité des langues du monde qui serait mieux préservée et la quantité de données disponibles pour les chercheurs en sciences humaines et sociales (linguistique, sociologie, anthropologie, littérature, histoire...) serait également accrue. L'objectif global du projet de RESTAURE est de fournir des ressources informatiques et des outils de traitement automatique pour trois langues régionales de France : alsacien, occitan et picard. Pour atteindre cet objectif, il sera nécessaire de développer de nouveaux modèles adaptés aux langues disposant de peu de ressources et peu standardisées. Le choix initial de ces trois langues est motivé par plusieurs raisons : elles couvrent différentes familles de langues et elles disposent déjà de travaux préalables dans dans les domaines couverts par le projet. Il sera ainsi possible de s'appuyer sur les travaux existants afin de partager différentes approches, expériences et outils développés dans les projets précédents.