Les modèles neuronaux ont permis des progrès spectaculaires en traitement de la langue (TAL) ces dernières années. Le projet DeepTypo se propose d'utiliser ces modèles et notamment les modèles multilingues pré-entraînés de la parole, pour concevoir des méthodes permettant d'extraire automatiquement des informations typologiques utiles pour la documentation et l’étude des langues (indices de complexité phonologique et morphosyntaxique, proximité entre langues...) à partir d'enregistrements audio. Reposant sur une collaboration entre linguistes et chercheurs en TAL, le projet DeepTypo s'inscrit résolument dans le cadre des humanités numériques en abordant des questions fondamentales des deux communautés. Elles aideront les linguistes dans leur travail de documentation et d'analyse des langues et notamment des langues « rares » et « peu dotées » en mettant à leur disposition de nouveaux outils d’analyse automatique. Au-delà de l’aspect « développement d’outils », le projet DeepTypo permettra surtout de montrer, en prenant pour exemple des problématiques d’actualité en créolistique (l’étude des créoles) et dialectologie des langues sino-tibétaines, que les représentations au cœur des réseaux de neurones peuvent être utilisées pour répondre à des questions fondamentales en linguistique. L'approche mise en œuvre dans DeepTypo contribuera également à l’identification des limites des méthodes fondées sur l’affinage d’un modèle pré-entraîné. Cette méthode a permis de développer, à faible coût, des systèmes de TAL pour plusieurs langues et de nombreuses tâches et est souvent présentée aujourd’hui comme « LA » solution à tous les problèmes de TAL. L'identification des caractéristiques linguistiques capturées par les réseaux de neurones permettra de vérifier si c’est bien le cas : si un modèle de la parole n’est, par exemple, pas capable de capturer les tons d’une langue, il est plus que probable qu’il ne puisse pas être utilisé pour développer un système pour des langues tonales.