L'enthousiasme actuel pour le deep learning en TAL rencontre des limites. D'une part, l'opacité des modèles neuronaux rend leur comportement difficile à interpréter. D'autre part, l'évaluation via des benchmarks a tendance à ignorer les biais de ceux-ci, limitant la robustesse et la couverture des généralisations apprises, et engendrant une faible diversité dans le domaine en général. Le but du projet SELEXINI est de relever ces défis via le développement de **méthodes d'induction faiblement supervisée d'un lexique sémantique** à partir de corpus bruts, qui sera alors **intégré dans des modèles de traitement sémantique du texte**. Les unités lexicales sont considérées comme des abstractions utiles permettant à la fois de représenter des phénomènes linguistiques complexes (p.ex. la polysémie, la similarité, les expressions polylexicales) à l'aide d'étiquettes interprétables, tout en évitant la lourdeur et l'opacité des embeddings contextuels qui représentent chaque occurrence sous la forme d'un vecteur distinct. De plus, notre lexique induit combine des représentations continues (embeddings, clusters) et symboliques (étiquettes). Il couvre des unités mono- et polylexicales, leurs sens et leurs cadres sémantiques (arguments, rôles). Ainsi, nous proposons un nouveau point de vue sur l'interprétabilité "par construction", potentiellement complémentaire aux méthodes d'inspection de modèles neuronaux. L'évaluation du lexique induit se fera par intégration dans des tâches aval qui requièrent des informations sémantiques: compréhension de textes et identification d'expressions polylexicales. Le protocole expérimental évaluera la complémentarité entre le corpus et le lexique sur des phénomènes divers, ainsi que l'interprétabilité et l'utilité des résultats pour des utilisateurs non-experts. Cette approche devrait accroître l'interprétabilité des modèles et leur couverture sur des phénomènes diversifiés (p.ex. des éléments rares ou non vus dans un corpus d'entraînement).