L’IA au LISN

L’IA au LISN

Le Laboratoire Interdisciplinaire des Sciences du Numérique (LISN – UMRUnité Mixte de Recherche CNRS 9015, INRIA, Centrale Supélec) a été créé en 2021 en regroupant 16 équipes de recherche du LIMSILaboratoire d'Informatique pour la Mécanique et les Sciences de l'Ingénieur, créé en 1972 et dont les équipes ont rejoint celles du LRI en 2021 pour fonder le LISN. et du LRI (structurées en 5 départements), et leurs services de soutien et support à la recherche, comprenant ainsi plus de 350 personnes.

Le LISN est le laboratoire de l’université Paris-Saclay avec la plus importante expertise en intelligence artificielle : il comporte plus de 170 membres travaillant dans ce domaine, dont plus de 60 permanents, principalement dans les départements Science des Données (SD) et Sciences et Technologies des Langues (STL).

Politique de recrutement

Le LISN bénéficie d’un environnement porteur (cluster DataIA, programme PhDs COFUND DeMythif.AI, masters en IA très sélectifs et ouverts à l’international). Les personnes recrutées pourront compter sur le soutien financier de DataIA pour la mise en place de leurs projets à Paris-Saclay ainsi que celui du programme Springboard de l’université (120k€ potentiellement).

Fort de cette dynamique, le LISN recrute cette année un·e Professeur·e et un· Maître·sse de conférence en IA, dans le cadre d’une programmation pluri-annuelle portant sur une dizaine de postes, avec un service d’enseignement à l’UFR Sciences de l’université Paris-Saclay.

Les candidat·es cette année intégreront les équipes A&O, Bioinfo ou LaHDAK du département SD, ou les équipes LIPSLangue Interaction Parole et Signes, M3 ou SEME du département STL. La priorité pour le poste MdC sera donnée à l’équipe A&O.

La personne recrutée s’impliquera dans l’animation scientifique du laboratoire. La personne recrutée pour le poste de Professeur·e s’engagera à prendre des responsabilités dans la branche IA du master informatique de l’université. Un rayonnement international sera apprécié. Les candidat·es sont invités à contacter les responsables des départements et équipes qu’ils ou elles souhaitent s’intégrer, à savoir :

Présentation succincte des départements STL et SD et de leurs thématiques prioritaires en 2026

Le département Sciences et Technologies des Langues (STL) souhaite renforcer les activités orientées vers le développement de modèles et méthodes d’IA pour contribuer à la découverte de propriétés fondamentales de la langue, et à l’analyse efficace d’énoncés écrits oraux ou signés.
Le département STL rassemble 3 équipes (LIPSLangue Interaction Parole et Signes, M3, SEME) de renommée internationale développant des méthodes d’IA aussi bien statistique que symbolique, avec un regard pluridisciplinaire alliant informatique, traitement du signal et linguistique. Le département étudie des questions fondamentales relatives aux systèmes linguistiques, en exploitant de larges corpus collectés, annotés et enrichis de manière non-supervisée ou semi-supervisée. Ainsi, nous développons les grandes applications du traitement des langues (reconnaissance vocale, recherche d’information, agents conversationnels, …) qui portent des enjeux sociétaux et éthiques de plus en plus importants. Le département s’intéresse aux problématiques d’accès au sens contenu dans les productions langagières, dans un objectif d’analyse, de compréhension, de modélisation, ou de production. Nous appliquons nos recherches aux modalités écrites, parlées et signées ainsi que dans une diversité de registres et de domaines de spécialité, comme le domaine biomédical.

La personne recrutée devra présenter un projet de recherche en Traitement Automatique des Langues et un projet d’intégration dans les thématiques intéressant le département en priorité autour de l’étude des grands modèles de langues (LLM), comme par exemple :

  • les méthodes de prise en compte de l’impact environnemental de production et d’utilisation des LLMs, dans la perspective de généraliser la conduite de recherches soutenables ;
  • les méthodes d’adaptation d’IA générative pour la modélisation de contextes pauvres en ressources (langues peu dotées, few-shot Learning), l’intégration de connaissances pour le développement de LLM spécialisés et fiables : RAG, exploitation de ressources terminologiques, extraction d’information
  • l’étude des propriété intrinsèques des gros modèles de langues (LLMs) en particulier sur le plan des biais et de la préservation de la confidentialité liée aux données d’entraînement ou d’affinage ;
  • l’étude des aspects éthiques et sociaux du numérique, en particulier, l’impact du numérique sur la science: niveau épistémologique, évaluation automatique d’articles, fact checking.

Contact

Le département Science des Données (SD) regroupe quatre équipes aux expertises reconnues et complémentaires (A&O, Bioinfo, LaHDAK, ROCS). Elles couvrent l’ensemble des étapes relatives à l’exploration des données et des connaissances, depuis leur modélisation jusqu’à leur collecte, leur gestion, leur analyse, leur structuration et leur exploitation par des méthodes d’apprentissage automatique. Cette complémentarité favorise des synergies autour des thématiques liées aux données, aux connaissances, à l’apprentissage statistique et à l’optimisation, avec des applications marquées dans les domaines de la simulation, de la bio-informatique et du web.

Au-delà des fondements théoriques et méthodologies des sciences des données, le département affirme une forte dimension applicative en contribuant à des enjeux sociétaux majeurs tels que la santé, la transition écologique, les sciences du vivant et les infrastructures numériques. Cet ancrage dans les applications s’accompagne d’une vigilance éthique sur les choix de recherche, avec la volonté de développer des méthodes sobres, explicables et inclusives, attentives aux biais et à leurs impacts. Le département se distingue également par un engagement affirmé en faveur d’une recherche ouverte et reproductible, favorisant la transparence, le partage des savoirs et la diffusion citoyenne des résultats scientifiques.

Les thématiques IA du département comprennent:

  • l’apprentissage statistique : “Good AI” (frugalité dans l’autoML, absence de biais, explicabilité, causalité…) et “AI for good” (pour une société soutenable); interactions entre physique statistique et apprentissage (notamment pour comprendre la dynamique de l’entraînement), incorporation de connaissances dans l’apprentissage (notamment pour les simulations numériques et les séries temporelles) (équipe A&O)
  • IA hybride, contraintes et données massives : développement de méthodes combinant apprentissage automatique, raisonnement symbolique (règles, contraintes, ontologies, graphes), fouille de données déclarative et interactive ainsi que la gestion de données massives et hétérogènes. L’objectif est de concevoir des systèmes intelligents explicables, fiables et efficaces, capables d’acquérir et d’intégrer des connaissances, de raisonner et de résoudre des problèmes complexes (LaHDAK).
  • Apprentissage pour la biologie, notamment en évolution, génomique et santé (BioInfo, cf plus bas)

Cette liste est non exhaustive, de nouvelles thématiques sont les bienvenues.

Contact

Propositions complètes de postes 2025 en IA chez STL

L’équipe souhaite renforcer les travaux autour de l’impact des grands modèles de langues (LLM), sur les thématiques suivantes :

  • les méthodes de prise en compte de l’impact environnemental de production et d’utilisation des LLMs, dans la perspective de généraliser la conduite de recherches soutenables ;
  • les méthodes d’évaluation de solutions de traitement automatiue des langues intégrant des dimensions de biais et d’impact environnemental ;
  • le développement de modèles informatiques frugaux ou avec impact environnemental maîtrisé ;
  • l’étude des propriété intrinsèques des gros modèles de langues (LLMs) en particulier sur le plan des biais et de la préservation de la confidentialité liée aux données d’entraînement ou d’affinage ;
  • l’étude des aspects éthiques et sociaux du numérique, en particulier, l’impact du numérique sur la science: niveau épistémologique, évaluation automatique d’articles, fact checking.

Contact

Profil TALTraitement Automatique des langues et extraction d’information – équipe SEME

L’équipe souhaite renforcer les travaux en priorité autour de la problématique de l’extraction d’information :

  • Recherche et extraction d’informations précises : (i) au moyen d’approches fondées sur des modèles pré-entraînés ou des approches génératives (ii) applicables notamment dans un cadre conversationnel, (iii) adaptée en domaine de spécialité (biomédical, juridique, pédagogie, etc.)
  • Adaptation d’IA générative pour la modélisation de contextes pauvres en ressources (langues peu dotées, few-shot Learning), intégration de connaissances pour le développement de LLM spécialisés et fiables : RAG, exploitation de ressources terminologiques, extraction d’information
  • Amélioration de l’explicabilité́ et de la transparence des LLM
  • Induction lexicale et sémantique à partir de textes, intégrant notamment les expressions polylexicales
  • Évaluation de l’impact environnemental: (i) appliquée à des solutions numériques tels que les LLMs (ii) prenant en compte l’impact de production et d’utilisation du numérique, dans la perspective de généraliser la conduite de recherches soutenables

Contact

  • Sciences et Technologies des Langues

    SEME

    Grouin Cyril

Propositions complètes de postes 2025 en IA département Sciences des Données

Profil coeur machine learning – équipe A&O

  • Good AI: apprentissage frugal (en complexité et en quantité de données), apprentissage causal, explication post-hoc de modèles boite-noire, apprentissage de modèles n’empirant pas les biais des données;
  • AI for Good: applications pour une société soutenable (agriculture, climat et santé; algorithmes pour l’emploi), évaluation et challenge pour reproductibilité et la science ouverte
  • Incorporation de connaissances dans l’apprentissage (augmentation de données, géométrique deep learning, prompting, simulations et modèle génératif, modélisation)
  • Cross-fertilisation ML / physique statistique / dynamique de l’entraînement : étude des invariances, du comportement asymptotique, neural tangent kernel, etc.

Contact

Profil – IA Hybride, Contraintes et Données Massives – équipe LaHDAK

  • Contraintes et Apprentissage : acquisition de contraintes à partir des données (approche passive) ou via l’interaction avec l’utilisateur (approche active), incluant la fouille déclarative ou interactive et les méthodes hybrides combinant le raisonnement par contraintes (programmation par contraintes, SAT) et l’apprentissage automatique pour la modélisation, l’acquisition de connaissances et la résolution de problèmes complexes.
  • IA Hybride et neuro-symbolique : conception de modèles combinant apprentissage automatique et de connaissances symboliques (logiques, ontologies, graphes, contraintes) pour des systèmes inteligents explicables, vérifiables et sobres. L’accent est mis sur l’intégration de capacités de raisonnement dans les réseaux de neurones et LLM, ainsi que sur le développement de solveurs hybrides améliorant la résolution de problèmes complexes.
  • IA et automatisation : conception de systèmes proactifs, explicables et fiables, intégrant des agents intelligents capables de planifier, de collaborer et d’interagir à la fois avec leur environnement et avec les utilisateurs.
  • Données massives, hétérogènes et incertaines : gestion et exploitation de données structurées ou non, pour l’intégration et le développement de modèles d’IA, avec un accent sur des cadres flexibles et évolutifs, la mdoélisation et la prise en compte de l’incertitude, l’analyse à grande échelle, ainsi que la performance, la traçabilité et la qualité des traitements.

Contact

Profil Apprentissage pour la biologie, notamment en évolution, génomique et santé – équipe BioInfo

Cette thématique vient renforcer la collaboration déjà existante entre les équipes BioInfo et AO. Il s’agit de développer des approches d’apprentissage statistique pour des applications en biologie, par exemple en génétique des populations, évolution, ou encore pour l’intégration de données biologiques et de santé. Liste non exhaustive: génomique, évolution et écologie génétique, motifs et structuration de séquences biologiques, évolution du génome, toute application à des données biologiques, biomédicales, ou meta (base de données de pipelines bioinformatiques).

Impact, Position
La potentialité de l’apprentissage, entre autre de l’apprentissage profond (reseaux de neurones), pour la bio-informatique a été démontrée médiatiquement par Alpha-Fold(2) sur le sujet du repliement de protéines (sujet important dans le design de médicaments et dans la compréhension des mécanismes cellulaires). La robustesse, interprétabilité et transférabilité de ces approches sont donc activement analysées par les experts du domaine. Plus généralement, les méthodes d’apprentissage sont flexibles et permettent de tirer profit des données disponibles tout en intégrant les connaissances du domaine. L’apprentissage profond, par exemple, peut exploiter les propriétés structurelles des données, comme les invariances par translation/permutation ou leur structure en graphe. Pour ce faire, il faut à la fois une expertise dans le domaine d’application pour exprimer les propriétés et connaissances à integrer au modèle, et un savoir-faire pour concevoir les méthodes adaptées.

Axes
Les objets d’études privilégiés de l’équipe Bioinfo sont les séquences génomiques, ARN, proteines et les bases de données d’objets et de méthodes bioinformatiques (pipelines), avec un intérêt fort pour les questions évolutives et biomédicales. Pour tous ces objets, les axes méthodologiques visés par cette offre sont les suivants (non exhaustif).

  • Conception de modèles statistiques (profonds ou non) intégrant les propriétés et invariances des données et de la tâche grace à une connaissance experte. Exemple: méthodes de type graph-ML (structured loss), graph-NN pour incorporer les connaissances d’un réseau de gènes ou de populations.
  • Développement de modèles adaptés aux problèmes typiques liés aux données biologiques, telles leur quantité (coût de mesure ou difficulté d’étiquetage) et qualité (mesure incertaine on incomplète). Analyse et intégration de données hétérogènes (biologiques et santé). Exemple: apprentissage semi supervisé, apprentissage frugal, transfert, simulation-based inference
  • Apprentissage non supervisé, réduction de dimension et clustering pour données biologiques. Recherche de motifs d’intérêt (supervisé ou non). Apprentissage de similarité entre graphes (pipelines, phylogénies, arbres de coalescence, motifs de séquences, structure 2D/3D de séquences, …). Génération de données biologiques synthétiques. Ex: modèles à variables latentes, modèles génératifs, modèles évolutifs guidés.
  • Explicabilité des méthodes, mesures d’incertitude, et inférence causale, permettant le dialogue avec les chercheurs expérimentalistes/les médecins. Confidentialité des données/algorithmes/pipelines en collaboration avec les détenteurs de données sensibles/massives.

Contacts

Prospectives fédératrices au sein du département SD

  • IA pour l’environment / l’agro-écologie / frugalité
  • IA hybride
  • Apprentissage pour la biologie, notamment en évolution, génomique et santé

Les deux dernières étant déjà décrites ci-dessus dans les thématiques des équipes, voici la description de la troisième:

IA pour l’environment / l’agro-écologie / frugalité

L’objectif d’adapter les connaissances et les pratiques humaines au changement climatique définit un programme de recherche ambitieux en Intelligence Artificielle, mobilisant les efforts joints de toutes les disciplines liées à la science des données (en particulier, apprentissage, représentation des connaissances, raisonnement (distribué), explications, préférences, algorithmique, capteurs).

Un exemple d’application est celui de l’agro-écologie, où deux axes se dessinent (de manière non exclusive) : i) la recherche de stratégies d’adaptation, réutilisant l’état de l’art et des pratiques des régions passées, pour identifier un éventail de solutions adaptées à une région en évolution. Les approches envisagées demandent d’allier les connaissances disponibles aux diverses échelles (depuis la biologie jusqu’à la typologie des terrains) en exploitant les essais ponctuels dans une logique de système de recommandation. ii) la prise en compte des incertitudes portant sur la nature de l’évolution, requérant de passer d’un problème d’optimisation à un problème d’optimisation multi-objectifs.

Intégration

La personne recrutée s’intégrera dans un écosystème dynamique et stimulant incluant : DATAIA, ClusterIA, IRT System X, SATT Paris Saclay et de nombreux partenaires industriels.