Du

Horaire

Lieu LISN Site Plaine - Digitéo

Séminaires, STL

Outils de traitement des comptes-rendus cliniques dans les entrepôts de données de santé

Orateur : Romain Bey & Perceval Wajsbürt

Les comptes-rendus médicaux textuels représentent une source d’information riche mais peuvent être difficiles à exploiter en raison de la variété des besoins d’extraction et de la grande quantité de données présentes dans les entrepots de santé. En outre, les algorithmes mis en place pour traiter ces données peuvent générer des résultats différents en fonction de leur implémentation, or le besoin de reproductibilité est critique dans le monde de la recherche et de la médecine. Nous présentons notre travail sur EDS-NLP, une librairie open-source pour le traitement automatique des données textuelles cliniques françaises. Son objectif est de proposer un cadre simple pour traiter de grandes quantités de données textuelles, offrir des algorithmes performants et testés, et simplifier le partage des algorithmes de TALTraitement Automatique des langues via GitHub. Cette librairie offre plusieurs fonctionnalités personnalisables telles que le nettoyage de texte, l’extraction de diverses variables, dates et synonymes de terminologies et la détection d’attributs (négation, parenté, hypothèse…). De plus, l’obtention de textes de bonne qualité étant une étape critique pour l’exploitation des comptes-rendus des EDS, nous présentons également notre travail sur la librairie EDS-PDF qui vise à faciliter l’extraction de textes depuis les documents cliniques PDF.

Lieu de l'événement