• emploi
  • Rennes

thèse : Traitement du langage appliqué à l’extraction de phénotypes à partir de comptes-rendus médicaux mise en relation avec le génotype. CHU Rennes, Rennes 1

Descriptif de la mission :

Contexte : Les maladies rares sont les pathologies dont la prévalence est inférieure à 0,05% (moins d’une personne sur 2000). Ensemble, elles concernent 5% de la population française et constituent donc un problème important de santé publique. La base Orphanet référence 6172 maladies rares, dont 72% auraient une composante génétique. L’étude des maladies rares se base sur l’observation de phénotypes, et leur mise en relation avec le génotype des patients. Cette tâche est compliquée par le fait qu’une même cause génétique peut entrainer des phénotypes différents, et qu’inversement des causes génétiques différentes peuvent entrainer des phénotypes similaires. Cependant, la faible prévalence rend très difficile cette étude, notamment sur le plan génétique qui nécessite des jeux de données importants. Il est donc crucial de rassembler les observations les plus précises et les plus exhaustives possibles pour chaque patient, notamment à partir des textes de ses comptes-rendus cliniques. Les défis portent à la fois sur l’extraction d’informations phénotypiques et sur la représentation de leur finesse sémantique. Cette thèse s’intègre dans un cadre de projet soutenu par b<>com, en lien avec le Service de Génétique Moléculaire et Génomique du CHU de Rennes. L’objectif de cette thèse est de réaliser un analyseur de comptes-rendus cliniques dédié à la reconnaissance des phénotypes et de leur contexte.

Approche : Cette thèse consistera (1) à réaliser un système de reconnaissances automatique d’entités nommées, (2) à définir la structure permettant de formaliser les relations entre ces entités, en prenant en compte les aspects sémantiques et syntaxiques du document, (3) à l’appliquer à un corpus de comptes-rendus cliniques pour constituer une base servant à la validation et à l’évaluation du système d’annotation, et enfin (4) en couplant cette base d’observations phénotypiques avec les données de génotype des même
patients, évaluer la valeur clinique ajoutée. La contribution principale sera un système fiable de reconnaissance d’entités nommées dans des comptes-rendus médicaux. Ces entités concernent à la fois les phénotypes (en lien avec l’ontologie Human Phenotype Ontology HPO) et les éléments qui leurs sont rattachés (modifieurs, marqueurs de négation, personne concernée). Actuellement, les meilleures performances sont obtenues par des systèmes d’apprentissage automatique basés sur les auto-encodeurs de la famille des BERT (Bidirectional Encoder Representations from Transformers), et notamment de BioBERT. Néanmoins, nos travaux précédents ont permis d’identifier les verrous suivants.
(1) Tout d’abord, les modèles pré-entraînés disponibles sur le domaine biomédical sont essentiellement en anglais, ce qui nécessite soit une stratégie de traduction dont la fiabilité n’est pas assurée, soit l’adaptation d’un modèle français au domaine cible exigeant un volume de données qui dépasse en général celui disponible. (2) Par ailleurs, il est difficile de disposer d’une cohorte de comptes-rendus annotés suffisamment large pour avoir une
représentation équilibrée des plus de 14000 phénotypes référencés dans l’ontologie HPO. (3) Enfin, les scores associés aux entités reconnues ne sont pas toujours robustes du fait de la grande diversité du langage et de ses significations implicites, ce qui génère un certain nombre de faux positifs et négatifs. Afin de résoudre ces problèmes, nous proposons tout d’abord d’expérimenter différentes approches, existantes ou originale d’adaptation de modèles au domaine et à la langue cible. Une stratégie de génération synthétique de données d’entraînement couplée à des mécanismes de supervision faible ou d’apprentissage
actif sera étudiée afin d’augmenter le corpus de référence et de cibler les annotations. Un traitement plus haut-niveau pourra également permettre de différencier les éléments du texte afin de les orienter vers des traitements spécifiques. Des mécanismes d’identification des incertitudes devront enfin être définis pour améliorer la robustesse du système. Pour la phase d’apprentissage, cette étape s’appuiera sur un corpus de 2000 comptes-rendus annotés par les experts du service de génétique du CHU. Différentes approches basées soit sur des calculs de similarité sémantique soit sur d’autres techniques par exemple à base de correspondances basées sur des dictionnaires et/ou de reconnaissance de règles syntaxiques pourront être
éventuellement utilisées pour améliorer les performances. Une deuxième contribution sera de définir une structure permettant de représenter de façon formelle les informations extraites à l’étape précédente et leur finesse sémantique. Pour cela, nous nous appuierons sur les technologies du Web Sémantique : RDF pour la représentation des informations, en lien avec OWL pour leur intégration avec les ontologies de référence (HPO, ICD, LOINC). La troisième contribution consistera à appliquer le système produit à la première étape sur un jeu de
données cliniques pour constituer une base de données annotées semi-automatiquement selon la structure définie à la deuxième étape. Elle servira de base à la validation et l’évaluation des deux premières contributions. Nous envisageons de nous appuyer à la fois sur des jeux de données publics comme GSC+ (constitué de résumés d’articles scientifiques en Anglais) et ID68 (constitué de comptes-rendus cliniques en Anglais), et sur un jeu de données cliniques du service de génétique du CHU. GSC+ et ID68 sont des jeux publics utilisés par la communauté, mais dont les annotations peuvent encore être améliorées. Leur appliquer notre système permettra à la fois de mesurer les performances de celui-ci par rapport à l’état de l’art, et de faire valider les annotations divergentes par les experts du CHU pour les faire passer de silver standard à gold standard. Le jeu de données du CHU permettra d’affiner les performances de notre système sur des données en Français et pourra donner lieu à une intégration dans un système d’aide à l’annotation de compte-rendus médicaux afin d’en évaluer la valeur ajoutée pour la phase d’annotation. Enfin, la quatrième étape consistera à étudier les relations génotype-phénotype à partir de la base précédente. En appliquant les outils produits développés aux comptes-rendus générés par les Services de génétique du GCS HUGO, la génération à grande échelle de résumés cliniques standardisés permettra de travailler sur des signatures phénotypiques et sur la sélection de patients similaires. Une fois rattachés aux données de génétique moléculaire, ces données phénotypique permettront la contextualisation clinique des variants issus du NGS à visée diagnostique. Il sera aussi possible d’évaluer la valeur ajoutée des termes extraits dans le cadre d’une démarche diagnostique. À plus long terme, ces travaux pourront faire l’objet d’une proposition de projet pilote au CAD (Collecteur Analyseur de Données) du plan FMG20251. L’originalité de ce sujet de thèse repose sur la collaboration d’expert(e)s du traitement automatique des langues, du Web Sémantique et de la génétique.

Profil recherché

Etudiant Bac+5 (Master, école d’ingénieurs)
Les candidat(e)s recherché(e)s devront disposer d’un diplôme de master ou d’ingénieur(e) avec des compétences en informatique, en traitement automatique des langues et en apprentissage automatique.

Des compétences en informatique médicale ou en bio-informatique seront également appréciées.
 

Modalités    

Durée : 3 ans

Intérêt pour le doctorant : L’étudiant bénéficiera d’un encadrement pluridisciplinaire solide dont l’objectif est de contribuer à des innovations majeures en traitement de données textuelles.
Date de démarrage : octobre 2022
Localisation : Cesson-Sévigné
Date de fin de dépôt des candidatures : 31 août 2022
Candidature à envoyer à : job@b-com.com avec la référence du poste