Construction d ontologies médicales : entre analyses de corpus et réutilisations de terminologies F. Dhombres 1,2 et J. Charlet 1,3 Inserm UMR_S 872, Éq. 20, Paris, France Service de Gynécologie-Obstétrique et Centre de Diagnostic Prénatal de l Est Parisien, Hôpital Armand Trousseau, AP-HP, Paris, France AP-HP, Paris, France Ateliers IC2010, Juin2010
1 Deux projets Les urgences et le diagnostic prénatal 2 Analyse de corpus Corpus de documents de cas du domaine Corpus de documents de référence du domaine DocBook : une bonne pratique 3 Réutilisation de Terminologies Réutilisation d une top-core ontologie Réutilisation d une ontologie de "référence" Réutilisation de classifications Réutilisation de thésaurus Le cas de la SNOMED Le cas des médicaments 4 Synthèse : quelles bonnes pratiques? Les 2 ontologies en chiffres et les perspectives à ce jour Rôles de l expert Conclusion
1 Deux projets Les urgences et le diagnostic prénatal 2 Analyse de corpus Corpus de documents de cas du domaine Corpus de documents de référence du domaine DocBook : une bonne pratique 3 Réutilisation de Terminologies Réutilisation d une top-core ontologie Réutilisation d une ontologie de "référence" Réutilisation de classifications Réutilisation de thésaurus Le cas de la SNOMED Le cas des médicaments 4 Synthèse : quelles bonnes pratiques? Les 2 ontologies en chiffres et les perspectives à ce jour Rôles de l expert Conclusion
Deux ontologies médicales développées à l Inserm U872 OntolUrgences : ontologie des urgences Projet LeRUDI, financé et piloté par l ASIP-santé Dans le but de permettre à un urgentiste régulateur de lire très rapidement (2 mns) le DPI/DMP Laboratoires : Inserm, CISMeF, LERTIM, Consortium SWORD-MONDECA-ANTIDOT-ARISEM OntoDPN : ontologie du diagnostic prénatal Projet de master 2 puis thèse (en cours de première année) Construction en tant qu ingénieur des connaissance et expert du domaine pour le partage et l aide à la décision en prénatal Partenaires : Orphanet, CFEF, FERCM, AP-HP
1 Deux projets Les urgences et le diagnostic prénatal 2 Analyse de corpus Corpus de documents de cas du domaine Corpus de documents de référence du domaine DocBook : une bonne pratique 3 Réutilisation de Terminologies Réutilisation d une top-core ontologie Réutilisation d une ontologie de "référence" Réutilisation de classifications Réutilisation de thésaurus Le cas de la SNOMED Le cas des médicaments 4 Synthèse : quelles bonnes pratiques? Les 2 ontologies en chiffres et les perspectives à ce jour Rôles de l expert Conclusion
Identification des documents supports de la connaissance OntolUrgences : avis d experts Identification des ressources par les experts du domaine OntoDPN : Modélisation UML du staff
Corpus de cas OntoDPN : comptes-rendus du domaine type de document n sources CR d échographies 194 143 2 CHU + 3 centres prénatales (64 échographistes) CR de radiopédiatrie 917 1CHU (IRM, TDM fœtales) OntolUrgences Seul les corpus de référence sont disponibles à ce jour. Un corpus de cas (CRH des urgences... en attente)
Corpus de référence OntoDPN : recueil par nombreuses collaborations type de document n sources Documents de 1221 Orphanet (Résumés,...) référence CFEF (FMC,...) EMC, HAS, livres OntolUrgences : corpus des actes de conférences d urgence 621 787 mots 22 000 syntagmes nominaux (analyse syntaxique et distributionnelle) Un second corpus de référence (GBP) est en cours d analyse.
Les corpus d OntoDPN Analyse syntaxique et distributionnelle (SyntexUpéry) corpus 1 1 2 3 total (hosp.) (ville) (radio) (réf.) docs 35 619 47 434 927 - - mots 1892999 1991237 191896 921072 4997204 SN 58 367 44 427 6 626 102 385 211 805 SV 21 643 15 710 2 837 81 374 - Rôle du corpus de référence 203 syndromes dans le corpus, versus 1095 dans la base Orphanet (Inserm SC11) (base des anomalies du développement) [Syntex / Upery / Termonto par Bourrigault et al]
Utilisation d un formalisme xml : DocBook Même démarche pour OntoDPN et OntolUrgences Librairie JDom pour créer les fichiers xml valides Pour OntoDPN quelques tricheries en utilisant Perl : fichier de 600 Mo de texte brut (limites de Java/JDom) traitement adapté à ce type de documents très redondants pour la description du normal (tables de hachage). Indication de cet examen Grossesse risque connu abdominale Estomac Vessie Membres... datation et morphologie pr coce... situation sous cardiaque intra-pelvienne pr sence de 4 membres... txt, html, pdf, sql, xls, doc... JAVA (jdom) Shell (bash) pdf2txt, sed, grep,iconv Perl <article><id>gre</id><num>3519 </num><indication>datation et morphologie</indication><resultats> Estomac: situation sous cardiaque...</article> XML (docbook) XSLT <#12SA-GRE.utf8.txt-CR-3519-texte> Indication datation et morphologie Estomac: situation sous cardiaque <#12SA-GRE.utf8.txt-CR-3520-texte> SyntexUpéry
1 Deux projets Les urgences et le diagnostic prénatal 2 Analyse de corpus Corpus de documents de cas du domaine Corpus de documents de référence du domaine DocBook : une bonne pratique 3 Réutilisation de Terminologies Réutilisation d une top-core ontologie Réutilisation d une ontologie de "référence" Réutilisation de classifications Réutilisation de thésaurus Le cas de la SNOMED Le cas des médicaments 4 Synthèse : quelles bonnes pratiques? Les 2 ontologies en chiffres et les perspectives à ce jour Rôles de l expert Conclusion
Réutilisation de Terminologies (RTO) Une stratégie top-down RTO : classications, thesaurus, ontologies Cas de réutilisation de RTO : 1 d une top-core ontologie : ontoménélas 2 d une ontologie de référence : FMA 3 de classifications : CCAM, CIM-10,... 4 d un thésaurus : orphanet, thésaurus de spécialité (urgence) 5 le cas de la SNOMED : réutiliser, mais est-ce un bon choix? Question de l alignement ou de l intégration des terminologies
Réutilisation d une top-core ontologie OntoMénélas Top et core-ontologie pour la médecine Issue du projet Ménélas de réprésentation conceptuelle de CRH en CCV, en vue du codage PMSI. OntoDPN OntoMénélas a permis de représenter de façon adaptée le haut du domaine afin de faire correspondre les signes d imagerie, concepts d OntoDPN avec les structures anatomiques reprises du FMA, en tenant compte de la mère et du fœtus. OntolUrgences Idem OntoDPN sans la spécificité liée au couple mère/fœtus
AnatomicalBoundaryEntity ImmaterialAnatomicalEntity FetalSpace AnatomicalSpace GestationalSpace EmbryonicSpace SociologicObject OrganSystem_F PhysicalSystemicObject GestationalPhysicalSystemicObject OrganSystemSubdivision_F PseudoObject AbstractObject Substratum IdealObject DerivedNotion IntentionalObject PhysicalObject Notion ViewPoint NonGestationalPhysicalSystemicObject OrganSystemSubdivision OrganSystem RealObject Tissue PortionOfPlasma MetaAbstractObject NonGestationalSubstance PortionOfBlood Substance PortionOfBodySubstance PortionOfPlasma_F GestationalSubstance PortionOfBlood_F PortionOfAmnioticFluid AnatomicalCluster Inanimate AnatomicalStructure NonGestationalStructure Body Cell Organ AnatomicalCluster_F HumanBeing FetalStructure Body_F Animate Cell_F GestationalStructure ExtraEmbryonicStructure Organ_F GestationalOrganism Embryo Placenta Fetus EmbryonicStructure UmbilicalCord Réutilisation d une ontologie de "référence" OntoDPN et le Foundational Model of Anatomy (FMA) Concept d'ontomenelas Entity Concept d'ontodpn Concept du FMA Concept du FMA déplacé Concept "type FMA" pour le fœtus CountableObject MorphologicObject SystemicObject MassObject D * E * * C * * A B OntolUrgences et le FMA Idem que pour OntoDPN L anatomie reprise du FMA est fidèle au modèle avec une granularité plus faible que dans OntoDPN.
Réutilisation de classifications : CCAM, CIM-10 OntoDPN : ajouts sélectifs Choix des annotations (ccamid, orphaid, cim10id, OmimId, fmaid) Automatisation de la gestion des annotations (procédure ETL par Talend Open Studio) OntolUrgences : importations + élagages Choix des annotations (ccamid, snomedid, fmaid) Automatisation de 2 manières : programmes JAVA directement appliqué aux fichiers ou SESAME/SPARQL Dans tous les cas, construction d une ressource terminologique au format SKOS si elle n existe pas déjà (projet Interstis)
Réutilisation de thésaurus OntoDPN Collaboration avec orphanet : reprise d une hiérarchie en partie non en cours Essai de représentation par OntoDPN du thésaurus du CFEF OntolUrgences Tentative (réussie) de représentation des 1005 diagnostics du thésaurus de spécialité (extrait de la CIM-10) Mais certains concepts sont douteux quant à leur réelle utilité médicale («affection respiratoire due à des agents chimiques, des émanations, des fumées et des gaz, sans précision») Pour un usage futur (codage PMSI/T2A)
Le cas de la SNOMED 3.5 OntoDPN Alignement avec la SNOMED = perspective de travail OntolUrgences En raison de la couverture nécessaire (fouille dans le dossier tout venant), réintégration de la branche diagnostique de la terminologie Snomed 3.5 comme une ontologie pour compléter le travail d élaboration de l ontologie Gros travail (+ 100h d expert) «d élagage» et réorganisation pour conserver 6000 sur 25000 concepts La difficulté et le temps nécessaire nous rappellent que la SNOMED n est pas une ontologie et que dans sa version 3.5 elle contient beaucoup d erreurs... mais la Snomed-CT est-elle mieux?
Le cas des médicaments OntoDPN perspective de travail, peu de médicaments dans le domaine OntolUrgences absence d ontologie des médicaments, classification ATC de l OMS arborescence mais pas (trompeur) une ontologie : catégories de médicaments et substances répétées avec des identifiants différents dans une perspecives de R.I., il faut la compléter avec les spécialités fournies par l AFSSAPS construction et rattachement de l ATC avant élagage par les urgentistes pour fournir le niveau d intérêt pour les urgences rattachement aposterioride l ATC totale avec les spécialités de l AFSSAPS (annotation pour préciser le niveau de rattachement et conservation de l URI pour l instant).
1 Deux projets Les urgences et le diagnostic prénatal 2 Analyse de corpus Corpus de documents de cas du domaine Corpus de documents de référence du domaine DocBook : une bonne pratique 3 Réutilisation de Terminologies Réutilisation d une top-core ontologie Réutilisation d une ontologie de "référence" Réutilisation de classifications Réutilisation de thésaurus Le cas de la SNOMED Le cas des médicaments 4 Synthèse : quelles bonnes pratiques? Les 2 ontologies en chiffres et les perspectives à ce jour Rôles de l expert Conclusion
Les chiffres OntoDPN 878 classes, 16 relations, 1007 axiomes, 1701 annotations Travail de construction d un index de signes prénataux pour Orphanet Évaluation de la couverture du thésaurus du CFEF OntolUrgences 14000 classes, 59 relations, 15223 axiomes, 261 concepts définis Travail sur les relations (OntoMénélas) Travail de construction de concepts définis (plusieurs milliers) Alignement avec la snomed = une autre grosse branche du projet (http://sourceforge.net/projects/onagui/) Évaluation cet été au sein du prototype développé dans le cadre du projet de Lecture Rapide en Urgence du Dossier Informatisé (LeRUDI).
Rôles de l expert Dans l étude de corpus : OntoDPN difficulté de dissocier les rôles exploiter la complémentarité des ressources (ex. maladies rares) Dans la sélection des concepts : OntolUrgences Pour qualifier en permanence le travail des ontologues Pour élaguer/corriger les terminologies importées/ontologisées (CCAM, SNOMED, ATC)
Pour conclure, de bonnes pratiques? Pour les corpus Procédures d extration réutilisables Formats exploitables par la suite (DocBook) Définition de l'usage Identification des ressources Normalisation sématique Engagement ontologique Réutilisation de RTO Évaluation en pratique Pour les RTO Identifiants à conserver (choix des annotations, la reprise de l URI d origine est discutable sauf si reprise à l identique) Formats exploitables par la suite (SKOS) Procédures d extraction réutilisables... en attente de Dafoe
Introduction Deux projets Analyse de corpus Réutilisation de Terminologies Synthèse : quelles bonnes pratiques? Remerciements et collaborations F. Dhombres et J. Charlet Analyses de corpus et réutilisations de terminologies