Construction d ontologies médicales : entre analyses de corpus et réutilisations de terminologies

Documents pareils
Informatique Médicale & Ingénierie des Connaissances Pour la e-santé

OPEN DATA : CHALLENGES ET PERSPECTIVES D ENTREPOSAGE

WHITE PAPER Une revue de solution par Talend & Infosense

ECHOGRAPHIE EN GYNECOLOGIE ET EN OBSTETRIQUE

Fondation PremUp. Mieux naître pour mieux vivre

Ingénieur R&D en bio-informatique

Master Informatique Aix-Marseille Université

Objectif : Passer de l analyse métier et fonctionnelle à la définition des applications qui

M2 SIAW - Exemples de stages réalisés. Gabriella Salzano - Document de travail - 28/1/2015

Gestion de données avec TALEND

Les Entrepôts de Données

Besoins cliniques et tendances en informatisation des services de santé. Fabien de Lorenzi Directeur principal, Orientation produits

Masses de données et calcul : à l IRIT. 8 octobre 2013

MODULE D EXERCICE PROFESSIONNEL NOTION MÉDICO-ÉCONOMIQUE DES DE RADIOLOGIE ET IMAGERIE MÉDICALE. Dr F Lefèvre (1-2), Pr M Claudon (2)

Ressources lexicales au service de recherche et d indexation des images

Le signalement des acquisitions numériques à l échelle nationale Le rôle du hub de métadonnées scénarios et prototype

Principe, applications et limites

Laboratoire d Informatique, de Traitement de l Information et des Systèmes EA établissements T. Paquet D. Olivier T. Lecroq A.

Catalogue des formations Edition 2015

Travail de diplôme 2011 Business Intelligence Open Source SpagoBI/Talend Résumé

Construction d ontologies à partir de textes

Bases de données pour la recherche : quels enjeux et quel rôle pour les patients?

Introduction: 1. définition d un ETL 2. importance et diversité des données spatiales utilitédes ETL géographiques

Bases de données Outils de gestion

Infor HCM Anael Risques Professionnels. Infor HCM. Infor HCM Anael Risques Professionnels

Sécurité des entrepôts de données dans le Cloud Un SaaS pour le cryptage des données issues d un ETL

FORMATION TALEND. Page 1 sur 9

! Text Encoding Initiative

THOT - Extraction de données et de schémas d un SGBD

MyReport, LE REPORTING SOUS EXCEL

Intégration des données de prescription dans un entrepôt de données biomédicales Integration of prescription data in a clinical data warehouse

Datalift. + + Architecture Modularité Déploiements. d j = 09/04/2015 Laurent BIHANIC

Compte-rendu re union Campus AAR 3 mars 2015

Chaîne opératoire de réalisation d une base de données. ANF «Comment concevoir une base de données» (29-30/01/2015)

Exposition de la population française aux rayonnements ionisants liée aux actes de diagnostic médical en 2012

OFFRE MDB Service & Architecture Technique. MyDataBall Saas (Software as a Service) MyDataBall On Premise

Auditabilité des SI et Sécurité

Evolution et architecture des systèmes d'information, de l'internet. Impact sur les IDS. IDS2014, Nailloux 26-28/05/2014

L agénésie isolée du corps calleux

Un outil de visualisation de classifications et d intégration de données phénotypiques et génétiques pour faciliter le codage des maladies rares

Recherche documentaire et autoformation. Lecture critique d un article médical. Recommandations pour la pratique. Les maladies orphelines

Plan d études du CAS SMSI Volée 2014

Profil d études détaillé. Section : Informatique et systèmes Finalité : Technologie de l informatique

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril / 15

Qu est-ce qu un test génétique?

Comment exploiter la standardisation de l'informatique pour en faciliter la gestion.

Analyse comparative entre différents outils de BI (Business Intelligence) :

Hôpital performant et soins de qualité. La rencontre des extrêmes estelle

Journées de formation DMP

Bases de données Cours 1 : Généralités sur les bases de données

Programme «Analyste Programmeur» Diplôme d état : «Développeur Informatique» Homologué au niveau III (Bac+2) (JO N 176 du 1 août 2003) (34 semaines)

Référentiels de représentation des contenus

Filière Fouille de Données et Décisionnel FDD (Data Mining) Pierre Morizet-Mahoudeaux

Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe

Easy to. report. Connexion. Transformation. Stockage. Construction. Exploitation. Diffusion

Formation L.M.D. en instrumentation biomédicale. Mise en œuvre dans une université scientifique et médicale : Claude Bernard Lyon I

La Gestion Électronique de Documents spécialement conçue pour les Experts Comptables

OBSAqim médias. Fréquence d utilisation, intérêt et qualité perçus par les médecins des différents canaux d information sur les médicaments

Présentation générale du projet data.bnf.fr

Ingénierie et gestion des connaissances

1.2 Genèse. 1.3 Version de Designer utilisée

Le fonctionnement d un service d archives en entreprise. Le Service national des archives

Projet de grossesse : informations, messages de prévention, examens à proposer

Césarienne pour toutes

Retour d expériences avec UML

Formations 2015 JASPER, REDMINE, TABLEAU, TALEND, SPAGO BI SYNALTIC 24 RUE DE L EGLISE VINCENNES

Anatomie Pathologique (PAT)

Conception, architecture et urbanisation des systèmes d information

L archivage pérenne du document numérique au CINES. CINES (O.Rouchon) JRES Novembre 2007

L archivage pérenne du document numérique au CINES. CINES (O.Rouchon) Rencontres RNBM 3 Octobre 2007

RÉF : 2002/COFAX/LP V1.0

RNV3P Recherche de pathologies émergentes

BIG DATA en Sciences et Industries de l Environnement

Curriculum Vitae. GISBERT Aurélien Ingénieur Informatique INSA Senior Business & Data Analyst Business Intelligence 11 ans d expérience

Information utiles. webpage : Google+ : digiusto/

SYSTRAN 7 Guide de démarrage

Les enjeux de la dématérialisation du courrier entrant

LEA.C5. Développement de sites Web transactionnels

Introduction à la B.I. Avec SQL Server 2008

Infrastructure / réseau / sécurité /support utilisateur

Gestion des bases de données

Mineure Architectures Orientées Services SOA Business Process Modeling (BPM) Mineure SOA. Business Process Modeling (BPM)

Plan national maladies rares. Axes, Mesures, Actions. Qualité de la prise en charge, Recherche, Europe : une ambition renouvelée

Groupe utilisateurs du SICAP. Version finale Validée le 31 janvier 2012

Consultant fonctionnel et technique/ingénieur d'étude/cp/amoa/formateur

Éléments de programmation et introduction à Java

Expert technique J2EE

Groupe Eyrolles, 2004 ISBN :

Stage ingénieur : Participation à un projet de convergence des Systèmes d Information de retraite

Programme scientifique Majeure ARCHITECTURE DES SYSTEMES D INFORMATION. Mentions Ingénierie des Systèmes d Information Business Intelligence

TRAAM STI Acquisition et exploitations pédagogiques des données sur un système pédagogique

IMPACT PEDAGOGIQUE D UN SITE INTERNET DE SERVICE HOSPITALIER

XML par la pratique Bases indispensables, concepts et cas pratiques (3ième édition)

Urbanisation de système d'information. PLM 6 (Product Lifecycle Management) Collaboration et partage d'informations

La matrice emploi- exposition spéci2ique du milieu de soin : application au risque chimique

Que signifie être membre du Programme de l OMS pour la pharmacovigilance internationale

Organisation du suivi dans le cadre d un réseau

ISTEX, vers des services innovants d accès à la connaissance

openarchitectureware & transformation de modèle Yannick Lizzi Architecte Logiciel itemis France Mail: lizzi@itemis.de

Postes à pourvoir 2015

Transcription:

Construction d ontologies médicales : entre analyses de corpus et réutilisations de terminologies F. Dhombres 1,2 et J. Charlet 1,3 Inserm UMR_S 872, Éq. 20, Paris, France Service de Gynécologie-Obstétrique et Centre de Diagnostic Prénatal de l Est Parisien, Hôpital Armand Trousseau, AP-HP, Paris, France AP-HP, Paris, France Ateliers IC2010, Juin2010

1 Deux projets Les urgences et le diagnostic prénatal 2 Analyse de corpus Corpus de documents de cas du domaine Corpus de documents de référence du domaine DocBook : une bonne pratique 3 Réutilisation de Terminologies Réutilisation d une top-core ontologie Réutilisation d une ontologie de "référence" Réutilisation de classifications Réutilisation de thésaurus Le cas de la SNOMED Le cas des médicaments 4 Synthèse : quelles bonnes pratiques? Les 2 ontologies en chiffres et les perspectives à ce jour Rôles de l expert Conclusion

1 Deux projets Les urgences et le diagnostic prénatal 2 Analyse de corpus Corpus de documents de cas du domaine Corpus de documents de référence du domaine DocBook : une bonne pratique 3 Réutilisation de Terminologies Réutilisation d une top-core ontologie Réutilisation d une ontologie de "référence" Réutilisation de classifications Réutilisation de thésaurus Le cas de la SNOMED Le cas des médicaments 4 Synthèse : quelles bonnes pratiques? Les 2 ontologies en chiffres et les perspectives à ce jour Rôles de l expert Conclusion

Deux ontologies médicales développées à l Inserm U872 OntolUrgences : ontologie des urgences Projet LeRUDI, financé et piloté par l ASIP-santé Dans le but de permettre à un urgentiste régulateur de lire très rapidement (2 mns) le DPI/DMP Laboratoires : Inserm, CISMeF, LERTIM, Consortium SWORD-MONDECA-ANTIDOT-ARISEM OntoDPN : ontologie du diagnostic prénatal Projet de master 2 puis thèse (en cours de première année) Construction en tant qu ingénieur des connaissance et expert du domaine pour le partage et l aide à la décision en prénatal Partenaires : Orphanet, CFEF, FERCM, AP-HP

1 Deux projets Les urgences et le diagnostic prénatal 2 Analyse de corpus Corpus de documents de cas du domaine Corpus de documents de référence du domaine DocBook : une bonne pratique 3 Réutilisation de Terminologies Réutilisation d une top-core ontologie Réutilisation d une ontologie de "référence" Réutilisation de classifications Réutilisation de thésaurus Le cas de la SNOMED Le cas des médicaments 4 Synthèse : quelles bonnes pratiques? Les 2 ontologies en chiffres et les perspectives à ce jour Rôles de l expert Conclusion

Identification des documents supports de la connaissance OntolUrgences : avis d experts Identification des ressources par les experts du domaine OntoDPN : Modélisation UML du staff

Corpus de cas OntoDPN : comptes-rendus du domaine type de document n sources CR d échographies 194 143 2 CHU + 3 centres prénatales (64 échographistes) CR de radiopédiatrie 917 1CHU (IRM, TDM fœtales) OntolUrgences Seul les corpus de référence sont disponibles à ce jour. Un corpus de cas (CRH des urgences... en attente)

Corpus de référence OntoDPN : recueil par nombreuses collaborations type de document n sources Documents de 1221 Orphanet (Résumés,...) référence CFEF (FMC,...) EMC, HAS, livres OntolUrgences : corpus des actes de conférences d urgence 621 787 mots 22 000 syntagmes nominaux (analyse syntaxique et distributionnelle) Un second corpus de référence (GBP) est en cours d analyse.

Les corpus d OntoDPN Analyse syntaxique et distributionnelle (SyntexUpéry) corpus 1 1 2 3 total (hosp.) (ville) (radio) (réf.) docs 35 619 47 434 927 - - mots 1892999 1991237 191896 921072 4997204 SN 58 367 44 427 6 626 102 385 211 805 SV 21 643 15 710 2 837 81 374 - Rôle du corpus de référence 203 syndromes dans le corpus, versus 1095 dans la base Orphanet (Inserm SC11) (base des anomalies du développement) [Syntex / Upery / Termonto par Bourrigault et al]

Utilisation d un formalisme xml : DocBook Même démarche pour OntoDPN et OntolUrgences Librairie JDom pour créer les fichiers xml valides Pour OntoDPN quelques tricheries en utilisant Perl : fichier de 600 Mo de texte brut (limites de Java/JDom) traitement adapté à ce type de documents très redondants pour la description du normal (tables de hachage). Indication de cet examen Grossesse risque connu abdominale Estomac Vessie Membres... datation et morphologie pr coce... situation sous cardiaque intra-pelvienne pr sence de 4 membres... txt, html, pdf, sql, xls, doc... JAVA (jdom) Shell (bash) pdf2txt, sed, grep,iconv Perl <article><id>gre</id><num>3519 </num><indication>datation et morphologie</indication><resultats> Estomac: situation sous cardiaque...</article> XML (docbook) XSLT <#12SA-GRE.utf8.txt-CR-3519-texte> Indication datation et morphologie Estomac: situation sous cardiaque <#12SA-GRE.utf8.txt-CR-3520-texte> SyntexUpéry

1 Deux projets Les urgences et le diagnostic prénatal 2 Analyse de corpus Corpus de documents de cas du domaine Corpus de documents de référence du domaine DocBook : une bonne pratique 3 Réutilisation de Terminologies Réutilisation d une top-core ontologie Réutilisation d une ontologie de "référence" Réutilisation de classifications Réutilisation de thésaurus Le cas de la SNOMED Le cas des médicaments 4 Synthèse : quelles bonnes pratiques? Les 2 ontologies en chiffres et les perspectives à ce jour Rôles de l expert Conclusion

Réutilisation de Terminologies (RTO) Une stratégie top-down RTO : classications, thesaurus, ontologies Cas de réutilisation de RTO : 1 d une top-core ontologie : ontoménélas 2 d une ontologie de référence : FMA 3 de classifications : CCAM, CIM-10,... 4 d un thésaurus : orphanet, thésaurus de spécialité (urgence) 5 le cas de la SNOMED : réutiliser, mais est-ce un bon choix? Question de l alignement ou de l intégration des terminologies

Réutilisation d une top-core ontologie OntoMénélas Top et core-ontologie pour la médecine Issue du projet Ménélas de réprésentation conceptuelle de CRH en CCV, en vue du codage PMSI. OntoDPN OntoMénélas a permis de représenter de façon adaptée le haut du domaine afin de faire correspondre les signes d imagerie, concepts d OntoDPN avec les structures anatomiques reprises du FMA, en tenant compte de la mère et du fœtus. OntolUrgences Idem OntoDPN sans la spécificité liée au couple mère/fœtus

AnatomicalBoundaryEntity ImmaterialAnatomicalEntity FetalSpace AnatomicalSpace GestationalSpace EmbryonicSpace SociologicObject OrganSystem_F PhysicalSystemicObject GestationalPhysicalSystemicObject OrganSystemSubdivision_F PseudoObject AbstractObject Substratum IdealObject DerivedNotion IntentionalObject PhysicalObject Notion ViewPoint NonGestationalPhysicalSystemicObject OrganSystemSubdivision OrganSystem RealObject Tissue PortionOfPlasma MetaAbstractObject NonGestationalSubstance PortionOfBlood Substance PortionOfBodySubstance PortionOfPlasma_F GestationalSubstance PortionOfBlood_F PortionOfAmnioticFluid AnatomicalCluster Inanimate AnatomicalStructure NonGestationalStructure Body Cell Organ AnatomicalCluster_F HumanBeing FetalStructure Body_F Animate Cell_F GestationalStructure ExtraEmbryonicStructure Organ_F GestationalOrganism Embryo Placenta Fetus EmbryonicStructure UmbilicalCord Réutilisation d une ontologie de "référence" OntoDPN et le Foundational Model of Anatomy (FMA) Concept d'ontomenelas Entity Concept d'ontodpn Concept du FMA Concept du FMA déplacé Concept "type FMA" pour le fœtus CountableObject MorphologicObject SystemicObject MassObject D * E * * C * * A B OntolUrgences et le FMA Idem que pour OntoDPN L anatomie reprise du FMA est fidèle au modèle avec une granularité plus faible que dans OntoDPN.

Réutilisation de classifications : CCAM, CIM-10 OntoDPN : ajouts sélectifs Choix des annotations (ccamid, orphaid, cim10id, OmimId, fmaid) Automatisation de la gestion des annotations (procédure ETL par Talend Open Studio) OntolUrgences : importations + élagages Choix des annotations (ccamid, snomedid, fmaid) Automatisation de 2 manières : programmes JAVA directement appliqué aux fichiers ou SESAME/SPARQL Dans tous les cas, construction d une ressource terminologique au format SKOS si elle n existe pas déjà (projet Interstis)

Réutilisation de thésaurus OntoDPN Collaboration avec orphanet : reprise d une hiérarchie en partie non en cours Essai de représentation par OntoDPN du thésaurus du CFEF OntolUrgences Tentative (réussie) de représentation des 1005 diagnostics du thésaurus de spécialité (extrait de la CIM-10) Mais certains concepts sont douteux quant à leur réelle utilité médicale («affection respiratoire due à des agents chimiques, des émanations, des fumées et des gaz, sans précision») Pour un usage futur (codage PMSI/T2A)

Le cas de la SNOMED 3.5 OntoDPN Alignement avec la SNOMED = perspective de travail OntolUrgences En raison de la couverture nécessaire (fouille dans le dossier tout venant), réintégration de la branche diagnostique de la terminologie Snomed 3.5 comme une ontologie pour compléter le travail d élaboration de l ontologie Gros travail (+ 100h d expert) «d élagage» et réorganisation pour conserver 6000 sur 25000 concepts La difficulté et le temps nécessaire nous rappellent que la SNOMED n est pas une ontologie et que dans sa version 3.5 elle contient beaucoup d erreurs... mais la Snomed-CT est-elle mieux?

Le cas des médicaments OntoDPN perspective de travail, peu de médicaments dans le domaine OntolUrgences absence d ontologie des médicaments, classification ATC de l OMS arborescence mais pas (trompeur) une ontologie : catégories de médicaments et substances répétées avec des identifiants différents dans une perspecives de R.I., il faut la compléter avec les spécialités fournies par l AFSSAPS construction et rattachement de l ATC avant élagage par les urgentistes pour fournir le niveau d intérêt pour les urgences rattachement aposterioride l ATC totale avec les spécialités de l AFSSAPS (annotation pour préciser le niveau de rattachement et conservation de l URI pour l instant).

1 Deux projets Les urgences et le diagnostic prénatal 2 Analyse de corpus Corpus de documents de cas du domaine Corpus de documents de référence du domaine DocBook : une bonne pratique 3 Réutilisation de Terminologies Réutilisation d une top-core ontologie Réutilisation d une ontologie de "référence" Réutilisation de classifications Réutilisation de thésaurus Le cas de la SNOMED Le cas des médicaments 4 Synthèse : quelles bonnes pratiques? Les 2 ontologies en chiffres et les perspectives à ce jour Rôles de l expert Conclusion

Les chiffres OntoDPN 878 classes, 16 relations, 1007 axiomes, 1701 annotations Travail de construction d un index de signes prénataux pour Orphanet Évaluation de la couverture du thésaurus du CFEF OntolUrgences 14000 classes, 59 relations, 15223 axiomes, 261 concepts définis Travail sur les relations (OntoMénélas) Travail de construction de concepts définis (plusieurs milliers) Alignement avec la snomed = une autre grosse branche du projet (http://sourceforge.net/projects/onagui/) Évaluation cet été au sein du prototype développé dans le cadre du projet de Lecture Rapide en Urgence du Dossier Informatisé (LeRUDI).

Rôles de l expert Dans l étude de corpus : OntoDPN difficulté de dissocier les rôles exploiter la complémentarité des ressources (ex. maladies rares) Dans la sélection des concepts : OntolUrgences Pour qualifier en permanence le travail des ontologues Pour élaguer/corriger les terminologies importées/ontologisées (CCAM, SNOMED, ATC)

Pour conclure, de bonnes pratiques? Pour les corpus Procédures d extration réutilisables Formats exploitables par la suite (DocBook) Définition de l'usage Identification des ressources Normalisation sématique Engagement ontologique Réutilisation de RTO Évaluation en pratique Pour les RTO Identifiants à conserver (choix des annotations, la reprise de l URI d origine est discutable sauf si reprise à l identique) Formats exploitables par la suite (SKOS) Procédures d extraction réutilisables... en attente de Dafoe

Introduction Deux projets Analyse de corpus Réutilisation de Terminologies Synthèse : quelles bonnes pratiques? Remerciements et collaborations F. Dhombres et J. Charlet Analyses de corpus et réutilisations de terminologies