Définition d un Cadre Formel de Représentation des Systèmes d Organisation de la Connaissance Présenté par Pierre-Yves Vandenbussche Soutenance de thèse jeudi 10 novembre 2011
Plan Contexte et Objectifs Problématique, Verrous et hypothèse Méthode et résultats Elaboration du métamodèle Transformation de modèles Intégration de notre modèle UniMoKR Applications Projet InterSTIS Projet AnaBio Projet Eurovoc Projet LERUDI Conclusion, limites et perspectives 2
Avant Propos Terminologie Classification Taxonomie Thésaurus SOC Nomenclature Dictionnaire Liste Vocabulaire contrôlé ontologie South Oil Company System On Chip Scottish Ornithologist s Club Système d Organisation de la Connaissance Service Officiel de Contrôle Contexte commun de connaissances 3
Contexte Etudiant Pierre-Yves Vandenbussche - Ingénieur informatique -Master Ingénierie de la conception Entreprise MONDECA -Editeur de logiciels de gestion de connaissances et de SOC Laboratoire de recherche INSERM UMRS 872 équipe 20 -Méthodes innovantes de gestion de données en médecine 4
Formulation de la problématique Objectifs Services unifiés Gestion multi-terminologique Application finale Accéder à plusieurs SOC par des services uniques (InterSTIS) Maintenir un dictionnaire aligné (AnaBio) Gérer un thésaurus multilingue (Eurovoc) Problématique Comment harmoniser la représentation des SOC et de leurs correspondances afin de proposer des services unifiés qui supportent l édition, la publication et l utilisation efficaces des connaissances de ces référentiels? 5
Verrous et hypothèse Questions Comment fournir une représentationuniquequel que soit le SOC? Comment représenter des mises en correspondances issues des alignements? Quel langage de représentation choisir? Comment permettre la mise à disposition dessoc (ou de sous ensembles) dans différents formats? Verrous scientifiques et techniques Hétérogénéité des SOC (format, type ) Perte d information Gestion des recouvrements Statut d une correspondance Expressivité du langage vsexpressivité des SOC Interopérabilité sémantiqueavec les standards et normes d échange de SOC Hypothèse L élaboration d un modèle de représentation commune de SOC est une solution adaptée pour (i) pallier l hétérogénéité de ces référentiels, (ii) favoriser l interopérabilité sémantique au sein d un Système d Information et (iii) proposer des services unifiés quel que soit le SOC 6
Méthode et positionnement Pluridisciplinarité Ingénierie des Modèles : modélisation et transformation de modèles Ingénierie des Connaissances : langages, outils et techniques Approche centralisée par harmonisation Serveur multi-terminologique Galen TeS[Rector 1998] CISMeF[Darmoni 2009] Métamodèle de représentation de SOC Standard SKOS [Miles 2006] Projet BS 8723 [BS8723 2008] ISO 25964 [Clarke 2008] 7
Elaboration du métamodèle Méthodes de métamodélisation et d indépendance de description [Soley 2000, Bézivin 2005] Elaboration du métamodèleunimokr(unifiedmodel for KOS Representation) Confrontation des modèles de SOC Factorisation des artefacts communs Extension du métamodèlepour la représentation des spécificités de chaque SOC SOC hétérogènes Applications Harmonisation UniMoKR + Extensions Accès unifié 8
Model Driven Architecture Indépendance de description [Soley 2000, Bézivin 2005] Modèle CIM Expression dans un langage Indépendant de l informatisation (Computation Independent Model) UML Modèle PIM Expression dans un langage de représentation de la connaissance (Platform Independent Model) OWL-DL Transformation de modèles Modèle PSM1 Modèle PSM2 Expression dans un langage spécifique à une application (Platform Specific Model) SKOS Modèle pour l échange de données Modèle pour la visualisation 9
UniMoKR- Unified Model for KOS Representation 10
UniMoKR partie termino-conceptuelle Adaptée du projet BS 8723 Réification des relations [Noy2004] Permet de mettre en relation plus de deux entités pour ainsi devenir des relations N-aires Rend possible l ajout d attributs comme le créateur de cette relation Patron de modélisation soumis au catalogue OntologyDesign Pattern (ODP) http://ontologydesignpatterns.org/wiki/submissions:conceptterms 11
UniMoKR partie de groupes de concepts Représentation d un SOC Points de vue sur un SOC [Rector2006] Contraindre les concepts disponibles pour un champ de saisie (Value Set) Définir une taxonomie de navigation Masquer la complexité d un SOC: liste restreinte de concepts pertinents Limite des standards existants (SKOS et BS 8723) Définition par Intention: font partie d un groupe tous les concepts satisfaisant une restriction. l ensemble des figures géométriques ayant 3 côtés Extension: font partie d un groupe tous les concepts faisant explicitement référence à ce groupe au moyen du lien ingroup regroupement de la figure géométrique «triangle vert», de la figure «carré rouge» et de la figure «rond bleu» 12
UniMoKR partie de groupes de concepts Patron de modélisation soumis au catalogue OntologyDesign Pattern (ODP) http://ontologydesignpatterns.org/wiki/submissions:conceptgroup Intégration à la future norme ISO 25964 13
UniMoKR partie d alignement / métaclasses Représentation des mises en correspondance issue du modèle de SKOS Réification des relations Extension et flexibilité du modèle garanties par les métaclasses 14
Extension et instanciation du métamodèle CIM10 15
Interopérabilité sémantique avec les formats d échange Repose sur l approche de transformation de modèles (Ingénierie des Modèles MDA) [Bézivin2001, Kleppe2003] Utilisation de SPARQL comme langage de règles de transformation [Polleres 2007, Morbidoni 2007] Formats standards SOC hétérogènes Transformation de modèles Applications Harmonisation UniMoKR + Extensions Accès unifié 16
Transformation de modèles MDA[Bézivin2001, Kleppe2003] Méta-métamodèle MMM estconformea estconformea estconformea Métamodèle source MMa estconformea Métamodèle de règles de transformation MMt estconformea Métamodèle cible MMb estconformea Modèle source Ma Règles de transformation Mt Modèle cible Mb 17
Transformation de modèles MDA[Bézivin2001, Kleppe2003] RDF estconformea estconformea estconformea UniMoKR Règles SPARQL SKOS estconformea estconformea estconformea Eurovoc (UniMoKR) Application des Règles Eurovoc (SKOS) 18
Transformation de modèles SPARQL Exemple de transformation d un modèle Ma conforme au métamodèle UniMoKR vers un modèle Mbconforme au métamodèle SKOS 3 1 2 Légende: Classe appartenant au modèle source UniMoKR Classe appartenant au modèle cible SKOS étendu 19 1 1 n Règle de transformation 19
Intégration de notre métamodèle à un outil Formats standards SOC hétérogènes Transformation de modèles Applications Harmonisation KMS (ITM ) UniMoKR + Extensions Accès unifié Maintenance Editeurs 20
Intégration à l outil ITM Développement d interfaces et de services génériques à tout type de SOC 21
Intégration à un entrepôt de données sémantiques Développement d interfaces et de services génériques à tout type de SOC 22
Applications InterSTIS AnaBio Description Verrous Apports Limites Mise à dispositiond un serveur multiterminologique en santé Gestion du dictionnaire desanalyses Biomédicales aligné au référentiel int. LOINC Hétérogénéité des SOC Outil non adapté (Excel) Gestiondes correspondances Multi-terminologique Correspondances Connaissances annexes Multi-terminologique Correspondances Connaissances annexes Volume Coût de l intégration et de l export des SOC Eurovoc Gestiondu thésaurus multilingue Eurovoc pour l indexation des documents des institutions européennes Gestion termino- conceptuelle Multilingue Description terminologique complexe Workflow Versioning LERUDI Constructiond une Ressource Termino- Ontologique (RTO) pour les urgences médicales Hétérogénéité des SOC Méthode de génération Multi-terminologique Correspondances Règles de transformation complexes Gestion de la provenance des connaissances 23
AnaBio Analyses Biomédicales Date : 2009-2010 Type projet : Appel d offre AP-HP (Assistance Publique Hôpitaux de Paris) Titre : Mise en place d une plateforme dédiée à la gestion des terminologies d analyses biomédicales [Vandenbussche 2011, Cormont 2011] Contexte Dictionnaire AnaBio utilisé par 165 laboratoires dans 21 hôpitaux Dictionnaire AnaBio aligné à LOINC (SOC d interface / de référence) 43 000 références et 7 disciplines biologiques gérées par l outil Excel Analyse composée de 5 axes Analyte(Glucose) Paramètre (à jeun) Milieu (Sérum/Plasma) Technique Unité (mmol/l) 24
AnaBio Collégiales biologiques Validation Contribution/Mises à jour Base de connaissances AnaBio Export du dictionnaire de résultats LOINC LOINC traduit Analyses Axes Contacts Hôpitaux/SH Mise à jour utilisation SGL ASIP Mondeca ITM Outils de recueil 25
AnaBio- méthode Modélisation Identification des éléments UniMoKR Extension du modèle Reprise de données Formalisation des données Correction des incohérences Validation Validation du modèle Validation des données 26
AnaBio- Modélisation 27
AnaBio- Résultats Solution (UniMoKR+ITM) adaptée aux besoins de maintenance du dictionnaire AnaBio interfacé à LOINC Possibilité d évolution du modèle vers d autres terminologies Interfaces dédiées à la gestion de SOC Formalisation des données Gain de temps pour l équipe de maintenance Amélioration de la qualité des données >11% des données modifiées Limite Coût de l intégration et de l export du dictionnaire aligné 28
Contributions méthodologiques Conclusion Utilisationde méthodes et techniquesissues de l Ingénierie des Connaissances et de l Ingénierie des Modèles Modélisation générique de SOC Deux patrons de modélisation proposés sur le portail Ontology Design Pattern Intégration de la partie de groupesde concepts à la future norme ISO 25964 Contributions techniques Amélioration de l outil ITM pour la gestion de SOC Développement d interfaces et de services dédiés aux SOC Utilisation de transformation de modèles à base de SPARQL Contributions pratiques Nombreuses mises en application (de recherche et commercialisées) Diversité des domaines d application 29
Limites et perspectives Métamodèle UniMoKR Difficulté de validation (isolément de l architecture globale) Nécessité d exhaustivité des SOC intégrés pour prétendre à la généricité Approche centralisée par harmonisation Dégradation de l information lors de l intégration et des transformations Coût de l intégration et export des SOC (parsers, règles de transformation) Services et interopérabilité Transformation vers les standards de santé HL7 et IHE Couplage de transformations pour d autres formats (XSLT ) Modélisation du versioning Traçabilité de l évolution des éléments de SOC entre différentes versions Modélisation de workflow Traçabilité de l état d un élément de SOC 30
Merci de votre attention Image extraite du livre Object-Oriented Analysis and Design with Applications. Grady Booch et al. 31
32
Les Systèmes d Organisation de la Connaissance Edition Publication Utilisation Actions Intégrer Créer Maintenir Traduire Aligner Sélectionner Agréger Packager Distribuer Mettre à disposition Coder Indexer Rechercher Inférer Outils Parser, KMS KMS, Outils d alignement, Workflow, règles KMS, règles Push, serveurs Outils de codage, d indexation Moteur de recherche, d inférence Standards et langages SKOS, BS8723, ISO25964, LMF SKOS, BS8723, ISO25964, LMF SKOS, BS8723, ISO25964, LMF IHE, HL7, CTS2, SPARQL, 33
Approches d intégration des connaissances Accès à l information Serveur multiterminologique Accès distribué SOC 1 SOC 2 SOC 3 Intégration Intégration SOC 1 SOC 2 SOC 3 SOC 1 SOC 2 SOC 3 Approche distribuée Fédération Approche centralisée Harmonisation Projets DebugIT UMLS, LexGrid/Bioportal Galen TeS, CISMeF [Lindberg 1993, Rector 1998, Pathak 2009, Noy 2009] 34
Langages de description de connaissances 35
Métamodélisation MDA [Bézivin 2004] 36
Les langages de représentation spécialisés - SKOS Simple Knowledge Organization System Représentation et échange de SOC simples Publié par la W3C(World WideWeb Consortium) en 2003 Représentation de relations et de libellés Limite: expression terminologique pauvre [Miles 2006] 37
Les langages de représentation spécialisés - SKOS Représentation de mises en correspondance 5 relations: exact, close, related, broader, narrower Représentation de groupes de concepts Limite: pas de définition intentionnelle [Miles 2006] 38
Les langages de représentation spécialisés BS 8723 British Standard for Thesauri Interoperability Ebauche de la nouvelle norme ISO 25964 pour l élaboration de thesauri mono et multilingue (en remplacement des normes ISO 2788 et ISO 5964). Représentation plus fine (que SKOS) de l aspect terminologique associé au concept Limite: prise en compte d information sur la relation (créateur ) [BS8723 2008] 39
Les langages de représentation spécialisés BS 8723 Représentation de groupes de concepts Limite: les concepts d un groupe appartiennent à un et un seul SOC [BS8723 2008] 40