Etude méthodologique comparative de solutions d entreposage de données de santé à des fins décisionnelles

Etude méthodologique comparative de solutions d entreposage de données de santé à des fins décisionnelles Rémy Choquet 1, Christel Daniel 1, Omar Boussaid 2, Mariechristine Jaulent 1. 1 INSERM UMR_S 872 eq.20, centre de recherche des cordeliers, 15 rue de l école de Médecine 75006 Paris 2 Laboratoire ERIC, Université de Lyon 2, Avenue Pierre-Mendès France 69000 Bron remy.choquet, christel.daniel, marie-christine.jaulent @spim.jussieu.fr omar.boussaid@univ-lyon2.fr RÉSUMÉ. L entreposage de données de santé à des fins d analyse décisionnelle pose différentes problématiques, notamment celle de la représentation de la connaissance en santé en constante évolution qui induit l utilisation de nouvelles méthodologies afin d intégrer la dimension sémantique des domaines à analyser. Nous proposons dans cet article, de comparer les différentes technologies actuellement développées afin d établir une référence méthodologique pour choisir l approche à la mise en œuvre d entrepôts de données en santé. MOTS-CLÉS : Entrepôt de données, Ontologie, Grille informatique, Modélisation multidimensionnelle, OLAP. ABSTRACT. Warehousing medical data with healthcare analysis goals introduces several issues. Knowledge representation in constant evolution implies the need to find new technological approaches, which are still being researched. We propose in this article, to compare several technologies in development, in order to define specific methodological approaches for warehousing medical data. KEY WORDS: Datawarehouse, Ontology, Grid, Multi dimensional model, OLAP. ICSSHC 2008

2 ICSSHC 2008 1. Introduction Les technologies de l information proposent depuis deux décennies des techniques d entreposage de données. Contrairement aux entrepôts de données classiques qui ont pour vocation l analyse de l activité d une entreprise dans le but de mieux les piloter ; les entrepôts de données de santé ont une réelle spécificité. Un établissement de santé peut être assimilé à une entreprise, et des entrepôts de données de santé constitués à partir de Systèmes d Information de Santé servant à la logistique de l hôpital (PMSI, CCAM) sont déjà développés. Il existe aujourd hui une demande grandissante, plus scientifique, d utilisation de ces données, à des fins de recherche clinique ou épidémiologique. Ces entrepôts de données médicales (non administratives), issues par exemple de la biologie, de la génétique, de l imagerie médicale ou bien d activités cliniques, sont obligatoirement différents des entrepôts de gestion classiques. La difficulté d entreposage réside dans la complexité du domaine à décrire et à modéliser, mais surtout, dans le besoin d associer la connaissance des domaines de spécialités médicales aux données. Les récentes évolutions dans le domaine du Web sémantique, relatives à la représentation d ontologies grâce à des langages formels tels qu OWL 1, offrent une base solide pour l élaboration de ces entrepôts de données. Nous distinguerons plusieurs problématiques de recherche actuellement en discussion dans le monde des bases de données décisionnelles : 1) la cohabitation de la connaissance et des données, 2) l association des ontologies dans un contexte d entrepôt de données au niveau de l intégration, de la modélisation et de l interrogation et 3) l enrichissement sémantique des requêtes OLAP 2. Nous présentons dans la section 2, quatre solutions d entreposage de données actuellement en développement, nous synthétiserons dans la section 3 les résultats de notre analyse suivant différents axes méthodologiques, et nous discuterons nos résultats ainsi que les évolutions nécessaires des technologies et des méthodologies en section 4. 2. Données médicales et besoins décisionnels On distinguera deux approches dans l intégration de données multi sources à des fins d analyse. Dans une approche classique, dite centralisée, les données sont matérialisées dans un entrepôt de données central et intégrées via des processus ETL 3. Dans l approche fédérée ou de médiation, plus récente, les données sont matérialisées mais de manière éparse, l entrepôt est alors «virtuel», et le processus d intégration est implicitement effectué par rapprochement de modèles de données identiques (fédération) ou par fusion de modèles sources différentes (médiation). 1. Ontology Web Language : langage formel de représentation des connaissances 2. On Line Analytical Processing : modèle de navigation dans les données stockées en cubes 3. Extraction, Transformation et Chargement (Load) des données

Entreposage de données médicales 3 2.1. Approche centralisée Le projet de recherche innovant i2b2 4 a démarré en 2004, et permet d intégrer des données médicales diverses (biologie, génétique, cliniques, etc.) afin de pouvoir effectuer des interrogations multicritères sur le temps (par exemple dans le domaine génétique, tenter de prédire à partir de données cliniques et génétiques le risque de survenue de polyarthrite rhumatoïde). L architecture fonctionnelle de cet outil, orienté services (SOA 5 ), propose une organisation en cellules, chaque cellule ayant une fonction spécifique au sein de l applicatif. La cellule CRC (correspondant à l entrepôt de données) est dédiée à la gestion du stockage, et présente une modélisation en étoile des données. Une originalité du projet concerne la définition de la cellule «Ontology Management» qui permet le stockage et l interrogation d ontologies ou de ressources terminologiques. Elle supporte aujourd hui plusieurs classifications comme par exemple LOINC 6. Elle permet la navigation dans les données stockées dans la cellule CRC selon les ressources terminologiques, chaque terme étant relié à la donnée qu il désigne. i2b2 ne gère pas tous les types de ressource terminologique et notamment ne prend pas en charge le typage des relations d ontologies formelles. La cellule CRC a pour particularité d avoir pour dimension le «concept ontologique» associé au fait mesuré, à savoir l observation d un patient. Dans i2b2 les ressources ontologiques et les données médicales sont gérées indépendamment, par un lien bidirectionnel qui rend l évolutivité de l outil complexe. L intégration d ontologies dans des bases de données afin de permettre l évolutivité pose différentes problématiques. Il est proposé dans l outil OntoDB (Pierra et al., 2004) d inclure l ontologie et un méta-modèle de l ontologie directement dans la base de données où sont stockées les modèles physique et conceptuel des données. Cette architecture est d ailleurs très proche de l architecture metadata du MOF 7 (Meta Object Facility). L utilisation d un méta modèle permet à l ontologie et aux données d être indépendantes et génériques, puisque le modèle de l ontologie est une instance du méta-modèle. Dans cette approche, le modèle logique est créé à partir de l ontologie, le modèle conceptuel ne pouvant évoluer que de manière simultanée avec le modèle logique des données. Il n y a pas encore de mise en œuvre d OntoDB dans le domaine de la santé. 4. Informatics for Integrating Biology & the Bedside, https://www.i2b2.org. Site accédé le 27/03/2008. 5. Forme d architecture de médiation ou de modèle d interaction applicative mettant en œuvre des services 6. Logical Observation Identifiers Names and Codes 7. 4 couches de représentation des données en UML : méta-méta-modèle, méta-modèle, modèle et données.

4 ICSSHC 2008 2.2. Approche fédérée et de médiation Le système d information hospitalier, où chaque spécialité médicale a un espace d analyse de ses données différent, présente les caractéristiques nécessaires à la mise en place d entrepôts de données fédérés. Un entrepôt fédéré est selon (Sheth et al., 1990) une collection de bases de données collaboratives, autonomes et hétérogènes. Des travaux visent à proposer un modèle normalisé permettant de fédérer les différentes sources de données. HEWAF repose sur une modélisation multidimensionnelle UML se basant sur les classes du RIM 8 HL7, qui est un standard pour la représentation des données cliniques et administratives dans le domaine de la santé (Stolba et al., 2006). Dans le cas de sources de données géographiquement réparties, la médiation est une solution pertinente. L architecture middleware d OGSA-DAI 9 permet l intégration de données réparties ayant des modèles de données et des structures de stockages hétérogènes. Ainsi, il est possible d interconnecter dans le grid 10 des bases de données relationnelles, XML, système de fichiers ou des données volatiles (Antonioletti et al., 2005). 3. Analyse comparative Les outils étudiés peuvent être comparés selon des critères d analyse correspondant aux différentes étapes du processus d intégration de données à des fins d analyse. l intégration des données hétérogènes, via un processus d intégration ETL pour un entrepôt centralisé, ou l alignement de modèles en utilisant une approche fédérée ou de médiation; la modélisation des données pour l analyse, basée sur un modèle multidimensionnel ou relationnel, standardisé (RIM, openehr) ou non ; la représentation et le stockage de la dimension sémantique des données, OWL-DL, RDF, etc. ; le stockage des données, dans des entrepôts relationnels, objets relationnels ou XML (exist) s il y a stockage centralisé ; l interrogation des données stockées (par exemple via le grid si le stockage est «virtuel», via SQL (OLAP) en cas de stockage relationnel, MDX si il est multidimensionnel ou bien encore XPath/XQuery si il est XML natif) 8. Modèle d information médicale orienté objet de référence proposée par l organisme de standardisation Health Level 7 9. Open Grid System Architecture : http://www.ogsadai.org.uk/. Site accédé le 27/03/2008. 10. (ou grille informatique) Désigne une infrastructure virtuelle constituée de ressources informatiques partagées, distribuées, hétérogènes, délocalisées et autonomes.

Entreposage de données médicales 5 Nous proposons dans le tableau 1, une analyse par critères basés d une part sur le type d architecture (centralisée ou décentralisée) et d autre part, sur les 4 étapes du processus d entreposage de données classique. Nous synthétisons et positionnons les systèmes étudiés en section 3 par rapport à ces critères d analyse. Approche centralisée Approche décentralisée i2b2 OntoDB HEWAF OGSA-DAI Intégration ETL ETL Fédérée Médiation Modélisation Multidimensionnelle Relationelle Multidimensionnelle Non Non standardisée (HL7 RIM) Stockage SGBD SGBD Virtuel Virtuel (données) Stockage Dimension Modèle et métamodèle A l étude A l étude (OGSAsémantique DAI-RDF) Interrogation Interface propriétaire OntoQL SQL XM OGSA-DQP Enrichissement Sémantique Interrogation, intégration Interrogation, modélisation A l étude A l étude Tableau 1. Synthèse fonctionnelle de l étude On note une certaine complémentarité dans les approches proposées, chaque système ayant un point fort. i2b2 présente une architecture orientée services intégrant une gestion de la sécurité des données, et un outil d interrogation efficace basé sur un système de navigation sémantique. OntoDB propose une cohabitation des données et des ontologies dans la même base de données, et qui permet au SGBD d évoluer de pair avec l évolution de la connaissance associée au domaine. HEWAF propose une modélisation multidimensionnelle standardisée et fédérée. Enfin, OGSA-DAI propose une série d outils de gestion de grid intégrés. 4. Discussion et conclusion Nous observons clairement la nécessité des évolutions futures à ces outils afin de répondre à une demande d intégration de la dimension sémantique, dans le domaine des systèmes informatiques de santé. i2b2 ne propose pas de modèle multidimensionnel standardisé, ni de système d interrogation prenant en charge les relations dans les ontologies (subsomption, synonymie, etc.). De plus, la modélisation multidimensionnelle proposée est fortement orientée au couple patientacte, ce qui réduit le nombre de mesures associées aux actes médicaux utilisables. OntoDB ne propose pas d intégration sémantique sur des modèles multidimensionnels. HEWAF ne prend pas en compte la sémantique, bien que ce point ait été discuté récemment (Banek et al., 2006). Enfin, OGSA-DAI ne prend

6 ICSSHC 2008 pas encore en charge la médiation à base d ontologie, bien qu elle soit étudiée dans (Kojima 2006). Afin de répondre aux propriétés OLAP d un cube de données (navigation en ligne) sur un grid, (Fiser et al., 2004) présentent un serveur Gridenabled OLAP, ce qui n est pas aujourd hui implémenté dans OGSA-DAI. L évolution du web sémantique, des systèmes d aide à la décision, de la standardisation des modèles de données et des techniques de médiation permet aujourd hui aux systèmes informatiques de santé d évoluer, et d aborder la problématique de la l utilisation secondaire des données récoltées à des fins de recherche clinique ou épidémiologique. Nous avons évoqué dans cet article différentes solutions, et nous avons proposé quatre critères comparatifs des approches méthodologiques proposées dans ces outils, ce qui nous permettra de positionner nos recherches dans les domaines de l ingénierie des connaissances et du décisionnel. Enfin, nous avons critiqués et mis en avant des évolutions possibles aux approches proposées dans la littérature. 12. Bibliographie Antonioletti M., Atkinson M., Baxter R., Borley A., «The design and implementation of Grid database services in OGSA-DAI.» Concurrency and Computation: Practice & Experience, 2005. Banek M., Tjoa A., Stolba N., «Integrating Different Grain Levels in a Medical Data Warehouse Federation.» Lecture notes in computer science, 2006. Fiser B., Onan U., Elsayed I., Brezany P., Tjoa A., «On-line analytical processing on large databases managed by computational grids.» Database and Expert Systems Applications, 2004. Jean S., Aıt-Ameur Y., Pierra G., «Querying ontology based databases. the ontoql proposal.» 18 thinternational Conference on Software Egineering, 2006. Kojima I., «Design and Implementation of OGSA-DAI-RDF.» GGF16 Semantic Grid Workshop. Athens, 2006. Pierra G., Dehainsala H., Ameur Y., Bellatreche L., «Base de Données à Base Ontologique: le modèle OntoDB.» Proceeding of Base de Données Avancées 20èmes Journées, 2004. Sheth A., Larson J., «Federated database systems for managing distributed, heterogeneous, and autonomous databases.» ACM Computing Surveys (CSUR), 1990. Stolba N., Banek M., Tjoa A., «The Security Issue of Federated Data Warehouses in the Area of Evidence-Based Medicine.» ARES2006, 2006.