Etude méthodologique comparative de solutions d entreposage de données de santé à des fins décisionnelles



Documents pareils
Entreposage de données complexes pour la médecine d anticipation personnalisée

Informatique Médicale & Ingénierie des Connaissances Pour la e-santé

Intégration de données hétérogènes et réparties. Anne Doucet

BUSINESS INTELLIGENCE. Une vision cockpit : utilité et apport pour l'entreprise

Les Entrepôts de Données

Travail de diplôme 2011 Business Intelligence Open Source SpagoBI/Talend Résumé

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation

et les Systèmes Multidimensionnels

SQL SERVER 2008, BUSINESS INTELLIGENCE

UE 8 Systèmes d information de gestion Le programme

BI2 : Un profil UML pour les Indicateurs Décisionnels

SGBDR. Systèmes de Gestion de Bases de Données (Relationnelles)

Le "tout fichier" Le besoin de centraliser les traitements des fichiers. Maitriser les bases de données. Historique

Entrepôt de données 1. Introduction

Bases de Données Avancées

Hervé Couturier EVP, SAP Technology Development

La démarche MDA. Auteur : Projet ACCORD (Assemblage de composants par contrats en environnement ouvert et réparti)*

Introduction à la B.I. Avec SQL Server 2008

Mercredi 15 Janvier 2014

Présentations personnelles. filière IL

OPEN DATA : CHALLENGES ET PERSPECTIVES D ENTREPOSAGE

Une méthode d apprentissage pour la composition de services web

Architectures d'intégration de données

Master Informatique Aix-Marseille Université

La problématique. La philosophie ' ) * )

Bases de Données. Stella MARC-ZWECKER. Maître de conférences Dpt. Informatique - UdS

INF 1250 INTRODUCTION AUX BASES DE DONNÉES. Guide d étude

Sécurité des entrepôts de données dans le Cloud Un SaaS pour le cryptage des données issues d un ETL

DESCRIPTIF DE MODULE S5 GSI

Méthodologie de conceptualisation BI

Problématiques de recherche. Figure Research Agenda for service-oriented computing

Lamia Oukid, Ounas Asfari, Fadila Bentayeb, Nadjia Benblidia, Omar Boussaid. 14 Juin 2013

Programme scientifique Majeure ARCHITECTURE DES SYSTEMES D INFORMATION. Mentions Ingénierie des Systèmes d Information Business Intelligence

Chapitre 9 : Informatique décisionnelle

Datawarehouse: Cubes OLAP. Marlyse Dieungang Khaoula Ghilani

Plan. Introduction Eléments de la théorie des systèmes d'informations Les entrepôts de données (Datawarehouse) Les datamart Architecture Modélisation

Nos Solutions PME VIPDev sont les Atouts Business de votre entreprise.

SQL Server 2012 Implémentation d'une solution de Business Intelligence (Sql Server, Analysis Services...)

BUSINESS INTELLIGENCE

IT203 : Systèmes de gestion de bases de données. A. Zemmari zemmari@labri.fr

Les entrepôts de données

Business Intelligence : Informatique Décisionnelle

Les Entrepôts de Données. (Data Warehouses)

Introduction. Informatique décisionnelle et data mining. Data mining (fouille de données) Cours/TP partagés. Information du cours

Introduction à ORACLE WAREHOUSE BUILDER Cédric du Mouza

Big Data On Line Analytics

SQL Server 2012 et SQL Server 2014

CATALOGUE DE FORMATIONS BUSINESS INTELLIGENCE. Edition 2012

LES ENTREPOTS DE DONNEES

Introduction aux bases de données: application en biologie

Bases de Données OLAP

XCube XML For Data Warehouses

La Geo-Business Intelligence selon GALIGEO avec 26/10/2005 1

Information utiles. webpage : Google+ : digiusto/

Entrepôts de données. NEGRE Elsa Université Paris-Dauphine

Catalogue des formations Edition 2015

Le pilotage des collaborations et l interopérabilité des systèmes d information Vers une démarche intégrée

Datawarehouse and OLAP

THOT - Extraction de données et de schémas d un SGBD

Workflow/DataWarehouse/DataMining LORIA - Université d automne Informatique décisionnelle - L. Mirtain 1

Bases de données Outils de gestion

Conception de bases de données à partir d ontologies

Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe

DataStudio. Solution d intégration des données et de diffusion de l information

CATALOGUE DE FORMATIONS BUSINESS INTELLIGENCE. Edition 2014

ETL Extract - Transform - Load

Evry - M2 MIAGE Entrepôt de données

Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services

Les nouvelles architectures des SI : Etat de l Art

Intelligence Economique - Business Intelligence

Une approche langage pour la gestion de données dans les systèmes de méta-modélisation

Présentation du module Base de données spatio-temporelles

Business & High Technology

Conception, architecture et urbanisation des systèmes d information

Un datawarehouse est un entrepôt de données (une base de données) qui se caractérise par des données :

ORACLE DATA INTEGRATOR ENTERPRISE EDITION - ODI EE

Business Intelligence avec Excel, Power BI et Office 365

Démarche dirigée par les modèles pour la conception d entrepôts de données multidimensionnelles. F.Atigui, F.Ravat, O.Teste, G.

BI = Business Intelligence Master Data-Science

Évolution de schémas dans les entrepôts de données mise à jour de hiérarchies de dimension pour la personnalisation des analyses

BI : GESTION GESTION, PRODUCTION STRATEGIE DE BI. Un livre blanc d Hyperion

Fusion : l interopérabilité chez Oracle

BD réparties. Bases de Données Réparties. SGBD réparti. Paramètres à considérer

ANTICIPEZ ET PRENEZ LES BONNES DÉCISIONS POUR VOTRE ENTREPRISE

Modélisation Multidimensionnelle des Tableaux de Bord Prospectifs

Objectif : Passer de l analyse métier et fonctionnelle à la définition des applications qui

Diplôme de Comptabilité et de Gestion. D é c r e t N d u 2 2 d é c e m b r e A r r ê t é d u 8 m a r s

Le terme «ERP» provient du nom de la méthode MRP (Manufacturing Ressource Planning) utilisée dans les années 70 pour la gestion et la planification

Entrepôt de Données. Jean-François Desnos. ED JFD 1

Business Intelligence, Etat de l art et perspectives. ICAM JP Gouigoux 10/2012

Urbanisation des SI-NFE107

GPC Computer Science

L information et la technologie de l informationl

Retour d expériences avec UML

Introduction au domaine du décisionnel et aux data warehouses

Pentaho : Comparatif fonctionnel entre la version Communautaire (gratuite) et la version Entreprise (payante) Table des matières

Expert technique J2EE

Fournir un accès rapide à nos données : agréger au préalable nos données permet de faire nos requêtes beaucoup plus rapidement

Transcription:

Etude méthodologique comparative de solutions d entreposage de données de santé à des fins décisionnelles Rémy Choquet 1, Christel Daniel 1, Omar Boussaid 2, Mariechristine Jaulent 1. 1 INSERM UMR_S 872 eq.20, centre de recherche des cordeliers, 15 rue de l école de Médecine 75006 Paris 2 Laboratoire ERIC, Université de Lyon 2, Avenue Pierre-Mendès France 69000 Bron remy.choquet, christel.daniel, marie-christine.jaulent @spim.jussieu.fr omar.boussaid@univ-lyon2.fr RÉSUMÉ. L entreposage de données de santé à des fins d analyse décisionnelle pose différentes problématiques, notamment celle de la représentation de la connaissance en santé en constante évolution qui induit l utilisation de nouvelles méthodologies afin d intégrer la dimension sémantique des domaines à analyser. Nous proposons dans cet article, de comparer les différentes technologies actuellement développées afin d établir une référence méthodologique pour choisir l approche à la mise en œuvre d entrepôts de données en santé. MOTS-CLÉS : Entrepôt de données, Ontologie, Grille informatique, Modélisation multidimensionnelle, OLAP. ABSTRACT. Warehousing medical data with healthcare analysis goals introduces several issues. Knowledge representation in constant evolution implies the need to find new technological approaches, which are still being researched. We propose in this article, to compare several technologies in development, in order to define specific methodological approaches for warehousing medical data. KEY WORDS: Datawarehouse, Ontology, Grid, Multi dimensional model, OLAP. ICSSHC 2008

2 ICSSHC 2008 1. Introduction Les technologies de l information proposent depuis deux décennies des techniques d entreposage de données. Contrairement aux entrepôts de données classiques qui ont pour vocation l analyse de l activité d une entreprise dans le but de mieux les piloter ; les entrepôts de données de santé ont une réelle spécificité. Un établissement de santé peut être assimilé à une entreprise, et des entrepôts de données de santé constitués à partir de Systèmes d Information de Santé servant à la logistique de l hôpital (PMSI, CCAM) sont déjà développés. Il existe aujourd hui une demande grandissante, plus scientifique, d utilisation de ces données, à des fins de recherche clinique ou épidémiologique. Ces entrepôts de données médicales (non administratives), issues par exemple de la biologie, de la génétique, de l imagerie médicale ou bien d activités cliniques, sont obligatoirement différents des entrepôts de gestion classiques. La difficulté d entreposage réside dans la complexité du domaine à décrire et à modéliser, mais surtout, dans le besoin d associer la connaissance des domaines de spécialités médicales aux données. Les récentes évolutions dans le domaine du Web sémantique, relatives à la représentation d ontologies grâce à des langages formels tels qu OWL 1, offrent une base solide pour l élaboration de ces entrepôts de données. Nous distinguerons plusieurs problématiques de recherche actuellement en discussion dans le monde des bases de données décisionnelles : 1) la cohabitation de la connaissance et des données, 2) l association des ontologies dans un contexte d entrepôt de données au niveau de l intégration, de la modélisation et de l interrogation et 3) l enrichissement sémantique des requêtes OLAP 2. Nous présentons dans la section 2, quatre solutions d entreposage de données actuellement en développement, nous synthétiserons dans la section 3 les résultats de notre analyse suivant différents axes méthodologiques, et nous discuterons nos résultats ainsi que les évolutions nécessaires des technologies et des méthodologies en section 4. 2. Données médicales et besoins décisionnels On distinguera deux approches dans l intégration de données multi sources à des fins d analyse. Dans une approche classique, dite centralisée, les données sont matérialisées dans un entrepôt de données central et intégrées via des processus ETL 3. Dans l approche fédérée ou de médiation, plus récente, les données sont matérialisées mais de manière éparse, l entrepôt est alors «virtuel», et le processus d intégration est implicitement effectué par rapprochement de modèles de données identiques (fédération) ou par fusion de modèles sources différentes (médiation). 1. Ontology Web Language : langage formel de représentation des connaissances 2. On Line Analytical Processing : modèle de navigation dans les données stockées en cubes 3. Extraction, Transformation et Chargement (Load) des données

Entreposage de données médicales 3 2.1. Approche centralisée Le projet de recherche innovant i2b2 4 a démarré en 2004, et permet d intégrer des données médicales diverses (biologie, génétique, cliniques, etc.) afin de pouvoir effectuer des interrogations multicritères sur le temps (par exemple dans le domaine génétique, tenter de prédire à partir de données cliniques et génétiques le risque de survenue de polyarthrite rhumatoïde). L architecture fonctionnelle de cet outil, orienté services (SOA 5 ), propose une organisation en cellules, chaque cellule ayant une fonction spécifique au sein de l applicatif. La cellule CRC (correspondant à l entrepôt de données) est dédiée à la gestion du stockage, et présente une modélisation en étoile des données. Une originalité du projet concerne la définition de la cellule «Ontology Management» qui permet le stockage et l interrogation d ontologies ou de ressources terminologiques. Elle supporte aujourd hui plusieurs classifications comme par exemple LOINC 6. Elle permet la navigation dans les données stockées dans la cellule CRC selon les ressources terminologiques, chaque terme étant relié à la donnée qu il désigne. i2b2 ne gère pas tous les types de ressource terminologique et notamment ne prend pas en charge le typage des relations d ontologies formelles. La cellule CRC a pour particularité d avoir pour dimension le «concept ontologique» associé au fait mesuré, à savoir l observation d un patient. Dans i2b2 les ressources ontologiques et les données médicales sont gérées indépendamment, par un lien bidirectionnel qui rend l évolutivité de l outil complexe. L intégration d ontologies dans des bases de données afin de permettre l évolutivité pose différentes problématiques. Il est proposé dans l outil OntoDB (Pierra et al., 2004) d inclure l ontologie et un méta-modèle de l ontologie directement dans la base de données où sont stockées les modèles physique et conceptuel des données. Cette architecture est d ailleurs très proche de l architecture metadata du MOF 7 (Meta Object Facility). L utilisation d un méta modèle permet à l ontologie et aux données d être indépendantes et génériques, puisque le modèle de l ontologie est une instance du méta-modèle. Dans cette approche, le modèle logique est créé à partir de l ontologie, le modèle conceptuel ne pouvant évoluer que de manière simultanée avec le modèle logique des données. Il n y a pas encore de mise en œuvre d OntoDB dans le domaine de la santé. 4. Informatics for Integrating Biology & the Bedside, https://www.i2b2.org. Site accédé le 27/03/2008. 5. Forme d architecture de médiation ou de modèle d interaction applicative mettant en œuvre des services 6. Logical Observation Identifiers Names and Codes 7. 4 couches de représentation des données en UML : méta-méta-modèle, méta-modèle, modèle et données.

4 ICSSHC 2008 2.2. Approche fédérée et de médiation Le système d information hospitalier, où chaque spécialité médicale a un espace d analyse de ses données différent, présente les caractéristiques nécessaires à la mise en place d entrepôts de données fédérés. Un entrepôt fédéré est selon (Sheth et al., 1990) une collection de bases de données collaboratives, autonomes et hétérogènes. Des travaux visent à proposer un modèle normalisé permettant de fédérer les différentes sources de données. HEWAF repose sur une modélisation multidimensionnelle UML se basant sur les classes du RIM 8 HL7, qui est un standard pour la représentation des données cliniques et administratives dans le domaine de la santé (Stolba et al., 2006). Dans le cas de sources de données géographiquement réparties, la médiation est une solution pertinente. L architecture middleware d OGSA-DAI 9 permet l intégration de données réparties ayant des modèles de données et des structures de stockages hétérogènes. Ainsi, il est possible d interconnecter dans le grid 10 des bases de données relationnelles, XML, système de fichiers ou des données volatiles (Antonioletti et al., 2005). 3. Analyse comparative Les outils étudiés peuvent être comparés selon des critères d analyse correspondant aux différentes étapes du processus d intégration de données à des fins d analyse. l intégration des données hétérogènes, via un processus d intégration ETL pour un entrepôt centralisé, ou l alignement de modèles en utilisant une approche fédérée ou de médiation; la modélisation des données pour l analyse, basée sur un modèle multidimensionnel ou relationnel, standardisé (RIM, openehr) ou non ; la représentation et le stockage de la dimension sémantique des données, OWL-DL, RDF, etc. ; le stockage des données, dans des entrepôts relationnels, objets relationnels ou XML (exist) s il y a stockage centralisé ; l interrogation des données stockées (par exemple via le grid si le stockage est «virtuel», via SQL (OLAP) en cas de stockage relationnel, MDX si il est multidimensionnel ou bien encore XPath/XQuery si il est XML natif) 8. Modèle d information médicale orienté objet de référence proposée par l organisme de standardisation Health Level 7 9. Open Grid System Architecture : http://www.ogsadai.org.uk/. Site accédé le 27/03/2008. 10. (ou grille informatique) Désigne une infrastructure virtuelle constituée de ressources informatiques partagées, distribuées, hétérogènes, délocalisées et autonomes.

Entreposage de données médicales 5 Nous proposons dans le tableau 1, une analyse par critères basés d une part sur le type d architecture (centralisée ou décentralisée) et d autre part, sur les 4 étapes du processus d entreposage de données classique. Nous synthétisons et positionnons les systèmes étudiés en section 3 par rapport à ces critères d analyse. Approche centralisée Approche décentralisée i2b2 OntoDB HEWAF OGSA-DAI Intégration ETL ETL Fédérée Médiation Modélisation Multidimensionnelle Relationelle Multidimensionnelle Non Non standardisée (HL7 RIM) Stockage SGBD SGBD Virtuel Virtuel (données) Stockage Dimension Modèle et métamodèle A l étude A l étude (OGSAsémantique DAI-RDF) Interrogation Interface propriétaire OntoQL SQL XM OGSA-DQP Enrichissement Sémantique Interrogation, intégration Interrogation, modélisation A l étude A l étude Tableau 1. Synthèse fonctionnelle de l étude On note une certaine complémentarité dans les approches proposées, chaque système ayant un point fort. i2b2 présente une architecture orientée services intégrant une gestion de la sécurité des données, et un outil d interrogation efficace basé sur un système de navigation sémantique. OntoDB propose une cohabitation des données et des ontologies dans la même base de données, et qui permet au SGBD d évoluer de pair avec l évolution de la connaissance associée au domaine. HEWAF propose une modélisation multidimensionnelle standardisée et fédérée. Enfin, OGSA-DAI propose une série d outils de gestion de grid intégrés. 4. Discussion et conclusion Nous observons clairement la nécessité des évolutions futures à ces outils afin de répondre à une demande d intégration de la dimension sémantique, dans le domaine des systèmes informatiques de santé. i2b2 ne propose pas de modèle multidimensionnel standardisé, ni de système d interrogation prenant en charge les relations dans les ontologies (subsomption, synonymie, etc.). De plus, la modélisation multidimensionnelle proposée est fortement orientée au couple patientacte, ce qui réduit le nombre de mesures associées aux actes médicaux utilisables. OntoDB ne propose pas d intégration sémantique sur des modèles multidimensionnels. HEWAF ne prend pas en compte la sémantique, bien que ce point ait été discuté récemment (Banek et al., 2006). Enfin, OGSA-DAI ne prend

6 ICSSHC 2008 pas encore en charge la médiation à base d ontologie, bien qu elle soit étudiée dans (Kojima 2006). Afin de répondre aux propriétés OLAP d un cube de données (navigation en ligne) sur un grid, (Fiser et al., 2004) présentent un serveur Gridenabled OLAP, ce qui n est pas aujourd hui implémenté dans OGSA-DAI. L évolution du web sémantique, des systèmes d aide à la décision, de la standardisation des modèles de données et des techniques de médiation permet aujourd hui aux systèmes informatiques de santé d évoluer, et d aborder la problématique de la l utilisation secondaire des données récoltées à des fins de recherche clinique ou épidémiologique. Nous avons évoqué dans cet article différentes solutions, et nous avons proposé quatre critères comparatifs des approches méthodologiques proposées dans ces outils, ce qui nous permettra de positionner nos recherches dans les domaines de l ingénierie des connaissances et du décisionnel. Enfin, nous avons critiqués et mis en avant des évolutions possibles aux approches proposées dans la littérature. 12. Bibliographie Antonioletti M., Atkinson M., Baxter R., Borley A., «The design and implementation of Grid database services in OGSA-DAI.» Concurrency and Computation: Practice & Experience, 2005. Banek M., Tjoa A., Stolba N., «Integrating Different Grain Levels in a Medical Data Warehouse Federation.» Lecture notes in computer science, 2006. Fiser B., Onan U., Elsayed I., Brezany P., Tjoa A., «On-line analytical processing on large databases managed by computational grids.» Database and Expert Systems Applications, 2004. Jean S., Aıt-Ameur Y., Pierra G., «Querying ontology based databases. the ontoql proposal.» 18 thinternational Conference on Software Egineering, 2006. Kojima I., «Design and Implementation of OGSA-DAI-RDF.» GGF16 Semantic Grid Workshop. Athens, 2006. Pierra G., Dehainsala H., Ameur Y., Bellatreche L., «Base de Données à Base Ontologique: le modèle OntoDB.» Proceeding of Base de Données Avancées 20èmes Journées, 2004. Sheth A., Larson J., «Federated database systems for managing distributed, heterogeneous, and autonomous databases.» ACM Computing Surveys (CSUR), 1990. Stolba N., Banek M., Tjoa A., «The Security Issue of Federated Data Warehouses in the Area of Evidence-Based Medicine.» ARES2006, 2006.