Entrepôt de données Santé (EDS) Recherche Solution i2b2 Stéphane Bréant 1, Nicolas Paris 1,2,3, Nina Orlova 1, Astrid Lang 1, Alain Beauchet 2, Dr Christel Daniel 1,3 1 CCS SI Patient Assistance Publique Hôpitaux de Paris, Paris France, 2 URC Hôpital Ambroise Paré Assistance Publique Hôpitaux de Paris, Paris France, 3 INSERM, U1142, LIMICS, Sorbonne Universités Présentateurs: Stéphane Bréant Nicolas Paris
Sommaire Besoin fonctionnel Réponse technique Développement de solutions innovantes & évolutions Conclusion & perspectives CCS Patient 2
EDS Recherche - Gestion de projet & gouvernance Gestion de projet : CCS Patient Directrice de projet : Dr Christel Daniel Chef de projet : Stéphane Bréant Conception - Développement : Nina Orlova - Nicolas Paris Qualification - Support : Naeme Nekooguyan Support transverse : Responsable Sécurité : Astrid Lang Comité de pilotage DRCD, DSI, DAJ, DIM, CME Objectif : mise en place d une solution de support à la Recherche exploitant les données de soins études rétrospectives sur données études interventionnelles protocolisées Projet stratégique pour l AP-HP Axe 2 «Faire de l AP-HP un acteur des révolutions médicales et numériques, partenaire des universités» CCS Patient 3
EDS Recherche Périmètre fonctionnel 1/2 Focus 1 2 3 4a 4b Professionnels de santé investigateurs CCS Patient 4
EDS Recherche - Périmètre fonctionnel 2/2 Niveaux fonctionnels 1 - Etudes monocentriques (équipe de soins) Principales fonctions Déterminer par requête un nombre de patients éligibles et créer une liste de patients (cohorte) Analyser les caractéristiques des patients de la cohorte Exporter les données d intérêt des patients 2 - Etudes multicentriques (GH, AP-HP) 3 - Analyse de faisabilité (GH, AP- HP) Créer un projet, autorisé par le comité scientifique et éthique, selon le protocole de l étude Déterminer par requête un nombre de patients éligibles et créer une liste de patients (cohorte) Analyser les caractéristiques des patients de la cohorte Exporter les données d intérêt des patients Déterminer par requête un nombre et les principales caractéristiques (sexe, âge, etc) de patients éligibles 5
EDS Recherche Gains attendus Externalités : bénéfices pour les patients Participation à des études (accès à des thérapeutiques innovantes) Internalités : bénéfices pour les investigateurs AP-HP Support à l activité de recherche Etudes non interventionnelles de promotion institutionnelles (dont études d association pangénomiques, études de pharmacogénétique, etc) Amélioration de la qualité des données EDSR EDSR EDSR EDSR CCS Patient Augmentation du portefeuille d études institutionnelles MONO/MULTICENTRIQUE Augmentation des publications institutionnelles 6 MONO/MULTICENTRIQUE
EDS Recherche - Aspect réglementaire CNIL Déclaration normale réalisée pour niveau 1 - études monocentriques / équipe de soins Information au patient Cadrage du formalisme déclaratif en cours pour le reste du périmètre : demandes d autorisations Matrice d habilitations : politique d accès aux données Visibilité des données par les utilisateurs - Niveau de confidentialité Nombre d exécutions des requêtes Résultat de requêtes : nombre de patients exacts ou floutés Données nominatives visibles ou non en fonction des droits Traçabilité
Projet Système d Information Clinique (SIC) Problèmatique de Big Data Production de soins Imagerie Soins Soins Ex : bd ORBIS Catégorie de données 1 : Données démographiques, de prise en charge & PMSI 2 : Résultats de biologie 3 : Données du circuit du médicament 4 : Données des Formulaires (soins, médicaux) 5 : Données génétiques (structurées) 6 : Données ACP 7 : Echantillons (biobanques) 8 : Données non structurées 9 : Images, signaux 10 : Données de séquençage Biologie Autres 8
Sommaire Besoin fonctionnel Réponse technique Développement de solutions innovantes & évolutions Conclusion & perspectives CCS Patient 9
EDS Recherche - Besoins fonctionnel (Rappel) Mise à disposition d'un outil pour : exploiter les données de soins de l'ap-hp pour la recherche construire des cohortes de patients (critères d'éligibilité) restreindre l accès à des sous ensembles de données nécessaires aux études (monocentriques/équipes de soins ou multicentriques) 10
EDS Recherche - La solution i2b2 www.i2b2.org i2b2 = Informatics for Integrating Biology and the Bedside i2b2 = entrepôt de données médicales opensource, créé & maintenu par Harvard Medical School architecture 3-tiers, application / bases de données / webclient application java, web-service base de données Postgres, stockage & exploitation webclient php/javascript type "one page website" 11
EDS Recherche - Fonctionnalités d'i2b2 i2b2 satisfait-il entièrement aux besoins? Entièrement : construction de cohortes de patients en croisant des critères d'éligibilités l'exploitation des données structurées variées sécurisation des accès, gestion des utilisateurs... Partiellement : stockage des données dans i2b2 (insuffisant) notion de projets i2b2 (sous-ensemble des données) (insuffisant) export des données (insuffisant) connexion au LDAP AP-HP pour la connexion des utilisateurs (insuffisant) gestion des données non-structurées (insuffisant) analyses statistiques préliminaires (insuffisant) 12
EDS Recherche - Stockage des données dans i2b2 i2b2 : BDD 2 en 1 : stockage exploitation les + des champs dédiés au stockage : dates d'insertion, source de la donnée une structure adaptée aux données médicales (notion de patients, visites, fournisseurs de données...) les - absence de système d'historisation (organisation des services...) absence de système de transcodification (ex : mapping SNOMED-CT/CIM10) structure figée (quid de champs non prévus?) une seule table de faits avec des données mixtes (laboratoires, médicaments, PMSI ) des données qui subissent des transformations avant le stockage des index dédiés à l'exploitation qui ralentissent les modifications de données non optimal à maintenir (Ajout/Modification/Suppression) un seule table de référentiel (mixte) solution de stockage inadaptée aux besoins de stockage, mais adaptée à l'exploitation 13
EDS Recherche - Stockage des donnée dans i2b2 : solution création d'un entrepôt de données maison (EDS) structure simple structure évolutive conçu pour accueillir des sources hétérogènes (Identité Unique - IPP) système d'historisation [Données & Référentiels] chaine de standardisation [transcodification multi-sources: Femme, F] chargé de manière itérative (chaque mois) données pérennes dans EDS i2b2 en aval de EDS rafraichi (vidé + rechargé) Autres? 14
EDS Recherche - Le système de projets dans i2b2 Un projet = un sous-ensemble de données (mono/multicentrique, restriction aux patients diabétiques...) les + le système est capable d'accueillir des projets les - ajouter un projet ajouter physiquement les données (patients / visites / faits) problèmes de maintenance & performance (stockage & multiplication des index) (monocentrique : environ 800 services) 15
EDS Recherche - Le système de projet dans i2b2 : solution 1/2 adaptation de la structure de BDD i2b2 une seule version physique des données (les données de toute l'ap- HP) des projets comme des vues logiques (et non pas physiques) chaque projet est un sous-ensemble de l'intégralité des données (vues = filtre) 16
EDS Recherche - Le système de projet dans i2b2 : solution 2/2 avantages pas de stockage supplémentaire (données virtuelles) pas d'index supplémentaires (indexes partagés par tous les projets) très bonnes performances simplification des processus ETL sécurisé (accès & contenu) possibilité d'ajouter des milliers de projets, mono/multicentriques, sans coût supplémentaire de stockage / performance. 17
EDS Recherche - Export des données Le webclient i2b2 permet d'exporter les données de cohortes les + permet d'extraire les données des cohortes obtenues les - lent (échanges XML entre serveur applicatif / webclient) ne permet pas de sécuriser le contenu (informations identifiantes) 18
EDS Recherche - Export des données : solution sécurisation du contenu (matrice d'habilitations, profils d'utilisateurs) IPP/NDA dates de naissance comptes rendus données identifiantes... amélioration du contenu & du format de l'export perspectives: exports R, SAS... 19
EDS Recherche - Gestion des données nonstructurées La BDD i2b2 permet d'intégrer des données textuelles les + i2b2 permet de faire de la recherche "full-text" recherche avec des opérateurs logiques (rein AND dialyse) un module de NLP (version US) les - pas de module NLP pour la version française pas de solution de stockage nosql 20
EDS Recherche - Gestion des données nonstructurées : perspectives Module PICI présenté au groupe d'utilisateurs i2b2 juin 2015 module de distribution de requêtes : un nœud parent, des nœuds enfants données partagées entre les nœuds enfants requêtes adressées aux nœuds enfants détenant les données résultats centralisés au niveau du noeud parent nœuds enfants mixtes relationnel/nosql : insertion à la volée, dans la structure en étoile, depuis la base nosql de nouveaux arguments en faveur de la vélocité & variété dans i2b2 21
EDS Recherche - Pré-Analyse statistiques dans i2b2 Après construction d'une cohorte : "timeline" visualisation graphique d'évènements aux cours du temps histogrammes des données démographiques "break-down" : agrégation des cohortes (vivants/décédés ; hommes/femmes ) restitutions limitées 22
EDS Recherche - Pré-Analyse statistiques dans i2b2 : perspectives Le principe d'explorations statistiques préliminaires Laisser ce travail aux statisticiens? permet de confirmer / infirmer des hypothèses à la volée (test-t, survie, répartitions) moins lourd que de réaliser des analyses sur export (export data-management analyse) une fois les hypothèses confirmées exports des données & validations plus poussées par un statisticien 23
EDS Recherche - Pré-Analyse statistiques dans i2b2 : perspectives R : quelques mots langage de programmation de haut niveau pour les statistiques équivalent à SAS, SPSS, Stata, Mathematica... open-source largement utilisé (enseigné à la fac) 24
EDS Recherche - Pré-Analyse statistiques dans i2b2 : perspectives Intégration de R dans des applications WEB Pourquoi? apporte un volet statistique à l'application R le fait mieux / + simplement que les outils web (php, java, javascript...) le statisticien le fait mieux que le programmeur Comment? JRI, Rserve : code R intégré dans l'application OpenCPU : code R séparé de l'application ; communication par webservices (REST = standard) 25
EDS Recherche - Pré-Analyse statistiques dans i2b2 : perspectives Le choix OpenCPU séparation du code séparation des responsabilités maintenance, robustesse, rapidité à mettre en place pas besoin d'expert maitrisant plusieurs langages : coopération possible statisticien / programmeur en cas de panne pas d'impact sur le reste de l'application sécurité : exploite AppArmor : restriction en accès, mémoire, temps SSL livré avec une librairie javascript prête à l'emploi & complète open-source 26
EDS Recherche - Pré-Analyse statistiques dans i2b2 : perspectives Schéma 27
EDS Recherche - Pré-Analyse statistiques dans i2b2 : perspectives Maquette 28
EDS Recherche - Pré-Analyse statistiques dans i2b2 : perspectives Perspectives survie test-t exports performants (csv, Rdata, xlsx, spss, sas, stata,...) Des idées? (démographie, visites, faits) 29
EDS Recherche - Le projet en quelques chiffres i2b2 1M2 patients, 4M de visites, 50M faits (700k GHM, 1M2 CIM10, 4M passages, 37M laboratoires, 1M5 CCAM) BDD = 50GB disque dur périmètre de données démographie (Age, date de naissance/décès, statut vital, code postal de naissance, IPP) visite (Age à la visite, statut vital à la visite, GHM, dates de la visite, type de visite, durée, NDA) faits (résultats de laboratoire, PMSI (GHM, CIM10, CCAM), UF de passage) garantie de la fiabilité et la qualité des données restituées Axe de travail d amélioration continue (chaine de traitement et source) Stagiaire en MASTER 2 30
EDS Recherche Conclusion technique Retour d'expérience i2b2 comme solution d'exploitation/restitution EDS comme solution de stockage i2b2 optimisé pour exploiter les données & non pour les entreposer I2b2 : communauté dynamique (modifications prises en comptes) 3V du big-data i2b2 à ce jour couvre Volume & Vélocité la perspective du module PICI : nosql apporte la Variété Intégration à des plateformes de recherche système d intéropérabilité sémantique 31
Sommaire Besoin fonctionnel Réponse technique Développement de solutions innovantes & évolutions Conclusion & perspectives CCS Patient 32
Conclusion & Perspectives EDS Recherche, un outil permettant l exploitation des données de soins, en support aux activités de Recherche pour les investigateurs AP-HP En cours de déploiement Site pilote en production fin mai 2015 2 autres groupes hospitaliers lancés en juin 2015 Anticiper Big Data au delà des données AP-HP : Données d esposition réseau sociaux, etc.. Intéropérabilité des solutions d aides décisionnelles et de support à la recherche au sein et au-delà de l AP-HP (InteropRecherche) Contraintes réglementaires en constante évolution Pérenniser la confiance des patients et des professionnels de santé 33
EDS Recherche - références Merci de votre attention [1] Declerck G, Hussain S, Daniel C, Yuksel M, Laleci GB, Twagirumukiza M, Jaulent MC. Bridging data models and terminologies to support adverse drug event reporting using EHR data. Methods Inf Med. 2015;54(1):24-31. [2] De Moor G, Sundgren M, Kalra D, Schmidt A, Dugas M, Claerhout B, Karakoyun T, Ohmann C, Lastic PY, Ammour N, Kush R, Dupont D, Cuggia M, Daniel C, Thienpont G, Coorevits P. Using electronic health records for clinical research: the case of the EHR4CR project. J Biomed Inform. 2015 Feb;53:162-73. [3] Daniel C, Choquet R. Information technology for clinical, translational and comparative effectiveness research. Findings from the section clinical research informatics. Yearb Med Inform. 2014 Aug 15;9(1):224-7. [4] Daniel C, Sinaci AA, Ouagne D, Sadou E, Declerck G, Kalra D, Forsberg K, Mead C, Bain L, Hussain S, Erturkmen GBL,. Standard-based EHR-enabled applications for clinical research and patient safety: CDISC IHE QRPH EHR4CR & SALUS collaboration. AMIA Jt Summits Transl Sci Proc. 2014 [5] Doods J, Bache R, McGilchrist M, Daniel C, Dugas M, Fritz F; Work Package 7. Piloting the EHR4CR feasibility platform across Europe. Methods Inf Med.2014;53(4):264-8. [6] Coorevits P, Sundgren M, Klein GO, Bahr A, Claerhout B, Daniel C, Dugas M, Dupont D, Schmidt A, Singleton P, De Moor G, Kalra D. Electronic health records: new opportunities for clinical research. J Intern Med. 2013 Dec;274(6):547-60. [7] Vandenbussche P-Y, Cormont S, André C, Daniel C, Delahousse J, Charlet J, et al. Implementation and management of a biomedical observation dictionary in a large healthcare information system. J Am Med Inform Assoc. oct 2013;20(5):940 946. [8] Daniel C, Erturkmen GBL, Sinaci AA, Delaney BC, Curcin V, Bain L. Standard-based integration profiles for clinical research and patient safety. AMIA Jt Summits Transl Sci Proc. 2013;2013:47-49. [9] Daniel C, Choquet R, Section Editors for the IMIA Yearbook Section on Clinical Research Informatics. Information technology for clinical, translational and comparative effectiveness research. Findings from the section clinical research 34 informatics. Yearb Med Inform. 2013;8(1):185-189. CCS Patient