Big Data, Data Reuse in Medicine



Documents pareils
Face Recognition Performance: Man vs. Machine

RULE 5 - SERVICE OF DOCUMENTS RÈGLE 5 SIGNIFICATION DE DOCUMENTS. Rule 5 / Règle 5

Eléments de statistique

Exemple PLS avec SAS

Application Form/ Formulaire de demande

Instructions Mozilla Thunderbird Page 1

Archived Content. Contenu archivé

FICHE D INSCRIPTION ET FICHE D INFORMATION MEDICALE POUR ELEVES LYCEE FRANÇAIS INTERNATIONAL

Improving the breakdown of the Central Credit Register data by category of enterprises

Institut français des sciences et technologies des transports, de l aménagement

AMENDMENT TO BILL 32 AMENDEMENT AU PROJET DE LOI 32

I. COORDONNÉES PERSONNELLES / PERSONAL DATA

BNP Paribas Personal Finance

UML : Unified Modeling Language

Instructions pour mettre à jour un HFFv2 v1.x.yy v2.0.00

INSTITUT MARITIME DE PREVENTION. For improvement in health and security at work. Created in 1992 Under the aegis of State and the ENIM

SCHOLARSHIP ANSTO FRENCH EMBASSY (SAFE) PROGRAM APPLICATION FORM

Acce s aux applications informatiques Supply Chain Fournisseurs

Editing and managing Systems engineering processes at Snecma

Le passé composé. C'est le passé! Tout ça c'est du passé! That's the past! All that's in the past!

Mon Service Public - Case study and Mapping to SAML/Liberty specifications. Gaël Gourmelen - France Telecom 23/04/2007

Utiliser une WebCam. Micro-ordinateurs, informations, idées, trucs et astuces

L industrie pharmaceutique et la grippe aviaire

3615 SELFIE. HOW-TO / GUIDE D'UTILISATION

Forthcoming Database

Revision of hen1317-5: Technical improvements

Natixis Asset Management Response to the European Commission Green Paper on shadow banking

Lamia Oukid, Ounas Asfari, Fadila Bentayeb, Nadjia Benblidia, Omar Boussaid. 14 Juin 2013

Gestion des prestations Volontaire

EN UNE PAGE PLAN STRATÉGIQUE

Once the installation is complete, you can delete the temporary Zip files..

APPENDIX 2. Provisions to be included in the contract between the Provider and the. Holder

CEST POUR MIEUX PLACER MES PDF

JSIam Introduction talk. Philippe Gradt. Grenoble, March 6th 2015

INDIVIDUALS AND LEGAL ENTITIES: If the dividends have not been paid yet, you may be eligible for the simplified procedure.

WEB page builder and server for SCADA applications usable from a WEB navigator

Support Orders and Support Provisions (Banks and Authorized Foreign Banks) Regulations

Exercices sur SQL server 2000

Data issues in species monitoring: where are the traps?

The new consumables catalogue from Medisoft is now updated. Please discover this full overview of all our consumables available to you.

Dans une agence de location immobilière...

Notice Technique / Technical Manual

First Nations Assessment Inspection Regulations. Règlement sur l inspection aux fins d évaluation foncière des premières nations CONSOLIDATION

Présentation par François Keller Fondateur et président de l Institut suisse de brainworking et M. Enga Luye, CEO Belair Biotech

RISK-BASED TRANSPORTATION PLANNING PRACTICE: OVERALL METIIODOLOGY AND A CASE EXAMPLE"' RESUME

Cheque Holding Policy Disclosure (Banks) Regulations. Règlement sur la communication de la politique de retenue de chèques (banques) CONSOLIDATION

Contrôle d'accès Access control. Notice technique / Technical Manual

APPENDIX 6 BONUS RING FORMAT

Deadline(s): Assignment: in week 8 of block C Exam: in week 7 (oral exam) and in the exam week (written exam) of block D

Contents Windows

Monitor LRD. Table des matières

8. Cours virtuel Enjeux nordiques / Online Class Northern Issues Formulaire de demande de bourse / Fellowship Application Form

ETABLISSEMENT D ENSEIGNEMENT OU ORGANISME DE FORMATION / UNIVERSITY OR COLLEGE:

Scénarios économiques en assurance

Integrated Music Education: Challenges for Teaching and Teacher Training Presentation of a Book Project

Compléter le formulaire «Demande de participation» et l envoyer aux bureaux de SGC* à l adresse suivante :

Nouveautés printemps 2013

Algorithmes de recommandation, Cours Master 2, février 2011

Tier 1 / Tier 2 relations: Are the roles changing?

setting the scene: 11dec 14 perspectives on global data and computing e-infrastructure challenges mark asch MENESR/DGRI/SSRI - France

lundi 3 août 2009 Choose your language What is Document Connection for Mac? Communautés Numériques L informatique à la portée du Grand Public

TABLE DES MATIERES A OBJET PROCEDURE DE CONNEXION

Grégoire de Lassence. Copyright 2006, SAS Institute Inc. All rights reserved.

NOM ENTREPRISE. Document : Plan Qualité Spécifique du Projet / Project Specific Quality Plan

accidents and repairs:

Règlement sur le télémarketing et les centres d'appel. Call Centres Telemarketing Sales Regulation

calls.paris-neuroscience.fr Tutoriel pour Candidatures en ligne *** Online Applications Tutorial

CLIM/GTP/27/8 ANNEX III/ANNEXE III. Category 1 New indications/ 1 re catégorie Nouvelles indications

Formulaire d inscription (form also available in English) Mission commerciale en Floride. Coordonnées

DOCUMENTATION - FRANCAIS... 2


Comprendre l impact de l utilisation des réseaux sociaux en entreprise SYNTHESE DES RESULTATS : EUROPE ET FRANCE

Lesson Plan Physical Descriptions. belle vieille grande petite grosse laide mignonne jolie. beau vieux grand petit gros laid mignon

MANUEL MARKETING ET SURVIE PDF

Le No.1 de l économie d énergie pour patinoires.

RÉSUMÉ DE THÈSE. L implantation des systèmes d'information (SI) organisationnels demeure une tâche difficile

Paxton. ins Net2 desktop reader USB

Consultants en coûts - Cost Consultants

NORME INTERNATIONALE INTERNATIONAL STANDARD. Dispositifs à semiconducteurs Dispositifs discrets. Semiconductor devices Discrete devices

Interest Rate for Customs Purposes Regulations. Règlement sur le taux d intérêt aux fins des douanes CONSOLIDATION CODIFICATION

QUEL AVENIR POUR LA PHARMACIE HOSPITALIERE EN SUISSE?

IPSAS 32 «Service concession arrangements» (SCA) Marie-Pierre Cordier Baudouin Griton, IPSAS Board

CONVENTION DE STAGE TYPE STANDART TRAINING CONTRACT

SURVEILLANCE DES EAUX SOUTERRAINES

Laboratory accredited by the French Home Office (official gazette date February 5 th, 1959, modified) Valid five years from August 27 th, 2013

SERVEUR DÉDIÉ DOCUMENTATION

Get Instant Access to ebook Cest Maintenant PDF at Our Huge Library CEST MAINTENANT PDF. ==> Download: CEST MAINTENANT PDF

Bourses d excellence pour les masters orientés vers la recherche

GEIDE MSS /IGSS. The electronic document management system shared by the Luxembourg

Tammy: Something exceptional happened today. I met somebody legendary. Tex: Qui as-tu rencontré? Tex: Who did you meet?

Frequently Asked Questions

Comment calculer une moyenne journalière de l irradiance avec excel 2007? How to calculate a daily average amount of irradiance with Excel 2007?

Francoise Lee.

The assessment of professional/vocational skills Le bilan de compétences professionnelles

Livret des nouveaux anticoagulants oraux. Ce qu il faut savoir pour bien gérer leur utilisation

Formulaire de candidature pour les bourses de mobilité internationale niveau Master/ Application Form for International Master Scholarship Programme

Calculation of Interest Regulations. Règlement sur le calcul des intérêts CONSOLIDATION CODIFICATION. Current to August 4, 2015 À jour au 4 août 2015

HENDRICH FALL RISK MODEL (HFRM)

Université de XY University of XY. Faculté XY Faculty of XY

AIDE FINANCIÈRE POUR ATHLÈTES FINANCIAL ASSISTANCE FOR ATHLETES

Transcription:

Big Data, Data Reuse in Medicine Lille University, France 2013-05-14 1

What is data reuse? What are big data? Lille University, France 2013-05-14 2

Definition of Data reuse (or data re-use) Traditional approaches (before data reuse): Scientific question. e.g.: which factors are associated with vitamin K antagonists (VKA) overdoses? Ad hoc retrospective or prospective study Custom database Statistical analysis New knowledge Advantages: Simple and specific data collection Simple data analysis Answers accurately the initial question Drawbacks: Time-consuming Expensive Late results Often few records (low power) Data cemeteries Lille University, France 2013-05-14 3

Lille University, France Definition of Data reuse (or data re-use) Routine collection of transactional data: Routine, daily transactional activities, e.g. patient care Reuse of the data: Scientific question ( ) Advantages: Low-cost Fast results Data enhancement Amount of records => high statistical power 2013-05-14 Daily feeding and updating Data transformation Nearly-custom database Transactional Transactional database database Transactional 1 2 database Transactional 3 database4 Statistical analysis Drawbacks: New knowledge Often approximately answers the question Not easy, methodological issues 4

Data reuse in insurance companies Routine activities: Transactional activities. The company: Recruits and follows customers Banks insurance premiums Daily feeding and updating Demographic data Contributions data (incomes) Pays out claims Reuse of the data: How much should Mr Smith pay for his car insurance? Nearly-custom database Data transformation Statistical analysis Accidents database (outcomes) Model for predicting individual risk Decision Lille University, France 2013-05-14 Personalized insurance premiums 5

Data reuse in supermarket Routine activities: Transactional activities: Check-out at the cash desks Fidelity cards Daily feeding and updating Demographic information Sales receipts Reuse of the data: How could we sell more roll-on deodorant to adult men? Nearly-custom database Data transformation Statistical analysis Men who buy roll-on deodorant often also buy razor blades Decision Lille University, France 2013-05-14 Place roll-on deodorant for men beside razor blades in the supermarket 6

Data reuse in health? Probably under-realized today Routine activities: Transactional activities: Administrative check-in Drug prescriptions Laboratory assessments Billing Reuse of the data: Daily feeding and updating Administered drugs Data transformation Diagnoses, procedures Demographic & administrative data Laboratory results Are there adverse drug events? Are the care procedures correctly applied? May the Length of stay be predicted? Nearly-custom database Statistical analysis New knowledge??? Lille University, France 2013-05-14 7

Definition of big data big data is generally a property of the routinely collected data that can be reused Big can be understood through 5 dimensions: 1-Many records Lille University, France id age gender diagnosis 123 23 M I10 125 78 M K37 245 13 F M61.2 278 24 M I41 324 65 F I48 350 id age 34 gender F diagnosis F20.2 2013-05-14 2-Many variables 3-Many possible values for qualitative variables 4-Many tables & relationships 5-Variables with repeated measurements Id Par Val 123 K+ 4.5 123 K+ 4.8 123 K+ 5.2 8

Challenges in data reuse Where is the secret of a successful data reuse? Here? Yes, mainly! The decisions that are taken for the data transformation process have a critical effect. Transactional database Transactional 1 database Transactional 2 database 3 Data transformation Here? Not really Data mining techniques ( statistical methods) are used, but not specific. Scientific question Lille University, France 2013-05-14 Nearly-custom database Statistical analysis Here? Partially Significant tests are nearly always observed in Big Data: correct the α risk, consider the effect size. Cf. post. Results Interpretation Knowledge 9

Data quality assessment Lille University, France 2013-05-14 10

Data quality assessment Lille University, France Getting reliable data is a challenge => an iterative quality control is mandatory Extraction format, basic requirements (tables, fields) Single value validity. E.g.: Incorrect type: Age= old Impossible value: age=141, diagnosis= HHFA001 Out-of-terminology value: diagnosis= B99.0 Univariate validity. E.g.: Each value is possible, but Mean(age)=85 Contextual: mean(age)=21 in Pediatrics Bivariate validity. E.g.: Length of stay=2, admission= 2013-05-14, discharge= 2013-05-14 Age=21 in a Geriatrics Unit Age=21 with diagnosis= Alzheimer disease 2013-05-14 11

Data transformation, data aggregation Lille University, France 2013-05-14 12

Data transformation: what for? Mandatory before using statistical methods Enables to transform data into information: how would a human comment/summarize the raw data? Suppresses 3 over 5 dimensions of bigness that are not compatible with statistical analysis Lille University, France 1-Many records 2013-05-14 2-Many variables id age gender diagnosis 123 23 M I10 125 78 M K37 245 13 F M61.2 278 24 M I41 324 65 F I48 350 id age 34 gender F diagnosis F20.2 3-Many possible values for qualitative variables Id Par Val 123 K+ 4.5 123 K+ 4.8 123 K+ 5.2 4-Many tables & relationships 5-Variables with repeated measurements 13

Data transformation, example 1: suppression repeated measurements (1) Id stay Date Parameter Value Potassium: 123 0 Potassium 4 123 1 Potassium 4 123 Stay n 123 0 Sodium: time 123 0 Sodium 140 123 528 0 Potassium 3.2 0 time 528 Potassium: Several parameters may be measured several times during a given inpatient stay. => One curve per {id_patient*parameter} Stay n 528 0 time Lille University, France 2013-05-14 14

Data transformation, example 1: suppression repeated measurements (2) Objective: 1 table with 1 row per stay Example of simple transformation (without a priori knowledge): Potassium: Stay n 123 0 Sodium: time Stay n 528 0 Potassium: 0 time time Lille University, France 2013-05-14 15

Data transformation, example 1: suppression repeated measurements (3) Another example of transformation, with knowledge Uses the range of normal values according to the parameters, summarizes the anomalies Potassium: Stay n 123 0 Sodium: time Stay n 528 0 Potassium: time 0 time Lille University, France 2013-05-14 16

Data transformation, example 2: interpretation of a qualitative variable (1) Id stay Procedure.code Procedure.wording 123 LMMC004 Bilateral treatment of inguinal hernia without prosthesis, by video surgery 123 GLHF001 Arterial blood collection for blood gas and ph sampling 528 LMMC020 Treatment of abdominal hernia with prosthesis, by laparoscopy 528 ZZBQ002 Thorax radiography Each stay may have 0, 1 or several procedures. The terminology used (CCAM) has more than 5,000 possible codes. In this case, we only interest on hernia treatment. Lille University, France 2013-05-14 17

Data transformation, example 2: interpretation of a qualitative variable (2) Id stay Procedure.code 123 LMMC004 123 GLHF001 528 LMMC020 123 ZZBQ002 New qualitative variables are created: Each variable has few possible values A mapping is necessary (with overlaps) Requires a strong medical knowledge about codes Lille University, France 2013-05-14 18

Data transformation, example 2: interpretation of a qualitative variable (3) Example of mapping used for hernia FROM (raw data): 18 codes TO (information): Type (n=3) Prosthesis (n=2) Approach (n=6) Bilateral (n=2) Lille University, France 2013-05-14 19

Problems of interpretation with big data I. Many variables (columns) => type I error correction II. Many records (rows) => effect size => over fitting of the models Lille University, France 2013-05-14 20

1- Type I error inflation with numerous statistical tests Reminder: principle of statistical tests (1) Example : we want to test whether variables A & B are independent. A null hypothesis is supposed: H 0 : A & B are independent Alternative hypothesis H 1 : A & B are not independent. A test statistic is computed: Its behavior under H 1 is unknown! Under H 0, this test statistics follows a known distribution Example : A & B are qualitative Test = Khi² test Test statistic = χ² Lille University, France 2013-05-14 21

1- Type I error inflation with numerous statistical tests Reminder: principle of statistical Under H 0, this test statistics follows a known distribution tests (2) Zone of reject of H 0 : extreme values of the test statistic, corresponding to a chosen probability α (generally 5%) Example : The Test statistic χ² follows a χ² distribution The reject zone is represented in red: Distribution and zone of reject of H 0 in a Khi² test 95% 5% Lille University, France 2013-05-14 22

1- Type I error inflation with numerous statistical tests Reminder: principle of statistical tests (3) Use of the test: we suppose that H 0 is true. If the result of the test is an improbable value (associated probability p < α), we decide that H 0 is not true: we reject H 0. But, if H 0 is really true, there exists a risk to reject it wrongly: the α risk = the Type 1 error (generally 5%) Lille University, France 2013-05-14 23

1- Type I error inflation with numerous statistical tests What if several tests are realized? Scenario with several tests: k independent tests are realized on a dataset A «Signal» is observed if at least one of the k tests is significant (p<5%) Signal = Test 1 Test 2 Test k Let s suppose that all the associated null hypothesis are TRUE, then what is the probability to observe a signal, if every test is realized with a α indiv type 1 error? α total =1-(1- α indiv ) k => inflation of the α risk. Lille University, France 2013-05-14 24

1- Type I error inflation with numerous statistical tests What if several tests are realized? => inflation of the α risk. Total alpha risk if every test is computed with a 5% individual alpha risk 0.0 0.2 0.4 0.6 0.8 1.0 0 20 40 60 80 100 Number of tests (0-100) Lille University, France 2013-05-14 25

1- Type I error inflation with numerous statistical tests How to correct this inflation? In order to get the α total wished, the individual threshold α indiv must be modified: Šidák s correction: Use α indiv =1-(1- α total ) 1/k Reminder: a b = e b.ln(a) Bonferroni s correction, very popular: For usual values of α total (1 to 10%), use simply: α indiv =(α total )/k in practice: α indiv =(0.05)/k Threshold very close (and inferior to) Šidák s threshold: more conservative, easy to compute Usable even when the k tests are not independant! Lille University, France 2013-05-14 26

1- Type I error inflation with numerous statistical tests Example of use (1) A dataset of inpatient stays contains X binary variables (e.g. administration of Spironolactone, hyperkalemia, etc.). We want to discover associations by testing every couple of variables. For X=2, 10, 100, 1000, 10000: How many tests are performed? What is the value of α total if α indiv =0.05? n x 1 = i= 1 i α = x( x 1) 2 n total =1 0. 95 What α indiv should be used to obtain α total =0.05? Šidák: Bonferroni: Lille University, France α indiv 1/ =1 0.95 2013-05-14 n α indiv = 0.05 n 27

1- Type I error inflation with numerous statistical tests Example of use (2) A dataset of inpatient stays contains X binary variables (e.g. administration of Spironolactone, hyperkalemia, etc.). We want to discover associations by testing every couple of variables. For X=2, 10, 100, 1000, 10000: Number of variables Lille University, France Number of tests α total if α indiv =5% Sidak s α indiv Bonferroni s α indiv 2 1 0.05 5.000E-02 5.000E-02 10 45 0.9006 1.139E-03 1.111E-03 100 4950 1.0 1.036E-05 1.010E-05 1000 499 500 1.0 1.027E-07 1.001E-07 10000 49 995 000 1.0 1.026E-09 1.000E-09 n x 1 = i= 1 i = x( x 1) 2 2013-05-14 α n total =1 0. 95 α indiv 1/ =1 0.95 α n indiv = 0.05 n 28

2- Significance versus size of the effect Formulation of the result of a statistical test A decision variable is first computed. Then it is tested. Two equivalent ways to formulate the result (examples with α=5%): The p value (significance) : We test whether the decision variable is different from the value expected under H 0 (generally 0 or 1) H 0 is rejected if p < 5% The confidence interval: The test returns the 95% confidence interval of the decision variable H 0 is rejected if this confidence interval does not contain the value expected under H 0 (generally 0 or 1) Lille University, France 2013-05-14 29

2- Significance versus size of the effect Example: comparing proportions We want to compare 2 proportions with α=5%. Examples of equivalent ways: Way #1: = π 1 -π 2 is the effect size H 0 : =0 Test => p value: H 0 is rejected if p < 0.05 Way #2: Relative risk RR=P(A/B) / P(A/B) is the effect size H 0 : RR=1 Test => confidence interval CI 0.95 : H 0 is rejected if CI 0.95 does Lille University, France not contain 1 2013-05-14 1 RR Significance Effect size 0 Confidence interval of RR Effect size Significance 30

2- Significance versus size of the effect Example of proportions comparison In a hospital database (n=500,000 patients) we want to test whether the intake of Drug X is associated with the occurrence of cardiac insufficiency CI+ CI- (%CI+) drug+ 1,070 24,000 4.2% drug- 18,930 456,000 3.9% Relative risk with 95% confidence interval: 1.071 [1.008 ; 1.137] => statistically significant, but weak effect size (+7.1%) Lille University, France 2013-05-14 31

3- Overfitting of predictive models Why does it happen in Big Data? In Big Data and Data Reuse, it seems easy to discover good predictive models: data-driven approaches: without hypothesis Absence of Bonferroni s correction Big sample sizes => high significance (even if poor size effect) Overfitting of the model: The models seems to be good in the sample: it is optimized for this particular sample But it could be fortuitous: perhaps another model would have been discovered on another sample Lille University, France 2013-05-14 32

3- Overfitting of predictive models Which solutions? Those solutions should be applied together when possible: Apply Bonferroni s correction Consider the effect size as a stop criterion in some algorithmes Trade-off between the complexity of the model and the goodness of fit of the model using criterion such as Akaike Information Criterion Build the model and test it on 2 different databases Lille University, France 2013-05-14 33

3- Overfitting of predictive models Which solutions? Example of procedure for predictive models: 80% Original database Random sampling 20% Learning set Evaluation set 100% Statistical procedure Statistical procedure Predictive model Evaluation (prediction error computation) Final predictive model Learning phase Evaluation phase Final learning Lille University, France 2013-05-14 34

Data Reuse of Electronic Health Records Lille University, France 2013-05-14 35

Data reuse of EHR Which available data? Diagnoses E119 Diabetes I251 Athérosclérosis I10 Arterial hypertension N300 Cystitis Lab results NPU03230 Potassium Procedures ZZBQ002Thorax radiography Demo. & Admin Age 80 Man? 0 Dead? 0 Length of Stay 9 ( ) Administered drugs Free-text reports Medical devices?? Lille University, France 2013-05-14 36

Data reuse of HER Some data sources Drug (distinguish drug prescription and drug administration). Don t forget to add some sources: Some procedures to map, e.g.: Scanner with iodine => iodine Surgery with anesthesia => anesthetic drug Perfusion, that are often provided without terminology code The drugs the patient brings with him Medical devices (implanted or not): Raw data: hudge amount Aggregated data Results of the interpretation automatically done by the device Lille University, France 2013-05-14 37

Data reuse of HER Terminologies Vocabulary, support of semantic interoprability: Couples of codes and wordings Codes are sometimes included in a hierarchy Enable to associate each concept to a code Contrary to free-text, unambiguous and usable for statistical analysis Example : Érysipèle = érésipèle = dermo-hypodermite = A46 in ICD10 Lille University, France 2013-05-14 38

Commercial name Ex : Dafalgan Data reuse of HER Drug terminologies CID Common international denomination Ex : Paracétamol / Acetaminophen Various terminology Among them, the ATC classification ATC = Anatomical Therapeutic and Chemical classification Codes, wordings and hierarchy (principally based on the therapeutic indication) Lille University, France 2013-05-14 39

Example of the Aspirin in the ATC classification A alimentary tract and metabolism A01AD other agents for local treatment A01AD05 aspirin B blood and blood forming organs B01AC platelet aggregation inhibitors B01AC06 aspirin C cardiovascular system C10BX ( ) other combinations C10BX01 & C10BX02 aspirin M musculo-skeletal system M01BA anti-inflammatory M01BA03 aspirin N nervous system N02BA salicylic acid and derivatives N02BA01, N02BA51, N02BA71 aspirin Lille University, France 2013-05-14 40

Laboratory results Biochemistry, hematology, bacteriology, virology, immunology Examples terminologies: LOINC (recommended) IUPAC But most of the time, each laboratory produces its own terminology: No semantic interoperability: Impossible to pool 2 hospital databases In the same hospital, data are sometimes heterogeneous according to the date of the measure Need for producing ad hoc mappings Lille University, France 2013-05-14 41

Dossier administratif Femme de 88 ans Diagnostics I10 Hypertension artérielle Z8671 Antécédents personnels de cardiopathies ischémiques I620 Hémorragie sous-durale non traumatique Actes ABJA002 Évacuation d'un hématome subdural aigu, par craniotomie FELF001 Transfusion de concentré de globules rouges Paracétamol AVK Vit K Statine Culots glob. INR Médicaments Biologie Lettre de sortie Courriers Compte-rendu opératoire Lille University, France 2013-05-14 Hémoglobine 42

The PSIP European Project Lille University, France 2013-05-14 43

Prévention et détection des effets indésirables médicamenteux : le Projet européen PSIP I. Introduction II. III. IV. Détection rétrospective des EIM Prévention prospective des EIM Perspectives Lille University, France 2013-05-14 44

Introduction A. Définition des EIM B. Notions épidémiologiques C. Méthodes de référence en détection rétrospective, objectifs D. Méthodes de référence en prévention prospective, objectifs E. Le projet Européen PSIP Lille University, France 2013-05-14 45

Plusieurs définitions Introduction Définition des EIM Définition utilisée ici (OMS et Communauté Européenne) : «réaction nocive et non voulue à un médicament, se produisant aux posologies normalement utilisées chez l'homme pour la prophylaxie, le diagnostic ou le traitement d'une maladie ou pour le rétablissement, la rectification ou la modification d'une fonction physiologique» Notes : «Posologies normalement utilisées» : exclut les erreurs d administration Nonobstant le motif de prescription, pourvu qu il soit médical «réaction ( ) à un médicament» : peut être étendu aux conséquences de l arrêt du médicament (effet rebond, interactions complexes) Lille University, France 2013-05-14 46

Introduction Notions épidémiologiques Estimation épidémiologique en France : 15 000 morts par an 35 000 patients survivant avec séquelles Un EIM surviendrait dans 5 à 9% des hospitalisations Incidence liée au terrain : Principalement chez les personnes âgées : 20% des motifs d hospitalisation des >80 ans 50% des motifs d hospitalisation des >95 ans Liés à des médicaments courants : anticoagulants (anti-vitamine K), insuline, digitaliques Coût économique majeur : Augmentation du nombre d hospitalisations Rallongement des durées de séjour Lille University, France 2013-05-14 47

Introduction Détection rétrospective Prescription Prescription Prescription Séjour hospitalier Identification a posteriori des EIM passés, alors qu il n existe pas naturellement de signal spécifique Système d information hospitalier (SIH) Lille University, France 2013-05-14 48

Introduction Prévention prospective Prescription Prescription Séjour hospitalier Modification prescription Méthode d alerte Génération d un signal (alerte) alors qu il n existe pas encore d EIM, pour empêcher sa survenue Système d information hospitalier (SIH) Lille University, France 2013-05-14 49

Introduction Méthodes de référence en détection rétrospective Pharmacovigilance : basée sur la déclaration spontanée des cas d EIM obligatoire, mais moins de 5% des cas seraient déclarés «cas rares ou graves», en pratique effets rares et inattendus, hors erreurs Revue experte de dossiers méthode reconnue (validation experte) mais très chronophage, d autant plus que les EIM sont rares Lille University, France 2013-05-14 50

Introduction Méthodes de référence en détection rétrospective Natural language processing : Analyse automatisée des courriers de sortie des patients Suppose que l EIM est au moins évoqué dans le courrier Data Mining (fouille statistique de données) : A ce jour utilisée pour analyser les déclarations volontaires d EIM Lille University, France 2013-05-14 51

Introduction Méthodes de référence en détection rétrospective Ces méthodes reposent toujours sur la détection humaine des cas d EIM Notre objectif : détecter automatiquement les EIM passés par fouille statistique des bases de données hospitalières pour quantifier objectivement les EIM, découvrir leurs circonstances de survenue, et former les praticiens sur des cas réels de leurs services Lille University, France 2013-05-14 52

Introduction Méthodes de référence en prévention prospective Formation des praticiens : Formation initiale, formation continue Basée sur une connaissance théorique des EIM, pondérée par la gravité mais pas par la probabilité de survenue Analyse extemporanée des prescriptions informatisées systèmes d aide à la décision alertes trop nombreuses (overalerting, alert fatigue), pas de prise en compte du contexte (patient, médicaments, service) : systèmes fréquemment désactivés! ces systèmes ne réduiraient pas / augmenteraient la mortalité! Lille University, France 2013-05-14 53

Introduction Méthodes de référence en prévention prospective ces méthodes ne prennent pas en compte le risque instantané de survenue (lié notamment au contexte) et submergent l utilisateur d alertes inutiles Notre objectif : mettre en place un système d aide à la décision : contextualisé, parcimonieux en alertes, non interruptif si possible Lille University, France 2013-05-14 54

Introduction Le projet européen PSIP Patient Safety Through Intelligent Procedures in Medication Financé par l European Research Council, 7th framework program (agreement N 216130) Lille University, France 2013-05-14 55

Introduction Le projet européen PSIP Hôpitaux: CHRU de Lille et Université Lille-Nord-de-France (F) CHU de Rouen (F) CH de Denain (F) 10 hôpitaux de la Région capitale d Hovedstaden (Da) Hôpital USHATE de Sofia (Bu) Partenaires industriels : Oracle (Europe) IBM Danemark (Dk) Medasys (F) Vidal SA (F) KITE solutions (I) Ideea Advertising (Ro) Partenaires académiques : Université Aristote de Thessalonique (Gr) Université d Aalborg (Dk) Université d Innsbruck UMIT (Au) Lille University, France 2013-05-14 56

Détection rétrospective des EIM I. Schéma général II. Modèle de données III. Découverte d associations IV. Exemple, interprétation médicale V. Les ADE Scorecards, outil de détection automatisée des EIM Lille University, France 2013-05-14 57

Détection rétrospective des EIM Schéma général Base de 150 000 séjours de 6 hôpitaux Data Mining & validation experte Découverte de règles de détection des EIM Identification des cas d EIM Calcul de statistiques Outil de visualisation synthétique : les ADE Scorecards Lille University, France 2013-05-14 58

Détection rétrospective des EIM Découverte d associations Data Mining = fouille de données statistique «Mise en évidence de connaissances jusqu alors inconnues dans des bases de données de grande dimension, à l aide de méthodes dérivées des statistiques, de la gestion de données et de l intelligence artificielle» Types de données : Variables à expliquer : des événements suspects ex : hyperkaliémie, administration de kayexalate, etc. Variables explicatives : tout le contexte ex: âge=72 ans, héparine, insuffisance rénale, hypoalbuminémie, etc. Lille University, France 2013-05-14 59

Détection rétrospective des EIM Découverte d associations Arbres de décision Méthode de data mining supervisé Découverte de conditions qui permettent de partager l échantillon en sousgroupes de forte prévalence d une part, et de faible prévalence d autre part Nœud Racine Branches Feuille Lille University, France 2013-05-14 60

Détection rétrospective des EIM Exemple, interprétation médicale Situation médicale : Les antivitamine K (AVK) sont des anticoagulants, indiqués en prévention des thromboses Activité biologique suivie en mesurant l INR (international normalized ratio) sur des prélèvements sanguins Effet indésirable fréquent : surdosage en AVK élévation de l INR hémorragie Nombreuses interactions médicamenteuses : à posologie constante, l activité biologique varie fortement Lille University, France 2013-05-14 61

Détection rétrospective des EIM Exemple, interprétation médicale NON AVK? f=0.1 OUI Arrêt butyrophénone? f=0 NON f=0.25 OUI NON Hypoalbuminémie? f=0.2 OUI f=0.4 f=0.05 Lille University, France 2013-05-14 f=0.5 62

Détection rétrospective des EIM Exemple, interprétation médicale 4 feuilles => système non redondant de 4 règles Enoncé des 4 règles de droite à gauche P désigne P(Y=1), estimée par f : 1. AVK & arrêt de butyrophénone P=0.4 2. AVK & pas d arrêt de butyrophénone & hypoalbuminémie P=0.5 3. AVK & pas d arrêt de butyrophénone & pas d hypoalbuminémie P=0.05 4. Pas d AVK P=0 4 3 2 1 Lille University, France 2013-05-14 63

Détection rétrospective des EIM Exemple, interprétation médicale 1 bifurcation : les surdosages en AVK ne surviennent que chez les patients traités par AVK... normal 2 et 3 bifurcations : deux interactions pharmacocinétiques Surdosage en AVK à l arrêt d une Butyrophénone Surdosage en AVK lié à une hypoalbuminémie Lille University, France 2013-05-14 64

Détection rétrospective des EIM Exemple, interprétation médicale Butyrophénones : classe de médicaments antipsychotiques, qui ont pour effet secondaire d accélérer le transit intestinal. AVK AVK AVK AVK Buty. Buty. INR INR INR INR Etape 1 : posologie d AVK adaptée pour une vitesse normale de transit Lille University, France 2013-05-14 Etape 2 : butyrophénone => accélération transit => sous-dosage en AVK Etape 3 : adaptation de dose des AVK => dosage adapté Etape 4 : arrêt buty. => ralentissement transit => surdosage en AVK 65

Détection rétrospective des EIM Exemple, interprétation médicale Albumine = une protéine plasmatique. L AVK se lie à l albumine, mais seule la fraction non liée est biologiquement active. Albumine sérique AVK Etat de base : 99% des AVK sont liés à l albumine. Seuls 1% sont biologiquement actifs. La dose administrée en tient compte. Lille University, France 2013-05-14 Hypoalbuminémie : diminution de la fraction liée, augmentation de la fraction libre => à dose identique, activité biologique accrue => surdosage alors que la dose administrée est «normale» 66

Détection rétrospective des EIM Exemple, interprétation médicale NON AVK? f=0.1 OUI Arrêt butyrophénone? f=0 NON f=0.25 OUI NON Hypoalbuminémie? f=0.2 OUI f=0.4 f=0.05 Lille University, France 2013-05-14 f=0.5 67

Détection rétrospective des EIM Les ADE Scorecards, outil de détection automatisée des EIM Outil de visualisation des statistiques, règles et cas Outil web multilingue (Fr, En, Dk, Bu) Utilisé dans 6 hôpitaux (3 Fr, 2 Dk, 1 Bu) Chargé avec plus de 150 000 séjours complets : PMSI+médicaments+biologie+courriers Règles de détection des EIM 236 règles validées, dont 171 (72%) apportent de nouvelles connaissances Contextualisation (affichage spécifique par service) : Statistiques contextualisées (probabilités réelles) Cas réels d EIM passés dans le service Lille University, France 2013-05-14 68

Lille University, France 2013-05-14 69

Lille University, France 2013-05-14 70

Lille University, France 2013-05-14 71

Number of cases per month Histogram of appearance delay Lille University, France 2013-05-14 72

Lille University, France 2013-05-14 73

Lille University, France 2013-05-14 74

Lille University, France 2013-05-14 75

Lille University, France 2013-05-14 76

Lille University, France 2013-05-14 77

Lille University, France 2013-05-14 78

1 1 2 2 3 3 4 4 5 5 Lille University, France 2013-05-14 79

83 Lille University, France 2013-05-14 80

Biologie : ( ) Hypokaliémie à 2.6 à l admission aux Urgences ( ) Evolution : ( ) Sur le plan biologique, après supplémentation potassique, les résultats biologiques sont satisfaisants. Lille University, France 2013-05-14 81

Détection rétrospective des EIM Qualité de la détection par les ADE Scorecards Dans un des hôpitaux, année 2010 complète Nombre de séjours : 14,747 Nombre de cas d hyperkaliémie : 117 (7.93 ) revue exhaustive ADE Scorecards Experts ADE Not ADE ADE 39 36 Not ADE 2 40 52.0% Résultats 95.1% Précision 39/75= 52.0% Rappel 39/41= 95.1% Moyenne harmonique 67.2% Nombre de cas rapportés 0/41= 0% Lille University, France 2013-05-14 82

Statistiques sur les EIM dans la base de données PSIP Nb of cases of outcome * Hyperkalemia 1301 2.67% Renal failure 2293 4.7% VKA overdose Other kinds of outcomes 625 1.28% 13936 28.56% Nb of cases occurring during the stay 703 2.84% 728 2.94% 507 2.05% 404 1.63% 321 1.3% 246 0.99% 7171 28.97% Nb of potential ADEs (automated detection) 1438 5.81% 271 1.1% 189 0.76% 137 0.55% 380 1.53% Nb of confirmed ADEs (expert review)** Total 14454 (29.62%) 7624 (30.8%) 2196 (8.87%) 997 (4.03%) *: le nombre d événements est rapporté au nombre total de séjours, alors que les nombres suivants sont rapportés aux séjours de plus de 2 jours uniquement **: ces nombres sont extrapolés depuis un échantillon Lille University, France 2013-05-14 83

Lille University, France 2013-05-14 84

Pour chaque règle, les statistiques contextualisées sont calculées dans chaque service X all departments X surgery X gyneco-obstetrics X all dpts X medicine A X medicine B X pneumology Y all departments Y apoplexy Y cardio & endocrinology Y geriatrics Y gynecology Y intensive care unit Y internal medicine Y obstetrics Y orthopedics Y rheumatology Y urology Z all departments W all departments Lille University, France 2013-05-14 85

Prévention prospective des EIM Lille University, France 2013-05-14 86

Prévention prospective des EIM Approche de PSIP Ex : AVK & IPP risque hémorragique Implémentation classique : Service A Service B Service C Implémentation PSIP : AVK&IPP alerte Service A Service B Service C Probabilité mesurée à 10% AVK&IPP alerte Probabilité mesurée à 0.01% AVK&IPP silence Circonstance inconnue AVK&IPP alerte Lille University, France 2013-05-14 87

Prévention prospective des EIM Approche de PSIP Développement de plusieurs systèmes d aide à la décision : Prototype IBM Prototype Medasys Simulation web d ordonnance Caractéristiques majeures : Alertes filtrées statistiquement, contextualisées moins d alertes, plus pertinentes Règles raffinées (segmentation statistique) prédiction du risque plus pertinente Méthodes d alerte moins interruptives, plus acceptables Lille University, France 2013-05-14 88

Conclusion Site web du projet : www.psip-project.eu Démonstration des outils PSIP (gratuit, sans inscription) : Portail : www.psip-project.eu ADE Scorecards : www.expert-explorer.eu/public Merci de votre attention. Lille University, France 2013-05-14 89