Data Mining: Activité hospitalière



Documents pareils
Vers une approche managériale des tarifs T2A

CRITERES DE REMPLACEMENT

La classification automatique de données quantitatives

SPECIFICATION DES ECHANGES DE DONNEES INFORMATISES (E.D.I.)

INFORMATIONS DIVERSES

dossier de presse nouvelle activité au CHU de Tours p a r t e n a r i a t T o u r s - P o i t i e r s - O r l é a n s

Le Centre Hospitalier Universitaire de Reims

Visite test de certification V2014 Retour du CHU de Rennes GCS CAPPS Vendredi 12 juin 2015

BILAN DE LA DAJ EN QUALITE D AUTO-ASSUREUR SUR LES RECLAMATIONS INDEMNITAIRES. Marjorie OBADIA/DAJ/10 janvier 2012

Programme d Accueil des Etudiants Internationaux Stages Hospitaliers

DOSSIER DE PRESSE OUVERTURE DU NOUVEL HOPITAL DE CANNES. Service Communication Tel Fax a.helbert@ch-cannes.

ACP Voitures 1- Méthode

CONGRES HOPITECH AMIENS OCTOBRE 2012

Une nouvelle ère du soin. Stratégie horizon 2018 CENTRE HOSPITALIER UNIVERSITAIRE DE TOULOUSE

Analyses multivariées avec R Commander (via le package FactoMineR) Qu est ce que R? Introduction à R Qu est ce que R?

JURIDIC ACCESS. Le droit pour les professionnels de santé

1S Modèles de rédaction Enoncés

Manuel pour les Etudiants Internationaux en Médecine

Angles orientés et fonctions circulaires ( En première S )

Classification non supervisée

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Cours d Analyse. Fonctions de plusieurs variables

COURS DE DATA MINING 4 : MODELISATION NON-SUPERVISEE CLASSIFICATIONS AUTOMATIQUES

Organisation du Système de Santé en France

Sommaire INTRODUCTION I Les méthodes et principes... 8

Centres de santé. lien. créent du. Les Etablissements MGEN. Quand les soins. Kinésithérapie. Services. Accessibles. Innovation.

PROJET MEDICAL

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

médecin RESPONSABILITÉ CIVILE PROFESSIONNELLE ET PROTECTION JURIDIQUE Relevé d Informations - Médecins infirmier kinésithérapeute avocat

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Logiciel XLSTAT version rue Damrémont PARIS

ASSURANCES ET MANAGEMENT DES RISQUES / SANTE, SOCIAL ET MEDICO-SOCIAL. Proposition d assurance Professionnels libéraux

PROFIL DE POSTE PRATICIEN ANATOMIE ET CYTOLOGIE PATHOLOGIQUES

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 04/04/2008 Stéphane Tufféry - Data Mining -

ANEMIE ET THROMBOPENIE CHEZ LES PATIENTS ATTEINTS D UN CANCER

L'aide à la souscription d'une assurance en responsabilité civile professionnelle

Participation de l Assurance Maladie à l assurance en Responsabilité Civile Professionnelle des médecins libéraux

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

Arbres binaires de décision

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

SONDAGE NATIONAL SUR LA MÉDECINE PALLIATIVE QUESTIONNAIRE

MINISTÈRE DES AFFAIRES SOCIALES ET DE LA SANTÉ

Ordonnance du DFI sur les prestations dans l assurance obligatoire des soins en cas de maladie

Analyse des incidents

Tout ce que vous avez toujours voulu savoir sur la scintigraphie osseuse et le TEP-SCAN

Extraction d informations stratégiques par Analyse en Composantes Principales

Découvrez L INSTITUT UNIVERSITAIRE DU CANCER DE TOULOUSE

MISSION NATIONALE D EXPERTISE et D AUDIT HOSPITALIERS

projet d établissement

Individus et informations supplémentaires

5 raisons de choisir la Mutuelle du Médecin. Une mutuelle dédiée aux médecins et à leur famille

GARANTIES. Étudiants NOUS NOUS ENGAGEONS À ÊTRE PLUS QU UNE MUTUELLE

Accès aux soins. avec couverture maladie. ACCèS AUX SOINS AVEC COUVERTURE MALADIE. d examens de santé. (CES) pour adultes Saint-Vincent

Centre Hospitalier de Béziers

Analyse de la variance Comparaison de plusieurs moyennes

Identification de nouveaux membres dans des familles d'interleukines

Enquête sur la rémunération des médecins et chirurgiens hospitaliers

La Pharmacie Clinique en Belgique : Pratique et Formation

Vecteurs. I Translation. 1. Définition :

Fédération des collèges de médecine d urgence Marseille Novembre /10/2008 ROR-IF Dr F. Dolveck

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

DIPLOME DE CHIRURGIE ORALE

Contrat Pluriannuel d'objectifs et de Moyens

Historique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications

L innovation technologique des entreprises françaises au Brésil

Fiche Produit Profils Médicalisés PHMEV

Hôpital performant et soins de qualité. La rencontre des extrêmes estelle

Communiqué de presse. Créée il y a 25 ans, l Association Charles Nicolle devient «Fondation reconnue d utilité publique»

testez-vous! Préparez vos partiels en toute sénérité!

YANN ROUDAUT - Professeur de l Ecole Française de Poker - roudaut@ecolefrancaisedepoker.fr

Titres et mentions autorisés sur les plaques et ordonnances

Parallélisation de l algorithme des k-médoïdes. Application au clustering de courbes.

Le Centre de documentation du C.H.T. Est situé au rez de chaussée du Bâtiment T 7 Avenue Paul Doumer BP J Nouméa.

Les professions. de santé. à mayotte et à la réunion. au 1er janvier N 6 Juillet 2012

Groupe Hospitalier de la Mutualité Française

Le guide de l assurance responsabilité

BUREAU CENTRAL DE TARIFICATION - 1 rue Jules Lefebvre Paris Cedex 09 Statuant en matière d'assurance de responsabilité civile médicale

L AUTOGREFFE QUELQUES EXPLICATIONS

2èmes Journées Avenir

Intérêt diagnostic du dosage de la CRP et de la leucocyte-estérase dans le liquide articulaire d une prothèse de genou infectée

Scénario: Données bancaires et segmentation de clientèle

Le référentiel professionnel du Diplôme d Etat d Aide Médico-Psychologique

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

PLAQUETTE D INFORMATION

Aide à la Complémentaire Santé : l offre mutualiste reconnue. Pierre-Jean Gracia réélu Président de la Mutualité Française Midi-Pyrénées.

Le don de cellules souches. M.Lambermont Pascale Van Muylder

GHUPC Projet de transformation du site Hôtel Dieu. Pr S CHAUSSADE, Dr I. FERRAND

I.D.S. Systèmes de détection d intrusion - Link Analysis. par: FOUQUIN MATHIEU. responsable: AKLI ADJAOUTE DEVÈZE BENJAMIN.

Introduction au datamining

Ile-de-France. Pour votre santé, choisissez les services mutualistes! LES SERVICES DE SOINS ET D ACCOMPAGNEMENT MUTUALISTES

SPHINX Logiciel de dépouillement d enquêtes

I.R.U.S.S.A. UNIVERSITÉ CHAMPAGNE-ARDENNE INSTITUT DE FORMATION DES CADRES DE SANTÉ

ARGUMENTAIRE SANTE PROTECTION SOCIALE

1 - PRESENTATION GENERALE...

Dimensionnement d une roue autonome pour une implantation sur un fauteuil roulant

Analyse en Composantes Principales

La structure de la base de données et l utilisation de PAST. Musée Royal de l Afrique Centrale (MRAC Tervuren)

PLAN. Ricco Rakotomalala Tutoriels Tanagra - 2

Transcription:

Data Mining: Activité hospitalière DIAGNE Sénéba 1, Huai Yuan WAN 2 1. S2IFA 2. DRM

Chapitre 1 Clustering : Activité hospitalière 1.1 Présentation des données Le périmètre des données représente ici un fichier unique de données individuelles qui contient des informations relatives à chaque centre hospitalier. Chaque individu représente un centre hospitalier de type : CH1 centre hospitalier 1 CH2 centre hospitalier 2 CH3 centre hospitalier 3 CH4 centre hospitalier 4 CHU centre hospitalier universitaire CLC centre de lutte contre le cancer HL hôpital local PR Établissement privé PSP Établissement participant au service public Les autres variables disponibles pour chaque individu sont les pôles d activité suivants : AA - Digestif AB - Orthopédie, Rhumatologie AC - Uro-néphrologie AD - Système nerveux AE - Cardiologie AF - Vasculaire périphérique AG - Pneumologie AH - ORL, Stomatologie AI - Ophtalmologie AJ - Gynécologie AK - Obstétrique AL - Nouveau-nés AM - Hématologie AN - Chimiothérapie, radiothérapie, transfusion AO - Endocrinologie

1.2 Objectif de la classification 3 AP - Tissu cutané et tissu sous-cutané (dont chirurgie obésité) AQ - Brulures AR - Maladies infectieuses (hors VIH) AS - Maladie VIH AU - Traumatismes multiples ou complexes graves AV - Psychiatrie, Toxicologie, Intoxications, Alcool AX - Autres prises en charge AZ - Vasculaire interventionnel 1.2 Objectif de la classification Il s agit de regrouper n individus en k classes de telle sorte que les individus d une même classe soient le plus semblables possible et que les classes soient bien séparées. 1.3 Retraitement des données Il est souhaitable de réaliser des tests de cohérence sur les données avant traitement. Pour cela, nous allons faire une analyse des composantes principales pour ensuite, repérer et éliminer les outliers. Le plugin FactomineR du package Rcmdr de R est utilisé pour faire l ACP. Sur le vecteur de sortie dist qui donne les distances entre chaque individu et l origine du repère, on centre la série de données. Après cela, l origine du repère et le centre de gravité du nuage de points seront confondus. Lorsque cette modification est faite, on aura non plus la distance entre les observations et le point repère (0, 0) mais celle entre chaque individu et le centre de gravité du nuage de points même. On travaille désormais avec le vecteur des distances centré.

1.3 Retraitement des données 4 Figure 1.1 Représentation des individus On remarque par exemple que l individu 504 est complètement démarqué du groupe. Par ce procédé, on va essayer donc de repérer les individus qui pourraient fausser les résultats de par leurs caractères spéciaux. Le tableau suivant contient quelques quantiles du vecteur représentant les distances. Quantile 0% 10% 30% 65% 95% 96% 97% 98% 99% 100% Valeur -1.79-1.32-0.94-0.67 3.44 3.82 4.92 6.98 9.51 128.87 Table 1.1 Quantile des distances Après le quantile à 97%, on remarque une forte croissance ce qui traduit la présence d individu particulier. Arbitrairement, on décide d éliminer tout les individus qui sont après le quantile à 98% c est à dire les individus dont la distance par rapport au centre de gravité du nuage de points est supérieur à 6.98. Ils sont résumés dans le tableau suivant et sont constitués de 80% de CHU : Type d etablissement CH1 CH2 CH3 CH4 CHU CLC HL pr PSP Nombre 0 0 1 1 25 0 0 4 0 Table 1.2 les Outliers Le graphe suivant représente la distribution finale des individus où on observe toujours que les CHU et les CH4 sont démarqués des autres individus.

1.4 Nombre de Clusters 5 Figure 1.2 Représentation des individus Vu la particularité des CHU, on décide de les éliminer en totalité du jeu de données. 1.4 Nombre de Clusters Pour déterminer le nombre optimal de clusters qu on va prendre en compte dans notre étude on va étudier plusieurs techniques de calculs. 1.4.1 Distance intra-classe Le graphe suivant résume la variation de la distance intra-classe pour différents nombre de clusters calculé par k-means.

1.4 Nombre de Clusters 6 Figure 1.3 Variation intra-classe Il apparait bien que, quand on prend tout les individus dans la même classe, la variance intra-classe est forte car elle résume tout simplement la variance totale du nuage de point. Les critères de variances inter-classe et intra-classe sont utilisés en classification pour étudier l homogénéité des clusters. La première doit est le plus petit possible afin de s assurer que les individus dans une même classe se ressemblent le plus possible et la seconde le plus grand possible pour garantir une nette séparation entre deux classes différentes. Dans notre premier analyse, ce graphe nous suggère donc de choisir entre 4 et 5 clusters. 1.4.2 Dendogramme On utilise ici une méthode issue de la classification hiérarchique. Il s agit de de mettre ensemble une suite de partition emboitée les unes dans les autres en regroupant à chaque étape les groupes d individus les plus proches ce qui va constituer une arbre de classification. Connaissant l arbre de classification on pourra en déduire des partitions. Il suffit pour cela de couper l arbre à un certain niveau et de regarder les "branches" qui tombent. La méthode des dendogrammes nous suggère d utiliser 3 à 4 clusters. Les graphes suivants montrent respectivement les regroupements avec 3 et 4 classes.

1.4 Nombre de Clusters 7 Figure 1.4 Dendogramme à 4 classes Figure 1.5 Dendogramme à 3 classes Sur le dendogramme à 4 classes, on a une classe (la première) qui est particulière et est composée essentiellement de CH4.Pour rappel, les CH4 étaient le deuxième groupe d individu démarqué des autres dans le graphe de représentation des individus. Pour cela, on choisie donc de regrouper nos individus en 3 classes ce qui nous assure plus de stabilité et un modèle moins sensible à de petites variations.

1.5 Classification 8 1.4.3 Conclusion D après ces deux analyses sur le variances intra-classe et les dendogrammes, on décide alors de retenir une partition entre 3 et 4 classes en espérant que cela va nous garantir des clusters optimaux qui vont regrouper des individus semblables. 1.5 Classification 1.5.1 Une petite analyse factorielle des correspondances Nous allons construire le tableau de contingence croisant les deux variables qui sont les types d établissement et les pôles d activités. On aura ainsi les effectifs pour chaque couple de variables et cela servira à faire une analyse factorielle des correspondance. Figure 1.6 Analyse factorielle des correspondance plan 1-2

1.5 Classification 9 Figure 1.7 Analyse factorielle des correspondance plan 2-3 Le premier fait marquant est que ce sont les centres de lutte contre le cancer qui font plus de Chimiothérapie, radiothérapie, transfusion et sont complètement démarqués des autres pôles d activité. S en suit les établissements privés qui font plus de l ophtalmologie, de la gynécologie, du vasculaire périphérique et interventionnel,... Le premier axe oppose les CLC et CH4 contre les autres et le deuxième axe oppose les CLC et les établissements privés à tout les autres. Dans tout les cas donc, les CLC constituent donc des individus particuliers.

1.6 Conclusion 10 1.5.2 Table de classification Comparaison des classifications à 3 et 4 classes Type cluster 1.3 cluster 2.3 cluster 3.3 cluster 1.4 cluster 2.4 cluster 3.4 cluster 4.4 CH1 0 0 170 0 170 0 0 CH2 0 0 77 0 77 0 0 CH3 0 1 68 1 51 0 17 CH4 5 95 63 38 0 3 122 CLC 18 2 0 3 0 17 0 HL 0 0 166 0 166 0 0 PR 0 74 647 11 458 0 252 PSP 0 9 113 4 97 0 21 Table 1.3 comparaison partition Comme on pouvait s y attendre (d après l AFC), les CLC sont classés à part dans un cluster (les clusters 1.3 1 et 3.4 ) indépendamment de tout les autres types d établissement vu leur particularité de traitement du cancer. S en suit les CH4 qui sont dans les classes 2.3 et 4.4 et qu on retrouve des fois avec un faible effectif d établissement privé. Ceci peut être du par leur proximité dans la représentation des individus dans l AFC sur le plan 2-3. A part ces deux profils particuliers, tout les autres types d établissement se retrouve dans une seule classe. 1.6 Conclusion Dans le cadre de ces travaux sur la classification des type d établissement sur les hôpitaux, on peut retenir donc une partition à 3 classes qui diffère principalement : Les centres de lutte contre le cancer qui s occupent principalement de l activité Chimiothérapie, radiothérapie, transfusion Les centres hospitaliers de type 4 qui s occupent principalement l hématologie Les autres types d établissement qui s occupent en gros des autres types d activités 1. Lire le premier cluster de la partition à 3 classes