Data Mining: Activité hospitalière DIAGNE Sénéba 1, Huai Yuan WAN 2 1. S2IFA 2. DRM
Chapitre 1 Clustering : Activité hospitalière 1.1 Présentation des données Le périmètre des données représente ici un fichier unique de données individuelles qui contient des informations relatives à chaque centre hospitalier. Chaque individu représente un centre hospitalier de type : CH1 centre hospitalier 1 CH2 centre hospitalier 2 CH3 centre hospitalier 3 CH4 centre hospitalier 4 CHU centre hospitalier universitaire CLC centre de lutte contre le cancer HL hôpital local PR Établissement privé PSP Établissement participant au service public Les autres variables disponibles pour chaque individu sont les pôles d activité suivants : AA - Digestif AB - Orthopédie, Rhumatologie AC - Uro-néphrologie AD - Système nerveux AE - Cardiologie AF - Vasculaire périphérique AG - Pneumologie AH - ORL, Stomatologie AI - Ophtalmologie AJ - Gynécologie AK - Obstétrique AL - Nouveau-nés AM - Hématologie AN - Chimiothérapie, radiothérapie, transfusion AO - Endocrinologie
1.2 Objectif de la classification 3 AP - Tissu cutané et tissu sous-cutané (dont chirurgie obésité) AQ - Brulures AR - Maladies infectieuses (hors VIH) AS - Maladie VIH AU - Traumatismes multiples ou complexes graves AV - Psychiatrie, Toxicologie, Intoxications, Alcool AX - Autres prises en charge AZ - Vasculaire interventionnel 1.2 Objectif de la classification Il s agit de regrouper n individus en k classes de telle sorte que les individus d une même classe soient le plus semblables possible et que les classes soient bien séparées. 1.3 Retraitement des données Il est souhaitable de réaliser des tests de cohérence sur les données avant traitement. Pour cela, nous allons faire une analyse des composantes principales pour ensuite, repérer et éliminer les outliers. Le plugin FactomineR du package Rcmdr de R est utilisé pour faire l ACP. Sur le vecteur de sortie dist qui donne les distances entre chaque individu et l origine du repère, on centre la série de données. Après cela, l origine du repère et le centre de gravité du nuage de points seront confondus. Lorsque cette modification est faite, on aura non plus la distance entre les observations et le point repère (0, 0) mais celle entre chaque individu et le centre de gravité du nuage de points même. On travaille désormais avec le vecteur des distances centré.
1.3 Retraitement des données 4 Figure 1.1 Représentation des individus On remarque par exemple que l individu 504 est complètement démarqué du groupe. Par ce procédé, on va essayer donc de repérer les individus qui pourraient fausser les résultats de par leurs caractères spéciaux. Le tableau suivant contient quelques quantiles du vecteur représentant les distances. Quantile 0% 10% 30% 65% 95% 96% 97% 98% 99% 100% Valeur -1.79-1.32-0.94-0.67 3.44 3.82 4.92 6.98 9.51 128.87 Table 1.1 Quantile des distances Après le quantile à 97%, on remarque une forte croissance ce qui traduit la présence d individu particulier. Arbitrairement, on décide d éliminer tout les individus qui sont après le quantile à 98% c est à dire les individus dont la distance par rapport au centre de gravité du nuage de points est supérieur à 6.98. Ils sont résumés dans le tableau suivant et sont constitués de 80% de CHU : Type d etablissement CH1 CH2 CH3 CH4 CHU CLC HL pr PSP Nombre 0 0 1 1 25 0 0 4 0 Table 1.2 les Outliers Le graphe suivant représente la distribution finale des individus où on observe toujours que les CHU et les CH4 sont démarqués des autres individus.
1.4 Nombre de Clusters 5 Figure 1.2 Représentation des individus Vu la particularité des CHU, on décide de les éliminer en totalité du jeu de données. 1.4 Nombre de Clusters Pour déterminer le nombre optimal de clusters qu on va prendre en compte dans notre étude on va étudier plusieurs techniques de calculs. 1.4.1 Distance intra-classe Le graphe suivant résume la variation de la distance intra-classe pour différents nombre de clusters calculé par k-means.
1.4 Nombre de Clusters 6 Figure 1.3 Variation intra-classe Il apparait bien que, quand on prend tout les individus dans la même classe, la variance intra-classe est forte car elle résume tout simplement la variance totale du nuage de point. Les critères de variances inter-classe et intra-classe sont utilisés en classification pour étudier l homogénéité des clusters. La première doit est le plus petit possible afin de s assurer que les individus dans une même classe se ressemblent le plus possible et la seconde le plus grand possible pour garantir une nette séparation entre deux classes différentes. Dans notre premier analyse, ce graphe nous suggère donc de choisir entre 4 et 5 clusters. 1.4.2 Dendogramme On utilise ici une méthode issue de la classification hiérarchique. Il s agit de de mettre ensemble une suite de partition emboitée les unes dans les autres en regroupant à chaque étape les groupes d individus les plus proches ce qui va constituer une arbre de classification. Connaissant l arbre de classification on pourra en déduire des partitions. Il suffit pour cela de couper l arbre à un certain niveau et de regarder les "branches" qui tombent. La méthode des dendogrammes nous suggère d utiliser 3 à 4 clusters. Les graphes suivants montrent respectivement les regroupements avec 3 et 4 classes.
1.4 Nombre de Clusters 7 Figure 1.4 Dendogramme à 4 classes Figure 1.5 Dendogramme à 3 classes Sur le dendogramme à 4 classes, on a une classe (la première) qui est particulière et est composée essentiellement de CH4.Pour rappel, les CH4 étaient le deuxième groupe d individu démarqué des autres dans le graphe de représentation des individus. Pour cela, on choisie donc de regrouper nos individus en 3 classes ce qui nous assure plus de stabilité et un modèle moins sensible à de petites variations.
1.5 Classification 8 1.4.3 Conclusion D après ces deux analyses sur le variances intra-classe et les dendogrammes, on décide alors de retenir une partition entre 3 et 4 classes en espérant que cela va nous garantir des clusters optimaux qui vont regrouper des individus semblables. 1.5 Classification 1.5.1 Une petite analyse factorielle des correspondances Nous allons construire le tableau de contingence croisant les deux variables qui sont les types d établissement et les pôles d activités. On aura ainsi les effectifs pour chaque couple de variables et cela servira à faire une analyse factorielle des correspondance. Figure 1.6 Analyse factorielle des correspondance plan 1-2
1.5 Classification 9 Figure 1.7 Analyse factorielle des correspondance plan 2-3 Le premier fait marquant est que ce sont les centres de lutte contre le cancer qui font plus de Chimiothérapie, radiothérapie, transfusion et sont complètement démarqués des autres pôles d activité. S en suit les établissements privés qui font plus de l ophtalmologie, de la gynécologie, du vasculaire périphérique et interventionnel,... Le premier axe oppose les CLC et CH4 contre les autres et le deuxième axe oppose les CLC et les établissements privés à tout les autres. Dans tout les cas donc, les CLC constituent donc des individus particuliers.
1.6 Conclusion 10 1.5.2 Table de classification Comparaison des classifications à 3 et 4 classes Type cluster 1.3 cluster 2.3 cluster 3.3 cluster 1.4 cluster 2.4 cluster 3.4 cluster 4.4 CH1 0 0 170 0 170 0 0 CH2 0 0 77 0 77 0 0 CH3 0 1 68 1 51 0 17 CH4 5 95 63 38 0 3 122 CLC 18 2 0 3 0 17 0 HL 0 0 166 0 166 0 0 PR 0 74 647 11 458 0 252 PSP 0 9 113 4 97 0 21 Table 1.3 comparaison partition Comme on pouvait s y attendre (d après l AFC), les CLC sont classés à part dans un cluster (les clusters 1.3 1 et 3.4 ) indépendamment de tout les autres types d établissement vu leur particularité de traitement du cancer. S en suit les CH4 qui sont dans les classes 2.3 et 4.4 et qu on retrouve des fois avec un faible effectif d établissement privé. Ceci peut être du par leur proximité dans la représentation des individus dans l AFC sur le plan 2-3. A part ces deux profils particuliers, tout les autres types d établissement se retrouve dans une seule classe. 1.6 Conclusion Dans le cadre de ces travaux sur la classification des type d établissement sur les hôpitaux, on peut retenir donc une partition à 3 classes qui diffère principalement : Les centres de lutte contre le cancer qui s occupent principalement de l activité Chimiothérapie, radiothérapie, transfusion Les centres hospitaliers de type 4 qui s occupent principalement l hématologie Les autres types d établissement qui s occupent en gros des autres types d activités 1. Lire le premier cluster de la partition à 3 classes