Arbres de décision. Applications en médecine. Michaël Genin. Université de Lille 2

Documents pareils
Arbres binaires de décision

Arbres de Décision. 1 Introduction

Introduction au Data-Mining

Analyse de grandes bases de données en santé

Fast and furious decision tree induction

données en connaissance et en actions?

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

La classification automatique de données quantitatives

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

23. Interprétation clinique des mesures de l effet traitement

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

Méthodes d apprentissage statistique «Machine Learning»

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

UNE FORMATION POUR APPRENDRE À PRÉSENTER DES DONNÉES CHIFFRÉES : POUR QUI ET POURQUOI? Bénédicte Garnier & Elisabeth Morand

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Grégoire de Lassence. Copyright 2006, SAS Institute Inc. All rights reserved.

Item 169 : Évaluation thérapeutique et niveau de preuve

Les algorithmes de fouille de données

Algorithmes d'apprentissage

CAPTEURS - CHAINES DE MESURES

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Optimisation des ressources des produits automobile première

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining.

Pourquoi l apprentissage?

Des données à la connaissance client. A la découverte de la plateforme de connaissance client knowlbox

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année UE «Introduction à la biostatistique»

Coup de Projecteur sur les Réseaux de Neurones

Spécifications, Développement et Promotion. Ricco RAKOTOMALALA Université Lumière Lyon 2 Laboratoire ERIC

Reconstruction de bâtiments en 3D à partir de nuages de points LIDAR

«Cours Statistique et logiciel R»

MABioVis. Bio-informatique et la

Apprentissage Automatique

IBM SPSS Direct Marketing 21

Agenda de la présentation

Le risque Idiosyncrasique

Introduction au Data-Mining

à moyen Risque moyen Risq à élevé Risque élevé Risq e Risque faible à moyen Risq Risque moyen à élevé Risq

Big Data et Graphes : Quelques pistes de recherche

Améliorer les performances du site par l'utilisation de techniques de Web Mining

Supervision & Maintenance des centrales photovoltaïques en toiture GARANTIR LA PERFORMANCE DE VOS INVESTISSEMENTS DANS LE TEMPS

SOLUTION DE GESTION COMMERCIALE POUR IMPRIMEURS

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

Relation entre deux variables : estimation de la corrélation linéaire

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 24/12/2006 Stéphane Tufféry - Data Mining -

assurance collective Assurance médicaments Des solutions intégrées pour une gestion efficace

Masters Spécialisés «Actuariat et Prévoyance» et «Actuariat et Finance»

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Big Data et Graphes : Quelques pistes de recherche

Fiche descriptive de l indicateur : Tenue du dossier anesthésique (DAN)

Traitement bas-niveau

Statistiques Descriptives à une dimension

Enjeux mathématiques et Statistiques du Big Data

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

Solutions Décisionnelles SPAD. La maîtrise des données, l'art de la décision

Maîtriser les mutations

Offre Référentiel d échange

Cours de méthodes de scoring

Méthode et exemples d application. Congrès SFSE - Jeudi 15 décembre 2011

Du 10 Fév. au 14 Mars 2014

Vers une Optimisation de l Algorithme AntTreeStoch

Déclarations européennes de la pharmacie hospitalière

Contrôle par commande prédictive d un procédé de cuisson sous infrarouge de peintures en poudre.

PRXSENTATION D UN GESTIONNAIRE DE DONNEES NUMERIQUES HIERARCHISEES DESTINE AU DE- -POUILLEMENT D ENQUETES

Principe d un test statistique

Introduction au datamining

Document d orientation sur les allégations issues d essais de non-infériorité

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 27/01/2009 Stéphane Tufféry - Data Mining -

MODE D EMPLOI. Station météo avec senseur extérieur sans fil WS-1100

SOMMAIRE COMMUNIQUÉ DE PRESSE. p. 3. p. 4 LE CESU. p. 5. Les outils. p. 6. Le centre de simulation. Quelques chiffres

ITIL V3. Transition des services : Principes et politiques

Aide au codage des emplois (professions et secteurs d activité) lors d enquête en face à face : l outil CAPS

Biostatistiques : Petits effectifs

Représentation d une distribution

MMA - Projet Capacity Planning LOUVEL Cédric. Annexe 1

Votre Réseau est-il prêt?

L apprentissage automatique

Programmation linéaire

Logiciel XLSTAT version rue Damrémont PARIS

Analyse de la variance Comparaison de plusieurs moyennes

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN

Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE

Évaluations aléatoires : Comment tirer au sort?

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

TRANSPORT ET LOGISTIQUE :

Exercices types Algorithmique et simulation numérique Oral Mathématiques et algorithmique Banque PT

Baccalauréat ES Antilles Guyane 12 septembre 2014 Corrigé

Repères Gérer la capacité

Projet de Traitement du Signal Segmentation d images SAR

LOGO. Module «Big Data» Extraction de Connaissances à partir de Données. Claudia MARINICA MCF, ETIS UCP/ENSEA/CNRS

REFERENTIEL DU CQPM. TITRE DU CQPM : Electricien maintenancier process 1 OBJECTIF PROFESSIONNEL DU CQPM

Mise à disposition d une plateforme de veille et d analyse sur le Web et les réseaux sociaux

Lois de probabilité. Anita Burgun

Créer un référentiel client grâce à Talend MDM

SAS ENTERPRISE MINER POUR L'ACTUAIRE

Chapitre 3. Les distributions à deux variables

Transcription:

Arbres de décision Applications en médecine Michaël Genin Université de Lille 2 EA 2694 - Santé Publique : Epidémiologie et Qualité des soins michaelgenin@univ-lille2fr

Plan 1 Introduction 2 Méthodologie de construction d un arbre de décision - CHAID 3 Un coup d oeil sur la méthode CART 4 Exemples 5 Limites 6 Quelques logiciels M Genin (Université de Lille 2) Arbres de décision Version - 30 mars 2015 1 / 67

Introduction Contexte Deux familles de méthodes de classification Classification non-supervisée (clustering) Partitionner les observations en groupes différents (classes, catégories) mais les plus homogènes possible au regard de variables décrivant les observations Le nombre de classes n est pas connu à l avance Méthodes : Classification hiérarchique Classification supervisée (discrimination) Obtenir un critère de séparation afin de prédire l appartenance à une classe (Y = f (X ) + ϵ) Le nombre de classes est connu à l avance (Variable à expliquer) Méthodes : Régression logistique, Analyse discriminante, Arbres de décision, Réseaux de neurones M Genin (Université de Lille 2) Arbres de décision Version - 30 mars 2015 4 / 67

Introduction Contexte Une approche particulière de la discrimination Outils statistiques intéressants et souvent utilisés en médecine Une variable à expliquer et un ensemble de variables explicatives Y = f (X 1, X 2,, X p ) + ϵ Y quantitative = arbre de régression (famille des régressions non paramétriques) Y qualitative = arbre de classement (méthode particulière de discrimination / apprentissage supervisé) M Genin (Université de Lille 2) Arbres de décision Version - 30 mars 2015 5 / 67

Introduction Contexte Comparaison avec les autres méthodes de discrimination Arbres de décision Régression logistique/analyse Discriminante Modèles paramétriques Additivité des coefficients Prise en compte, uniquement, des variables explicatives binaires et quantitatives Méthode non linéaire, non paramétrique Prise en compte des interactions Tout type de variables explicatives Grand nombre de variables (méthode pas à pas) Résultats graphiques simples à interpréter Extraction de règles (implémentations en BDD) M Genin (Université de Lille 2) Arbres de décision Version - 30 mars 2015 6 / 67

Introduction Descriptif général Principe de la segmentation Principe La segmentation consiste à construire un arbre de décision à l aide de divisions successives des individus d un échantillon en deux, ou plus, segments (appelés également noeuds) homogènes par rapport à une variable dépendante Y qui peut être de nature : binaire, nominale, ordinale ou quantitative en utilisant l information portée par p variables explicatives de nature : binaire, nominale, ordinale ou quantitative M Genin (Université de Lille 2) Arbres de décision Version - 30 mars 2015 8 / 67

Introduction Descriptif général Deux types d arbres de décision Arbre de régression La variable à expliquer est quantitative Les variables de segmentation choisies sont celles qui minimisent la variance intra-segment de la variable à expliquer Arbre de classement La variable à expliquer est qualitative Les variables de segmentations retenues dans l arbre sont celles qui rendent les segments les plus différents possibles quant aux modalités de la variable à expliquer M Genin (Université de Lille 2) Arbres de décision Version - 30 mars 2015 9 / 67

Introduction Exemple introductif Exemple introductif Quinlan (1993) L objectif est d expliquer le comportement de joueur de tennis (Variable à expliquer : Y(jouer, ne pas jouer)) à partir de prévisions météorologiques (variables explicatives X i ) M Genin (Université de Lille 2) Arbres de décision Version - 30 mars 2015 11 / 67

Introduction Exemple introductif Descriptif des variables Type Variables Nature Unités/Modalités X 1 Ensoleillement Qualitative Soleil, couvert, pluie X 2 Vent Binaire Oui/Non X 3 Température Quantitative F X 4 Humidité Quantitative % Y Jouer Binaire Oui/Non Variable à expliquer binaire Arbre de classement M Genin (Université de Lille 2) Arbres de décision Version - 30 mars 2015 12 / 67

Introduction Exemple introductif Vocabulaire et interprétation graphique Racine Variable de segmentation Arête et noeud enfant Feuille (pures) Discrétisation de variable quantitative Règle de décision M Genin (Université de Lille 2) Arbres de décision Version - 30 mars 2015 13 / 67

Introduction Exemple introductif Exemple introductif M Genin (Université de Lille 2) Arbres de décision Version - 30 mars 2015 14 / 67

Introduction Questions mises en évidence Question mises en évidence Mais comment faire? Dans quel ordre interviennent les variables de segmentation? Choix de la variable de segmentation : indicateur évaluant la qualité de la segmentation Détermination d un seuil optimal pour les variables quantitatives Définition de la taille optimale de l arbre (toujours des feuilles pures??) Règles d affectation d une observation à un groupe Simple quand la feuille est pure Que faire lors que la feuille n est pas pure?? M Genin (Université de Lille 2) Arbres de décision Version - 30 mars 2015 16 / 67

Méthodologie de construction d un arbre de décision - CHAID Méthodologie de construction d un arbre de décision De nombreuses méthodes d induction d arbres (CHAID, CART, ID3, C45, ) Uniquement les méthodes CHAID (CHi-squared Automatic Interaction Detection) et CART (Classification And Regression Trees) sont utilisées de manière récurrente en médecine Cours basé sur CHAID Quelques références à CART M Genin (Université de Lille 2) Arbres de décision Version - 30 mars 2015 18 / 67

Méthodologie de construction d un arbre de décision - CHAID Méthodologie de construction d un arbre de décision CHAID REPETER Prise en compte d un sommet à segmenter Préparation des variables quantitatives (discrétisation, choix d un cut-off) Sélection de la meilleure variable de segmentation (utilisation de l indice) Si la variable sélectionnée est qualitative Alors Fin SI Test de fusion des modalités ayant des profils similaires Fusion si les tests s avèrent significatifs JUSQU A Conditions d arrêt M Genin (Université de Lille 2) Arbres de décision Version - 30 mars 2015 19 / 67

Méthodologie de construction d un arbre de décision - CHAID Discrétisation des variables quantitatives Discrétisation des variables quantitatives Principe La détermination d un cut-off se déroule de la manière suivante : On ordonne de manière croissante les valeurs de la variable On note le nombre de valeurs distinctes n d Il y a donc n d 1 seuils possibles Pour chaque seuil création d une variable binaire (0 si < Seuil et 1 si >= Seuil) Chaque variable recodée est croisée avec la variable à expliquer et l on calcule un test du χ 2 d écart à l indépendance Le seuil choisi sera celui qui maximisera la statistique du test (ou minimisera la pvalue associée) M Genin (Université de Lille 2) Arbres de décision Version - 30 mars 2015 21 / 67

Méthodologie de construction d un arbre de décision - CHAID Discrétisation des variables quantitatives Discrétisation des variables quantitatives M Genin (Université de Lille 2) Arbres de décision Version - 30 mars 2015 22 / 67

Méthodologie de construction d un arbre de décision - CHAID Discrétisation des variables quantitatives Discrétisation des variables quantitatives Exemple avec la variable humidité (1) On ordonne de manière croissante les valeurs d humidité : 70 85 90 95 Il y a 5 observations dans le sommet in[soleil] et n d = 4 valeurs distinctes Nous avons donc n d 1 = 3 seuils possibles M Genin (Université de Lille 2) Arbres de décision Version - 30 mars 2015 23 / 67

Méthodologie de construction d un arbre de décision - CHAID Discrétisation des variables quantitatives Discrétisation des variables quantitatives Exemple avec la variable humidité (2) 70 85 90 95 Seuil 1 : Seuil 2 : Seuil 3 : (70+85)/2 = 775 (85+90)/2 = 875 (90+95)/2 = 925 M Genin (Université de Lille 2) Arbres de décision Version - 30 mars 2015 24 / 67

Méthodologie de construction d un arbre de décision - CHAID Discrétisation des variables quantitatives Discrétisation des variables quantitatives Exemple avec la variable humidité (3) Pour chaque seuil, la variable quantitative est recodée en variable binaire (discrétisation) Chaque variable discrétisée est croisée à la variable à expliquer au travers d un tableau de contingence et un test du χ 2 d écart à l indépendance est calculé M Genin (Université de Lille 2) Arbres de décision Version - 30 mars 2015 25 / 67

Méthodologie de construction d un arbre de décision - CHAID Discrétisation des variables quantitatives Discrétisation des variables quantitatives Exemple avec la variable humidité (4) Humidité <775 Humidité >= 775 Jouer=oui 2 0 Jouer=non 0 3 Humidité <875 Humidité >= 875 Jouer=oui 2 0 Jouer=non 1 2 Seuils Pvalue (χ 2 ) 775 00253 875 01360 925 03613 Humidité <925 Humidité >= 925 Jouer=oui 2 0 Jouer=non 2 1 M Genin (Université de Lille 2) Arbres de décision Version - 30 mars 2015 26 / 67

Méthodologie de construction d un arbre de décision - CHAID Discrétisation des variables quantitatives Méthodologie de construction d un arbre de décision CHAID REPETER Prise en compte d un sommet à segmenter Préparation des variables quantitatives (discrétisation, choix d un cut-off) Sélection de la meilleure variable de segmentation (utilisation de l indice) Si la variable sélectionnée est qualitative Alors Fin SI Test de fusion des modalités ayant des profils similaires Fusion si les tests s avèrent significatifs JUSQU A Conditions d arrêt M Genin (Université de Lille 2) Arbres de décision Version - 30 mars 2015 27 / 67

Méthodologie de construction d un arbre de décision - CHAID Choix de la variable de segmentation (split) Choix de la variable de segmentation (split) Utilisation de l indicateur de qualité de segmentation Après discrétisation des variables quantitatives ensemble de variables qualitatives candidates à la segmentation du sommet en cours Choix de la meilleure variable de segmentation utilisation de l indicateur de qualité de segmentation Test du χ 2 d écart à l indépendance de Pearson La variable selectionnée sera celle qui maximisera la statistique du test (ou minimisera la pvalue associée) M Genin (Université de Lille 2) Arbres de décision Version - 30 mars 2015 29 / 67

Méthodologie de construction d un arbre de décision - CHAID Choix de la variable de segmentation (split) Exemple de la segmentation du sommet in[soleil] Variables candidates : Humidité, Température, Vent, Ensoleillement (triviale) Variable Candidate Cut-off Pvalue (χ 2 ) Humidité 775 00253 Température 575 01360 Vent - 07094 Ensoleillement - 1 La variable Humidité est retenue car elle minimise la pvalue associée au test du χ 2 Ce n est pas étonnant car cette variable de segmentation produit des noeuds enfants purs M Genin (Université de Lille 2) Arbres de décision Version - 30 mars 2015 30 / 67

Méthodologie de construction d un arbre de décision - CHAID Choix de la variable de segmentation (split) Méthodologie de construction d un arbre de décision CHAID REPETER Prise en compte d un sommet à segmenter Préparation des variables quantitatives (discrétisation, choix d un cut-off) Sélection de la meilleure variable de segmentation (utilisation de l indice) Si la variable sélectionnée est qualitative Alors Fin SI Test de fusion des modalités ayant des profils similaires Fusion si les tests s avèrent significatifs JUSQU A Conditions d arrêt M Genin (Université de Lille 2) Arbres de décision Version - 30 mars 2015 31 / 67

Méthodologie de construction d un arbre de décision - CHAID Fusion des sommets lors de la segmentation (merge) Fusion des sommets lors de la segmentation (merge) M Genin (Université de Lille 2) Arbres de décision Version - 30 mars 2015 33 / 67

Méthodologie de construction d un arbre de décision - CHAID Fusion des sommets lors de la segmentation (merge) Fusion des sommets lors de la segmentation (merge) Optionnel dans la méthode CHAID Principe Initialement : la segmentation d une variable qualitative produit autant de sommets enfants que de modalités Possibilité de fusion des sommets enfants limiter la fragmentation des données (faibles effectifs) et les sommets enfants redondants Comparaison des distributions de la VAE dans chaque sommet enfant et regroupement des sommets ayant des profils proches M Genin (Université de Lille 2) Arbres de décision Version - 30 mars 2015 34 / 67

Méthodologie de construction d un arbre de décision - CHAID Fusion des sommets lors de la segmentation (merge) Fusion des sommets lors de la segmentation (merge) Principe (2) Test du χ 2 d équivalence distributionnelle H 0 : les deux sommets enfants ont des profils similaires H 1 : les deux sommets enfants ont des profils différents La statistique suit une loi du χ 2 à K 1 ddl X = K k=1 ( nk1 n k2 n 1 n 2 n k1 + n k2 n 1 n 2 ) 2 K : nombre de modalités de la variable à expliquer 2 χ K 1dll n 1 : nombre d observations présentant la modalité liée au sommet 1 On fusionne les deux sommets enfants ayant les profils les plus proches (au sens du test) puis on réitère l opération jusqu à ce qu aucune fusion ne soit possible Possibilité qu aucune fusion ne se réalise M Genin (Université de Lille 2) Arbres de décision Version - 30 mars 2015 35 / 67

Méthodologie de construction d un arbre de décision - CHAID Fusion des sommets lors de la segmentation (merge) Fusion des sommets lors de la segmentation (merge) Principe (3) On fusionne les deux sommets enfants ayant les profils les plus proches (au sens du test) puis on réitère l opération jusqu à ce qu aucune fusion ne soit possible Possibilité qu aucune fusion ne se réalise Possibilité que tous les sommets enfants soient fusionnés la variable de segmentation est éliminée d office M Genin (Université de Lille 2) Arbres de décision Version - 30 mars 2015 36 / 67

Méthodologie de construction d un arbre de décision - CHAID Fusion des sommets lors de la segmentation (merge) Fusion des sommets lors de la segmentation (merge) Exemple avec la variable Ensoleillement (1) Intégration de la possibilité de fusion Comparaison des sommets deux à deux : Sommets χ 2 Pvalue (χ 2 ) Action Soleil et couvert 36 0058 - Soleil et Pluie 04 0527 Fusion Couvert et Pluie 206 0151 - Risque de première espèce (α) de 10% Les modalités Soleil et Pluie peuvent être fusionnées M Genin (Université de Lille 2) Arbres de décision Version - 30 mars 2015 37 / 67

Méthodologie de construction d un arbre de décision - CHAID Fusion des sommets lors de la segmentation (merge) Fusion des sommets lors de la segmentation (merge) Exemple avec la variable Ensoleillement (2) Sommets χ 2 Pvalue (χ 2 ) Action (Soleil et Pluie) et Couvert 31 0078 - Aucune fusion n est possible l algorithme s arrête! M Genin (Université de Lille 2) Arbres de décision Version - 30 mars 2015 38 / 67

Méthodologie de construction d un arbre de décision - CHAID Fusion des sommets lors de la segmentation (merge) Méthodologie de construction d un arbre de décision CHAID REPETER Prise en compte d un sommet à segmenter Préparation des variables quantitatives (discrétisation, choix d un cut-off) Sélection de la meilleure variable de segmentation (utilisation de l indice) Si la variable sélectionnée est qualitative Alors Fin SI Test de fusion des modalités ayant des profils similaires Fusion si les tests s avèrent significatifs JUSQU A Conditions d arrêt M Genin (Université de Lille 2) Arbres de décision Version - 30 mars 2015 39 / 67

Méthodologie de construction d un arbre de décision - CHAID Conditions d arrêt Conditions d arrêt et détermination de la bonne taille de l arbre Notion de pré-élagage Pendant la phase d expansion de l arbre Acceptation de la segmentation si le test du χ 2 est significatif quant à un risque de première espèce α fixé par l utilisateur (5% par exemple) Le choix du seuil détermine la taille de l arbre : S il est trop permissif arbre sur-dimensionné (risque d overfitting) S il est trop restrictif arbre sous-dimensionné (toute l information n est pas utilisée) M Genin (Université de Lille 2) Arbres de décision Version - 30 mars 2015 41 / 67

Méthodologie de construction d un arbre de décision - CHAID Conditions d arrêt Conditions d arrêt et détermination de la bonne taille de l arbre Autres conditions d arrêt Les feuilles sont pures Effectifs trop faibles dans un noeud pour segmenter (fixé par l utilisateur) Effectifs trop faibles dans les sommets enfants issus d une segmentation (fixé par l utilisateur) Profondeur limite de l arbre atteinte (fixé par l utilisateur) M Genin (Université de Lille 2) Arbres de décision Version - 30 mars 2015 42 / 67

Méthodologie de construction d un arbre de décision - CHAID Prise de décision Après la construction de l arbre Tirer des conclusions pour chaque feuille de l arbre Choisir dans quel groupe classer les individus (jouer=oui ou jouer= non) Simple quand les feuilles sont pures! SI (Ensoleillement = Soleil) ET (Humidité < 775%) ALORS Jouer = Oui Dans 100% des cas!! Feuilles non pures règle de la majorité (classe majoritaire) Estimation de la probabilité conditionnelle P(Y /X i ) M Genin (Université de Lille 2) Arbres de décision Version - 30 mars 2015 44 / 67

Un coup d oeil sur la méthode CART Méthode CART Classification And Regression Trees Principe VAE qualitative ou quantitative Variables explicatives qualitatives ou quantitatives Arbres binaires uniquement deux sommets enfants à chaque segmentation Indice de qualité de segmentation basé sur l indice de Gini I = 1 K k=1 f 2 k avec I [0, 1] Plus l indice de Gini est proche de 0 plus le noeud est pur M Genin (Université de Lille 2) Arbres de décision Version - 30 mars 2015 47 / 67

Un coup d oeil sur la méthode CART Méthode CART Classification And Regression Trees Principe La variable de segmentation retenue est celle qui maximise le gain de pureté défini par : Gain = I (S) [I (Fils 1 ) + I (Fils 2 )] avec Gain >= 0 Détermination de la taille de l arbre = procédure de post élagage Arbre complètement développé sur un premier échantillon (growing set) Arbre réduit de manière à optimiser le taux de mauvais classement sur un deuxième échantillon (pruning set) M Genin (Université de Lille 2) Arbres de décision Version - 30 mars 2015 48 / 67

Un coup d oeil sur la méthode CART Comparaison avec CHAID Classification And Regression Trees - Comparaison avec la 21 ARBRES DE méthode DÉCISION d induction CHAID Table 22 Comparatif des méthodes CHAID et CART Caractéristiques/Méthodes CHAID CART Impact(critère de segmentation) χ 2 d indépendance ou t de Tschuprow Indice de Gini Regroupement Arbre n-aire - Test d équivalence distributionnelle Arbre binaire Détermination de la taille optimale Effectif minimum pour segmenter - Nombre de niveau de l arbre - Seuil de spécialisation - Effectifs d admissibilité Détermination de la taille optimale (spécifique) Pré-élagage avec le test du χ 2 d indépendance Post-élagage par un échantillon d élagage ou un validation croisée Avantages Performante pour une phase exploratoire de grandes bases de données Performante en termes de classement - Pas de complexité de paramétrage Inconvénients Moyennement performante en classement - Paramétrage de la méthode compliqué (détermination empirique du seuil α) Peu performante avec des échantillons de taille faible - Binarisation pas toujours appropriée M Genin (Université de Lille 2) Arbres de décision Version - 30 mars 2015 50 / 67

Exemples Prévention des effets indésirables liés aux médicaments Prévention des effets indésirables liés aux médicaments Le projet européen PSIP (Patient Safety Through Intelligent Procedures in medication) Effets indésirables liés aux médicaments sont trop fréquents Responsables, chaque année, de 10 000 morts en France et 98 000 aux Etats Unis La prévention de ces effets est l axe majeur du projet PSIP Création d outils d aide à la décision basés sur la fouille automatisée de données hospitalières Recherche de règles d alerte du type : Cause 1&Cause 2&&Cause p Effet = 1 M Genin (Université de Lille 2) Arbres de décision Version - 30 mars 2015 53 / 67

Exemples Prévention des effets indésirables liés aux médicaments Effet indésirable : INR trop bas M Genin (Université de Lille 2) Arbres de décision Version - 30 mars 2015 54 / 67

Exemples Prévention des effets indésirables liés aux médicaments Prévention des effets indésirables liés aux médicaments Règles d alerte La règle extraite de l arbre : INR trop haut ET age > 7866 ET hypoalbunémie INR trop bas (857%) 875% est une estimation de P(Y /X i ) C est la confiance de la règle M Genin (Université de Lille 2) Arbres de décision Version - 30 mars 2015 55 / 67

Exemples Discrétisation de variables quantitatives Discrétisation de variables quantitatives Une autre utilisation des arbres La discrétisation de variable quantitative est utile dans la création de scores cliniques Ex : Fréquence cardiaque, pression artérielle Détermination de seuils (cut-off) maximisant la segmentation au regard d une variable à expliquer qualitative (Vivant/ Décés) M Genin (Université de Lille 2) Arbres de décision Version - 30 mars 2015 57 / 67

+:*f,+,&a3"&$k$da5$f/&& Exemples Discrétisation de variables quantitatives Discrétisation de variables quantitatives _$%&3"#"$%&'$&)53%%$D$,8G&3:&8"3C$"%&'$&5$:"&)3A3)*8(&R&)"($"&'$%&):8B+LL&%+,8&'$%&D(82+'$%&A$"8*,$,8$%&A+:"& 8"+:C$"&:,&$,%$D#5$&'$&%$:*5%&P&+:&A5:%F&D3K*D*%3,8&53&%$MD$,838*+,&'$%&*,'*C*':%&A3"&"3AA+"8&R&:,$&C3"*3#5$& R&$KA5*9:$"&9:35*838*C$/& "+)-)=8()$ /69#1,$ =01,%)$ (+6,(/#,01$ *)/$ #%:%)/$ *)$ 2(#//)=)1,$ *#1/$ (#$ %)2>)%2>)$ *$& %$:*5%& A+:"& 5$& 83:K& '$& A"+82"+D#*,$&A3"&"3AA+"8&3:&'()(%&'$%&A38*$,8%?$"#$=4,>0*)$*+1*62,01$*+#%:%)$)/,$(+#('0%,>=)$@ABCD7$#9)2$ :,&%$:*5&'$&%A5*8&R&VX/& Score PELOD : discrétisation du taux de prothrombine en fonction de Vivant/ Décés & & Algorithme CHAID - Seuil de split : 5% E1$%)=#%56)$56)$(+#('0%,>=)$#$=/$)1$49*)12)$F$/)6(/$*/,12,/$56$=#-=/)1,$(#$/)'=)1,#,01&Z& & & & @?/V0& VV/V0& =>/V0& M Genin (Université de Lille 2) Arbres de décision Version - 30 mars 2015 58 / 67

Exemples Discrétisation de variables quantitatives Discrétisation de variables quantitatives & 0%,>=)$#$=/$)1$49*)12)$F$/)6(/$*/,12,/$56$=#-=/)1,$(#$/)'=)1,#,01&Z& 3 seuils mis en évidence par l algorithme : @?/V0& VV/V0& =>/V0& *,$&A$:8&g8"$&3*,%*&'*%)"(8*%($&'$&53&D3,*J"$&%:*C3,8$&Z&!"&^"+82"+D#*,$&h@?/V&#$%&'&^"+82"+D#*,$i"$)+'($&]&&!"&^"+82"+D#*,$&\]&@?/V&()&^"+82"+D#*,$&hVV/V0&#$%&'&^"+82"+D#*,$i"$)+'($]<&j&!"&^"+82"+D#*,$&\]&VV/V0&()&^"+82"+D#*,$&h=>/V0&#$%&'&^"+82"+D#*,$i"$)+'($]@&j&!"&^"+82"+D#*,$&\]&=>/V0&#$%&'&^"+82"+D#*,$i"$)+'($]?&& M Genin (Université de Lille 2) Arbres de décision Version - 30 mars 2015 59 / 67

Limites Limites Limites des méthodes d induction d arbres (1) Nécessite de bases d apprentissage de taille importante (fragmentation rapide des données) Instabilité en prédiction Arbre surdimensionné bonne explication de la variabilité mais mauvaises qualités prédictives (overfitting) Arbre sous-dimensionné bonnes qualités prédictives mais ne considère pas toute l information contenue dans les données (underfitting) Non exhaustivité des règles de décision obtenues (Parfois plus de valeur statistique (discrimination) que de valeur métier ) M Genin (Université de Lille 2) Arbres de décision Version - 30 mars 2015 62 / 67

Limites Limites Limites des méthodes d induction d arbres (2) Effet papillon : suppression d une variable explicative et tout l arbre change Sensibles aux observations aberrantes Pas de prise en compte des données manquantes M Genin (Université de Lille 2) Arbres de décision Version - 30 mars 2015 63 / 67

Limites Quelques pistes Quelques pistes Forêts aléatoires de Breiman (boostrapping, bagging) Règles d association (Analyse du panier de la ménagère) Algorithmes d imputation des données manquantes M Genin (Université de Lille 2) Arbres de décision Version - 30 mars 2015 65 / 67

Quelques logiciels Quelques logiciels d induction d arbres de décision Sipina Logiciel Libre Interface du type SPSS Méthodes implémentées : CHAID, ID3, C45, Improved CHAID Possibilité de construction d arbres en utilisant des connaissances expertes R - Package Rpart Logiciel libre Package reconnu et souvent utilisé en recherche Méthode implémentée : CART Rendus graphiques paramétrables M Genin (Université de Lille 2) Arbres de décision Version - 30 mars 2015 67 / 67