Les arbres de décision



Documents pareils
Algorithmes d'apprentissage

Arbres binaires de décision

Théorie et Codage de l Information (IF01) exercices Paul Honeine Université de technologie de Troyes France

Arbres binaires de recherche

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

chapitre 4 Nombres de Catalan

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34

Introduction au Data-Mining

Resolution limit in community detection

Les algorithmes de fouille de données

CAPTEURS - CHAINES DE MESURES

Apprentissage. Intelligence Artificielle NFP106 Année Plan. Apprentissage. Apprentissage

Pourquoi l apprentissage?

Travaux pratiques. Compression en codage de Huffman Organisation d un projet de programmation

Nouvelles propositions pour la résolution exacte du sac à dos multi-objectif unidimensionnel en variables binaires

RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/ Présentation. 1.2 Ressources

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Introduction au Data-Mining

1 de 46. Algorithmique. Trouver et Trier. Florent Hivert. Mél : Florent.Hivert@lri.fr Page personnelle : hivert

Quantification Scalaire et Prédictive

Chapitre 6 Apprentissage des réseaux de neurones et régularisation

1. Vocabulaire : Introduction au tableau élémentaire

Introduction au datamining

données en connaissance et en actions?

Méthodes d apprentissage statistique «Machine Learning»

Arbres de Décision. 1 Introduction

introduction Chapitre 5 Récursivité Exemples mathématiques Fonction factorielle ø est un arbre (vide) Images récursives

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Algorithmes de recherche

La classification automatique de données quantitatives

Programmation Objet - Cours II

Introduction. I Étude rapide du réseau - Apprentissage. II Application à la reconnaissance des notes.

Une approche non paramétrique Bayesienne pour l estimation de densité conditionnelle sur les rangs

Cours de Master Recherche

Complexité. Licence Informatique - Semestre 2 - Algorithmique et Programmation

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

Apprentissage non paramétrique en régression

ARBRES BINAIRES DE RECHERCHE

Conception. Génie Logiciel. Renaud Marlet. LaBRI / INRIA (d'après A.-M. Hugues) màj 17/04/2007

1 Modélisation d être mauvais payeur

Centre d'etudes Nucléaires de Fontenay-aux-Roses Direction des Piles Atomiques Département des Etudes de Piles

SAS ENTERPRISE MINER POUR L'ACTUAIRE

Travaux pratiques avec RapidMiner

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Probabilités III Introduction à l évaluation d options

Mesures de Risque Multipériodes Cohérentes Appliquées au Compte à Terme

Fast and furious decision tree induction

Application de K-means à la définition du nombre de VM optimal dans un cloud

Systèmes de communications numériques 2

(VM(t i ),Q(t i+j ),VM(t i+j ))

CHAPITRE I. Modélisation de processus et estimation des paramètres d un modèle

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

Master IMEA 1 Calcul Stochastique et Finance Feuille de T.D. n o 1

Data Mining. Bibliographie (1) Sites (1) Bibliographie (2) Plan du cours. Sites (2) Master 2 Informatique UAG

Ebauche Rapport finale

Chapitre V : La gestion de la mémoire. Hiérarchie de mémoires Objectifs Méthodes d'allocation Simulation de mémoire virtuelle Le mapping

Recherche dans un tableau

a) La technique de l analyse discriminante linéaire : une brève présentation. 3 étapes de la méthode doivent être distinguées :

MICRO-INFORMATIQUE DÉFINITION DU DOMAINE D'EXAMEN BASE DE DONNÉES CONSULTATION INF

Conception d une Plateforme Open Source d Extraction et de Gestion des Connaissances

Les arbres binaires de recherche

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Apprentissage incrémental par sélection de données dans un flux pour une application de sécurité routière

Master 1 Informatique MIF11 - Réseau Codage et éléments de théorie de l'information

UEO11 COURS/TD 1. nombres entiers et réels codés en mémoire centrale. Caractères alphabétiques et caractères spéciaux.

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

INF601 : Algorithme et Structure de données

GEA II Introduction aux probabilités Poly. de révision. Lionel Darondeau

Stratégie de recherche adaptative en programmation par contrainte

Principe d un test statistique

Probabilités. I Petits rappels sur le vocabulaire des ensembles 2 I.1 Définitions... 2 I.2 Propriétés... 2

Projet d informatique M1BI : Compression et décompression de texte. 1 Généralités sur la compression/décompression de texte

Big Data et Graphes : Quelques pistes de recherche

Probabilités conditionnelles Exercices corrigés

Programmation par contraintes. Laurent Beaudou

Seconde et première Exercices de révision sur les probabilités Corrigé

I3, Probabilités 2014 Travaux Dirigés F BM F BM F BM F BM F B M F B M F B M F B M

6. Hachage. Accès aux données d'une table avec un temps constant Utilisation d'une fonction pour le calcul d'adresses

Chapitre 9 : Informatique décisionnelle

Suivi statistique des scores - Document descriptif des solutions retenues

Vers une Optimisation de l Algorithme AntTreeStoch

Régression linéaire. Nicolas Turenne INRA

Calcul de développements de Puiseux et application au calcul du groupe de monodromie d'une courbe algébrique plane

Le risque Idiosyncrasique

Définitions. Numéro à préciser. (Durée : )

Etude des propriétés empiriques du lasso par simulations

Quelques Algorithmes simples

Excel Avancé. Plan. Outils de résolution. Interactivité dans les feuilles. Outils de simulation. La valeur cible Le solveur

Coup de Projecteur sur les Réseaux de Neurones

Traitement bas-niveau

Formats d images. 1 Introduction

Master Modélisation Aléatoire Paris VII, Cours Méthodes de Monte Carlo en nance et C++, TP n 2.

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Probabilités. C. Charignon. I Cours 3

Soutenance de stage Laboratoire des Signaux et Systèmes

ESIEA PARIS

Fête de la science Initiation au traitement des images

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

Transcription:

Les arbres de décision 25 Septembre 2007 Datamining 1 2007-2008 Plan 1 Le partitionnement récursif 2 C4.5 3 CART 4 Evaluation de performances 5 Bilan Datamining 2 2007-2008

Les données du Titanic Le partitionnement récursif Données historiques sur 2201 passagers du Titanic Tâche : prédire la survie d'un passager sur la base de 4 variables Var cible : survie {yes, no} Vars prédictives classe {1st,2nd,3rd,crew} age {adult, child} sexe {male, female} class age sex surv 1st adult m yes crew adult m no 3rd child m no 2nd adult f yes............ Datamining 3 2007-2008 Le principe du partitionnement Le partitionnement récursif Etant donné un ensemble de données S ayant d variables prédictives Trouver un test permettant de prédire la valeur de la variable cible 1 Choisir une variable de test x suivant un critère déni sex 2 Partitionner les exemples suivant les valeurs de x male female 3 A chaque partition, associer une valeur de la variable à prédire no yes Un arbre à un noeud Pour obtenir des arbres de complexité arbitraire, on applique cet algorithme de manière récursive. Datamining 4 2007-2008

Le partitionnement récursif L'algorithme de partitionnement récursif DT(S: données, X: vars prédictives, Y : var cible) 1 Créer noeud T 2 Si X = ou si Y a la même valeur s S alors retourner T avec prédiction : en classication : classe majoritaire dans S en régression : moyenne des y i dans S 3 Choisir une variable de test x X suivant un critère déni 4 Partitionner S en m sous-ensembles S suivant les valeurs de x 5 Si x discrète, X X {x} 6 Pour chaque partition S DT(S, X, Y ) Voir page 9 Datamining 5 2007-2008 Remarques sur l'algorithme Le partitionnement récursif algorithme glouton pour éviter la recherche combinatoire : ni regard en avant, ni backtrack découpe des hyperrectangles dans l'espace des instances : frontières perpendiculaires aux axes sex no male female class 1 2 e n y y y 1 2 3 yes yes yes e no 3 n m f Datamining 6 2007-2008

Variations sur l'algorithme de base Le partitionnement récursif Critère de choix de l'attribut de test (ligne 3) CART : index Gini C4.5 : gain d'information et rapport de gain Facteur de branchement b pour l'attribut de test X (ligne 4) CART : b = 2 (arbre binaire) C4.5 : par défaut, b = X si x nominal, b = 2 continu Même stratégie pour restreindre la complexité de l'arbre : Construire l'arbre jusqu'au bout, puis élaguer. Datamining 7 2007-2008 Plan C4.5 1 Le partitionnement récursif 2 C4.5 3 CART 4 Evaluation de performances 5 Bilan Datamining 8 2007-2008

Entropie d'une variable C4.5 Soit une variable aléatoire X prenant ses valeurs dans l'alphabet X L'incertitude d'un événement x: l'inverse de sa probabilité log 1 p(x) = log p(x). L'entropie de X: H(X) = x X p(x)log p(x) où log s'entend à la base 2. L'entropie = nombre de bits requis pour décrire X ent(p) 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 max H(X) = log X p Datamining 9 2007-2008 Entropie conditionnelle C4.5 Soient 2 v.a. X et Y. L'entropie conditionnelle H(Y X) = x X p(x)h(y X = x) H(X Y) I(X;Y) H(Y X) = x X p(x) y Y p(y x) log p(y x) Pour que X serve à prédire Y, il faut H(Y ) H(Y X) > 0 H(X) H(Y) H(X,Y) Datamining 10 2007-2008

C4.5 Information mutuelle et choix de la variable L'information mutuelle entre X et Y = quantité d'info sur Y apportée par la connaissance de X et vice-versa = gain d'information I(X; Y ) = H(Y ) H(Y X) = H(X) H(X Y ) = 0 X et Y indpendantes Inconvénient : I(X; Y ) avec X : favorise les variables ayant bcp de valeurs distinctes Solution dans C5 : normaliser le gain d'info par l'entropie de la variable prédictive X rapport de gain (critère par défaut) IGR = I(X; Y ) H(X) Datamining 11 2007-2008 C4.5 Exemple : choix de la variable racine Sur l'ensemble d'apprentissage TRN H(surv) = 0.908 I(class; surv) = 0.052 I(age; surv) = 0.005 I(sex, surv) = 0.139 sex male female no yes Datamining 12 2007-2008

Arbre C4.5 sur le Titanic C4.5 m = 2 (nb min d'ex par feuille) arbre page 5 avec m = 20 Datamining 13 2007-2008 Partitionnement binaire sur les variables continues C4.5 E.d. une variable X, trouver un seuil t permettant de partitionner les données en 2 groupes homogènes par rapport à la var cible 1 Identier les seuils potentiels parmi les valeurs distinctes x i de X 1 Trier les exemples dans l'ordre croissant des x i 2 Les seuils potentiels = x i adjacents ayant des classes diérentes Ex. iris: petal.length : 36 valeurs distinctes, mais 6 seuils potentiels 2 Choisir la partition qui maximise le critère choisi (gain d'info ou rapport de gain en C4.5) Datamining 14 2007-2008

Arbre C4.5 sur les iris C4.5 p.length 1 2 3 4 5 6 7 Setosa Versicolor Virginica 0.5 1.0 1.5 2.0 2.5 p.width Datamining 15 2007-2008 Plan CART 1 Le partitionnement récursif 2 C4.5 3 CART 4 Evaluation de performances 5 Bilan Datamining 16 2007-2008

CART Mesure d'impureté en classication L'index Gini G(t) mesure l'impureté des données au noeud t G(t) = i p i (1 p i ) où i = valeur de la variable cible Y et p i = p(i t). Min(G) = 0 tous les examples ont la même valeur de la variable cible Max(G) = 1 1 Y toutes les valeurs i sont équiprobables hx 0.2 0.4 0.6 0.8 1.0 entropy Gini 0.0 0.2 0.4 0.6 0.8 1.0 px Datamining 17 2007-2008 CART Mesure d'impureté en régression La prédiction y(t) au noeud t: la moyenne des y i, valeurs de la variable cible dans les n t exemples au noeud t. La mesure d'impureté = MSE (erreur quadratique moyenne) R(t) = 1 n t n t i=1 (y i y(t)) 2. Puisque y(t) = ȳ i, la mesure d'impureté d'erreur = la variance intra-noeud des y i. L'erreur totale de l'arbre = somme des erreurs variances aux feuilles. Datamining 18 2007-2008

CART Dichotomie et impureté des données On mesure la baisse d'impureté des données S après une dichotomie eectuée au noeud t. Classication : G(S, t) = G(t) (p g G(t g ) + p d G(t d )) Régression : R(S, t) = R(t) (p g R(t g ) + p d R(t d )) t g t d = ls gauche/droit p g p d = proportion des cas ls gauche/droit tg t t d G(t) R(t) G( tg) + G( t d) R( tg) + R( t d) Calculer G pour toutes les dichotomies possibles au noeud t, puis choisir celle qui maximise G. Datamining 19 2007-2008 CART Choix de la dichotomie/de la variable Pour chaque variable candidate X (dom. X ) en lice au noeud t calculer G R pour tous les tests binaires possibles var continue x t? (t =seuil potentiel, voir p. 13) var discrète x X X? choisir la dichotomie qui maximise G R Choisir la variable concernée par la dichotomie ayant G R maximale. Datamining 20 2007-2008

Post-élagage de l'arbre CART Critère : compromis entre erreur et complexité d'un arbre T : C λ (T ) = E(T ) + λ T où E(T ) = erreur totale (TBC ou MSE) aux feuilles de T, λ = un paramètre de régularisation (pénalise la complexité), T = nombre de feuilles de l'arbre T. 1 A partir de l'arbre complet T 0, couper successivement les sous-arbres sous les noeud internes dont la transformation en feuille minimise C λ. Résultat : une série d'arbres imbriqués T 1,..., T k. 2 Tester les arbres T 1,..., T k sur un ensemble de validation et choisir celui/ceux qui minimisent l'erreur (à une erreur standard près). S'il reste plusieurs, choisir le plus petit. Datamining 21 2007-2008 Arbre CART sur le Titanic CART sex male female n y 1, 2, e no class n 3 no 3rd 1st, 2nd, crew m yes f m(insplit) = 20. cf l'arbre C4.5 m = 20 page 5 Datamining 22 2007-2008

Arbre de régression CART CART age < 31 >= 31 110 ncig < 22.5 >= 22.5 199 351.5 ncig 5 10 15 20 25 30 35 40 110 353 110 351.5 110 110 110 350 110 200 200 200 111 199 195 109 200 20 30 40 50 60 age Datamining 23 2007-2008 Plan Evaluation de performances 1 Le partitionnement récursif 2 C4.5 3 CART 4 Evaluation de performances 5 Bilan Datamining 24 2007-2008

Principes de base de l'évaluation Evaluation de performances Pour évaluer l'ecacité d'un prédicteur, il faut 1 une mesure de performance classication : T BC = nb de cas bien classés nb total de cas régression : MSE = 1 n n i=1 (ŷ i y i ) 2 2 une référence de base (baseline) le classieur par défaut : prédit toujours la classe majoritaire le régresseur par défaut : prédit toujours la moyenne de la var. cible 3 un ensemble de test indépendant de l'ensemble d'apprentissage Datamining 25 2007-2008 Répartition des données Evaluation de performances Pour éviter le surapprentissage, nous répartissons les données en 2 sous-ensembles (proportions suivant la taille des données) l'ensemble d'entraînement (TRN) : servira à construire nos modèles l'ensemble de test (TST) : servira à valider les modèles construits Les partitions doivent être stratifées : doivent conserver la distribution d'origine de la variable cible tout trn tst % surv=oui 711 356 355 32 surv=non 1490 744 746 68 total 2201 1100 1101 100 Datamining 26 2007-2008

Evaluation de performances Evaluation des modèles sur le Titanic Classication TBC TRN [n=1100] TST [n=1101] CPX Baseline 68% 68% J48, m=2 79.5% 78.564% T =9 J48, m=20 79.0% 77.66% T =5 CART, m=20 79.0% 77.66% T =3 Régression MSE TRN [n=14] TST [n=6] CPX Baseline 6768.78 11749.89 CART, m=5 1.89 3809.25 T =3 Datamining 27 2007-2008 Bilan Bilan Avantages apprentissage très rapide compréhensibilité du modèle robustesse aux variables non pertinentes Inconvénients instabilité : très sensible aux variations des données incapacité à détecter les interactions entre variables puissance de représentation assez limitée : découpes orthogonales trop peu adaptées aux problèmes demandant des frontières obliques et lisses Datamining 28 2007-2008