Aperçu. Introduction aux arbres de décision. Plan. Plan. Exemple. Liva Ralaivola

Documents pareils
Arbres binaires de décision

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Fast and furious decision tree induction

Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit

Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34

Algorithmes d'apprentissage

La classification automatique de données quantitatives

Apprentissage. Intelligence Artificielle NFP106 Année Plan. Apprentissage. Apprentissage

Méthodes d apprentissage statistique «Machine Learning»

Nouvelles propositions pour la résolution exacte du sac à dos multi-objectif unidimensionnel en variables binaires

Arbres de Décision. 1 Introduction

Études des principaux algorithmes de data mining

Théorie et Codage de l Information (IF01) exercices Paul Honeine Université de technologie de Troyes France

Cours de Master Recherche

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Probabilité. Table des matières. 1 Loi de probabilité Conditions préalables Définitions Loi équirépartie...

Cryptographie Quantique

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

Calculabilité Cours 3 : Problèmes non-calculables.

INTRODUCTION A L ELECTRONIQUE NUMERIQUE ECHANTILLONNAGE ET QUANTIFICATION I. ARCHITECTURE DE L ELECRONIQUE NUMERIQUE

DATAMINING C4.5 - DBSCAN

Introduction au maillage pour le calcul scientifique

Fête de la science Initiation au traitement des images

CAPTEURS - CHAINES DE MESURES

Tutorial NL220. Objectifs : Fournir un guide utilisateur pour NL220. Présenter une méthodologie efficace pour la création de projet

La NP-complétude. Johanne Cohen. PRISM/CNRS, Versailles, France.

Les algorithmes de fouille de données

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

SAGEM Wi-Fi 11g USB ADAPTER Guide de mise en route rapide

Transmission d informations sur le réseau électrique

La nouvelle planification de l échantillonnage

Le seul ami de Batman

Programmation linéaire

données en connaissance et en actions?

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Principe de symétrisation pour la construction d un test adaptatif

CONSTITUTION DU TABLEAU DE REPARTITION

e-recrutement : recherche de mots-clés pertinents dans le titre des annonces d emploi

Optimisation Discrète

De même, le périmètre P d un cercle de rayon 1 vaut P = 2π (par définition de π). Mais, on peut démontrer (difficilement!) que

Systèmes de communications numériques 2

L AUTOMATISME LE SIGNAL

L apprentissage automatique

Les objets très lointains

TANAGRA : un logiciel gratuit pour l enseignement et la recherche

Systèmes de transmission

Quantification Scalaire et Prédictive

GPA770 Microélectronique appliquée Exercices série A

TABLE DES MATIERES. C Exercices complémentaires 42

Vous incarnez un surdoué en informatique qui utilise son ordinateur afin de pirater des comptes bancaires un peu partout dans le monde et s en mettre

Optimisation Combinatoire (Méthodes approchées) II. Recherche Locale simple (Les bases)

Elle supporte entièrement la gestion de réseau sans fil sous Windows 98SE/ME/2000/XP.

Document rédigé par Alexis Michaud (en janvier 2005), réactualisé par Angélique Amelot (septembre 2009)

Statistiques Descriptives à une dimension

BALAIS Moteur (charbons)

Enregistrement et transformation du son. S. Natkin Novembre 2001

MANUEL DRIVELINK DRIVELINK

DNS ( DOMAIN NAME SYSTEM)

Probabilités et Statistiques. Feuille 2 : variables aléatoires discrètes

Coup de Projecteur sur les Réseaux de Neurones

Projet audio. Analyse des Signaux ELE2700

QUICK START RF Monitor 4.3-1

Continuité et dérivabilité d une fonction

GOL-MPPT- 24V-10A GOL-MPPT- 12V-15A

Une introduction aux codes correcteurs quantiques

Chapitre 7. Récurrences

Baccalauréat ES Antilles Guyane 12 septembre 2014 Corrigé

CHAPITRE I INTRODUCTION

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Analyse en Composantes Principales

6605 MFP 3615 MFP. Sommaire : Paramètres généraux. Réglages de l Horloge et des Bacs. Paramètre Copie (par défaut) Paramètres Réseaux (IP)

Programmation Linéaire - Cours 1

Objectifs du cours d aujourd hui. Informatique II : Cours d introduction à l informatique et à la programmation objet. Complexité d un problème (2)

Application de K-means à la définition du nombre de VM optimal dans un cloud

1S9 Balances des blancs

Dossier technique. Présentation du bus DMX et Utilisation des options EL13 / EL14 ERM AUTOMATISMES INDUSTRIELS 1 LE PROTOCOLE DMX 2

Probabilités. Rappel : trois exemples. Exemple 2 : On dispose d un dé truqué. On sait que : p(1) = p(2) =1/6 ; p(3) = 1/3 p(4) = p(5) =1/12

LOGICIELS DE PRÉVISIONS

DATA MINING SPATIAL UN PROBLEME DE DATA MINING MULTI-TABLES

L annuaire et le Service DNS

Etude comparative de différents motifs utilisés pour le lancé de rayon

FORMATION ET FONCTIONNEMENT D'UNE ETOILE

Jean-Philippe Préaux

CH.6 Propriétés des langages non contextuels

ALGORITHMIQUE II NOTION DE COMPLEXITE. SMI AlgoII

Encryptions, compression et partitionnement des données

Décision Markovienne appliquée à un jeu de stop ou encore : Pickomino (Heckmeck Am Bratwurmeck)

Bandes Critiques et Masquage

Avant-projet, Montage de projet, pré-projet, pré-études

Hypervision et pilotage temps réel des réseaux IP/MPLS

Sauvegarde collaborative entre pairs Ludovic Courtès LAAS-CNRS

Initiation au logiciel imovie HD

Big Data et Prévisions. Philippe Picard, le 24 juin Page 1

La conversion de données : Convertisseur Analogique Numérique (CAN) Convertisseur Numérique Analogique (CNA)

Logique binaire. Aujourd'hui, l'algèbre de Boole trouve de nombreuses applications en informatique et dans la conception des circuits électroniques.

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Corps des nombres complexes, J Paul Tsasa

Note d application: Les différentes topologies de réseaux de capteurs sans fil

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Transcription:

Aperçu Introduction aux arbres de décision Liva Ralaivola LIF, UMR 6166 CNRS Université de Provence liva.ralaivola@lif.univ-mrs.fr (, +) (, +) (, +) => losange Forme carré cercle + Couleur bleue rouge + 14 janvier 2008 Lecture d un arbre? Construction de l arbre? Régularisation/sur-apprentissage? Plan Plan

Utilisation Classification supervisée (pattern recognition) S = {(x 1, y 1 ),..., (x l, y l )} ensemble d apprentissage x i X, y i Y Utilisation apprentissage (plutôt) rapide interprétabilité du modèle possible bruit sur les données s dans ce cours X espace de vecteurs d attributs discrets classification binaire Vocabulaire Définitions nœuds chaque nœud correspond à une question sur un attribut et à un ensemble d exemples branches chaque branche part d un nœud et correspond à une réponse possible à la question posée en ce nœud CART [Breiman et al., 1984] : 2 branches par nœud ID3 [Quinlan, 1986], C4.5 [Quinlan, 1993] : autant de branches que de valeurs possibles pour l attribut étudié feuilles nœuds d où ne part aucune branche ; correspond à une classe Utilisation d un arbre de décision Arbre T et x instance à classifier La classification d une instance se fait de la racine de T vers les feuilles : n racine de l arbre Tant que x n atteint pas une feuille poser la question associée à n sur x (par exemple : "le i-ème attribut de x est-il 1 ou 0?") n nœud vers lequel oriente la réponse à la question précédente fin tant que renvoyer la classe associée à la feuille identifiée Méthode TDIDT (1) Apprentissage TDIDT : Top Down Induction of Decision Tree Induction : arbre de décision est un modèle induit à partir d exemples d apprentissage (comme pour les réseaux de neurones) Top-Down : l algorithme d apprentissage est dit Top-Down car il part d un modèle (vide) qui est ajusté pour correspondre aux données (notion inverse : Bottom-up) Partitionnement récursif de l espace X Pour un nœud donné, une question ne peut porter sur un attribut qui a déjà servi dans un chemin menant à ce nœud

Méthode TDIDT (2) Algorithme (Description Haut-niveau) méthode construit_arbre(s) si tous les exemples de S sont de la même classe ou bien il n existe plus de question possible alors créer une feuille de la classe majoritaire de ce nœud sinon choisir la meilleure question pour créer un nœud : S est partitionné en S 1,...,S m (e.g. m est le nombre de modalités que peut prendre l attribut sur lequel porte la question) pour i allant de 1 àmfaire construit_arbre(s i ) Problématiques Question Comment choisr à chaque étape de la construction la meilleure question (i.e. le meilleur attribut) à poser? A i = a 1 n 1 instances n + 1 de classe + de classe n 1 n instances Attribut A i A i = a 2 n 2 instances n n + 2 de classe + de classe n 2 A i = a m m instances n + m de classe + n m de classe Attribut A j? Attribut A k? Attribut A l? Entropie (1/3) Définition ([Shannon, 1948]) Soit C C une v.a. discrète, C = {c 1,..., c m} p i = P(C = c i ),p i 0 et P m i=1 p i = 1 P Entropie de p 1,..., p m : I(p 1,..., p m m)= p i log 2 p i Cas binaire c 1 =+, c 2 = p = P(C = +) i=1 Entropie 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 p! Entropie (2/3) Interprétations Entropie élevée désordre Entropie faible ordre Nombre minimum de bits pour coder la classe d un exemple tiré au hasard dans S Fournit une mesure de l impureté d un nœud/d une feuille pour les arbres de décision p = P(C = ) =1 p I(p, p )= p log 2 p (1 p ) log 2 (1 p )

Entropie (3/3) Intérêt pour l induction d arbres de décision Nœud contenant 9 exemples + et 5 exemples : I([9+, 5 ]) = I(9/14, 5/14) = (9/14) log 2 (9/14) (5/14) log 2 (5/14) = 0.940 Nœud contenant 14 exemples + et 0 exemple I([14+, 0 ]) = (14/14) log 2 (14/14) (0/14) log 2 (0/14) = 0 Maximisation du gain d information (1/2) A i Lors du développement de chaque nœud, choisir l attribut A i permettant le gain d information le plus important avec où Gain(A i )=I 0 I(A i ) I 0 correspond à l entropie de l ensemble d exemples correspondant au nœud étudié I(A i ) correspond à l entropie pondérée du sous-arbre résultant du développement selon l attribut A i degré d impureté 0 (i.e. feuille) Maximisation du gain d information (2/2) Entropie pondérée selon l attribut A i si le nœud étudié contient n exemples et que A i permet d obtenir m nœuds, [n + 1 +, n 1 ],..., [n+ m+, n m ] alors l entropie pondérée du sous arbre obtenu en développant le nœud selon A i est I(A i )= mx j=1 n j n I([n+ j +, n j ]) Construction d un arbre de décision Exercice Taille Forme Couleur Classe petit cercle bleu + grand cercle rouge - grand carré bleu + petit losange bleu - grand losange bleu - grand cercle bleu + grand losange rouge - petit cercle rouge - Montrer que gain(taille) =0.003 gain(forme) =0.454 gain(couleur) =0.347 Construire l arbre de décision avec n j = n + j + n j Index de Gini G Critère utilisable à la place de l entropie : G = 2p (1 p )

Plan (1/2) Constats Si l ensemble des exemples d apprentissage est consistant, c est-à-dire si on n a pas un même exemple etiqueté de deux façons différentes, alors l apprentissage par arbre de décision permet d obtenir une représentation avec des feuilles pures uniquement, i.e. il est possible de ne faire aucune erreur sur l ensemble d apprentissage Par ailleurs, le critère usuel d arrêt d apprentissage par arbre de décision correspond à l obtention de feuilles pures uniquement ou bien l impossibilité de développer l arbre (2/2) Conséquences des constats précédents L apprentissage par arbre de décision peut conduire au phénomène de sur-apprentissage Les arbres obtenus peuvent être très grands et les feuilles ne contenir que peu d instances Solution : élagage Pré-élagage Critères d arrêt du développement de l arbre Nombre faible d instances dans un nœud Gain d information faible Test du χ 2 permettant de mesurer l indépendance statistique de la population d un nœud par rapport à une classe... pré-élagage : un critère permet d arrêter la construction de l arbre avant l obtention de l arbre complet post-élagage : l arbre complet est appris puis des branches de l arbre sont coupées en fonction d un critère donné

Post-élagage Critères guidant l élagage de l arbre Mesure sur un échantillon indépendant de l erreur de classification : élaguer l arbre tant que cette mesure ne croît pas Critère ad hoc type C4.5 de Quinlan Prise en compte de données numériques Problème Tel que présenté, l algorithme d induction d arbre de décision proposé ne permet pas de gérer des attributs numériques Exercice Proposer une méthode introduisant des seuils permettant de classifier des instances contenant des attributs numériques. Bagging Objectif Bornes d erreur dépendant des données Theorem (Bartlett and Mendelson, 2002) réduire la variance de l arbre appris par rapport à l échantillon d apprentissage pour améliorer la généralisation Algorithme [Breiman 94] S = {(x 1, y 1 ),..., (x l, y l)} 1. Tirer de S avec replacement B échantillons S 1,..., S B de taille l 2. Apprendre B arbres de décision h i sur S 1,..., S B 3. Prédire avec h(x) = 1 B P B b=1 h i(x)... avec Quantité importante, G n(f), complexité Gaussienne (cf. également complexité de Rademacher) : avec G n(f) =E[Ĝn(F)]

Plan Résumé A retenir Interprétabilité du modèle par arbre de décision Méthode d apprentissage TDIDT entropie (Shannon) élagage Non couvert arbres de régression apprentissage incrémental forêt d arbres... Weka Port de lentilles de contact (plusieurs classes) Reconnaissance de chiffres manuscrits (plusieurs classes + valeurs numériques) WEKA Exercice Construire l arbre associé aux données [Mitchell, 1997] Prévision Température Humidité Vent Tennis 1 soleil élevée haute faible non 2 soleil élevée haute fort non 3 nuage élevée haute faible oui 4 pluie moyenne haute faible oui 5 pluie basse normale faible oui 6 pluie basse normale fort non 7 nuage basse normale fort oui 8 soleil moyenne haute faible non 9 soleil basse normale faible oui 10 pluie moyenne normale faible oui 11 soleil moyenne normale fort oui 12 nuage moyenne haute fort oui 13 nuage élevée normale faible oui 14 pluie moyenne haute fort non Breiman, L., Friedman, J., Olshen, R., and Stone, C. (1984). Classification and Regression Trees. Wadsworth and Brooks, Monterey, CA. Mitchell, T. (1997). Machine Learning. McGraw Hill. Quinlan, J. R. (1986). Induction of decision trees. Machine Learning, 1 :81 106. Quinlan, J. R. (1993). C4.5 : Programs for Machine Learning. Morgan Kaufmann. Shannon, C. E. (1948). A Mathematical Theory of Communication. The Bell System Techincal Journal, 27 :379 423,623 656.