Arbres de Décision et Forêts Aléatoires

Documents pareils
Arbres binaires de décision

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Algorithmes d'apprentissage

ARBRES BINAIRES DE RECHERCHE

Quantification Scalaire et Prédictive

Les arbres binaires de recherche

Théorie et Codage de l Information (IF01) exercices Paul Honeine Université de technologie de Troyes France

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Chapitre 7. Récurrences

Méthodes d apprentissage statistique «Machine Learning»

ALGORITHMIQUE II NOTION DE COMPLEXITE. SMI AlgoII

Communications collectives et ordonnancement en régime permanent pour plates-formes hétérogènes

Master IMEA 1 Calcul Stochastique et Finance Feuille de T.D. n o 1

Parallélisme et Répartition

Multivac Vision System (MVS) : Détection visuelle d objets et inspection qualité. * Le meilleur de l emballage

Cours de Master Recherche

Julien MATHEVET Alexandre BOISSY GSID 4. Rapport RE09. Load Balancing et migration

Nouvelles propositions pour la résolution exacte du sac à dos multi-objectif unidimensionnel en variables binaires

Les Réseaux sans fils : IEEE F. Nolot

Programmation linéaire

Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34

TP N 57. Déploiement et renouvellement d une constellation de satellites

Création intuitive des éléments d un paysage

1 Recherche en table par balayage

Définitions. Numéro à préciser. (Durée : )

Rappel sur les bases de données

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

Analyse Sémantique de Nuages de Points 3D et d Images dans les Milieux Urbains

Fast and furious decision tree induction

Arbres de Décision. 1 Introduction

Chapitre 5 : Flot maximal dans un graphe

Skype (v2.5) Protocol Data Structures (French) Author : Ouanilo MEDEGAN

Excel Avancé. Plan. Outils de résolution. Interactivité dans les feuilles. Outils de simulation. La valeur cible Le solveur

données en connaissance et en actions?

Apprentissage Automatique

L analyse d images regroupe plusieurs disciplines que l on classe en deux catégories :

(Third-Man Attack) PASCAL BONHEUR PASCAL 4/07/2001. Introduction. 1 Domain Name Server. 2 Commandes DNS. 3 Hacking des serveurs DNS

Les algorithmes de fouille de données

La nouvelle planification de l échantillonnage

M06/5/COMSC/SP1/FRE/TZ0/XX INFORMATIQUE NIVEAU MOYEN ÉPREUVE 1. Mardi 2 mai 2006 (après-midi) 1 heure 30 minutes INSTRUCTIONS DESTINÉES AUX CANDIDATS

excellence environnementale fiche - action Utilisation d un broyeur de branches sur les chantiers espaces verts

URECA Initiation Matlab 2 Laurent Ott. Initiation Matlab 2

CH.6 Propriétés des langages non contextuels

Condition inf-sup pour l Elément Fini de Taylor-Hood È ¾ -iso-è ½

Optimisation for Cloud Computing and Big Data

L approche de régression par discontinuité. Thomas Lemieux, UBC Atelier de formation du Congrès de l ASDEQ Le 18 mai 2011

Théorie des Graphes Cours 3: Forêts et Arbres II / Modélisation

6605 MFP 3615 MFP. Sommaire : Paramètres généraux. Réglages de l Horloge et des Bacs. Paramètre Copie (par défaut) Paramètres Réseaux (IP)

Exemples de problèmes et d applications. INF6953 Exemples de problèmes 1

Modélisation des données

Appui scientifique à la mise en œuvre de la Directive Cadre Européenne sur l Eau

Application de K-means à la définition du nombre de VM optimal dans un cloud

Journée CUME 29 Mars Le déport d affichage. Vincent Gil-Luna Roland Mergoil.

Compression et Transmission des Signaux. Samson LASAULCE Laboratoire des Signaux et Systèmes, Gif/Yvette

RAPPELS SUR LES METHODES HERITEES DE LA CLASSE RACINE Object ET LEUR SPECIALISATION (i.e. REDEFINITION)

La couche physique de l ADSL (voie descendante)

Reconnaissance de visages 2.5D par fusion des indices de texture et de profondeur ICI 12/12/12

Programmation par contraintes. Laurent Beaudou

Chapitre 2 : Systèmes radio mobiles et concepts cellulaires

PROBABILITES ET STATISTIQUE I&II

1 de 46. Algorithmique. Trouver et Trier. Florent Hivert. Mél : Florent.Hivert@lri.fr Page personnelle : hivert

Le risque Idiosyncrasique

Intégration de la dimension sémantique dans les réseaux sociaux

Force de serrage 123 N N. Pince de préhension parallèle à 2 doigts PGN-plus 160 avec doigts de préhension spécifiques à la pièce à manipuler

La NP-complétude. Johanne Cohen. PRISM/CNRS, Versailles, France.

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

Intérêts et limites des mannequins numériques pour l évaluation des efforts et des postures

Stratégie de recherche adaptative en programmation par contrainte

Contexte. Pour cela, elles doivent être très compliquées, c est-à-dire elles doivent être très différentes des fonctions simples,

Chapitre 5 LE MODELE ENTITE - ASSOCIATION

Exercices types Algorithmique et simulation numérique Oral Mathématiques et algorithmique Banque PT

Info0804. Cours 6. Optimisation combinatoire : Applications et compléments

Architecture des Systèmes d Information Architecture des Systèmes d Information

PROBLEMES D'ORDONNANCEMENT AVEC RESSOURCES

Sécuristation du Cloud

Algorithmique I. Algorithmique I p.1/??

Références pour la commande

Système à enseigner : Robot M.I.M.I. MultipodeIntelligent à Mobilité Interactive. Version 1.0

Sécurité par compression! ReSIST Gilles RICHARD IRIT

Quelques Algorithmes simples

Chap III : Les tableaux

Déploiement générique d applications sur plates-formes hétérogènes distribuées

Assistant d e tablissement de Tableaux

Sommaire. Couverture de zone de surveillance dans les réseaux de capteurs. De quoi parle-t-on ici (1/2)? Objectif. De quoi parle-t-on ici (2/2)?

Probabilités. Rappel : trois exemples. Exemple 2 : On dispose d un dé truqué. On sait que : p(1) = p(2) =1/6 ; p(3) = 1/3 p(4) = p(5) =1/12

Correction TD algorithmique

PELICANTM. Ceiling HF. Diffuseurs rectangulaires

Gestion des stocks et des approvisionnements

Relation entre deux variables : estimation de la corrélation linéaire

Algorithmique avec Algobox

Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Laboratoire d informatique Gaspard-Monge UMR Journée Labex Bézout- ANSES

Direction des Études et Synthèses Économiques Département des Comptes Nationaux Division des Comptes Trimestriels

Exemple d implémentation d un. Projet SAP avec ASAP

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN

Evaluation des performances de programmes parallèles haut niveau à base de squelettes

Organigramme / Algorigramme Dossier élève 1 SI

Generic deployment of applications on heterogeneous distributed platforms

Statistique : Résumé de cours et méthodes

Transcription:

Arbres de Décision et Forêts Aléatoires Fabien Moutarde Centre de Robotique (CAOR) MINES ParisTech (ENSMP) Fabien.Moutarde@mines-paristech.fr http://perso.mines-paristech.fr/fabien.moutarde Arbres de décision et Forêts aléatoires Fabien Moutarde, CAOR, MINES ParisTech mai 2016 1 Qu est-ce qu un arbre de décision? Classification par une série de tests Arbres de décision et Forêts aléatoires Fabien Moutarde, CAOR, MINES ParisTech mai 2016 2

Principe général des arbres de décision Décomposition du problème de classification en une suite de tests correspondant à une partition de l espace des données en sous-régions homogènes en terme de classe Arbres de décision et Forêts aléatoires Fabien Moutarde, CAOR, MINES ParisTech mai 2016 3 Exemple d arbre de décision Règle de classification : aller de la racine à une feuille en effectuant les tests des nœuds Classe d une feuille : classe majoritaire parmi les exemples d apprentissage appartenant à cette feuille Arbres de décision et Forêts aléatoires Fabien Moutarde, CAOR, MINES ParisTech mai 2016 4

Problématique de l induction de l arbre Est-ce le meilleur arbre? Arbres de décision et Forêts aléatoires Fabien Moutarde, CAOR, MINES ParisTech mai 2016 5 Induction de l arbre à partir d une base d exemples d apprentissage Recherche exhaustive dans l ensemble de tous les arbres évidemment computationnellement impossible è approche récursive pour construire l arbre : construire-arbre(x) SI tous les points de X sont de même classe, créer une feuille associée à cette classe SINON - choisir (selon critère!) le meilleur couple (attribut;test) pour créer un nœud - ce test sépare X en 2 parties Xg et Xd - contruire-arbre(xg) - construire-arbre(xd) Arbres de décision et Forêts aléatoires Fabien Moutarde, CAOR, MINES ParisTech mai 2016 6

Critère de choix attribut et test Mesure de l hétérogénéité du nœud candidat : entropie (ID3, C4.5) indice Gini (CART) indice d erreur Entropie : H = -S k ( p(w k ) log 2 (p(w k )) ) avec p(w k ) proba de la classe w k (estimée par proportion N k /N) à minimum (=0) si une seule classe représentée à maximum (=log 2 (nb_classes)) si classes équi-réparties Indice Gini : Gini =1 S k p 2 (w k ) Indice d erreur : Er = 1 max k (p(w k )) Arbres de décision et Forêts aléatoires Fabien Moutarde, CAOR, MINES ParisTech mai 2016 7 Gain d homogénéité apporté par un test Soit un test T à m alternatives et divisant le nœud N en m sous-nœud N j Soit I(N j ) les mesures d hétérogénéité (entropie, Gini, ) des sous-nœuds, et p(n j ) les proportions des éléments de N dirigés vers N j par le test T è le gain d homogénéité/information apporté par le test T est Gain(N,T) = I(N)- S j p(n j )I(N j ) èà chaque nœud, choix du test maximisant le gain (ou éventuellement le «rapport des gains» G(N,T)/H(T), utilisé par C4.5 pour éviter biais vers m grand) Arbres de décision et Forêts aléatoires Fabien Moutarde, CAOR, MINES ParisTech mai 2016 8

Tests sur les attributs continus Les exemples d apprentissage sont en Nb FINI à idem pour le nb de valeurs effectivement atteintes par chaque attribut continu èen pratique, tri des exemples par valeur croissante de l attribut continu et examen d au maximum N-1 seuils (typiquement les médianes entre valeurs successives croissantes :par exemple si valeurs de A atteintes sur exemples d apprentissage sont 1;3;6;10;12, on considérera les tests A>1.5;A>4.5;A>8;A>11) 1 3 6 10 12 A valeurs de seuil testées Arbres de décision et Forêts aléatoires Fabien Moutarde, CAOR, MINES ParisTech mai 2016 9 Règles «évidentes» : Critères d arrêt et élagage - tous les exemples du nœud sont de même classe - tous exemples du nœud ont mêmes valeurs de variables - l hétérogénéité des nœuds ne diminue plus - nb d exemples dans le nœud < seuil minimal Contrôle des performances de généralisation (sur base de validation indépendante) Elagage a posteriori : supprimer des branches peu représentatives et nuisant à généralisation (parcours bottomup en «remontant» d un niveau tant que cela diminue erreur en généralisation) Arbres de décision et Forêts aléatoires Fabien Moutarde, CAOR, MINES ParisTech mai 2016 10

Critère pour l élagage a posteriori Soit l arbre T, et v un de ses nœuds, et : MC(T,v) = nb d exemples Mal Classés par v dans T MC ela (T,v) = nb d exemples Mal Classés par v dans l arbre T élagué à v n(t) = nb de feuilles de T nt(t,v) = nb de feuilles du sous-arbre de T sous nœud v ALORS on prend comme critère à minimiser : w(t,v) = (MC ela (T,v)-MC(T,v))/(n(T)*(nt(T,v)-1)) à Prise en compte simultanée de l erreur et de la complexité de l arbre Arbres de décision et Forêts aléatoires Fabien Moutarde, CAOR, MINES ParisTech mai 2016 11 Elaguer(T max ) : K 0 Algorithme d élagage T k T max TANT QUE T k a plus d un nœud FAIRE POUR chaque nœud v de T k FAIRE calculer w(t k,v) sur exemples appr. ou valid. FIN_POUR choisir v m = tel que w(t k,v) soit minimum T k+1 : T k où v m a été remplacé par une feuille k k+1 FIN_TANT_QUE Pour finir, on choisit parmi {Tmax, T1, Tn} l arbre qui a la plus petite erreur de classification sur l ensemble de validation Arbres de décision et Forêts aléatoires Fabien Moutarde, CAOR, MINES ParisTech mai 2016 12

Synthèses des divers algos d induction ID3 (Inductive Decision Tree, Quinlan 1979) : arbres «de discrimination» (ie variables uniquement qualitatives) critère d hétérogénéité = entropie C4.5 (Quinlan 1993) : Amélioration ID3, permettant notamment arbres «de régression» (gestion des variables continues) et valeurs manquantes CART (Classification And Regression Tree, Breiman et al. 1984) : critère d hétérogénéité = Gini Arbres de décision et Forêts aléatoires Fabien Moutarde, CAOR, MINES ParisTech mai 2016 13 Variante : arbres multivariés Arbres de décision et Forêts aléatoires Fabien Moutarde, CAOR, MINES ParisTech mai 2016 14

Avantage/inconvénients des arbres de décision Avantages Facilité à manipuler des données «symboliques» OK avec variables d amplitudes très différentes Multi-classe par nature Interprétabilité de l arbre! Identification des inputs «importants» Classification très efficace (en particulier sur inputs de grande dimension) Inconvénients Sensibilité au bruit et points aberrants Stratégie d élagage délicate Arbres de décision et Forêts aléatoires Fabien Moutarde, CAOR, MINES ParisTech mai 2016 15 Forêts Aléatoires (Random Forests) Principe : l union fait la force Une «forêt» = un ensemble d arbres Forêt Aléatoire : apprendre grand nombre T (~ qlq 10aines ou 100aines) d arbres simples utilisation par vote des arbres (classe majoritaire, voire probabilités des classes par % des votes) si classification, ou moyenne des arbres si régression Algo proposé en 2001 par Breiman & Cutter Arbres de décision et Forêts aléatoires Fabien Moutarde, CAOR, MINES ParisTech mai 2016 16

Apprentissage de Forêt Aléatoire But = obtenir des arbres les + décorrelés possible Ì chaque arbre appris sur un sous-ensemble (~2/3) aléatoire différent de s exemples d apprentissage Ì chaque nœud de chaque arbre choisi comme «split» optimal parmi k variables tirées aléatoirement dans les entrées (avec k<<d la dim des entrées) Arbres de décision et Forêts aléatoires Fabien Moutarde, CAOR, MINES ParisTech mai 2016 17 Apprentissage de Forêt Aléatoire (2) Chaque arbre appris avec algo CART sans élagage On limite fortement la profondeur p des arbres (~ 2 à 5) Z = {(x 1, y 1 )...(x n, y n )} base d apprentissage, chaque x i de dimension d Pour t = 1... T (T = nb d arbres de la forêt) Tirer aléatoirement (avec remise) m exemples dans Z (à Z t ) Apprendre un arbre sur Z t, avec CART modifié pour randomiser choix de variables : chaque nœud cherché uniquement parmi k variables tirées aléatoirement parmi les d dimensions (k<<d, typiquement k~öd) Arbres de décision et Forêts aléatoires Fabien Moutarde, CAOR, MINES ParisTech mai 2016 18

«Success story» Squelettisation de personne avec Kinect Arbres de décision et Forêts aléatoires Fabien Moutarde, CAOR, MINES ParisTech mai 2016 19 Avantages Avantages et inconvénient des Forêts Aléatoires Reconnaissance TRES RAPIDE Multi-classes par nature Efficace sur inputs de grande dimension Robustesse aux outliers Inconvénients Apprentissage souvent long Valeurs extrêmes souvent mal estimées dans cas de régression Arbres de décision et Forêts aléatoires Fabien Moutarde, CAOR, MINES ParisTech mai 2016 20