Polytech Paris-SudDépartement informatique Formation par Apprentissage, 13ème / 74 a

Transcription

1 Polytech Paris-Sud Département informatique Formation par Apprentissage, 3ème année Jérôme Azé Polytech Paris-SudDépartement informatique Formation par Apprentissage, 13ème / 74 a

2 Arbres de décision Outline 1 Arbres de décision Objectifs Méthode Positionnement du problème 2 Données hiérarchiques Application au problème de l annotation des génomes Mesures d évaluation hiérarchiques 3 Arbres de décision probabilistes multi-labels Clus-HMC Algorithme 4 Boostrap, bagging et boosting Bootstrap Bagging Boosting 5 Random Forest Polytech Paris-SudDépartement informatique Formation par Apprentissage, 23ème / 74 a

3 Arbres de décision Objectifs Objectifs Objectifs et applications Apprendre une classification (animale, végétale,...) Pouvoir répondre à un questionnaire Pouvoir résoudre un problème à l aide de Questions/Réponses Apprentissage de règles pour annoter des protéines... Polytech Paris-SudDépartement informatique Formation par Apprentissage, 3ème / 74 a

4 Arbres de décision Objectifs Un exemple Détection de la grippe Apparition soudaine de fièvre élevée Le patient est fatigué Rhinorrhée (nez qui coule) Toux Douleurs à la gorge Enrouement, douleurs dorsales, des membres et céphalées Grippe Polytech Paris-SudDépartement informatique Formation par Apprentissage, 43ème / 74 a

5 Un exemple Arbres de décision Objectifs L arbre associé fièvre toux fatigue... angine... Nez qui coule... Maux de gorge Courbatures... et maux de dos... Grippe Polytech Paris-SudDépartement informatique Formation par Apprentissage, 53ème / 74 a

6 Arbres de décision Méthode Méthode Méthode Apprendre une suite de Questions/Réponses la plus efficace possible Isoler les classes Organiser les questions/réponses sous la forme d un arbre Polytech Paris-SudDépartement informatique Formation par Apprentissage, 63ème / 74 a

7 Arbres de décision Méthode Autre exemple La ballade du chien Attributs quel temps fait-il? {pluvieux, ensoleillé, couvert} Température extérieure : attribut numérique Voisin parti avec son chat : attribut booléen Décision à prendre : Télévision ou ballade du chien Polytech Paris-SudDépartement informatique Formation par Apprentissage, 73ème / 74 a

8 La ballade du chien Arbres de décision Méthode L arbre de décision Quel temps fait-il? Couvert Ensoleillé Pluvieux Température? Voisin absent? TV 10 degrés > 10 degrés TV ballade non TV oui ballade Polytech Paris-SudDépartement informatique Formation par Apprentissage, 83ème / 74 a

9 Arbres de décision Méthode Construction de l arbre Rappels Problème : Apprendre un arbre de décision à partir d une base d exemples étiquetés Objectif : Être efficace en généralisation (être capable de classer correctement un nouvel exemple) Polytech Paris-SudDépartement informatique Formation par Apprentissage, 93ème / 74 a

10 Arbres de décision Méthode Construction de l arbre Recherche exhaustive dans l espace des arbres possibles Exponentiel en fonction de d : nombre d attributs a : nombre moyen de valeurs par attribut d 1 (d i) ai i=0 d a Arbres possibles Polytech Paris-SudDépartement informatique Formation par Apprentissage, 103ème / 74 a

11 Arbres de décision Méthode Construction de l arbre Construction intelligente de l arbre Démarrer avec un arbre vide et construire l arbre de manière inductive et descendante Critères d arrêt : échantillon pur plus d attributs a tester Polytech Paris-SudDépartement informatique Formation par Apprentissage, 113ème / 74 a

12 Arbres de décision Construction de l arbre Méthode Algorithme Procédure construirearbre(p) si (tous les points de P appartiennent à la même classe ) alors créer une feuille portant le nom de cette classe sinon Choisir le meilleur attribut pour créer un nœud test sur le nœud créé deux parties : P g et P d construirearbre(p g ) construirearbre(p d ) fin Si Polytech Paris-SudDépartement informatique Formation par Apprentissage, 123ème / 74 a

13 Arbres de décision Positionnement du problème Positionnement du problème Notations Ensemble d apprentissage : E Un exemple (x, c) décrit par d attributs : x = {a 1, a 2,...,a d } w une classe C = {w 1,...,w C } Polytech Paris-SudDépartement informatique Formation par Apprentissage, 13ème / 74 a

14 Arbres de décision Quelques probabilités... Positionnement du problème Calcul des probabilités soit un nœud contenant n exemples, répartis en C classes w j comportant chacune n j exemples Soit a un attribut binaire divisant chaque sous-ensemble n j en deux parties contenant respectivement : l j exemples pour test sur a = VRAI et r j exemples pour test sur a = FAUX l = C l j, r = C r j et r + l = n j=1 j=1 l j n P(a = VRAI, w = w j), r j n P(a = FAUX, w = w j) l P(a = VRAI), r n P(a = FAUX) n j n P(w = w j) Polytech Paris-SudDépartement informatique Formation par Apprentissage, 143ème / 74 a

15 Arbres de décision Positionnement du problème Comment choisir le meilleur attribut Théorie de l information Information mutuelle (entropie croisée) Si w et a sont deux variables avec D w et D a leurs ensembles finis de valeurs possibles L entropie croisée de w et a est égale à I(w, a) = u,v D w D a P(u, v)log ( ) P(u, v) P(u)P(v) Polytech Paris-SudDépartement informatique Formation par Apprentissage, 153ème / 74 a

16 Arbres de décision Théorie de l information Positionnement du problème Entropie Entropie d une variable aléatoire w H(w) = u D w P(u)log(P(u)) Entropie de w conditionnée par a H(w a) = P(u, v)log(p(u v)) u,v D w D a Résultat classique I(w a) = H(w) H(w a) Polytech Paris-SudDépartement informatique Formation par Apprentissage, 163ème / 74 a

17 Arbres de décision Choix du meilleur attribut Positionnement du problème Estimation des probabilités Attribut retenu Ĥ(w a) = l n J(a = VRAI) + r J(a = FAUX) n avec J(a = VRAI) = C J(a = FAUX) = C j=1 j=1 ( ) lj l log ( rj r i = argmin (Ĥ(w a i)) i=1,...,d Entropie minimale si échantillon pur ) log ( ) lj l et ( ) rj r Polytech Paris-SudDépartement informatique Formation par Apprentissage, 173ème / 74 a

18 Arbres de décision Positionnement du problème Exemple de construction Exemple Problème : Étant donné une situation, prédire si un enfant peut aller ou non jouer avec son voisin Base d exemples Décisions prises les 8 jours précédents le problème (4 attributs binaires et une classe) Polytech Paris-SudDépartement informatique Formation par Apprentissage, 183ème / 74 a

19 Exemple Arbres de décision Positionnement du problème Données d apprentissage Devoirs finis Maman de Temps = beau Goûter pris Décision bonne humeur 1 Vrai Faux Vrai Faux OUI 2 Faux Vrai Faux Vrai OUI 3 Vrai Vrai Vrai Faux OUI 4 Vrai Faux Vrai Vrai OUI 5 Faux Vrai Vrai Vrai NON 6 Faux Vrai Faux Faux NON 7 Vrai Faux Faux Vrai NON 8 Vrai Vrai Faux Faux NON Polytech Paris-SudDépartement informatique Formation par Apprentissage, 193ème / 74 a

20 Arbres de décision Positionnement du problème Exemple Recherche de la racine de l arbre DF BH TB GP Décision 1 Vrai Faux Vrai Faux OUI 2 Faux Vrai Faux Vrai OUI 3 Vrai Vrai Vrai Faux OUI 4 Vrai Faux Vrai Vrai OUI 5 Faux Vrai Vrai Vrai NON 6 Faux Vrai Faux Faux NON 7 Vrai Faux Faux Vrai NON 8 Vrai Vrai Faux Faux NON Calcul de H(w DF), H(w BH), H(w TB) et H(w GP) H(w DF) = 5 8 J(DF = Vrai) + 3 8J(DF = Faux) J(DF = Vrai) = 3 5 log( 3 5 ) 2 5 log( 2 5 ) J(DF = Faux) = 1 3 log( 1 3 ) 2 3 log( 2 3 ) H(w BH) = 0.93, H(w TB) = 0.8 et H(w GP) = 1 Polytech Paris-SudDépartement informatique Formation par Apprentissage, 203ème / 74 a

21 Exemple Arbres de décision Positionnement du problème Arbre de décision... faux DF BH GP Décision 2 Faux Vrai Vrai OUI 6 Faux Vrai Faux NON 7 Vrai Faux Vrai NON 8 Vrai Vrai Faux NON Temps = beau? vrai DF BH GP Décision 1 Vrai Faux Faux OUI 3 Vrai Vrai Faux OUI 4 Vrai Faux Vrai OUI 5 Faux Vrai Vrai NON Polytech Paris-SudDépartement informatique Formation par Apprentissage, 213ème / 74 a

22 Exemple Arbres de décision Positionnement du problème Arbre de décision obtenu Temps = beau? faux Goûter pris? vrai Devoirs finis? NON Maman de bonne humeur? NON OUI NON OUI Polytech Paris-SudDépartement informatique Formation par Apprentissage, 223ème / 74 a

23 Arbres de décision Positionnement du problème Élagage de l arbre Pré-élagage créer une feuille si une classe y est majoritairement représentée (seuil a priori) utilisation de critères locaux Post-élagage utilisation d un ensemble indépendant de l ensemble d apprentissage mesurer l erreur commise sur cet ensemble Polytech Paris-SudDépartement informatique Formation par Apprentissage, 23ème / 74 a

24 Arbres de décision Positionnement du problème Élagage Post-élagage Soit T max l arbre obtenu à partir de l ensemble d apprentissage Construire une suite d arbres {T max, T 1, T 2,..., T n } en partant des feuilles et en remontant vers la racine en transformant un nœud en feuille à chaque étape. Comparer le coût du nouvel arbre à celui du précédent et arrêter l élagage si le coût est supérieur Polytech Paris-SudDépartement informatique Formation par Apprentissage, 243ème / 74 a

25 Post-élagage Arbres de décision Positionnement du problème Estimation du coût d un arbre Prise en considération de : erreur commise par l arbre complexité de l arbre w(t k, v) = MC ela(v, k) MC(v, k) n(k)(nt(v, k) 1) n(k) nt(v, k) MC(v, k) MC ela (v, k) Nombre de feuilles de T k Nombre de feuilles du sous-arbre de T k situé sous le nœud de v Nombre d exemples de l ensemble d apprentissage mal classés par le nœud v de T k dans l arbre non élagué Nombre d exemples de l ensemble d apprentissage mal classés par le nœud v de T k dans l arbre élagué à v Polytech Paris-SudDépartement informatique Formation par Apprentissage, 253ème / 74 a

26 Post-élagage Arbres de décision Positionnement du problème Algorithme Procédure élaguer (T max); k 0; T k T max ; tant que (T k a plus d un nœud) faire pour chaque (nœud v de T k ) faire Calculer le critère w(t k, v) sur l ensemble d apprentissage fin Choisir le nœud v m pour lequel le critère est minimum; T k+1 se déduit de T k en y remplaçant v m par une feuille; k k + 1 fin Tq Sur l ensemble des arbres {T max, T 1,..., T k,..., T n} choisir celui qui a la plus petite erreur en classification sur l ensemble de validation Polytech Paris-SudDépartement informatique Formation par Apprentissage, 263ème / 74 a

27 Arbres de décision Un exemple d élagage Positionnement du problème Les données Polytech Paris-SudDépartement informatique Formation par Apprentissage, 273ème / 74 a

28 Arbres de décision Un exemple d élagage Positionnement du problème L arbre de décision T max v 1 : X 1 > a faux v 2 : X 2 > c vrai v 3 : X 2 > b v 4 : X 2 > d Polytech Paris-SudDépartement informatique Formation par Apprentissage, 283ème / 74 a

29 Arbres de décision Positionnement du problème Un exemple d élagage L arbre de décision T max v 1 : X 1 > a faux v 2 : X 2 > c vrai v 3 : X 2 > b v 1 v 2 w(t max, v 1 ) = 9 0 5(5 1) = 9 20 w(t max, v 2 ) = 1 0 5(3 1) = 1 10 v 4 : X 2 > d v 3 v 4 w(t max, v 3 ) = 2 0 5(2 1) = 2 5 w(t max, v 4 ) = 1 0 5(2 1) = 1 5 Polytech Paris-SudDépartement informatique Formation par Apprentissage, 293ème / 74 a

30 Arbres de décision Positionnement du problème Un exemple d élagage L arbre de décision T 1 v 1 : X 1 > a faux vrai v 3 : X 2 > b Polytech Paris-SudDépartement informatique Formation par Apprentissage, 303ème / 74 a

31 Arbres de décision Positionnement du problème Un exemple d élagage L arbre de décision T 1 v 1 : X 1 > a faux vrai v 3 : X 2 > b v 1 v 3 w(t 1, v 1 ) = 9 1 3(3 1) = 4 3 w(t 1, v 3 ) = 2 0 3(2 1) = 2 3 Polytech Paris-SudDépartement informatique Formation par Apprentissage, 313ème / 74 a

32 Arbres de décision Positionnement du problème Un exemple d élagage L arbre de décision T 2 v 1 : X 1 > a faux vrai Polytech Paris-SudDépartement informatique Formation par Apprentissage, 323ème / 74 a

33 Arbres de décision Un exemple d élagage Positionnement du problème Choix de l arbre Choisir, à partir d un ensemble de validation, le meilleur arbre parmi T max, T 1 et T 2, c est-à-dire celui minimisant l erreur de classification. X 2 > d X 2 > c X 1 > a T max X 2 > b X 1 > a T 1 X 2 > b X 1 > a T 2 Polytech Paris-SudDépartement informatique Formation par Apprentissage, 33ème / 74 a

34 Arbres de décision Positionnement du problème Récapitulatif Pour résumer Méthode de référence en apprentissage supervisé Méthode très répandue, rapide et disponible (http :// quinlan) Méthode relativement sensible au bruit Polytech Paris-SudDépartement informatique Formation par Apprentissage, 343ème / 74 a

35 Données hiérarchiques Outline 1 Arbres de décision Objectifs Méthode Positionnement du problème 2 Données hiérarchiques Application au problème de l annotation des génomes Mesures d évaluation hiérarchiques 3 Arbres de décision probabilistes multi-labels Clus-HMC Algorithme 4 Boostrap, bagging et boosting Bootstrap Bagging Boosting 5 Random Forest Polytech Paris-SudDépartement informatique Formation par Apprentissage, 353ème / 74 a

36 Données hiérarchiques Données hiérarchiques Intérêt Pouvoir associer à une donnée une description plus ou moins fine en fonction des informations disponibles Pouvoir raisonner sur des données en regroupant les exemples par catégories Capacité de généralisation augmentée... Quelques exemples Structuration d une administration Classifications animales, végétales,... Classifications médicales Polytech Paris-SudDépartement informatique Formation par Apprentissage, 363ème / 74 a

37 Données hiérarchiques Application au problème de l annotation des génomes Annotation fonctionnelle des génomes Objectif Pouvoir annoter fonctionnellement chaque protéine d un génome Tâche souvent réalisée manuellement taille du génome : 2000 gènes durée 12 à 18 mois de travail pour une équipe de 3 à 4 annotateurs Utilisation de méthodes d apprentissage pour accélérer et systématiser l annotation : mise au point de systèmes d annotation semi-automatique Utilisation de classifications fonctionnelles de référence pour annoter les génomes : Funcat, Subtilist, GO,... Polytech Paris-SudDépartement informatique Formation par Apprentissage, 373ème / 74 a

38 Données hiérarchiques Application au problème de l annotation des génomes Classifications fonctionnelles biologiques (arborescentes) Subtilist, Multifun, Funcat Subtilist conçue pour l annotation de Bacillus subtillis, également utilisée pour annoter d autres génomes bactériens. Multifun conçue pour E.coli par M. Riley. Funcat FUNctionnal CATegories, utilisée pour la/les levure(s), gérée et exploitée au MIPS. Quelques chiffres Hiérarchie Profondeur # Classes # Classes principales Subtilist Multifun Funcat Polytech Paris-SudDépartement informatique Formation par Apprentissage, 383ème / 74 a

39 Données hiérarchiques Application au problème de l annotation des génomes Classifications fonctionnelles biologiques (DAG) Gene Ontology Mise au point par un consortium, plutôt à l initiative de bioinformaticiens. Besoin d un vocabulaire contrôlé. Conçue pour 3 génomes (levure, souris et drosophile), applicable à tous génomes. Composée de 3 ontologies : biological processes ( produits de gènes) cellular components ( produits de gènes) molecular functions ( produits de gènes) Polytech Paris-SudDépartement informatique Formation par Apprentissage, 393ème / 74 a

40 Données hiérarchiques Application au problème de l annotation des génomes Utilisation de ces classifications fonctionnelles Nature des données étiquetées Génomes bactériens, humain, souris,... Une protéine peut être étiquetée avec une ou plusieurs fonctions Si une protéine est étiquetée avec une classe x.y.z alors elle est aussi étiquetée avec les classes x.y et x qui sont plus générales. Soit R C (f 1, f 2, r) la relation de parenté (père-fils (r = asc) ou inversement (r = desc)) liant les classes f 1 et f 2 dans la classification C x tq classe(x) = {f i }, f j tq R h (f j, f i, asc) alors classe(x) = classe(x) {f j } Polytech Paris-SudDépartement informatique Formation par Apprentissage, 403ème / 74 a

41 Données hiérarchiques Hiérarchies fonctionnelles Application au problème de l annotation des génomes Différentes configurations pour un exemple donné Étude du cas le plus général Problème : comment évaluer les performances d un classifieur pour de telles données? Définition de nouvelles mesures adaptées aux classifications hiérarchiques Polytech Paris-SudDépartement informatique Formation par Apprentissage, 413ème / 74 a

42 Données hiérarchiques Mesures d évaluation hiérarchiques Mesures d évaluation hiérarchiques État de l art Re-définition des mesures classiques précision rappel F score Définition de nouvelles mesures hiérarchiques Polytech Paris-SudDépartement informatique Formation par Apprentissage, 423ème / 74 a

43 Données hiérarchiques Mesures d évaluation hiérarchiques Re-définition des mesures classiques Précision, rappel et F score hiérarchiques Hierarchical Text Categorization as a Tool of Associating Genes with Gene Ontology Codes, Kiritchenko et al., PKDD 04 Évaluation des prédictions selon 5 critères n : nombre d exemples à prédire n p : nombre d exemples ayant au moins une prédiction n p + : nombre de prédictions correctes np : nombre de prédictions incorrectes : nombre de prédictions oubliées n p Polytech Paris-SudDépartement informatique Formation par Apprentissage, 43ème / 74 a

44 Données hiérarchiques Mesures d évaluation hiérarchiques Précision, rappel et F score hiérarchiques Illustration (a) (b) (c) (d) (e) (a) n p + = 3, n p = n p = 0 (b) n p + = 0, np = 0 et np = 2 (c) n p + = np = np = 1 (d) n p + = 2, np = 1 et np = 0 (e) n p + = 2, np = 0 et np = 1 (a,b,c,d,e) n p = 4, n = 5 et pr = 4/5 Polytech Paris-SudDépartement informatique Formation par Apprentissage, 443ème / 74 a

45 Données hiérarchiques Mesures d évaluation hiérarchiques Précision, rappel et F score hiérarchiques Définitions Précision hiérarchique : hp = n+ p n + p +n p Rappel hiérarchique : hr = n+ p n + p +n p F score hiérarchique : hf score (β) = (β2 +1).hP.hR β 2.hP+hR Taux de prédiction : pr = np n Polytech Paris-SudDépartement informatique Formation par Apprentissage, 453ème / 74 a

46 Données hiérarchiques Mesures d évaluation hiérarchiques Définition de nouvelles mesures hiérarchiques Nouvelles mesures hiérarchiques Incremental Algorithms for Hierarchical Classification, N. Césa-Bianchi et al., JMLR 06 Définition d une mesure appelée : H-loss Définition Soit f(x) = {f i } l ensemble des classes de x et f(x) = { f i } l ensemble des classes prédites pour x } l C ( f(x), f(x)) = { fi f i f i et j tq R C (f j, f i, asc) et R C (f j, f i, asc) i puis pondération des erreurs en fonction du niveau auquel elles apparaissent Polytech Paris-SudDépartement informatique Formation par Apprentissage, 463ème / 74 a

47 H-loss Données hiérarchiques Mesures d évaluation hiérarchiques Illustration (a) (b) (c) (d) (e) (a) l C ( b f(a), f(a)) = (b) b f(b) = (c) l C ( b f(c), f(c)) = {2.4} (d) l C ( b f(d), f(c)) = {3.5.2} (e) l C ( b f(e), f(c)) = (a,b,c,d,e) l C ( b f(a, b, c, d, e), f(a, b, c, d, e)) = {2.4, 3.5.2} Polytech Paris-SudDépartement informatique Formation par Apprentissage, 473ème / 74 a

48 Données hiérarchiques Mesures d évaluation hiérarchiques Autres mesures Biblio Hierarchical Text Classification and Evaluation, A. Sun and E.-P. Lim, ICDM 01 Relaxed Precision and Recall for Ontology Matching, M. Ehrig Learning with Taxonomies : Classifying Documents and Words, T. Hofmann, L. Cai and M. Ciaramita, NIPS Polytech Paris-SudDépartement informatique Formation par Apprentissage, 483ème / 74 a

49 Arbres de décision probabilistes multi-labels Outline 1 Arbres de décision Objectifs Méthode Positionnement du problème 2 Données hiérarchiques Application au problème de l annotation des génomes Mesures d évaluation hiérarchiques 3 Arbres de décision probabilistes multi-labels Clus-HMC Algorithme 4 Boostrap, bagging et boosting Bootstrap Bagging Boosting 5 Random Forest Polytech Paris-SudDépartement informatique Formation par Apprentissage, 493ème / 74 a

50 Arbres de décision probabilistes multi-labels Arbres de décision multi-labels Différentes approches C4.5 : un arbre par classe et recombinaison des arbres. C4.5H : Entropie généralisée à la notion de hiérarchie pour C4.5, A. Clare Clus-HMC : Decision Trees for Hierachical Multilabel Classification : A Case Study in Functional Genomics, H. Blockeel et al., PKDD 06 Polytech Paris-SudDépartement informatique Formation par Apprentissage, 503ème / 74 a

51 Arbres de décision probabilistes multi-labels Clus-HMC Apprentissage d arbres de décision probabilistes multi-labels Apprentissage de type attribut-valeur Entrée : Une hiérarchie fonctionnelle Un ensemble d exemples étiquetés avec cette hiérarchie Sortie : Un arbre de décision permettant de prédire plusieurs classes d une hiérarchie fonctionnelle pour un exemple À chaque classe est associée une probabilité Polytech Paris-SudDépartement informatique Formation par Apprentissage, 513ème / 74 a

52 Arbres de décision probabilistes multi-labels Clus-HMC Représentation des données Exemple. Soit la hiérarchie suivante : 1 (1) 2 (2) 3 (3) 2.1 (4) 2.2 (5) L exemple appartenant aux classes 1 et 2.2 est donc représenté par le vecteur : (1) (2) (3) (4) (5) {1, 1, 0, 0, 1} Polytech Paris-SudDépartement informatique Formation par Apprentissage, 523ème / 74 a

53 Clus-HMC Arbres de décision probabilistes multi-labels Algorithme Algorithme Fonction Clus-HMC(T : arbre) : arbre Variables : t, h, P début (t, h, P ) = (none,, ) pour chaque (test possible t) faire P = partition induite par t sur T h = P T k T Var(T k) fin T k P si (h < h acceptable(t, P)) alors (t, h, P ) = (t, h, P) fin si (t none) alors pour chaque (T k P ) faire tree k = Clus-HMC(T k ) retourner nœud (t, {tree k }) k sinon retourner feuille (bv) fin Si Polytech Paris-SudDépartement informatique Formation par Apprentissage, 53ème / 74 a

54 Arbres de décision probabilistes multi-labels Algorithme Clus-HMC : Heuristique, test,... calcul de h = T k P Var(T k ) = x i T k avec T k T Var(T k) dist(x i,bx Tk ) x i x Tk = vecteur moyen sur T k dist(x i, x Tk ) = w j ( x i (j) x Tk (j) ) 2 { j xi (j) : j eme valeur du vecteur x i où w j = w profondeur(c j) 0 Pondération de la variance de chaque partie de P par le cardinal de la partie T k divisé par le cardinal de T. Plus T k contient d exemples et plus son poids est important. Polytech Paris-SudDépartement informatique Formation par Apprentissage, 543ème / 74 a

55 Arbres de décision probabilistes multi-labels Algorithme Clus-HMC : Heuristique, test,... Qu est ce qu un test acceptable? Critères définissant l acceptabilité d un test : Nombre minimum d exemple dans une feuille. Réduction significative de la variance (utilisation d un F-test). Polytech Paris-SudDépartement informatique Formation par Apprentissage, 553ème / 74 a

56 Arbres de décision probabilistes multi-labels Algorithme Clus-HMC : Que contiennent les feuilles? Les feuilles de l arbre Classiquement : classe majoritairement représentée Ici : v = {p(c i ) 1 i n, p(c i ) : proba d observer c i } Prédiction Dépend de seuils t i Si p(c i ) t i alors classe c i associée à l exemple Contraintes sur les seuils afin de préserver les propriétés de la classification : i, j tq c i h c j, t i t j. Donc si la classe c j est prédite pour un exemple, alors la classe c i (plus générale que c j ) sera aussi prédite. Polytech Paris-SudDépartement informatique Formation par Apprentissage, 563ème / 74 a

57 Arbres de décision probabilistes multi-labels Clus-HMC : un exemple Algorithme Portion d arbre appris sur un génome de l INRA : Lactobacillus sakei Polytech Paris-SudDépartement informatique Formation par Apprentissage, 573ème / 74 a

58 Boostrap, bagging et boosting Outline 1 Arbres de décision Objectifs Méthode Positionnement du problème 2 Données hiérarchiques Application au problème de l annotation des génomes Mesures d évaluation hiérarchiques 3 Arbres de décision probabilistes multi-labels Clus-HMC Algorithme 4 Boostrap, bagging et boosting Bootstrap Bagging Boosting 5 Random Forest Polytech Paris-SudDépartement informatique Formation par Apprentissage, 583ème / 74 a

59 Bootstrap Boostrap, bagging et boosting Bootstrap Citation [Wikipedia] En anglais, le bootstrapping fait référence aux aventures du baron de Münchhausen, lequel est censé s être sorti d un marécage où il était embourbé rien qu en se tirant par les bottes et se propulsant ainsi dans les airs. Les bootstraps sont les anneaux, en cuir ou en tissu, cousus sur le rebord des bottes et dans lesquels on passe les doigts pour s aider à les enfiler. Polytech Paris-SudDépartement informatique Formation par Apprentissage, 593ème / 74 a

60 Boostrap, bagging et boosting Bootstrap Bootstrap Intérêt Utile lorsque trop ou trop peu d exemples sont disponibles trop d exemples : temps de calcul du modèle élevé trop peu d exemples : difficile d apprendre un modèle fiable Permet d apprendre plusieurs modèles dont la combinaison s avère plus fiable que des modèles séparés Il est théoriquement prouvé et empiriquement vérifié que l estimation du risque empirique est nettement meilleure avec une approche bootstrap Polytech Paris-SudDépartement informatique Formation par Apprentissage, 603ème / 74 a

61 Bootstrap Boostrap, bagging et boosting Bootstrap Principe Soit D le jeu de données utilisé 1 Construire D b, l échantillon bootstrap de D par tirage avec remise de n exemples dans D. En moyenne, 37% des exemples de D appartiennent à D b. 2 Utiliser D b pour apprendre un modèle Soit P 1 l erreur observée sur D D b. Soit P 2 l erreur observée sur D 3 Itérer le processus k fois 4 Soit P 1 la moyenne des erreurs P 1 (idem pour P 2 ) 5 Calculer l estimation du risque réel R reel = P P 2 Pour des grandes valeurs de k, l estimation du risque réel s avère très précise (problème : apprendre k modèles) Polytech Paris-SudDépartement informatique Formation par Apprentissage, 613ème / 74 a

62 Boostrap, bagging et boosting Bagging Bagging Intérêt Utile si le ou les algorithmes d apprentissage utilisés sont instables Un algorithme d apprentissage est considéré comme instable si une faible variation de l ensemble d apprentissage entraine une large variation des classifications Quelques exemples d algorithmes stables et instables Algorithmes stables : k-plus proches voisins Algorithmes instables : réseaux de neurones, arbres de décision Polytech Paris-SudDépartement informatique Formation par Apprentissage, 623ème / 74 a

63 Boostrap, bagging et boosting Bagging Bagging Principe Bootstrap aggregating Soit D le jeu de données utilisé Apprendre B modèles à partir d échantillons bootstrap D b de D Chaque modèle obtenu est noté h b. La combinaison des modèles obtenus, H, est utilisée pour prédire la classe d un nouvel exemple Polytech Paris-SudDépartement informatique Formation par Apprentissage, 63ème / 74 a

64 Bagging Boostrap, bagging et boosting Bagging Différentes combinaisons Si la prédiction est numérique (distance à un hyperplan par B exemple) : H(x) = 1 B h b (x) b=1 Si la prédiction est symbolique (classes de x par exemple) : Chaque classifieur vote pour chaque classe (les votes peuvent être pondérés) La ou les classes majoritaires l emportent Une probabilité peut être affectée à chaque classe Polytech Paris-SudDépartement informatique Formation par Apprentissage, 643ème / 74 a

65 Boostrap, bagging et boosting Bagging Bagging Résultats Algorithmes d apprentissage instables Amélioration de la qualité des prédictions Réduction de la variance sans modifier les biais d apprentissage Algorithmes d apprentissage stables En général, dégradation les performances Polytech Paris-SudDépartement informatique Formation par Apprentissage, 653ème / 74 a

66 Boostrap, bagging et boosting Boosting Boosting Principe Y. Freund and R. Schapire, 1999 Famille de méthodes permettant d accélérer un algorithme d apprentissage AdaBoost (problèmes à deux classes) AdaBoost.M1, AdaBoost.M2 (problèmes multi-classes) AdaBoostR (régression) L idée de base est de booster un algorithme d apprentissage faible Un algorithme d apprentissage faible étant par exemple, un algorithme produisant un ensemble de règles à peine meilleures qu une prédiction aléatoire Polytech Paris-SudDépartement informatique Formation par Apprentissage, 663ème / 74 a

67 Boostrap, bagging et boosting Boosting Boosting Principe Apprentissage de plusieurs classifieurs L ensemble d apprentissage d un classifieur à l étape t dépend des performances des classifieurs obtenus aux étapes 1,..., t 1 Les exemples difficiles à classer sont choisis plus fréquemment que les exemples aisément classifiables Le classifieur peut alors se focaliser sur les exemples difficiles Polytech Paris-SudDépartement informatique Formation par Apprentissage, 673ème / 74 a

68 Boostrap, bagging et boosting Boosting Boosting AdaBoost Soit D un ensemble d apprentissage ayant N exemples À chaque itération, t = 1,...,T, l exemple i a un poids w t (i) tel que i D, w 1 (i) = 1 N Apprentissage de T classifieurs Le classifieur final H est obtenu en combinant les T classifieurs par bagging Polytech Paris-SudDépartement informatique Formation par Apprentissage, 683ème / 74 a

69 Boostrap, bagging et boosting Boosting AdaBoost Boosting Détail d une itération 1 Apprendre un classifieur h t à partir des exemples pondérés avec les poids w t (i) 2 taux d erreur de h t : ǫ t = P w t (i)[h t (i) y i ] i D 3 si (ǫ t 0) et(ǫ t < 0.5) alors choisir α t R généralement α t = 1 1 ǫt 2ln ǫ t 4 Mise à jour des poids : w t+1 (i) = w t(i)e α t y i h t (i) Z t Z t est un facteur de normalisation tel que w t+1 (i) = 1 i La mise à jour des poids est telle que { e α t y i h t(i) < 1 si y(i) = h t (i) e αt y i h t(i) > 1 si y(i) h t (i) Polytech Paris-SudDépartement informatique Formation par Apprentissage, 693ème / 74 a

70 Boostrap, bagging et boosting Boosting AdaBoost Boosting Classifieur résultant obtenu par bagging Vote pondéré : chaque classifieur h t vote pour les classes qu il prédit. Le poids des votes de h t est α t Somme pondérée ( (problèmes à deux classes) : T ) H(i) = sign α t h t (i) t=1 Polytech Paris-SudDépartement informatique Formation par Apprentissage, 703ème / 74 a

71 Random Forest Outline 1 Arbres de décision Objectifs Méthode Positionnement du problème 2 Données hiérarchiques Application au problème de l annotation des génomes Mesures d évaluation hiérarchiques 3 Arbres de décision probabilistes multi-labels Clus-HMC Algorithme 4 Boostrap, bagging et boosting Bootstrap Bagging Boosting 5 Random Forest Polytech Paris-SudDépartement informatique Formation par Apprentissage, 713ème / 74 a

72 Random Forest Random Forest Généralités Apprentissage d un ensemble d arbres de décision Combinaison des prédictions de l ensemble des arbres appris pour prédire la (ou les) classes d un exemple Initialement proposé par T.K. Ho en 1995 Popularisé par L. Breiman et A. Cutler Polytech Paris-SudDépartement informatique Formation par Apprentissage, 723ème / 74 a

73 Random Forest Random Forest Principe Soit D les données étudiées contenant N exemples décrits par M descripteurs Création d un échantillon bootstrap D b de taille N à partir de D Apprentissage d un arbre de décision sur D b Choix du nombre de descripteurs m M utilisés à chaque nœud pour choisir le meilleur test Pour chaque nœud de l arbre, choisir aléatoirement m descripteurs parmi M pour déterminer le meilleur test (tirage sans remise) Itérer le processus K fois Aucun des arbres obtenus n est élagué Polytech Paris-SudDépartement informatique Formation par Apprentissage, 73ème / 74 a

74 Random Forest Random Forest Avantages Pour de nombreux jeux de données, le classifieur résultant fournit des prédictions de meilleure qualité Permet de gérer des jeux de données ayant de très nombreux descripteurs Permet de déterminer l importance des descripteurs dans le processus de classification (sélection d attributs) Réduction du temps d apprentissage... Polytech Paris-SudDépartement informatique Formation par Apprentissage, 743ème / a