Machine Learning Option : Ouverte Recherche Big data

Transcription

1 /1 Option : Ouverte Recherche Big data Alexandre Aussem Département Informatique - Polytech Lyon Université Claude Bernard Lyon 1 Web : perso.univ-lyon1.fr/alexandre.aussem 16h CM, 16h TD 2 octobre 2015

2 2/1 Plan 1 Introduction à l apprentissage numérique 2 Evaluation d un classifieur 3 Principe de la classification supervisée 4 Classification multi-classe 5 Classification multi-label 6 Méthodes de classification Classifieur bayésien naïf Arbres de décision Apprentissage par mesure de similarité SVM 7 Approches ensemblistes Méthodes ensemblistes Forêt aléatoire Boosting 8 Comparaison des classifieurs 9 Réseaux Bayésiens

3 Introduction à l apprentissage numérique 3/1 Plan 1 Introduction à l apprentissage numérique 2 Evaluation d un classifieur 3 Principe de la classification supervisée 4 Classification multi-classe 5 Classification multi-label 6 Méthodes de classification Classifieur bayésien naïf Arbres de décision Apprentissage par mesure de similarité SVM 7 Approches ensemblistes Méthodes ensemblistes Forêt aléatoire Boosting 8 Comparaison des classifieurs 9 Réseaux Bayésiens

4 4/1 Introduction à l apprentissage numérique Introduction L apprentissage numérique (ou statistique) fait référence au développement, à l analyse et à l implémentation de méthodes statistiques qui permettent à une machine d apprendre à remplir une tâche à partir d exemples Il est difficile voire impossible de remplir ces tâches par des moyens algorithmiques plus classiques. Exemples de tâches : reconnaissance de formes ou de signaux, prévision, diagnostic, détection, prise de décision en environnement complexe, incertain et évolutif.

5 5/1 Introduction à l apprentissage numérique Introduction Ses applications sont multiples dans le monde de la production industrielle (aide à la conception de produits, maintenance préventive, robotique, planification d expériences), dans le domaine de la biologie et de la santé (aide à la découverte de médicaments, aide au diagnostic, bioinformatique), en télécommunications, en marketing et finance etc. Ce module aborde les fondements théoriques de l apprentissage numérique et offre de solides bases méthodologiques à tout ingénieur ou chercheur soucieux d exploiter ses données.

6 6/1 Introduction à l apprentissage numérique Applications nouvelles La publicité en ligne (ads) se fait généralement sous forme de campagne publicitaire, grâce à la diffusion de bandeaux publicitaires ou de liens sponsorisés. Les régies publicitaires sont les intermédiaires entre les annonceurs (souhaitant diffuser une campagne publicitaire) et les éditeurs (propriétaires de sites). Il existe différents modes de rémunération : CPC (Coût par clic), CPM (Coût par mille), CPS (Cost per Sale). Enjeu : comment trouver en temps réel le best match entre utilisateur, publicité et contexte? Le contexte = requête sur un moteur de recherche, lecture d une page web, interaction avec un mobile etc. But : predire l impact de la publicité sur le comportement de l usager. Marché de 28 milliards de dollars en 2011.

7 7/1 Introduction à l apprentissage numérique Applications nouvelles Kinect est un périphérique destiné à la console de jeux vidéo Xbox 360 permettant de contrôler des jeux vidéo sans utiliser de manette. Elle utilise une technologie 3D depth sensor (capteur de profondeur/distance 3D). C est un émetteur de lumière infrarouge, une partie de ces rayonnements est réfléchie. La lampe infrarouge projette ses rayons sur la scène, la caméra infrarouge filme cette scène et une puce traite les données afin d estimer la distance de chaque objet par rapport à la caméra. Il y a un processus d apprentissage statistique pour reconnaître la silhouette du joueur et les différents points de motion control et anticiper sa dynamique.

8 8/1 Introduction à l apprentissage numérique Applications nouvelles Des applications mobiles de santé ont vu le jour, permettant de conseiller les patients et apporter des conseils personnalisés à tous ceux qui ont du mal à joindre un médecin, par ex. Alerte Fièvre est capable de recommander la prise de médicaments pour lutter contre la fièvre et de proposer la dose adaptée au profil du patient. Un arbre de décision permet de savoir s il est nécessaire de consulter un médecin en fonction de divers paramètres (intensité de la fièvre, antécédents, réaction aux prises de médicaments). Google se lance également dans le diagnostic médical. Un internaute qui entre des symptômes dans la version anglophone du moteur de recherche se voit désormais proposer une liste de pathologies pouvant correspondre à son cas.

9 9/1 Introduction à l apprentissage numérique Applications nouvelles Réseaux sociaux et web marketing : L analyse de réseaux sociaux comme Facebook ou Twitter est un domaine de recherche maintenant établi. De nombreuses techniques existent pour identifier des communautés d utilisateurs en se basant sur leur relations explicites (amitiés, etc.), et sur la dynamique temporelle et le contenu des échanges (posts). Les données transitant sur les réseaux sociaux permettent des usages variés : compréhension les attitudes, les opinions, les tendances, la fiabilité ou la capacité d influence des utilisateurs, identification des menaces sur la réputation en ligne, prédiction du comportement des utilisateurs et améliorer leur satisfaction en recommandant les meilleures options à prendre, création de campagnes et de promotions personnalisées résonnant auprès des communautés de chaque réseau.

10 10/1 Introduction à l apprentissage numérique Terminologie Quelques synomymes : Apprentissage machine (), Apprentissage statistique (Statistical Learning), Extraction de connaissance à partir de données (Knowledge Discovery in Databases), Reconnaissance de formes (Pattern Recognition), Fouille de données (Data mining),

11 11/1 Introduction à l apprentissage numérique Illustration : Reconnaissance de chiffres manuscrits

12 12/1 Introduction à l apprentissage numérique Individus/attributs Le KDD, c est tout le cycle de découverte d information. Dans ce cours, on ne s intéresse pas à la conception des entrepots et à l accès aux données, mais aux algorithmes numériques pour en extraire de l information. On se donne un tableau X = {x ij } i = 1,..., n décrit les individus, instances ou enregistrements, j = 1,..., m décrit les champs, attributs ou variables du domaine. Les données peuvent être discrètes énumératives (e.g. couleur, code postal etc.), discrètes ordonnées (e.g. classe de salaire ou d âge etc.) ou continues. Prétraitement nécessaire pour l extraction de features dans les données structurées : image, son, video, texte, XML etc.

13 13/1 Introduction à l apprentissage numérique Problématiques en apprentissage (non temporel) 1 Apprentissage supervisé : attribuer une classe, (t N), à partir de données déjà étiquetées. Variantes : multi-class et multi-label classification, ranking. 2 Apprentissage semi-supervisé : attribuer une classe (t N) aux observations (symptômes) à partir de données étiquetées et non étiquetées. 3 Apprentissage non supervisé : former des groupes (clusters) homogènes à l intérieur d une population non étiquetée. 4 Apprentissage par renforcement : trouver à chaque instant l action qui maximise la somme des récompenses futures. Dans le cas de la régression, la valeur cible est réelle (t R).

14 14/1 Introduction à l apprentissage numérique Example : Image annotation/retrieval

15 15/1 Introduction à l apprentissage numérique Multi-label learning

16 16/1 Introduction à l apprentissage numérique Multivariate prediction

17 17/1 Introduction à l apprentissage numérique Label ranking

18 18/1 Introduction à l apprentissage numérique Multi-task learning

19 19/1 Introduction à l apprentissage numérique Collaborative filtering

20 20/1 Introduction à l apprentissage numérique Dyadic prediction

21 21/1 Introduction à l apprentissage numérique Les problèmes multi target Multi-label classification Multivariate regression / Multi-output regression Structured output prediction Multi-task learning and transfer learning dyadic prediction Label ranking Matrix factorization and collaborative filtering methods Recommender systems Sequence learning, time series prediction and data stream mining...

22 22/1 Introduction à l apprentissage numérique Outils logiciels

23 Introduction à l apprentissage numérique Apprentissage supervisé Formellement, étant donné un échantillon i.i.d. de n exemples D = (x 1, t 1 ),..., (x n, t n ) selon la distribution p(x, t) (inconnue) sur X T, avec X un espace à d dimensions prenant ses valeurs dans R d, ainsi que T la variable à prédire. L objectif de l apprentissage est d inférer une hypothèse y(., w) : X T à partir de D qui minimise : Erreur de généralisation ou erreur théorique : E(w) = E[L(y(X, w), T )] = L(y(x, w), t)p(x, t)dxdt 3/1 L( ) est la fonction de coût et E[ ] l espérance mathématique calulée sur X et T.

24 24/1 Introduction à l apprentissage numérique Fonctions d erreur classiques En régression, typiquement, L( ) est l erreur quadratique. On cherche donc à minimiser la fonction coût des moindres carrés : E[L(y(X, w), t)] = (y(x, w) t) 2 p(x, t)dxdt En classification, typiquement, L( ) est le taux d erreur. On cherche donc à minimiser : E[L(y(X, w), t)] = P (X,T ) [y(x, w) T ] = I[y(x, w) t]p(x, t)dx t

25 5/1 Introduction à l apprentissage numérique Autres fonctions d erreur... La fonction coût des moindres carrés n est pas la seule fonction coût en régression. Elle est inadaptée dans le cas où p(t x) est multimodale. La fonction coût de Minkowski est donnée par E[L(y(X, w), t)] = y(x, w) t q p(x, t)dxdt On montre que la solution optimale, ŷ(x), est donnée par, L espérance conditionnelle, E[t x], pour q = 2. La médiane de la distribution conditionnelle p(t x) pour q = 1. Le mode de la distribution conditionnelle p(t x) lorsque q 0.

26 26/1 Introduction à l apprentissage numérique Moindres carrés t y(x) y(x 0 ) p(t x 0 ) x 0 x La solution optimale, ŷ(x), est donnée par l espérance conditionnelle, E[t x], pour q = 2.

27 27/1 Introduction à l apprentissage numérique Erreur empirique L erreur théorique E(w) est impossible à calculer de façon exacte car la distribution p(x, t) est inconnue. Or on peut appliquer l approximation suivante, E[f (X)] = f (x)p(x)dx 1 n n f (x j ) Donc à défaut de minimiser l erreur théorique, on cherche une hypohèse y(., w) qui minimise : Erreur empirique : j=1 Ê(w) = 1 n n L(y(x j, w), t j ) j=1

28 8/1 Introduction à l apprentissage numérique Problème de dimensionnalité Chercher la meilleure décision t à partir d une observation x est un problème de décision optimale dans un univers incertain. La distribution conjointe p(t x) fournit toute la connaissance de l incertitude associée à la cible sachant les variables descriptive. L estimation de p(t x) (et à fortiori de p(t, x)) est un problème ardû en grande dimension. Elle se heurte au Pb du cours de la dimensionnalité (curse of dimensionality). D où la nécessité d utiliser un modèle paramétrique qui va lisser les valeurs de y dans l espace des x

29 29/1 Introduction à l apprentissage numérique Problème de dimensionnalité x 2 x 2 x 1 D = 1 x 1 D = 2 x 1 x 3 D = 3

30 Introduction à l apprentissage numérique Problème de dimensionnalité 2 1 D = 20 D = 1 volume fraction D = 5 D = 2 D = 1 p(r) 1 D = 2 D = ɛ r 0/1 Gauche : fraction de volume d une sphère entre 1 ɛ et 1 en fonction de la dimension D. Droite : densité de probabilité d une gaussienne en fonction du rayon.

31 31/1 Introduction à l apprentissage numérique Classification binaire supervisée Nombre de problèmes pratiques peuvent être traités par l apprentissage d un ou plusieurs classifieurs binaires. L objectif de la classification supervisée est d inférer une fonction f : X { 1, +1} à partir de D telle que l erreur en généralisation P (X,T ) [f (X, w) T ] soit aussi faible que possible. Il arrive souvent que la sortie de f : X R soit interprété comme une degré d appartenance à la classe +1 auquel cas il faut appliquer un seuil θ en sortie. Un classifeur probabiliste estime en sortie P(t = 1 x), mais une calibration des probabilités est souvent nécessaire à l issue de l apprentissage.

32 32/1 Introduction à l apprentissage numérique Choix du modèle y(x, w) est généralement paramétrée par w dont la taille mémoire est intimement liée à la complexité du modèle, mais il existe des approches non paramétriques (e.g., plus proche voisin). Les modèles les plus couramment utilisés sont présentés : réseaux de neurones (ANN), machines à vecteurs supports (SVM), arbres de décisions (DT), réseau bayésien naïf (NB), régression logistique (LR), k plus proches voisins (KNN), méthodes ensemblistes, etc. Tous ces algorithmes abordent généralement le problème de manière différente et ont chacun leurs propres fondements théoriques.

33 33/1 Introduction à l apprentissage numérique Illustration en régression polynomiale t x 1 y(x, w) = w 0 + w 1 x + w 2 x w M x M = M j=0 w jx j

34 Introduction à l apprentissage numérique Erreur empirique t t n y(x n, w) x n x On estime l erreur théorique par l erreur empirique : 34/1 Ê(w) = 1 N N {y(x n, w) t n } 2 n=1

35 35/1 Introduction à l apprentissage numérique Polynôme d ordre 0 t 1 M = x 1

39 Introduction à l apprentissage numérique Polynôme d ordre 9 39/1 On observe que w j quand M.

40 40/1 Introduction à l apprentissage numérique Sur-apprentissage 1 Training Test ERMS M 6 9

41 1/1 Introduction à l apprentissage numérique Régularisation Idée : Pénaliser les larges valeurs des coeffcients, Ê(w) = 1 2 M {f (x n, w) t n } 2 + λ 2 w 2 n=1 λ réalise un compromis entre flexibilité et complexité du modèle. On parle aussi de compromis biais-variance où le biais est l erreur systématique du modèle et la variance est mesure l incertitude du modèle par rapport aux variations de l échantillon.

42 42/1 Introduction à l apprentissage numérique Régularisation ln λ = 18 t 1 ln λ = x 1

43 43/1 Introduction à l apprentissage numérique Régularisation ln λ = 0 t 1 ln λ = x 1

44 44/1 Introduction à l apprentissage numérique Régularisation : E RMLS vs. ln λ 1 Training Test ERMS ln λ 25 20

45 45/1 On observe que la magnitude des w j décroît à mesure que λ augmente. Introduction à l apprentissage numérique Polynôme d ordre 9

46 46/1 Introduction à l apprentissage numérique Dilemme biais-variance En régression, on suppose que y = f (x, w) + ɛ où ɛ est un bruit gaussien de variance σ 2. L erreur quadratique théorique E[w] se décompose alors : E[w] = = + (f (x, w) y) 2 f X,Y (x, y)dxdy (f (x, w) E[y x]) 2 f X,Y (x, y)dxdy (E[y x] y) 2 f Y /X (y)dxdy avec E[t x] = tp(t x))dt, la meilleure prédiction possible. Le terme (E[y x] y) 2 f Y /X (y)dxdy = σ 2 est le bruit. Il est par définition irréductible.

47 47/1 Introduction à l apprentissage numérique Dilemme biais-variance Le modèle f (x, w) est dépendant de D. On montre en moyennant sur D que E D [(f (x, w) E[y x]) 2 ] = (E D [(f (x, w)] E[y x]) 2 + E D [(f (x, w) E D [(f (x, w)]) 2 ] Au final, on obtient la décomposition : Erreur = (biais) 2 + variance + bruit Conclusion : il faut chercher un compromis entre biais (modèle trop simple) et variance (modèle trop paramétré).

48 48/1 Introduction à l apprentissage numérique Décomposition biais-variance en fonction de ln λ t 1 ln λ = 2.6 t x 1 0 x 1

51 51/1 Introduction à l apprentissage numérique Compromis biais-variance (bias) 2 variance (bias) 2 + variance test error ln λ Un modèle trop régularisé model est très biaisé, tandis qu un modèle pas assez régularisé a une grande variance.

52 52/1 Introduction à l apprentissage numérique Dilemme biais-spread en classification Le modèle f (x, w) est dépendant de D. On montre en moyennant sur D que E D [P(Y f (X, w))] = 1 P(j X ) + E X [(P(j X ) P(ĵ X ))P(ĵ f, X )] + E X [ ((P(j X ) P(j X ))P(j f, X ))] j ĵ avec les notations P(j f, x)) = P D (f (x, w) = j X = x)) P(j x)) = P(Y = j x)) j (x) = argmaxp(j x) j ĵ(x) = argmaxp(j f, x) j

53 53/1 Introduction à l apprentissage numérique Dilemmes biais-spread et biais-variance Au final, on obtient les décompositions Dilemme biais-variance en régression Erreur = (biais) 2 + variance + bruit Dilemme biais-spread en classification Erreur = biais + spread + erreur bayésienne Le spread est l équivalent de la variance en régression. Le bruit et l erreur bayésienne sont irréductibles. L enjeu est dimininuer conjointement biais et variance (ou biais et spread).

54 54/1 Introduction à l apprentissage numérique Théorie de la décision On a vu que les probabilité fournissent un cadre mathématique pour quantifier et manipuler l incertitude. Comment en déduire des décisions quant à la classe? La distribution p(x, t) résume entièrement l incertitude associée à ces variables. Mais déterminer p(x, t) à partir d une base d apprentissage est une tâche d inférence ardue. On cherche une règle qui assigne une classe à chaque valeur du vecteur d entrée x. Cette règle divise l espace d entrée en régions de décision R k de sorte que tous les points de R k se voient assignés la classe C k. Les frontières (ou surfaces) de décision séparent ces regions.

55 55/1 Introduction à l apprentissage numérique Minimiser le taux d erreur Lorsque p(x, y) est connue, avec y {C 1,..., C K }, le problème de la décision optimale devient trivial. D après le théorème de Bayes : p(c k x) = p(x C k)p(c k ) p(x) L a posterori la vraisemblance l a priori Décider revient à chercher k tq p(c k x) > p(c j x), j k. On définit donc des régions R k = {x p(c k x) > p(c j x), j k} Décision : si x est dans R k, alors on décide que t C k

56 56/1 Introduction à l apprentissage numérique Minimiser le taux d erreur On a clairement p(c k x) > p(c j x) équivalent à p(x C k )p(c k ) > p(x C j )p(c j ) Donc au lieu d estimer p(c k x), on estime p(x C k ) et p(c k ) pour k = 1,..., Nbclasses

57 57/1 Introduction à l apprentissage numérique Erreur de classification minimale x 0 x p(x, C 1 ) p(x, C 2 ) x R 1 R 2

58 Introduction à l apprentissage numérique Minimiser le coût moyen 8/1 La probabilité de commettre une erreur, dans le cas de deux classes, est P(erreur) = p(x, C 1 )dx + p(x, C 2 )dx R 2 R 1 Dans le cas généréral, on peut définir une matrice de coûts L kj lorsqu on assigne x à C j alors que x C k. On montre que E(L) = L kj p(x, C k )dx k j R j Le but est de minimiser E(L). Pour cela, il faut chercher les régions R j qui minimisent k L kjp(x, C k ) A un nouveau x, on associe la classe j telle que k L kjp(x, C k ) est minimale.

59 Introduction à l apprentissage numérique Région de rejet 1.0 θ p(c 1 x) p(c 2 x) 0.0 reject region x 59/1 Taux de rejet : si max k p(c k x) < θ, on rejette x sinon on le classe.

60 60/1 Introduction à l apprentissage numérique Inférence & décision On identifie 3 approches distinctes pour résoudre les problèmes de décision. Dans l ordre décroissant complexité 1 Modèles génératifs : Apprendre p(x C k ) pour en déduire p(c k x) avec les probabilités a priori p(c k ) par la règle de Bayes. Cela revient de façon équivalente à inférer p(x, C k ). 2 Modèles discriminatifs : Inférer directement p(c k x) et utilisent la théorie de la décision pour assigner la classe C k à x. 3 Modèles non probabilistes : ils assignent directement la classe sans référence aux probabilités.

61 61/1 Introduction à l apprentissage numérique Inférence & décision Avantages et inconvénient : 1 Modèles génératifs : approximer p(x C k ) nécessite beaucoup d exemples, mais permet de calculer p(x) (et ses marginales) p(x) = k p(x C k )p(c k ) Très utile pour la détection de données aberrantes (outlier detection) et la détection de nouveauté (novelty detection) pour lesquels p(x) est anormalement faible selon le modèle. 2 Modèles discriminatifs : Tâche moins complexe. Les distributions conditionnelles des classes contiennent parfois des structures inutiles pour le calcul des probabilités a posteriori. 3 Modèles non probabilistes : Simple et efficace mais nécessite un ré-apprentissage si la matrice de coût change.

62 62/1 Introduction à l apprentissage numérique Illustration 5 4 p(x C 2) p(c 1 x) p(c 2 x) class densities 3 2 p(x C 1) x x

63 63/1 Introduction à l apprentissage numérique Illustration : classifieur probabiliste

64 Evaluation d un classifieur 64/1 Plan 1 Introduction à l apprentissage numérique 2 Evaluation d un classifieur 3 Principe de la classification supervisée 4 Classification multi-classe 5 Classification multi-label 6 Méthodes de classification Classifieur bayésien naïf Arbres de décision Apprentissage par mesure de similarité SVM 7 Approches ensemblistes Méthodes ensemblistes Forêt aléatoire Boosting 8 Comparaison des classifieurs 9 Réseaux Bayésiens

65 65/1 Evaluation d un classifieur Sélection de modèle et généralisation En pratique, pour contrôler le risque de sur-apprentissage, on décompose la base de données D en 3 sous-bases Une base d apprentissage pour ajuster les paramètres du modèle, Une base de validation pour comparer les modèles entre eux ou ajuster la taille du modèle (ou choisir un modèle) en estimant l erreur de généralisation sur cette base. Une base de test pour évaluer objectivement l erreur réelle.

66 Evaluation d un classifieur Validation croisée Lorsqu on ne dispose pas suffisamment de données, on peut utiliser la technique de la validation croisée pour estimer l erreur de généralisation du modèle : On découpe D en n parties disjointes égales D j Pour j = 1 à n : On ajuste les paramètres du modèle sur D D j et on calcule l erreur E j sur D j On retourne une estimation de l erreur réelle E = 1 n E j 6/1

67 67/1 Evaluation d un classifieur Problème de dimensionnalité run 1 run 2 run 3 run 4

68 68/1 Evaluation d un classifieur Evaluation d un classifieur Pour mesurer les performances d un classifieur, plusieurs critères existent. Ils reposent sur la table de contingence (confusion matrix) : Positif Négatif Prédiction positive TP FP Prédiction négative FN TN Attention, les critère de performance varient avec le taux de positifs (prévalence de la maladie). Un classifieur stupide fait mieux que 50% de réussite dans des données non équilibrées (imbalanced data sets). La fonction coût est souvent asymétrique, elle dépend de l application. C est la fonction coût qu on veut minimiser.

69 Evaluation d un classifieur Evaluation d un classifieur Précision = Spécificité = TP TP + FP ; Rappel = TP TP + FN TN TN + FP ; Sensibilité = TP TP + FN TP + TN Accuracy = TP + TN + FP + FN ; Balanced Acc. = 1 2 (Spé.+Sens.) Sensibilité et spécificité, (resp. précision et rappel) idéalement égales à 1, varient en sens inverse en fonction du seuil de positivité. Pb multi-critère. Parfois on veut les combiner pour obtenir un seul critère : 69/1 F-mesure = (1 + β 2 ) Précision Rappel β 2 Précision + Rappel

70 70/1 Evaluation d un classifieur Evaluation d un classifieur Supposons par exemple qu on s intéresse à la température comme prédicteur de la grippe. On décide que le patient a la grippe si la température dépasse un certain seuil, par exemple 39 C. Si on augmente le seuil pour le porter à 40 C, la probabilité de dépasser le seuil (chez les sujets grippés) va diminuer, donc la sensibilité diminue. En revanche, la probabilité d être en dessous du seuil (chez les sujets non grippés) va augmenter, donc la spécificité augmente. Un test diagnostique de bonne sensibilité est utile en dépistage. Si le test possède une bonne spécificité peut être utilisé en tant qu examen de confirmation du diagnostic.

71 Evaluation d un classifieur Choix d un seuil : courbes ROC 71/1 Un classifieur fournit un score (valeur discriminante, probabilité, rang) pour chaque individu à classer. Un petite valeur indique une classe négative et vice-versa. La courbe ROC (Receiver Operating Characteristics) trace graphiquement la sensibilité en fonction de la spécificité, en variant continûment ce seuil. La droite diagonale correspond à un classifieur aléatoire. L évaluation est souvent fondée sur la surface sous la courbe (Area Under Curve). L AUC est égale à la probabilité que le classifieur classe mieux un positif qu un négatif, tous deux choisis au hasard L AUC se calcule par la méthode des trapezoides. Dans le cas binaire, on peut approximer la courbe par une courbe linéaire par morceaux, dans ce cas l AUC est juste la Balanced Accuracy (BAC).

72 Evaluation d un classifieur Courbe ROC 72/1 L AUC = probabilité que le classifieur classe mieux un exemple positif tiré au hasard qu un exemple négatif tiré au hasard.

73 Principe de la classification supervisée 73/1 Plan 1 Introduction à l apprentissage numérique 2 Evaluation d un classifieur 3 Principe de la classification supervisée 4 Classification multi-classe 5 Classification multi-label 6 Méthodes de classification Classifieur bayésien naïf Arbres de décision Apprentissage par mesure de similarité SVM 7 Approches ensemblistes Méthodes ensemblistes Forêt aléatoire Boosting 8 Comparaison des classifieurs 9 Réseaux Bayésiens

74 74/1 Principe de la classification supervisée Maximum de vraisemblance Lorsqu on cherche à ajuster un modèle y(x, w) au regard des données D, il faut ajuster les paramètres w. Si le modèle est probabiliste, du type P(t x) = y(x, w) alors un principe phare (et intuitif) de la statistique inférentielle est de maximiser p(w D) à la recherche d une valeur optimale w C était l approche privilégiée précédemment dans la régression polynomiale.

75 Principe de la classification supervisée Maximum de vraisemblance Les paramètres w les plus probables d un modèle y(x, w) au regard des données D sont ceux qui maximisent la probabilité a posteriori : 75/1 w = argmax w p(w D) = argmax w p(d w)p(w) p(d) = argmax w {log(p(d w)) + log(p(w))} p(d w) s appelle la vraisemblance. Maximiser l a posteriori revient à minimiser log(vraisemblance) + la probabilité a priori sur les paramètres. Si l a priori est uniforme, cela revient à appliquer le principe du maximum de vraisemblance.

76 76/1 Principe de la classification supervisée Maximum de vraisemblance Exemple illustratif : On veut ajuster une gaussienne de paramètres w = {µ, σ 2 } aux données D = (x 1,..., x N ). Pour chaque x D, on a N (x µ, σ 2 ) = 1 σ 1 exp { 2π 2σ 2 (x µ)2 } En supposant les {x 1,..., x N } indépendants, il vient p(x 1,..., x N µ, σ 2 ) = N N (x n µ, σ 2 ) n=1

77 77/1 Principe de la classification supervisée Maximum de vraisemblance log p(d w) est notre fonction d erreur. La minimiser revient à maximiser log p(x 1,..., x N µ, σ 2 ) = 1 2σ 2 N (x n µ) 2 N 2 ln σ2 N 2 n=1 ln 2π En maximisant cette relation par rapport à µ et σ, on trouve ˆµ = 1 N N x n, n=1 ˆσ 2 = 1 N N (x n ˆµ) 2 n=1

78 78/1 Principe de la classification supervisée Overfitting Le principe du maximum de vraisemblance sous-estime systématiquement la variance d un modèle trop paramétré Maximiser la vraisemblance du modèle sur les données d apprentissage nous expose au risque de sur-apprentissage (overfitting), en particulier si le modèle est trop complexe (trop paramétré) au regard du nombre de données Il faut pénaliser l erreur d apprentissage par un terme lié à la complexité du modèle (e.g., nombre de paramètres, taille mémoire)

79 Principe de la classification supervisée Approche probabiliste Il est possible de revisiter la régression polynomiale dans un cadre probabiliste en introduisant une incertitude sur la prédiction p(t x, w, β) = N (t y(x, w), β 1 ) où β 1 est l inverse de la variance σ 2, ce qui nous permet d écrire la fonction d erreur ln p(t x, w, β) = N {y(x n, w) t n } 2 + N 2 ln β N 2 n=1 On trouve sans suprise ln (2π) 79/1 1 β ML = 1 2 N {y(xn, w ML ) t n } 2

80 80/1 Principe de la classification supervisée Approche probabiliste t y(x, w) y(x 0, w) p(t x 0, w, β) 2σ x 0 x

81 Principe de la classification supervisée Maximium a posteriori On peut aller plus loin en posant p(w α) = N (w 0, α 1 I) = ( α 2π )(M+1)/2 exp { α 2 wt w} où α est la précision de la distribution (hyperparamètre) et M + 1 le nombre de paramètres de polynôme d ordre M. On trouve d après la règle de Bayes p(w x, t, α, β) p(t x, w, β)p(w α) Maximiser l a posteriori revient à minimiser 1/1 β 2 M {f (x n, w) t n } 2 + α 2 wt w n=1 On retombe sur la régularisation précédente avec λ = α/β.

82 Principe de la classification supervisée Approche bayésienne L approche MAP intègre un apriori mais repose encore sur estimation ponctuelle de w. Une approche entièrement bayésienne somme selon toutes les valeurs possibles de w p(t x, x, t, α, β) = p(t x, w, β)p(w x, t, α, β)dw 2/1 Dans le cas précis de la régression polynômiale et sous les hypothèses d incertitude gaussienne, la distribution p(t x, x, t, α, β) peut se calculer analytiquement. Elle est encore gaussienne mais sa moyennne µ(x) et son écart-type σ(x) dépendent cette fois de x. Dans le cas général, il faut se tourner vers des méthodes numériques d échantillonnage stochastique de type Monte Carlo pour echantillonner selon la distribution

83 3/1 Principe de la classification supervisée Approche bayésienne t x 1 Distribution prédictive resultant d un traitement bayésien d une régression polynomiale avec M = 9, α = et β = 11. En rouge, la courbe moyenne avec son intervalle ±σ.

84 Classification multi-classe 84/1 Plan 1 Introduction à l apprentissage numérique 2 Evaluation d un classifieur 3 Principe de la classification supervisée 4 Classification multi-classe 5 Classification multi-label 6 Méthodes de classification Classifieur bayésien naïf Arbres de décision Apprentissage par mesure de similarité SVM 7 Approches ensemblistes Méthodes ensemblistes Forêt aléatoire Boosting 8 Comparaison des classifieurs 9 Réseaux Bayésiens

85 5/1 Classification multi-classe Classification multi-classe La classification multi-classe (K > 2 classes) peut être résolue par trois méthodes : 1 one-against-all : un classifieur par classe. C est le plus simple à mettre en oeuvre. Le classifieur est appris sur tous les exemples, les exemples positifs sont ceux de la classe, les autres sont négatifs. 2 One-against-one ou all-pairs : K(K 1)/2 classifieurs impliquant seulement 2 classes, avec seulement les individus de l une ou l autre classe. 3 Error-Correcting Output Codes (ECOC), en assignant à chaque classe un vecteur binaire unique de taille n.

86 86/1 Classification multi-classe Illustration C 1 C 3? R 1 R 1 R 2 C 1? R 3 C 1 R 3 not C 1 C 2 not C 2 C 2 R 2 C 2 C 3

87 Classification multi-classe ECOC - Illustration Classe vl hl dl cc ol or Table : Reconnaissance de chiffres manuscrits 87/1 Code 6-bits distribué, un classifieur distinct par colonne. Les colonnes et les lignes sont distinctes. Lors de la classifcation de x, on appelle les 6 fonctions pour obtenir un mot de 6 bits. La distance de Hamming de ce mot aux 10 codewords est calculée. La plus proche donne la classe. Exemple : est plus proche de et donne la

88 88/1 Classification multi-classe ECOC - Illustration Chaque colonne à un sens Colonne Abréviation Sens 1 vl contient une ligne verticale 2 hl contient une ligne horizontale 3 dl contient une ligne diagonale 4 cc contient une courbe fermée 5 ol contient une courbe ouverte à droite 6 or contient une courbe ouverte à gauche

89 89/1 Classification multi-classe One-against-one Comment combiner les sorties des K(K 1)/2 classifieurs binaires du One-against-one pour obtenir les probabilités a posteriori des classes? Posons P ij = P(C i C ij, X = x) Comment exprimer P(C i X = x) en fonction des P ij? Idée simple : La classe recevant le maximum de votes est celle choisie. Cette approche expose à des ambiguïtés.

90 Classification multi-classe One-against-one Chaque pattern appartient à une seule classe, on a K P( C j X = x) = 1 j=1 avec K = P( C ij X = x) j=1,i j K = P(C ij X = x) (K 2) P(C i X = x) j=1,i j 90/1 P ij = P(C i C ij, X = x) = P(C i X = x) P(C ij X = x)

91 91/1 Classification multi-classe One-against-one On obtient les K probabilités a posteriori sachant les K(K 1)/2 probabilités P ij : Recombinaison P(C i X = x) = K j=1,i j 1 1 P ij (K 2) En faisant P ij = 1, i, on retrouve bien P(C i X = x) = 1. Pas d avantage clair entre One-against-one technique et one-against-all.

92 Classification multi-label 92/1 Plan 1 Introduction à l apprentissage numérique 2 Evaluation d un classifieur 3 Principe de la classification supervisée 4 Classification multi-classe 5 Classification multi-label 6 Méthodes de classification Classifieur bayésien naïf Arbres de décision Apprentissage par mesure de similarité SVM 7 Approches ensemblistes Méthodes ensemblistes Forêt aléatoire Boosting 8 Comparaison des classifieurs 9 Réseaux Bayésiens

93 93/1 Classification multi-label Classification Multi-label Les individus (patterns) sont étiquetés par un sous-ensemble fini d étiquettes (labels) Applications : Annotation/indexing sémantique semi-automatique de collection de media pour l aide à la recherche sémantique. Texte : infos, brevets, documents légaux, rapports médicaux, articles de recherche, etc. Image/vidéo : ImageCLEF 2010 photo annotation task : collection de 8000 images flickr annotées manuellement selon 93 concepts. Web : s, Web pages (Yahoo! directory), images Web Audio : music tracks, sélection des morceaux dans les mobiles

94 4/1 Classification multi-label Classification Multi-label La classification multi-label (K labels) peut être résolue efficacement en partitionnant le probleme original en K(K 1)/2 sous problèmes impliquant seulement 2 labels. Construire un classifieur sur toutes les paires de labels, avec seulement les individus de l un ou l autre label. Combiner les sorties des K(K 1)/2 classfieurs binaires pour obtenir les probabilités a posteriori des labels.

95 95/1 Classification multi-label Ranking by Pairwise Comparison

96 96/1 Classification multi-label Ranking by Pairwise Comparison

97 Méthodes de classification 97/1 Plan 1 Introduction à l apprentissage numérique 2 Evaluation d un classifieur 3 Principe de la classification supervisée 4 Classification multi-classe 5 Classification multi-label 6 Méthodes de classification Classifieur bayésien naïf Arbres de décision Apprentissage par mesure de similarité SVM 7 Approches ensemblistes Méthodes ensemblistes Forêt aléatoire Boosting 8 Comparaison des classifieurs 9 Réseaux Bayésiens

98 98/1 Méthodes de classification Classifieur bayésien naïf Classifieur de Bayes naïf C est un classifieur probabiliste simple qui fournit en sortie p(y x) où y est la classe. Il repose sur l estimation de p(x, y) à partir de D. C est l équivalent en classification de la régression linéaire.

99 99/1 Méthodes de classification Classifieur bayésien naïf Classifieur de Bayes naïf Autant il est facile d estimer p(c k ), autant l estimation de p(x C k ) peut devenir très imprécise si la dimensionalité de x est élévée. C est ici qu intervient l hypothèse simplificatrice, dite naive, pour réduire le nombre de paramètres à renseigner. Elle suppose que X i indépendent de tous les X j, tq i j, est conditionnellement à la classe. Un classifieur de Bayes naïf opère selon la règle : Classe(x) arg max k n p(x i C k )p(c k ) i=1 On estime les p(x i C k ) et p(c k ) à partir des fréquences relatives de la base d apprentissage.

100 00/1 Méthodes de classification Arbres de décision Arbres de décision Un arbre de décision est un classifieur simple et graphique. Sa lisibilité, sa rapidité d apprentissage et d exécution expliquent sa popularité. But : prédire les valeurs prises par la variable à prédire à partir d un ensemble de variables prédictives (ou variables discriminantes). Cette technique fait partie des méthodes d apprentissage supervisé. Son succès repose sur la lisibilité du modèle de prédiction car les variables discriminantes sont hiérarchisées sous forme d un arbre. Le travail de l analyste consiste aussi à faire comprendre ses résultats afin d emporter l adhésion des décideurs.

101 101/1 Méthodes de classification Arbres de décision Illustration d un arbre binaire x 1 > θ 1 x 2 θ 2 x 2 > θ 3 x 1 θ 4 A B C D E

102 Méthodes de classification Arbres de décision Illustration d un arbre binaire x 2 E θ 3 B θ 2 C D A θ 1 θ 4 x 1 102/1 Pavage obtenu dans l espace d entrée.

103 103/1 Méthodes de classification Arbres de décision Explications Un arbre de décision binaire est le résultat d une procédure récursive qui consiste à partitionner l espace de représentation X en cherchant la coupure transversale qui maximise un critère prédéfini qui assure la meilleure sépération possible des individus selon la classe. L algorithme commence avec le noeud racine contenant tous les exemples et cherche une coupure de la forme X j > θ j ou X j θ j où θ j est un seuil. Deux nouveaux noeuds sont ainsi ajoutés à l arbre, l un contenant les exemples respectant X j > θ j et l autre les exemples respectant X j θ j. Ce processus de coupure est répété pour chaque nouveau noeud crée jusqu à ce qu un critere d arrêt soit verifié. L arbre opère un pavage (discrétisation) dans l espace X.

104 104/1 Méthodes de classification Arbres de décision Construction d un arbre de décision Pour construire un arbre de décision, il faut : Choisir, parmi les variables qui restent, la variable de segmentation du sommet courant. Lorsque la variable est continue, déterminer le seuil de coupure. Déterminer la bonne taille de l arbre? Est-il souhaitable de produire absolument des feuilles pures selon la variable à prédire, même si le groupe correspondant correspond à une fraction très faible des observations? Affecter la valeur de la variable à prédire aux feuilles?

105 105/1 Méthodes de classification Arbres de décision Critère de segmentation Teste toutes les variables potentielles et choisit celle qui maximise un critère donné. Le critère caractérise le gain en pureté lors du passage du sommet à segmenter vers les feuilles produites par la segmentation. Plusieurs critères existent. Leur choix a peu d influence sur les performances des algorithmes. Le problème est de trouver le meilleur test associé à une variable nominale de n modalités, dans un arbre L-aire avec k classes. Un autre problème est de comparer les meilleurs tests entre variables de nature différente (nominale et continue).

106 06/1 Méthodes de classification Arbres de décision Critère de choix de variable Posons p(c k ) la proba de la classe C k dans le noeud considéré, Critères les plus utilisés pour mesurer de l hétérogénéité du noeud candidat : Entropie (ID3, C4.5) : H = k p(c k) log 2 (p(c k )), minimum 0 si une seule classe représentée et maximum log 2 (nbclasses) si classes équi-réparties Indice Gini (CART) : Gini = 1 k p2 (C k ) Indice d erreur : Er = 1 max k (p(c k ))

107 107/1 Méthodes de classification Arbres de décision Gain d homogénéité Soit un test T à m alternatives et divisant le noeud N en m sous-noeuds N j Soit I (N j ) les mesures d hétérogénéité (entropie, Gini,...) des sous-noeuds, et p(n j ) les proportions des éléments de N dirigés vers N j par le test T Le gain d homogénéité/information apporté par le test T est Gain(N, T ) = I (N) m p(n j )I (N j ) j=1 A chaque noeud, choix du test maximisant le gain

108 108/1 Méthodes de classification Arbres de décision Tests sur les variables Il y a un nb fini de tests possibles à chaque noeud car un nombre fini d instances en apprentissage. En pratique, tri des exemples par valeur croissante de la variable continu et examen d au maximum N 1 seuils, typiquement les médianes entre valeurs successives croissantes. Par exemple si valeurs de A atteintes sur les exemples d apprentissage sont {1, 3, 6, 10, 12}, on considérera les tests A > 1.5; A > 4.5; A > 8; A > 11 Dans le cas d une variable nominale, il y a 2 n 1 tests possibles pour séparer n catégories. Des heuristiques sont nécessaires... Sinon, un noeud fils par catégorie (arbre n-aire).

109 109/1 Méthodes de classification Arbres de décision Définir la bonne taille de l arbre Il y a un risque de surajustement du modèle : le modèle semble performant (son erreur moyenne est très faible) mais il ne l est en réalité pas du tout. Il faut trouver l arbre le plus petit possible ayant la plus grande performance possible. Plus un arbre est petit et plus il sera stable dans ses prévisions futures (en statistiques, le principe de parcimonie prévaut). Pour éviter un sur-ajustement, il convient d appliquer un principe de parcimonie et de réaliser des arbitrages performance/complexité. A performance comparable, on préfèrere toujours le modèle le plus simple, si l on souhaite pouvoir utiliser ce modèle sur de nouvelles données totalement inconnues.

110 110/1 Méthodes de classification Arbres de décision Le problème du sur-ajustement L erreur d ajustement de l arbre de décision en fonction du nombre de feuilles de l arbre (complexité) décroît constamment sur l échantillon d apprentissage, à partir d un certain niveau de complexité. Le modèle s éloigne de la réalité, réalité que l on essaie de mesurer sur l échantillon test. Les techniques de pré ou de post élégage des arbres peuvent y remédier.

111 111/1 Méthodes de classification Arbres de décision Elagage Pré-élagage : critères d arrêt lors de la phase d expansion. (e.g., effectif trop faible, pureté d un sommet suffisante) Post-élagage : construire l arbre en deux temps. L arbre le plus pur possible est élagué en s appuyant sur l échantillon de validation ou l échantillon de test. Pruning set en anglais. Une fois l arbre construit, on affecte aux feuilles la classe majoritaire ou un score = proportion de la classe majoritaire. Attention, il faut calibrer ce score pour estimer la probabilité, tout comme les modèles bayésien naïfs, car le score est biaisé vers les valeurs extrêmes, 0 ou 1.

112 112/1 Méthodes de classification Arbres de décision Les algorithmes classiques Les algorithmes se distinguent par le ou les critères de segmentation utilisés, par les méthodes d élégage implémentées et leur manière de gérer les données manquantes. Liste non exhaustive des algorithmes classiquement utilisés : CART (Breiman et al., 1984), ID3, C4.5, C5 (Quinlan, 1986 ; Quinlan, 1993).

113 113/1 Méthodes de classification Arbres de décision Exemple de C4.5 Les tests par défaut considérés par C4.5 sont : A =? pour une variable nominale A, avec un noeud fils pour chaque valeur de A. A t pour un attribut continu A, avec deux noeuds fils, vrai et faux. Pour trouver le seuil t qui maximise le critère de splitting, les individus sont classés selon la valeur de l attribut pour donner des valeurs ordonnées distinctes v 1, v 2,..., v N. Chaque paire de valeurs adjacentes suggère une seuil potentiel t = (v i + v i+1 )/2. Le gain de pureté est affecté par le nombre de résultats du test. Un biais existe vers les attributs ayant de multiples modalités ou de valeurs distinctes.

114 114/1 Méthodes de classification Arbres de décision Discrétisation avec les arbres Les arbres sont des modèles de prédilection pour la discrétisation supervisée des variables continues, et nominales avec de nombreuses modalités (cas fréquent). Dans le cas des variables continues, il suffit de lancer un algorithme standard. Le nombre de bins est le nombre de noeuds feuilles qu il est facile d ajuster itérativement Dans le cas des variables nominales, on utilise des heuristiques de splitting de complexité linéaire. Pour créer de nouvelles variables d interaction : pour chaque paire Y i, Y j, construire un arbre avec {Y i, Y j }. Récupérer la classe prédite comme nouvelle variable.

115 15/1 Méthodes de classification Apprentissage par mesure de similarité Mesure de similarité Idée intuitive : calculer une mesure de similarité entre exemples, puis affecter à un nouvel exemple x la classe la plus representée parmi les exemples d apprentissage dont il est proche. Définition Une mesure de similarité sur X est une fonction K : X X [ 1, 1]. On dit que K est symétrique si K(x, y) = K(y, x) pour tout x, y issu de P. Si la mesure est non borneé entre -1 et 1, on peut considérer sans perte de generalité la mesure de similarite normalisée : K(x, y) = K(x, y) K(x, x)k(y, y)

116 Méthodes de classification Apprentissage par mesure de similarité Classifieur de Parzen Etant donnée une mesure de similarité K, on peut affecter à un nouvel exemple x une classe prédite en utilisant la fonction de classification f suivante : f (x) = signe( n y i K(x, x i )) i=1 Ce classifieur dit classifieur de Parzen consiste simplement à affecter l étiquette correspondant aux exemples les plus similaires. Pour améliorer la classification, on peut donner une importance différente, β i > 0, à chaque exemple, 16/1 n f (x) = signe( β i y i K(x, x i )) i=1

117 117/1 Méthodes de classification Apprentissage par mesure de similarité k-plus proches voisins C est le classifieur non-paramétrique le plus simple et intuitif. Il s agit pour chaque x de la base de test, de classer les x i de la base d apprentissage selon K(x, x i ), dans l ordre décroissant et de ne chosir que les k premiers x i. La classe de x est alors donnée par la classe majoritaire parmi ces k plus proches voisins x i. Inconvénient : complexité spatiale et temporelle importante par rapport aux modèles paramétriques

118 118/1 Méthodes de classification Apprentissage par mesure de similarité k-plus proches voisins x 2 x 2 (a) x 1 (b) x 1

119 Méthodes de classification Apprentissage par mesure de similarité k-plus proches voisins 2 K = 1 2 K = 3 2 K = 3 1 x 7 x 7 x x x x 6 119/1 Les frontières de décision sont plus lisses à mesure que K augmente.

120 120/1 Méthodes de classification SVM SVM Définition succinte Les séparateurs à vastes marges (SVM) formulent le problème de classification comme un problème d optimisation quadratique lié à la maximisation de la marge maximale. Ce choix est justifié par la théorie statistique de l apprentissage, qui montre que la frontière de séparation de marge maximale possède la plus petite erreur en généralisation. La marge est la distance entre la frontière de séparation et les échantillons les plus proches (vecteurs supports). Dans le cas non linéairement séparables, l idée clé est de transformer l espace de représentation des données d entrées en un espace de redescription de plus grande dimension (possiblement infinie), dans lequel il est probable qu il existe une séparatrice linéaire, grâce à une fonction noyau, Les fonctions noyaux permettent de transformer un produit scalaire dans un espace de grande dimension en une simple évaluation ponctuelle d une fonction (kernel trick)

121 Méthodes de classification SVM SVM Plus formellement, on applique aux vecteurs d entrée x une transformation non-linéaire φ. L espace d arrivée φ(x ) est appelé espace de redescription. Dans cet espace, on cherche alors l hyperplan y(x) = w T φ(x) + b qui vérifie t k y(x k ) > 0, pour tous les points x k de l ensemble d apprentissage, c est-à-dire l hyperplan séparateur dans l espace de redescription. Le problème de cette formulation est qu elle implique un produit scalaire entre vecteurs dans l espace de redescription, de dimension élevée, ce qui est couteux en terme de calcul. Pour contourner ce problème, on utilise une astuce (kernel trick) qui consiste à utiliser une fonction noyau, qui vérifie 121/1 K(x i, x j ) = φ(x i ) T φ(x j ) L intérêt de la fonction noyau est double : Le calcul se fait dans l espace d origine, ceci est beaucoup moins coûteux qu un produit scalaire en grande dimension. La transformation φ n a pas besoin d être connue explicitement, seule la fonction noyau intervient dans les calculs. On peut donc envisager des transformations complexes, et même des espaces de redescription de dimension infinie.

122 122/1 Méthodes de classification SVM Illustration y = 1 y = 0 y = 1 y = 1 y = 0 y = 1 y = 1 y = 0 ξ > 1 y = 1 ξ < 1 margin ξ = 0 A droite, une marge souple qui tolère les mauvais classements par l introduction de variables ressort (slack variables), qui permettent de relacher les contraintes. ξ = 0

123 Méthodes de classification SVM Illustration 123/1 Exemple de données synthétiques à 2 classes en 2 dimensions montrant les courbes de niveaux de y(x) obtenues par un SVM avec un noyau gaussien. La frontière de séparation et de marge et les vecteurs supports sont visibles.

124 24/1 Méthodes de classification SVM Illustration Exemple non séparable sur des données synthétiques à 2 classes en 2 dimensions avec des slack variables.

125 Approches ensemblistes 125/1 Plan 1 Introduction à l apprentissage numérique 2 Evaluation d un classifieur 3 Principe de la classification supervisée 4 Classification multi-classe 5 Classification multi-label 6 Méthodes de classification Classifieur bayésien naïf Arbres de décision Apprentissage par mesure de similarité SVM 7 Approches ensemblistes Méthodes ensemblistes Forêt aléatoire Boosting 8 Comparaison des classifieurs 9 Réseaux Bayésiens

126 Approches ensemblistes Méthodes ensemblistes Méthodes ensemblistes Définition Une méthode ensembliste combine les décisions individuelles de plusieurs classifieurs y 1,..., y M pour classer de nouveaux exemples Conditions pour qu une méthode ensembliste soit efficace : Les classifieurs construits ont un taux de succès meilleur que l aléatoire Les classifieurs présentent une certaine diversité Question Pourquoi combiner plusieurs classifieurs? 126/1 Un vote réduit la variance Réduire le risque de tomber dans des minima locaux Réduire le biais en augmentant l espace des fonctions possibles

127 127/1 Approches ensemblistes Méthodes ensemblistes Méthodes ensemblistes On a déjà évoqué l équilibre bias-variance en régression avec une fonction polynomiale sur un jeu de données bruitées. En pratique, il faut introduire de la variabilité au sein du comité. Le bootstrap permet de combiner M modèles ycom(x) = 1 M M y m (x). m=1 Sous l hypothèse y m (x) = h(x) + ɛ m (x) avec les {ɛ m } i.i.d., on montre facilement que Ecom = 1 M E av avec Eav = 1 M M E x [ɛ 2 m(x)] m=1 Sans l hyptohèse d indépendance, on a toujours Ecom Eav.

128 28/1 Approches ensemblistes Méthodes ensemblistes Méthodes ensemblistes Une classification possible des méthodes ensemblistes repose sur la nature des classifieurs de base [Dzeroski & Zenko 2004] Méthodes ensemblistes homogènes : combinent un ensemble de classifieurs produits par des algorithmes différents sur une même distribution des exemples de D Méthodes ensemblistes hétérogènes : combinent un ensemble de classifieurs produits par un même algorithme d apprentissage. La diversité provient de la modification de la distribution des exemples utilisés pour l apprentissage des classifieurs.

129 129/1 Approches ensemblistes Méthodes ensemblistes Méthodes ensemblistes hétérogènes La diversité provient des algorithmes d apprentissage Stacking [Wolpert, D.H. 1992] 1 Apprentissage de M classifieurs y 1,..., y M avec des algorithmes différents 2 Apprendre un méta-classifieur sur les réponses de y 1,..., y M. Cascade Generalization [Gamma & Brazdil 2000] 1 Apprentissage d un classifieur y 1 avec un algorithme L 1. Etiquetage avec y 1 des exemples d apprentissage 2 Apprentissage d un classifieur y 2 avec un algorithme L 2 à partir des attributs d origine et l étiquette prédite au niveau précédent. Etiquetage avec y 2 des exemples d apprentissage. 3 Le processus est répété.

130 30/1 Approches ensemblistes Méthodes ensemblistes Méthodes ensemblistes homogènes La diversité provient de la distribution des exemples d apprentissage Bagging [Breiman 1996] 1 Apprentissage de M classifieurs y 1,..., y M à partir d échantillons bootstrappés D 1,..., D M. 2 Etiquetage des exemples par simple vote des M classifieurs. Output flipping [Breiman 2000, Martinez & Suarez 2005] 1 Apprentissage de M classifieurs y 1,..., y M à partir déchantillons D 1,..., D M obtenus par label switching P j i = wp j et un switching rate de p = w(1 j P2 j ). 2 Etiquetage des exemples par simple vote des M classifieurs. Random Forests [Breiman 2001] Boosting [Freund and Schapire 1996]

131 131/1 Approches ensemblistes Forêt aléatoire Caractéristiques des Random Forests Efficace et performant sur de grandes bases, avec des milliers de variables, et des données manquantes. Estime quelles variables sont importantes (voire détecte les interactions) pour la classification et fournit des prototypes pour chaque classe. Fournit un estimateur non biaisé de l erreur de généralisation sans base de test. Estime la données manquantes, y compris les étiquettes manquantes. Permet de traiter les classes déséquilibrées Calcule des proximités entre paires d exemples. Permet l imputation de valeurs manquantes, le clustering, la détection de valeurs aberrantes..

132 132/1 Approches ensemblistes Forêt aléatoire Algorithme Répéter k fois de manière indépendante le processus suivant : Un nombre d d (le nombre total d attributs) (par défaut d = d). Un ensemble de M arbres chacun developpé sur un échantillon bootstrap de l echantillon initial est construit ; Chaque arbre est developpé jusqu à avoir uniquement des feuilles pures (si possible) ; A chaque noeud, d des d attributs sont selectionnés aléatoirement et le meilleur partitionnement selon ces d attributs est utilisé. La prédiction d un nouvel exemple est la classe la plus fréquemment attribuée par l ensemble d arbres.

133 33/1 Approches ensemblistes Forêt aléatoire Variantes Lorsque d = d, on obtient un Bagging d arbres. Dans le Bagging, l utilisation des echantillons bootstprap permet de reduire la variance globale du classifieur en moyennant les predictions de plusieurs classifieurs divers. Les RF introduisent une double randomisation en augmentant la diversité de l ensemble par le bootstrap d une part, mais également par un tirage aléatoire d un petit groupe d attributs avant la recherche de la meilleure coupure. Il existe de nombreuses variations. En adaptant correctement d, on obtient un gain de temps de calcul important sans détérioration de performance. Le niveau de randomisation introduit dans la procédure via le choix de d contrôle le compromis force-correlation.

134 134/1 Approches ensemblistes Forêt aléatoire Estimation out-of-bag de l erreur Pas besoin de cross-validation ou de jeu de test set pour obtenir un estimateur non biasé de l erreur de généralisation. Il est estimé en interne, durant l apprentissage de la forêt comme suit : Chaque arbre est construit avec sur échantillon bootstrappé. Environ 1/3 des exemples ne sont utilisés dans sa construction. Idée : classer les exemples oob dans chaque arbre. Ainsi un jeu de test est obtenu pour chaque exemple dans environ 1/3 des arbres. Soit j la classe qui reçoit le plus de votes chaque fois que l exemple n était oob. La proportion des erreurs, moyennée sur tous les exemples, est l erreur out-of-bag (non biasée en pratique)..

135 135/1 Approches ensemblistes Forêt aléatoire Sélection de variables La sélection d un sous-ensemble de variables explicatives parmi un grand nombre, permet généralement : Réduire de beaucoup les temps de calcul. Obtenir une plus grande variété de modèles. L agrégation des probabilités de sortie (ou classes prédites par vote majoritaire) par tous les modèles générés devrait alors donner un classifieur plus robuste et plus précis.

136 136/1 Approches ensemblistes Forêt aléatoire Estimer l importance des variables Une variable f est discriminante si la modification de sa valeur pour un individu entraîne sa mauvaise classification. Principe : Classer les exemples oob dans chaque arbre et compter le nombre de votes corrects. Ensuite permuter les valeurs de la variable m dans les exemples oob puis reclasser les exemples oob. Soustraire le nombre de votes de la classe correcte entre l exemple oob non permuté et l exemple oob permuté. La moyenne de cette différence sur tous les arbres où l individu x est oob fournit un score de la variable m pour cet x. En moyennant sur tous les x, on obtient le score de la variable m Une procédure du type Recursive Feature Elimination (RFE) est possible en grande dimension.

137 137/1 Approches ensemblistes Forêt aléatoire Proximités et prototypes Dans chaque arbre, projeter les exemples (training + oob). Si les exemples k et n sont dans le même noeud terminal, incrémenter leur indice de proximité. A la fin, diviser les proximités par le nombre d arbre pour obtenir une valeur normalisée. Si un jeu test est présent, la proximité des individus en test peut-etre calculé avec ls individus en apprentissage. Prototypes : Pour chaque classe j, trouver l individu qui a le plus grand nombre de voisins de classe j parmi ses k plus proches voisins. Parmi les k voisins, on calcule la médiane (ou catégorie majoritaire) de chaque variable prototype de la classe j.

138 138/1 Approches ensemblistes Forêt aléatoire Imputation des données manquantes en apprentissage Comment imputer un individu x de le base d apprentissage? Principe : 1 Remplacer les valeurs manquantes par la médiane ou la catégorie la plus fréquente parmi les x de la même classe, 2 Construire la forêt et calculer les proximités, 3 Si x(n, m) est une valeur manquante, estimer sa valeur par une moyenne pondérée des autres valeurs non manquantes de la variable m parmi les k plus proches, pondérées par les proximités entre ces individus. Itérer la procédure (imputation puis construction du RF) une dizaine de fois.

139 139/1 Approches ensemblistes Forêt aléatoire Imputation des données manquantes en test Comment imputer un individu x de le base de test où la classe est inconnue? Principe : 1 Répliquer C fois l individu (C =nombre de classes) avec les valeurs de x mais un numéro de classe différent, 2 Imputer les valeurs manquantes par la médiane en ne prenant que les individus de la même classe. 3 Projeter ces individus dans la forêt. 4 L individu qui reçoit le plus de votes justes est celui que l on conserve.

140 140/1 Approches ensemblistes Forêt aléatoire Données aberrantes Un outlier est un individu éloigné des autres, donc douteux. Autre façon de voir : un outlier dans la classe j est un individu dont la proximité aux individus des autres classes est petite. La proximité moyenne d un individu n aux individus de sa classe est : P(n) = d(k)=j prox 2 (n, k) Dans chaque classe, calculer la médiane. Soustraire à P(n) la médiane,et diviser par l écart type, fournit un indice d éloignement à la norme. Permet aussi de détecter les données mal étiquetées!

141 41/1 Approches ensemblistes Boosting Boosting C est un principe qui regroupe de nombreux algorithmes qui s appuient sur des ensembles de classifieurs binaires. Par itérations successives, la connaissance d un classifieur faible (weak classifier) est ajoutée au classifieur final (strong classifier). Les classifieurs faibles sont capables de reconnaître deux classes au moins aussi bien que le hasard ne le ferait. Le classifieur fourni est pondéré par la qualité de sa classification : plus il classe bien, plus il sera important. Les exemples mal classés sont boostés pour qu ils aient davantage d importance vis-à-vis de l apprenant faible au prochain tour. Un des algorithmes les plus utilisés en boosting est AdaBoost, qui signifie adaptative boosting.

142 142/1 Approches ensemblistes Boosting Strong vs Weak Learnability Le boosting trouve son origine théorique dans le cadre PAC (Probability Approximatively Correct) Définition Un algorithme d apprentissage L est strong PAC ssi : ɛ < 1/2 et δ < 1/2 avec un nombre polynomial d exemples d apprentissage en 1/ɛ distribution sur D L est capable d induite une classifieur y ayant une erreur en génélalisation ɛ avec une probabilité 1 δ

143 Approches ensemblistes Boosting Illustration {w (1) n } {w (2) n } {w (M) n } y 1 (x) y 2 (x) y M (x) ( M ) Y M (x) = sign α m y m (x) m 143/1 Adaboost repose sur la sélection itérative de classifieurs faibles y m(x) en fonction d une distribution des exemples d apprentissage. Chaque exemple est pondéré en fonction de sa difficulté avec le classifieur courant. Les poids w n (m) dépendent des performances des clasfieurs précédents y m 1 (x).

144 Approches ensemblistes Boosting Algorithme 1 Initialiser les {w m} par {w (1) m } = 1/N pour n = 1,..., N. 2 Pour m = 1,..., M : Trouver le classifieur y m : X { 1, +1} qui minimise la fonction d erreur N J m = w n (m) I(y m(x n) t n) n=1 où I(y m(x n) t n) est la fonction indicatrice. Evaluer les quantités N n=1 ɛ m = w n (m) I(y m(x n) t n) N n=1 w n (m) et poser α m = ln{ 1 ɛm } ɛ m Modifier les coéfficients de pondération 44/1 3 La prédiction finale w n(m + 1) = w n(m)exp{α mi(y m(x n) t n)} ( M ) Y M (x) = sign α my m(x) m=1

145 145/1 Approches ensemblistes Boosting Illustration avec des decision stumps

146 Approches ensemblistes Boosting Théorie des marges Définition La marge d un point est définie comme étant la différencer entre le poids attribué à une étiquette correcte et le poids attribué à une étiquette incorrecte margin(x) = t M m=1 α my m (x) M m=1 α m 146/1 Observation attendue : Ê(Y M ) baisse pour atteindre éventuellement 0. Risque de sur-apprentissage! Observation pratique : Le boosting tend à augmenter la marge des exemples d apprentissage Ê(Y M ) baisse pour atteindre éventuellement 0.

147 Approches ensemblistes Boosting Propriétés théoriques du boosting en généralisation Théorème [Shapire, Freund, Barlett & Lee 1997] Avec une probabilité élévée, θ > 0 E(Y M ) ˆPr(margin(x) θ) + O( dy Nθ Cete borne dépend : du nombre d exemples en apprentissage N de la VC dimension d y des classifieurs faibles de la distribution des marges des exemples d apprentissage 147/1 Théorème ˆPr(margin(x) θ) tend exponentiellement vers O en fonction du nombre d itérations M quand l hyptohèse d apprentissage faible est vérifiée.

148 148/1 Approches ensemblistes Boosting Propriétés théoriques du boosting en généralisation Théorème [Shapire, Freund, Barlett & Lee 1997] Avec une probabilité élévée, θ > 0 E(Y M ) ˆPr(margin(x) θ) + O( dy Nθ Le boosting choisit les α 1,..., α m tels que la borne soit minimisées Pour y arriver, il faut rendre les marges des exemples d apprentissage les plus larges possibles. SVM et boosting cherchent à maximiser la marge minimale des exemples, mais moins explicitement pour le boosting

149 149/1 Approches ensemblistes Boosting Avantages et inconvénient du boosting Avantages Facile à mettre en oeuvre, aucun paramètre à tuner sauf M Améliore les performances de n importe quel algorithme d apprentissage Possède des résultats théoriques de convergence Inconvénients Choix de weak learner : si trop riche, risque d overfitting, sinon trop lent à converger Présence d outliers augmentation exponentielle de leur poids overfitting Présence d erreur sur le étiquettes ralentissement de la convergence car Adaboost étiquette alternativement les exemples bruiteés par +1 et -1.

150 150/1 Approches ensemblistes Boosting Fonction d erreur du boosting Les bornes supérieures sur l erreur de généralisation sont trop larges pour expliquer, à elles seules, les performances du boosting. Friedman et al. (2000) ont donné une interpretation plus simple en terme de minimisation séquentielle d une fonction d erreur exponentielle E = N exp{t n f m(x n)} n=1 où f m(x) est le classifieur défini par une combinaison linéaire de classifieurs de base y k (x) de la forme f m(x) = 1 m α k y k (x) 2 k=1 On montre que le boosting réalise une minimisation séquentielle (greedy) de E par rapport à {α k } et aux parametres des classifieurs de base y k (x).

151 151/1 Approches ensemblistes Boosting Fonction d erreur du boosting La fonction d erreur exponentielle minimisée par AdaBoost diffère des autres. Considérons l espérance de cette erreur E x,t = [exp{ ty(x)}] = t exp{ ty(x)}p(t x)p(x)dx Une minimisation variationelle par rapport aux fonctions y(x) aboutit à y(x) = 1 p(t = 1 x) ln( 2 p(t = 1 x) ) AdaBoost cherche la meilleure approximation du log odds ratio, dans l espace des fonctions représenté par les combinaisons linéaires de classifieurs de base, sous les contraintes d une minimisation séquentielle.

152 152/1 Approches ensemblistes Boosting Fonctions d erreur vs. z = ty(x) E(z) z Fonction d erreur exponentielle E = exp ( yt)(vert) ; entropie croisée recentrée (rouge) (avec p(t = +1 y) = σ(y) d où E = ln (1 + exp ( yt)) ; erreur de hinge des SVMs E = [1 yt] + (bleu) ; taux d erreur de classification (noir).

153 153/1 Approches ensemblistes Boosting Conséquences de l erreur exponentielle Pour les fortes valeurs négatives de z = ty(x), l entropie croisée croît linéairement tandis que la fonction d erreur exponentielle penalise à outrance. Faiblesses la fonction d erreur exponentielle est beaucoup moins robuste aux données aberrantes ainsi qu aux instances mal étiquetées.

154 Comparaison des classifieurs 154/1 Plan 1 Introduction à l apprentissage numérique 2 Evaluation d un classifieur 3 Principe de la classification supervisée 4 Classification multi-classe 5 Classification multi-label 6 Méthodes de classification Classifieur bayésien naïf Arbres de décision Apprentissage par mesure de similarité SVM 7 Approches ensemblistes Méthodes ensemblistes Forêt aléatoire Boosting 8 Comparaison des classifieurs 9 Réseaux Bayésiens

155 155/1 Comparaison des classifieurs Comparaison de deux classifieurs Il arrive que l on compare deux classifieurs. On suppose qu on cherche à maximiser une fonction score qui reflête la précision du classifieur, et qu on teste les classifieurs sur de multiples jeux de données. Y a-t-il une différence siginificative entre les deux au vu des scores? Test t (Student) à deux échantillons : test paramétrique qui suppose que les scores sont distribués selonune loi normale. Test de rang de Wilcoxon : test non paramétrique réputé plus robuste qu un test de Student. Hypothèse nulle H 0 : les différences observées entre les scores ne sont pas statistiquement significatives et peuvent être attribuées au hasard.

156 156/1 Comparaison des classifieurs Test t à deux échantillons appariés Il est présumé que ces scores ont la même moyenne (H 0 : µ 1 = µ 2 ), et la question est de savoir si leur différence est suffisamment importante pour contredire cette hypothèse (H 1 : µ 1 µ 2 ). On suppose que les deux populations normales sont de même variance σ 2 inconnue, estimée par s 2 = n j (x 1j x 2j ) 2 / n 1. Nous en déduisons que la statistique T = x 2 x 2 s 2 /(n 1) t n 1 L hypothèse nulle est rejetée en faveur de l hypothèse alternative si la valeur de T est dans la région critique définie par la valeur choisie pour le niveau de risque α.

157 57/1 Comparaison des classifieurs Test de rang de Wilcoxon On pose d i la différence absolue de score sur le jeu i R + = rank(d i ) + 1 rank(d i ), 2 d>0 d=0 R = rank(d i ) + 1 rank(d i ) 2 d<0 d=0 On pose T = min{r, R + }. Pour N > 25, z = 1 24 T 1 4N(N + 1) N(N + 1)(2N + 1) suis approximativement une loi normale.

158 158/1 Comparaison des classifieurs Illustration Algo1 Algo2 difference rank adult breast cancer breast cancer wisconsin cmc ionosphere iris liver disorders lung cancer lymphography mushrooms primary tumor rheum voting wine R + = = 93, R = = 12. Au seuil α = 0.05 et N = 14 la différence est significative car 12 < 21 (21 est la valeur critique exacte lue dans une table).

159 59/1 Comparaison des classifieurs Comparaisons entre de multiples classifieurs Il arrive que l on compare de multiples (> 2) classifieurs. On suppose qu on cherche à maximiser une fonction score qui reflête la précision du classifieur, et qu on teste les classifieurs sur de multiples jeux de données. Le problème des tests multiple est connu : il faut contrôler la family-wise error la probabilité de faire au moins une erreur de type 1 dans l ensemble des tests réalisés. Y a-t-il une différence siginificative entre les classifieurs au vu des scores? Test de Friedman : test non paramétrique réputé plus robuste qu une ANOVA. Hypothèse nulle H 0 : les différences observées entre les scores ne sont pas statistiquement significatives et peuvent être attribuées au hasard.

160 Comparaison des classifieurs Test de Friedman On pose rj i le rang du j-ème algorithmes parmi les k sur le i-ème jeu de données parmi les N. Le test de Friedman compare les rangs moyens, R j = 1 N Sous l hypothèse nulle H 0 qui dit que tous les R j devraient etre égaux. On pose χ 2 F = 12N k(k + 1) j R 2 j k(k + 1)2 4 i r j i. 60/1 F F = (N 1)χ2 F N(k 1) χ 2 F est distribué selon une loi de Fisher-Snedecor, notée F, avec k 1 et (k 1)(N 1) degrés de liberté.

161 161/1 Comparaison des classifieurs Illustration Algo1 Algo2 Algo3 Algo4 adult breast cancer breast cancer wisconsin cmc ionosphere iris liver disorders lung cancer lymphography mushrooms primary tumor rheum voting wine average rank

162 62/1 Comparaison des classifieurs Illustration χ 2 F = [ ] 52 = F F = = 3.69 Avec 4 classfieurs et N = 14, F F est distribué selon une loi F à 4 1 = 3 et (4 1) (14 1) = 39 degrés de liberté. Au seuil α = 0.05, F (3; 39) = 2.85 donc la différence est significative, on rejette H 0

163 Réseaux Bayésiens 163/1 Plan 1 Introduction à l apprentissage numérique 2 Evaluation d un classifieur 3 Principe de la classification supervisée 4 Classification multi-classe 5 Classification multi-label 6 Méthodes de classification Classifieur bayésien naïf Arbres de décision Apprentissage par mesure de similarité SVM 7 Approches ensemblistes Méthodes ensemblistes Forêt aléatoire Boosting 8 Comparaison des classifieurs 9 Réseaux Bayésiens

164 164/1 Réseaux Bayésiens Modèles génératifs On a vu jusqu à présent des modèles pour P(y x). Il faut connaître x pour prévoir y. Ce sont des modèles dits discriminatifs. Il existe des modèles plus riches, dits génératifs, qui estiment P(y, x) directement. Ils permettent d échantillonner de nouvelles données. Pour classer un nouvel individu, P(y x) = P(y, x)/p(x). Les réseaux bayésiens sont des modèles génératifs.

165 Réseaux Bayésiens Définition d un réseau bayésien Définition Un réseau bayésien est défini par la description qualitative des dépendances (ou des indépendances conditionnelles) entre des variables S i graphe orienté sans circuit (DAG) la description quantitative de ces dépendances probabilités conditionnelles (CPD) Conséquence 165/1 P(S) = Π n i=1 P(S i parents(s i )) La loi jointe (globale) se décompose en un produit de lois conditionnelles locales RB = représentation compacte de la loi jointe P(S)

166 166/1 Réseaux Bayésiens Conséquence Rappel du théorème de Bayes généralisé P(S) = P(S 1 ) P(S 2 S 1 ) P(S 3 S 1, S 2 ) P(S n S 1... S n 1 ) Conséquence dans un RB P(S i S 1... S i 1 ) = P(S i parents(s i )) d où P(S) = Π n i=1 P(S i parents(s i )) La loi jointe (globale) se décompose en un produit de lois conditionnelles locales RB = représentation compacte de la loi jointe P(S)

167 167/1 Réseaux Bayésiens Exemple

168 168/1 Réseaux Bayésiens Exemple illustratif On cherche la structure du RB < G, P > où G =< U, E > associé à U = {F, V, C}. Les variables désignent : Forme, Valeur et Couleur. La seule propriété d indépendence conditionnelle observée est V F C (V F ). On en déduit P(V, C, F ) = P(C)P(V C)P(F C) = P(V )P(C V )P(F C) = P(F )P(C F )P(V C) D où les trois représentations graphiques équivalentes :

169 169/1 Réseaux Bayésiens Intérêts et motivation Intérêts des réseaux bayésiens outil de représentation graphique des connaissances représentation de l incertain raisonnement à partir de données incomplètes : inférence Motivation comment déterminer la structure, avec des données complètes ou incomplètes?

170 Réseaux Bayésiens Intérêts et motivation Autre intérêt outil de découverte de connaissances à partir de données Motivation 170/1 comment découvrir des connaissances : relations causales, variables latentes?

171 171/1 Réseaux Bayésiens Intérêts et motivation Des domaines d application variés diagnostic, fiabilité, maintenance, sécurité informatique psychologie, sciences de la cognition, maîtrise des risques Motivation fournir des outils pour la modélisation de systèmes complexes

Montrer encore