Machine Learning Option : Ouverte Recherche Big data



Documents pareils
Introduction au Data-Mining

Introduction au Data-Mining

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Arbres binaires de décision

La classification automatique de données quantitatives

Introduction au datamining

Algorithmes d'apprentissage

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Quantification Scalaire et Prédictive

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

INF6304 Interfaces Intelligentes

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34

Apprentissage Automatique

données en connaissance et en actions?

Méthodes de Simulation

Cours de méthodes de scoring

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

Raisonnement probabiliste

Théorie et Codage de l Information (IF01) exercices Paul Honeine Université de technologie de Troyes France

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Pourquoi l apprentissage?

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

Chapitre 3. Les distributions à deux variables

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining.

L analyse d images regroupe plusieurs disciplines que l on classe en deux catégories :

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données

Précision d un résultat et calculs d incertitudes

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

Fonctions de plusieurs variables, intégrales multiples, et intégrales dépendant d un paramètre

NON-LINEARITE ET RESEAUX NEURONAUX

Apprentissage statistique dans les graphes et les réseaux sociaux

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

Chapitre 2 Le problème de l unicité des solutions

CAPTEURS - CHAINES DE MESURES

VI. Tests non paramétriques sur un échantillon

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Big Data et Graphes : Quelques pistes de recherche

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé

Vision industrielle et télédétection - Détection d ellipses. Guillaume Martinez 17 décembre 2007

Nombres, mesures et incertitudes en sciences physiques et chimiques. Groupe des Sciences physiques et chimiques de l IGEN

Identification de nouveaux membres dans des familles d'interleukines

Méthodes d apprentissage statistique «Machine Learning»

Big Data et Graphes : Quelques pistes de recherche

Enjeux mathématiques et Statistiques du Big Data

Programmation linéaire

Probabilités III Introduction à l évaluation d options

Classification non supervisée

Fonctions de plusieurs variables

Projet de Traitement du Signal Segmentation d images SAR

Modélisation aléatoire en fiabilité des logiciels

Introduction à l approche bootstrap

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

MCMC et approximations en champ moyen pour les modèles de Markov

Economie de l incertain et de l information Partie 1 : Décision en incertain probabilisé Chapitre 1 : Introduction à l incertitude et théorie de

Baccalauréat ES Antilles Guyane 12 septembre 2014 Corrigé

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Apprentissage non paramétrique en régression

Relation entre deux variables : estimation de la corrélation linéaire

5. Apprentissage pour le filtrage collaboratif

Introduction à l étude des Corps Finis

Calculer avec Sage. Revision : 417 du 1 er juillet 2010

Modélisation et simulation

Les algorithmes de base du graphisme

de calibration Master 2: Calibration de modèles: présentation et simulation d

Programmes des classes préparatoires aux Grandes Ecoles

Apprentissage par renforcement (1a/3)

Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit

Incertitude et variabilité : la nécessité de les intégrer dans les modèles

4.2 Unités d enseignement du M1

Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA

Intégration de la dimension sémantique dans les réseaux sociaux

Simulation de variables aléatoires

Principe de symétrisation pour la construction d un test adaptatif

Master d Informatique M1 Université Paris 7 - Denis Diderot Travail de Recherche Encadré Surf Bayesien

Principes d AdWords. Quelques mots de présentation. Une audience large : les réseaux de ciblage. Réseau de recherche

Moments des variables aléatoires réelles

Laboratoire 4 Développement d un système intelligent

Coup de Projecteur sur les Réseaux de Neurones

Probabilités sur un univers fini

Feuille d exercices 2 : Espaces probabilisés

Compression et Transmission des Signaux. Samson LASAULCE Laboratoire des Signaux et Systèmes, Gif/Yvette

UEO11 COURS/TD 1. nombres entiers et réels codés en mémoire centrale. Caractères alphabétiques et caractères spéciaux.

Température corporelle d un castor (une petite introduction aux séries temporelles)

Logiciel XLSTAT version rue Damrémont PARIS

K. Ammar, F. Bachoc, JM. Martinez. Séminaire ARISTOTE - 23 octobre Palaiseau

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Complément d information concernant la fiche de concordance

LES MODELES DE SCORE

Economie de l Incertain et des Incitations

L apprentissage automatique

Modèles à Événements Discrets. Réseaux de Petri Stochastiques

CHOIX OPTIMAL DU CONSOMMATEUR. A - Propriétés et détermination du choix optimal

Chapitre 6 Apprentissage des réseaux de neurones et régularisation

Transcription:

/1 Option : Ouverte Recherche Big data Alexandre Aussem Département Informatique - Polytech Lyon Université Claude Bernard Lyon 1 Web : perso.univ-lyon1.fr/alexandre.aussem 16h CM, 16h TD 2 octobre 2015

2/1 Plan 1 Introduction à l apprentissage numérique 2 Evaluation d un classifieur 3 Principe de la classification supervisée 4 Classification multi-classe 5 Classification multi-label 6 Méthodes de classification Classifieur bayésien naïf Arbres de décision Apprentissage par mesure de similarité SVM 7 Approches ensemblistes Méthodes ensemblistes Forêt aléatoire Boosting 8 Comparaison des classifieurs 9 Réseaux Bayésiens

Introduction à l apprentissage numérique 3/1 Plan 1 Introduction à l apprentissage numérique 2 Evaluation d un classifieur 3 Principe de la classification supervisée 4 Classification multi-classe 5 Classification multi-label 6 Méthodes de classification Classifieur bayésien naïf Arbres de décision Apprentissage par mesure de similarité SVM 7 Approches ensemblistes Méthodes ensemblistes Forêt aléatoire Boosting 8 Comparaison des classifieurs 9 Réseaux Bayésiens

4/1 Introduction à l apprentissage numérique Introduction L apprentissage numérique (ou statistique) fait référence au développement, à l analyse et à l implémentation de méthodes statistiques qui permettent à une machine d apprendre à remplir une tâche à partir d exemples Il est difficile voire impossible de remplir ces tâches par des moyens algorithmiques plus classiques. Exemples de tâches : reconnaissance de formes ou de signaux, prévision, diagnostic, détection, prise de décision en environnement complexe, incertain et évolutif.

5/1 Introduction à l apprentissage numérique Introduction Ses applications sont multiples dans le monde de la production industrielle (aide à la conception de produits, maintenance préventive, robotique, planification d expériences), dans le domaine de la biologie et de la santé (aide à la découverte de médicaments, aide au diagnostic, bioinformatique), en télécommunications, en marketing et finance etc. Ce module aborde les fondements théoriques de l apprentissage numérique et offre de solides bases méthodologiques à tout ingénieur ou chercheur soucieux d exploiter ses données.

6/1 Introduction à l apprentissage numérique Applications nouvelles La publicité en ligne (ads) se fait généralement sous forme de campagne publicitaire, grâce à la diffusion de bandeaux publicitaires ou de liens sponsorisés. Les régies publicitaires sont les intermédiaires entre les annonceurs (souhaitant diffuser une campagne publicitaire) et les éditeurs (propriétaires de sites). Il existe différents modes de rémunération : CPC (Coût par clic), CPM (Coût par mille), CPS (Cost per Sale). Enjeu : comment trouver en temps réel le best match entre utilisateur, publicité et contexte? Le contexte = requête sur un moteur de recherche, lecture d une page web, interaction avec un mobile etc. But : predire l impact de la publicité sur le comportement de l usager. Marché de 28 milliards de dollars en 2011.

7/1 Introduction à l apprentissage numérique Applications nouvelles Kinect est un périphérique destiné à la console de jeux vidéo Xbox 360 permettant de contrôler des jeux vidéo sans utiliser de manette. Elle utilise une technologie 3D depth sensor (capteur de profondeur/distance 3D). C est un émetteur de lumière infrarouge, une partie de ces rayonnements est réfléchie. La lampe infrarouge projette ses rayons sur la scène, la caméra infrarouge filme cette scène et une puce traite les données afin d estimer la distance de chaque objet par rapport à la caméra. Il y a un processus d apprentissage statistique pour reconnaître la silhouette du joueur et les différents points de motion control et anticiper sa dynamique.

8/1 Introduction à l apprentissage numérique Applications nouvelles Des applications mobiles de santé ont vu le jour, permettant de conseiller les patients et apporter des conseils personnalisés à tous ceux qui ont du mal à joindre un médecin, par ex. Alerte Fièvre est capable de recommander la prise de médicaments pour lutter contre la fièvre et de proposer la dose adaptée au profil du patient. Un arbre de décision permet de savoir s il est nécessaire de consulter un médecin en fonction de divers paramètres (intensité de la fièvre, antécédents, réaction aux prises de médicaments). Google se lance également dans le diagnostic médical. Un internaute qui entre des symptômes dans la version anglophone du moteur de recherche se voit désormais proposer une liste de pathologies pouvant correspondre à son cas.

9/1 Introduction à l apprentissage numérique Applications nouvelles Réseaux sociaux et web marketing : L analyse de réseaux sociaux comme Facebook ou Twitter est un domaine de recherche maintenant établi. De nombreuses techniques existent pour identifier des communautés d utilisateurs en se basant sur leur relations explicites (amitiés, etc.), et sur la dynamique temporelle et le contenu des échanges (posts). Les données transitant sur les réseaux sociaux permettent des usages variés : compréhension les attitudes, les opinions, les tendances, la fiabilité ou la capacité d influence des utilisateurs, identification des menaces sur la réputation en ligne, prédiction du comportement des utilisateurs et améliorer leur satisfaction en recommandant les meilleures options à prendre, création de campagnes et de promotions personnalisées résonnant auprès des communautés de chaque réseau.

10/1 Introduction à l apprentissage numérique Terminologie Quelques synomymes : Apprentissage machine (), Apprentissage statistique (Statistical Learning), Extraction de connaissance à partir de données (Knowledge Discovery in Databases), Reconnaissance de formes (Pattern Recognition), Fouille de données (Data mining),

11/1 Introduction à l apprentissage numérique Illustration : Reconnaissance de chiffres manuscrits

12/1 Introduction à l apprentissage numérique Individus/attributs Le KDD, c est tout le cycle de découverte d information. Dans ce cours, on ne s intéresse pas à la conception des entrepots et à l accès aux données, mais aux algorithmes numériques pour en extraire de l information. On se donne un tableau X = {x ij } i = 1,..., n décrit les individus, instances ou enregistrements, j = 1,..., m décrit les champs, attributs ou variables du domaine. Les données peuvent être discrètes énumératives (e.g. couleur, code postal etc.), discrètes ordonnées (e.g. classe de salaire ou d âge etc.) ou continues. Prétraitement nécessaire pour l extraction de features dans les données structurées : image, son, video, texte, XML etc.

13/1 Introduction à l apprentissage numérique Problématiques en apprentissage (non temporel) 1 Apprentissage supervisé : attribuer une classe, (t N), à partir de données déjà étiquetées. Variantes : multi-class et multi-label classification, ranking. 2 Apprentissage semi-supervisé : attribuer une classe (t N) aux observations (symptômes) à partir de données étiquetées et non étiquetées. 3 Apprentissage non supervisé : former des groupes (clusters) homogènes à l intérieur d une population non étiquetée. 4 Apprentissage par renforcement : trouver à chaque instant l action qui maximise la somme des récompenses futures. Dans le cas de la régression, la valeur cible est réelle (t R).

14/1 Introduction à l apprentissage numérique Example : Image annotation/retrieval

15/1 Introduction à l apprentissage numérique Multi-label learning

16/1 Introduction à l apprentissage numérique Multivariate prediction

17/1 Introduction à l apprentissage numérique Label ranking

18/1 Introduction à l apprentissage numérique Multi-task learning

19/1 Introduction à l apprentissage numérique Collaborative filtering

20/1 Introduction à l apprentissage numérique Dyadic prediction

21/1 Introduction à l apprentissage numérique Les problèmes multi target Multi-label classification Multivariate regression / Multi-output regression Structured output prediction Multi-task learning and transfer learning dyadic prediction Label ranking Matrix factorization and collaborative filtering methods Recommender systems Sequence learning, time series prediction and data stream mining...

22/1 Introduction à l apprentissage numérique Outils logiciels

Introduction à l apprentissage numérique Apprentissage supervisé Formellement, étant donné un échantillon i.i.d. de n exemples D = (x 1, t 1 ),..., (x n, t n ) selon la distribution p(x, t) (inconnue) sur X T, avec X un espace à d dimensions prenant ses valeurs dans R d, ainsi que T la variable à prédire. L objectif de l apprentissage est d inférer une hypothèse y(., w) : X T à partir de D qui minimise : Erreur de généralisation ou erreur théorique : E(w) = E[L(y(X, w), T )] = L(y(x, w), t)p(x, t)dxdt 3/1 L( ) est la fonction de coût et E[ ] l espérance mathématique calulée sur X et T.

24/1 Introduction à l apprentissage numérique Fonctions d erreur classiques En régression, typiquement, L( ) est l erreur quadratique. On cherche donc à minimiser la fonction coût des moindres carrés : E[L(y(X, w), t)] = (y(x, w) t) 2 p(x, t)dxdt En classification, typiquement, L( ) est le taux d erreur. On cherche donc à minimiser : E[L(y(X, w), t)] = P (X,T ) [y(x, w) T ] = I[y(x, w) t]p(x, t)dx t

5/1 Introduction à l apprentissage numérique Autres fonctions d erreur... La fonction coût des moindres carrés n est pas la seule fonction coût en régression. Elle est inadaptée dans le cas où p(t x) est multimodale. La fonction coût de Minkowski est donnée par E[L(y(X, w), t)] = y(x, w) t q p(x, t)dxdt On montre que la solution optimale, ŷ(x), est donnée par, L espérance conditionnelle, E[t x], pour q = 2. La médiane de la distribution conditionnelle p(t x) pour q = 1. Le mode de la distribution conditionnelle p(t x) lorsque q 0.

26/1 Introduction à l apprentissage numérique Moindres carrés t y(x) y(x 0 ) p(t x 0 ) x 0 x La solution optimale, ŷ(x), est donnée par l espérance conditionnelle, E[t x], pour q = 2.

27/1 Introduction à l apprentissage numérique Erreur empirique L erreur théorique E(w) est impossible à calculer de façon exacte car la distribution p(x, t) est inconnue. Or on peut appliquer l approximation suivante, E[f (X)] = f (x)p(x)dx 1 n n f (x j ) Donc à défaut de minimiser l erreur théorique, on cherche une hypohèse y(., w) qui minimise : Erreur empirique : j=1 Ê(w) = 1 n n L(y(x j, w), t j ) j=1

8/1 Introduction à l apprentissage numérique Problème de dimensionnalité Chercher la meilleure décision t à partir d une observation x est un problème de décision optimale dans un univers incertain. La distribution conjointe p(t x) fournit toute la connaissance de l incertitude associée à la cible sachant les variables descriptive. L estimation de p(t x) (et à fortiori de p(t, x)) est un problème ardû en grande dimension. Elle se heurte au Pb du cours de la dimensionnalité (curse of dimensionality). D où la nécessité d utiliser un modèle paramétrique qui va lisser les valeurs de y dans l espace des x

29/1 Introduction à l apprentissage numérique Problème de dimensionnalité x 2 x 2 x 1 D = 1 x 1 D = 2 x 1 x 3 D = 3

Introduction à l apprentissage numérique Problème de dimensionnalité 2 1 D = 20 D = 1 volume fraction 0.8 0.6 0.4 D = 5 D = 2 D = 1 p(r) 1 D = 2 D = 20 0.2 0 0 0.2 0.4 0.6 0.8 1 ɛ 0 0 2 4 r 0/1 Gauche : fraction de volume d une sphère entre 1 ɛ et 1 en fonction de la dimension D. Droite : densité de probabilité d une gaussienne en fonction du rayon.

31/1 Introduction à l apprentissage numérique Classification binaire supervisée Nombre de problèmes pratiques peuvent être traités par l apprentissage d un ou plusieurs classifieurs binaires. L objectif de la classification supervisée est d inférer une fonction f : X { 1, +1} à partir de D telle que l erreur en généralisation P (X,T ) [f (X, w) T ] soit aussi faible que possible. Il arrive souvent que la sortie de f : X R soit interprété comme une degré d appartenance à la classe +1 auquel cas il faut appliquer un seuil θ en sortie. Un classifeur probabiliste estime en sortie P(t = 1 x), mais une calibration des probabilités est souvent nécessaire à l issue de l apprentissage.

32/1 Introduction à l apprentissage numérique Choix du modèle y(x, w) est généralement paramétrée par w dont la taille mémoire est intimement liée à la complexité du modèle, mais il existe des approches non paramétriques (e.g., plus proche voisin). Les modèles les plus couramment utilisés sont présentés : réseaux de neurones (ANN), machines à vecteurs supports (SVM), arbres de décisions (DT), réseau bayésien naïf (NB), régression logistique (LR), k plus proches voisins (KNN), méthodes ensemblistes, etc. Tous ces algorithmes abordent généralement le problème de manière différente et ont chacun leurs propres fondements théoriques.

33/1 Introduction à l apprentissage numérique Illustration en régression polynomiale t 1 0 1 0 x 1 y(x, w) = w 0 + w 1 x + w 2 x 2 +... + w M x M = M j=0 w jx j

Introduction à l apprentissage numérique Erreur empirique t t n y(x n, w) x n x On estime l erreur théorique par l erreur empirique : 34/1 Ê(w) = 1 N N {y(x n, w) t n } 2 n=1

35/1 Introduction à l apprentissage numérique Polynôme d ordre 0 t 1 M = 0 0 1 0 x 1

36/1 Introduction à l apprentissage numérique Polynôme d ordre 1 t 1 M = 1 0 1 0 x 1

37/1 Introduction à l apprentissage numérique Polynôme d ordre 3 t 1 M = 3 0 1 0 x 1

38/1 Introduction à l apprentissage numérique Polynôme d ordre 9 t 1 M = 9 0 1 0 x 1

Introduction à l apprentissage numérique Polynôme d ordre 9 39/1 On observe que w j quand M.

40/1 Introduction à l apprentissage numérique Sur-apprentissage 1 Training Test ERMS 0.5 0 0 3 M 6 9

1/1 Introduction à l apprentissage numérique Régularisation Idée : Pénaliser les larges valeurs des coeffcients, Ê(w) = 1 2 M {f (x n, w) t n } 2 + λ 2 w 2 n=1 λ réalise un compromis entre flexibilité et complexité du modèle. On parle aussi de compromis biais-variance où le biais est l erreur systématique du modèle et la variance est mesure l incertitude du modèle par rapport aux variations de l échantillon.

42/1 Introduction à l apprentissage numérique Régularisation ln λ = 18 t 1 ln λ = 18 0 1 0 x 1

43/1 Introduction à l apprentissage numérique Régularisation ln λ = 0 t 1 ln λ = 0 0 1 0 x 1

44/1 Introduction à l apprentissage numérique Régularisation : E RMLS vs. ln λ 1 Training Test ERMS 0.5 0 35 30 ln λ 25 20

45/1 On observe que la magnitude des w j décroît à mesure que λ augmente. Introduction à l apprentissage numérique Polynôme d ordre 9

46/1 Introduction à l apprentissage numérique Dilemme biais-variance En régression, on suppose que y = f (x, w) + ɛ où ɛ est un bruit gaussien de variance σ 2. L erreur quadratique théorique E[w] se décompose alors : E[w] = = + (f (x, w) y) 2 f X,Y (x, y)dxdy (f (x, w) E[y x]) 2 f X,Y (x, y)dxdy (E[y x] y) 2 f Y /X (y)dxdy avec E[t x] = tp(t x))dt, la meilleure prédiction possible. Le terme (E[y x] y) 2 f Y /X (y)dxdy = σ 2 est le bruit. Il est par définition irréductible.

47/1 Introduction à l apprentissage numérique Dilemme biais-variance Le modèle f (x, w) est dépendant de D. On montre en moyennant sur D que E D [(f (x, w) E[y x]) 2 ] = (E D [(f (x, w)] E[y x]) 2 + E D [(f (x, w) E D [(f (x, w)]) 2 ] Au final, on obtient la décomposition : Erreur = (biais) 2 + variance + bruit Conclusion : il faut chercher un compromis entre biais (modèle trop simple) et variance (modèle trop paramétré).

48/1 Introduction à l apprentissage numérique Décomposition biais-variance en fonction de ln λ t 1 ln λ = 2.6 t 1 0 0 1 1 0 x 1 0 x 1

49/1 Introduction à l apprentissage numérique Décomposition biais-variance en fonction de ln λ t 1 ln λ = 0.31 t 1 0 0 1 1 0 x 1 0 x 1

50/1 Introduction à l apprentissage numérique Décomposition biais-variance en fonction de ln λ t 1 ln λ = 2.4 t 1 0 0 1 1 0 x 1 0 x 1

51/1 Introduction à l apprentissage numérique Compromis biais-variance 0.15 0.12 0.09 (bias) 2 variance (bias) 2 + variance test error 0.06 0.03 0 3 2 1 0 1 2 ln λ Un modèle trop régularisé model est très biaisé, tandis qu un modèle pas assez régularisé a une grande variance.

52/1 Introduction à l apprentissage numérique Dilemme biais-spread en classification Le modèle f (x, w) est dépendant de D. On montre en moyennant sur D que E D [P(Y f (X, w))] = 1 P(j X ) + E X [(P(j X ) P(ĵ X ))P(ĵ f, X )] + E X [ ((P(j X ) P(j X ))P(j f, X ))] j ĵ avec les notations P(j f, x)) = P D (f (x, w) = j X = x)) P(j x)) = P(Y = j x)) j (x) = argmaxp(j x) j ĵ(x) = argmaxp(j f, x) j

53/1 Introduction à l apprentissage numérique Dilemmes biais-spread et biais-variance Au final, on obtient les décompositions Dilemme biais-variance en régression Erreur = (biais) 2 + variance + bruit Dilemme biais-spread en classification Erreur = biais + spread + erreur bayésienne Le spread est l équivalent de la variance en régression. Le bruit et l erreur bayésienne sont irréductibles. L enjeu est dimininuer conjointement biais et variance (ou biais et spread).

54/1 Introduction à l apprentissage numérique Théorie de la décision On a vu que les probabilité fournissent un cadre mathématique pour quantifier et manipuler l incertitude. Comment en déduire des décisions quant à la classe? La distribution p(x, t) résume entièrement l incertitude associée à ces variables. Mais déterminer p(x, t) à partir d une base d apprentissage est une tâche d inférence ardue. On cherche une règle qui assigne une classe à chaque valeur du vecteur d entrée x. Cette règle divise l espace d entrée en régions de décision R k de sorte que tous les points de R k se voient assignés la classe C k. Les frontières (ou surfaces) de décision séparent ces regions.

55/1 Introduction à l apprentissage numérique Minimiser le taux d erreur Lorsque p(x, y) est connue, avec y {C 1,..., C K }, le problème de la décision optimale devient trivial. D après le théorème de Bayes : p(c k x) = p(x C k)p(c k ) p(x) L a posterori la vraisemblance l a priori Décider revient à chercher k tq p(c k x) > p(c j x), j k. On définit donc des régions R k = {x p(c k x) > p(c j x), j k} Décision : si x est dans R k, alors on décide que t C k

56/1 Introduction à l apprentissage numérique Minimiser le taux d erreur On a clairement p(c k x) > p(c j x) équivalent à p(x C k )p(c k ) > p(x C j )p(c j ) Donc au lieu d estimer p(c k x), on estime p(x C k ) et p(c k ) pour k = 1,..., Nbclasses

57/1 Introduction à l apprentissage numérique Erreur de classification minimale x 0 x p(x, C 1 ) p(x, C 2 ) x R 1 R 2

Introduction à l apprentissage numérique Minimiser le coût moyen 8/1 La probabilité de commettre une erreur, dans le cas de deux classes, est P(erreur) = p(x, C 1 )dx + p(x, C 2 )dx R 2 R 1 Dans le cas généréral, on peut définir une matrice de coûts L kj lorsqu on assigne x à C j alors que x C k. On montre que E(L) = L kj p(x, C k )dx k j R j Le but est de minimiser E(L). Pour cela, il faut chercher les régions R j qui minimisent k L kjp(x, C k ) A un nouveau x, on associe la classe j telle que k L kjp(x, C k ) est minimale.

Introduction à l apprentissage numérique Région de rejet 1.0 θ p(c 1 x) p(c 2 x) 0.0 reject region x 59/1 Taux de rejet : si max k p(c k x) < θ, on rejette x sinon on le classe.

60/1 Introduction à l apprentissage numérique Inférence & décision On identifie 3 approches distinctes pour résoudre les problèmes de décision. Dans l ordre décroissant complexité 1 Modèles génératifs : Apprendre p(x C k ) pour en déduire p(c k x) avec les probabilités a priori p(c k ) par la règle de Bayes. Cela revient de façon équivalente à inférer p(x, C k ). 2 Modèles discriminatifs : Inférer directement p(c k x) et utilisent la théorie de la décision pour assigner la classe C k à x. 3 Modèles non probabilistes : ils assignent directement la classe sans référence aux probabilités.

61/1 Introduction à l apprentissage numérique Inférence & décision Avantages et inconvénient : 1 Modèles génératifs : approximer p(x C k ) nécessite beaucoup d exemples, mais permet de calculer p(x) (et ses marginales) p(x) = k p(x C k )p(c k ) Très utile pour la détection de données aberrantes (outlier detection) et la détection de nouveauté (novelty detection) pour lesquels p(x) est anormalement faible selon le modèle. 2 Modèles discriminatifs : Tâche moins complexe. Les distributions conditionnelles des classes contiennent parfois des structures inutiles pour le calcul des probabilités a posteriori. 3 Modèles non probabilistes : Simple et efficace mais nécessite un ré-apprentissage si la matrice de coût change.

62/1 Introduction à l apprentissage numérique Illustration 5 4 p(x C 2) 1.2 1 p(c 1 x) p(c 2 x) class densities 3 2 p(x C 1) 0.8 0.6 0.4 1 0.2 0 0 0.2 0.4 0.6 0.8 1 x 0 0 0.2 0.4 0.6 0.8 1 x

63/1 Introduction à l apprentissage numérique Illustration : classifieur probabiliste 3 2 1 0 1 2 2 1 0 1 2

Evaluation d un classifieur 64/1 Plan 1 Introduction à l apprentissage numérique 2 Evaluation d un classifieur 3 Principe de la classification supervisée 4 Classification multi-classe 5 Classification multi-label 6 Méthodes de classification Classifieur bayésien naïf Arbres de décision Apprentissage par mesure de similarité SVM 7 Approches ensemblistes Méthodes ensemblistes Forêt aléatoire Boosting 8 Comparaison des classifieurs 9 Réseaux Bayésiens

65/1 Evaluation d un classifieur Sélection de modèle et généralisation En pratique, pour contrôler le risque de sur-apprentissage, on décompose la base de données D en 3 sous-bases Une base d apprentissage pour ajuster les paramètres du modèle, Une base de validation pour comparer les modèles entre eux ou ajuster la taille du modèle (ou choisir un modèle) en estimant l erreur de généralisation sur cette base. Une base de test pour évaluer objectivement l erreur réelle.

Evaluation d un classifieur Validation croisée Lorsqu on ne dispose pas suffisamment de données, on peut utiliser la technique de la validation croisée pour estimer l erreur de généralisation du modèle : On découpe D en n parties disjointes égales D j Pour j = 1 à n : On ajuste les paramètres du modèle sur D D j et on calcule l erreur E j sur D j On retourne une estimation de l erreur réelle E = 1 n E j 6/1

67/1 Evaluation d un classifieur Problème de dimensionnalité run 1 run 2 run 3 run 4

68/1 Evaluation d un classifieur Evaluation d un classifieur Pour mesurer les performances d un classifieur, plusieurs critères existent. Ils reposent sur la table de contingence (confusion matrix) : Positif Négatif Prédiction positive TP FP Prédiction négative FN TN Attention, les critère de performance varient avec le taux de positifs (prévalence de la maladie). Un classifieur stupide fait mieux que 50% de réussite dans des données non équilibrées (imbalanced data sets). La fonction coût est souvent asymétrique, elle dépend de l application. C est la fonction coût qu on veut minimiser.

Evaluation d un classifieur Evaluation d un classifieur Précision = Spécificité = TP TP + FP ; Rappel = TP TP + FN TN TN + FP ; Sensibilité = TP TP + FN TP + TN Accuracy = TP + TN + FP + FN ; Balanced Acc. = 1 2 (Spé.+Sens.) Sensibilité et spécificité, (resp. précision et rappel) idéalement égales à 1, varient en sens inverse en fonction du seuil de positivité. Pb multi-critère. Parfois on veut les combiner pour obtenir un seul critère : 69/1 F-mesure = (1 + β 2 ) Précision Rappel β 2 Précision + Rappel

70/1 Evaluation d un classifieur Evaluation d un classifieur Supposons par exemple qu on s intéresse à la température comme prédicteur de la grippe. On décide que le patient a la grippe si la température dépasse un certain seuil, par exemple 39 C. Si on augmente le seuil pour le porter à 40 C, la probabilité de dépasser le seuil (chez les sujets grippés) va diminuer, donc la sensibilité diminue. En revanche, la probabilité d être en dessous du seuil (chez les sujets non grippés) va augmenter, donc la spécificité augmente. Un test diagnostique de bonne sensibilité est utile en dépistage. Si le test possède une bonne spécificité peut être utilisé en tant qu examen de confirmation du diagnostic.

Evaluation d un classifieur Choix d un seuil : courbes ROC 71/1 Un classifieur fournit un score (valeur discriminante, probabilité, rang) pour chaque individu à classer. Un petite valeur indique une classe négative et vice-versa. La courbe ROC (Receiver Operating Characteristics) trace graphiquement la sensibilité en fonction de la spécificité, en variant continûment ce seuil. La droite diagonale correspond à un classifieur aléatoire. L évaluation est souvent fondée sur la surface sous la courbe (Area Under Curve). L AUC est égale à la probabilité que le classifieur classe mieux un positif qu un négatif, tous deux choisis au hasard L AUC se calcule par la méthode des trapezoides. Dans le cas binaire, on peut approximer la courbe par une courbe linéaire par morceaux, dans ce cas l AUC est juste la Balanced Accuracy (BAC).

Evaluation d un classifieur Courbe ROC 72/1 L AUC = probabilité que le classifieur classe mieux un exemple positif tiré au hasard qu un exemple négatif tiré au hasard.

Principe de la classification supervisée 73/1 Plan 1 Introduction à l apprentissage numérique 2 Evaluation d un classifieur 3 Principe de la classification supervisée 4 Classification multi-classe 5 Classification multi-label 6 Méthodes de classification Classifieur bayésien naïf Arbres de décision Apprentissage par mesure de similarité SVM 7 Approches ensemblistes Méthodes ensemblistes Forêt aléatoire Boosting 8 Comparaison des classifieurs 9 Réseaux Bayésiens

74/1 Principe de la classification supervisée Maximum de vraisemblance Lorsqu on cherche à ajuster un modèle y(x, w) au regard des données D, il faut ajuster les paramètres w. Si le modèle est probabiliste, du type P(t x) = y(x, w) alors un principe phare (et intuitif) de la statistique inférentielle est de maximiser p(w D) à la recherche d une valeur optimale w C était l approche privilégiée précédemment dans la régression polynomiale.

Principe de la classification supervisée Maximum de vraisemblance Les paramètres w les plus probables d un modèle y(x, w) au regard des données D sont ceux qui maximisent la probabilité a posteriori : 75/1 w = argmax w p(w D) = argmax w p(d w)p(w) p(d) = argmax w {log(p(d w)) + log(p(w))} p(d w) s appelle la vraisemblance. Maximiser l a posteriori revient à minimiser log(vraisemblance) + la probabilité a priori sur les paramètres. Si l a priori est uniforme, cela revient à appliquer le principe du maximum de vraisemblance.

76/1 Principe de la classification supervisée Maximum de vraisemblance Exemple illustratif : On veut ajuster une gaussienne de paramètres w = {µ, σ 2 } aux données D = (x 1,..., x N ). Pour chaque x D, on a N (x µ, σ 2 ) = 1 σ 1 exp { 2π 2σ 2 (x µ)2 } En supposant les {x 1,..., x N } indépendants, il vient p(x 1,..., x N µ, σ 2 ) = N N (x n µ, σ 2 ) n=1

77/1 Principe de la classification supervisée Maximum de vraisemblance log p(d w) est notre fonction d erreur. La minimiser revient à maximiser log p(x 1,..., x N µ, σ 2 ) = 1 2σ 2 N (x n µ) 2 N 2 ln σ2 N 2 n=1 ln 2π En maximisant cette relation par rapport à µ et σ, on trouve ˆµ = 1 N N x n, n=1 ˆσ 2 = 1 N N (x n ˆµ) 2 n=1

78/1 Principe de la classification supervisée Overfitting Le principe du maximum de vraisemblance sous-estime systématiquement la variance d un modèle trop paramétré Maximiser la vraisemblance du modèle sur les données d apprentissage nous expose au risque de sur-apprentissage (overfitting), en particulier si le modèle est trop complexe (trop paramétré) au regard du nombre de données Il faut pénaliser l erreur d apprentissage par un terme lié à la complexité du modèle (e.g., nombre de paramètres, taille mémoire)

Principe de la classification supervisée Approche probabiliste Il est possible de revisiter la régression polynomiale dans un cadre probabiliste en introduisant une incertitude sur la prédiction p(t x, w, β) = N (t y(x, w), β 1 ) où β 1 est l inverse de la variance σ 2, ce qui nous permet d écrire la fonction d erreur ln p(t x, w, β) = N {y(x n, w) t n } 2 + N 2 ln β N 2 n=1 On trouve sans suprise ln (2π) 79/1 1 β ML = 1 2 N {y(xn, w ML ) t n } 2

80/1 Principe de la classification supervisée Approche probabiliste t y(x, w) y(x 0, w) p(t x 0, w, β) 2σ x 0 x

Principe de la classification supervisée Maximium a posteriori On peut aller plus loin en posant p(w α) = N (w 0, α 1 I) = ( α 2π )(M+1)/2 exp { α 2 wt w} où α est la précision de la distribution (hyperparamètre) et M + 1 le nombre de paramètres de polynôme d ordre M. On trouve d après la règle de Bayes p(w x, t, α, β) p(t x, w, β)p(w α) Maximiser l a posteriori revient à minimiser 1/1 β 2 M {f (x n, w) t n } 2 + α 2 wt w n=1 On retombe sur la régularisation précédente avec λ = α/β.

Principe de la classification supervisée Approche bayésienne L approche MAP intègre un apriori mais repose encore sur estimation ponctuelle de w. Une approche entièrement bayésienne somme selon toutes les valeurs possibles de w p(t x, x, t, α, β) = p(t x, w, β)p(w x, t, α, β)dw 2/1 Dans le cas précis de la régression polynômiale et sous les hypothèses d incertitude gaussienne, la distribution p(t x, x, t, α, β) peut se calculer analytiquement. Elle est encore gaussienne mais sa moyennne µ(x) et son écart-type σ(x) dépendent cette fois de x. Dans le cas général, il faut se tourner vers des méthodes numériques d échantillonnage stochastique de type Monte Carlo pour echantillonner selon la distribution

3/1 Principe de la classification supervisée Approche bayésienne t 1 0 1 0 x 1 Distribution prédictive resultant d un traitement bayésien d une régression polynomiale avec M = 9, α = 510 3 et β = 11. En rouge, la courbe moyenne avec son intervalle ±σ.

Classification multi-classe 84/1 Plan 1 Introduction à l apprentissage numérique 2 Evaluation d un classifieur 3 Principe de la classification supervisée 4 Classification multi-classe 5 Classification multi-label 6 Méthodes de classification Classifieur bayésien naïf Arbres de décision Apprentissage par mesure de similarité SVM 7 Approches ensemblistes Méthodes ensemblistes Forêt aléatoire Boosting 8 Comparaison des classifieurs 9 Réseaux Bayésiens

5/1 Classification multi-classe Classification multi-classe La classification multi-classe (K > 2 classes) peut être résolue par trois méthodes : 1 one-against-all : un classifieur par classe. C est le plus simple à mettre en oeuvre. Le classifieur est appris sur tous les exemples, les exemples positifs sont ceux de la classe, les autres sont négatifs. 2 One-against-one ou all-pairs : K(K 1)/2 classifieurs impliquant seulement 2 classes, avec seulement les individus de l une ou l autre classe. 3 Error-Correcting Output Codes (ECOC), en assignant à chaque classe un vecteur binaire unique de taille n.

86/1 Classification multi-classe Illustration C 1 C 3? R 1 R 1 R 2 C 1? R 3 C 1 R 3 not C 1 C 2 not C 2 C 2 R 2 C 2 C 3

Classification multi-classe ECOC - Illustration Classe vl hl dl cc ol or 0 0 0 0 1 0 0 1 1 0 0 0 0 0 2 0 1 1 0 1 0 3 0 0 0 0 1 0 4 1 1 0 0 0 0 5 1 1 0 0 1 0 6 0 0 1 1 0 1 7 0 0 1 0 0 0 8 0 0 1 1 0 0 9 0 0 0 1 1 0 Table : Reconnaissance de chiffres manuscrits 87/1 Code 6-bits distribué, un classifieur distinct par colonne. Les colonnes et les lignes sont distinctes. Lors de la classifcation de x, on appelle les 6 fonctions pour obtenir un mot de 6 bits. La distance de Hamming de ce mot aux 10 codewords est calculée. La plus proche donne la classe. Exemple : 110001 est plus proche de 110000 et donne la

88/1 Classification multi-classe ECOC - Illustration Chaque colonne à un sens Colonne Abréviation Sens 1 vl contient une ligne verticale 2 hl contient une ligne horizontale 3 dl contient une ligne diagonale 4 cc contient une courbe fermée 5 ol contient une courbe ouverte à droite 6 or contient une courbe ouverte à gauche

89/1 Classification multi-classe One-against-one Comment combiner les sorties des K(K 1)/2 classifieurs binaires du One-against-one pour obtenir les probabilités a posteriori des classes? Posons P ij = P(C i C ij, X = x) Comment exprimer P(C i X = x) en fonction des P ij? Idée simple : La classe recevant le maximum de votes est celle choisie. Cette approche expose à des ambiguïtés.

Classification multi-classe One-against-one Chaque pattern appartient à une seule classe, on a K P( C j X = x) = 1 j=1 avec K = P( C ij X = x) j=1,i j K = P(C ij X = x) (K 2) P(C i X = x) j=1,i j 90/1 P ij = P(C i C ij, X = x) = P(C i X = x) P(C ij X = x)

91/1 Classification multi-classe One-against-one On obtient les K probabilités a posteriori sachant les K(K 1)/2 probabilités P ij : Recombinaison P(C i X = x) = K j=1,i j 1 1 P ij (K 2) En faisant P ij = 1, i, on retrouve bien P(C i X = x) = 1. Pas d avantage clair entre One-against-one technique et one-against-all.

Classification multi-label 92/1 Plan 1 Introduction à l apprentissage numérique 2 Evaluation d un classifieur 3 Principe de la classification supervisée 4 Classification multi-classe 5 Classification multi-label 6 Méthodes de classification Classifieur bayésien naïf Arbres de décision Apprentissage par mesure de similarité SVM 7 Approches ensemblistes Méthodes ensemblistes Forêt aléatoire Boosting 8 Comparaison des classifieurs 9 Réseaux Bayésiens

93/1 Classification multi-label Classification Multi-label Les individus (patterns) sont étiquetés par un sous-ensemble fini d étiquettes (labels) Applications : Annotation/indexing sémantique semi-automatique de collection de media pour l aide à la recherche sémantique. Texte : infos, brevets, documents légaux, rapports médicaux, articles de recherche, etc. Image/vidéo : ImageCLEF 2010 photo annotation task : collection de 8000 images flickr annotées manuellement selon 93 concepts. Web : emails, Web pages (Yahoo! directory), images Web Audio : music tracks, sélection des morceaux dans les mobiles

4/1 Classification multi-label Classification Multi-label La classification multi-label (K labels) peut être résolue efficacement en partitionnant le probleme original en K(K 1)/2 sous problèmes impliquant seulement 2 labels. Construire un classifieur sur toutes les paires de labels, avec seulement les individus de l un ou l autre label. Combiner les sorties des K(K 1)/2 classfieurs binaires pour obtenir les probabilités a posteriori des labels.

95/1 Classification multi-label Ranking by Pairwise Comparison

96/1 Classification multi-label Ranking by Pairwise Comparison

Méthodes de classification 97/1 Plan 1 Introduction à l apprentissage numérique 2 Evaluation d un classifieur 3 Principe de la classification supervisée 4 Classification multi-classe 5 Classification multi-label 6 Méthodes de classification Classifieur bayésien naïf Arbres de décision Apprentissage par mesure de similarité SVM 7 Approches ensemblistes Méthodes ensemblistes Forêt aléatoire Boosting 8 Comparaison des classifieurs 9 Réseaux Bayésiens

98/1 Méthodes de classification Classifieur bayésien naïf Classifieur de Bayes naïf C est un classifieur probabiliste simple qui fournit en sortie p(y x) où y est la classe. Il repose sur l estimation de p(x, y) à partir de D. C est l équivalent en classification de la régression linéaire.

99/1 Méthodes de classification Classifieur bayésien naïf Classifieur de Bayes naïf Autant il est facile d estimer p(c k ), autant l estimation de p(x C k ) peut devenir très imprécise si la dimensionalité de x est élévée. C est ici qu intervient l hypothèse simplificatrice, dite naive, pour réduire le nombre de paramètres à renseigner. Elle suppose que X i indépendent de tous les X j, tq i j, est conditionnellement à la classe. Un classifieur de Bayes naïf opère selon la règle : Classe(x) arg max k n p(x i C k )p(c k ) i=1 On estime les p(x i C k ) et p(c k ) à partir des fréquences relatives de la base d apprentissage.

00/1 Méthodes de classification Arbres de décision Arbres de décision Un arbre de décision est un classifieur simple et graphique. Sa lisibilité, sa rapidité d apprentissage et d exécution expliquent sa popularité. But : prédire les valeurs prises par la variable à prédire à partir d un ensemble de variables prédictives (ou variables discriminantes). Cette technique fait partie des méthodes d apprentissage supervisé. Son succès repose sur la lisibilité du modèle de prédiction car les variables discriminantes sont hiérarchisées sous forme d un arbre. Le travail de l analyste consiste aussi à faire comprendre ses résultats afin d emporter l adhésion des décideurs.

101/1 Méthodes de classification Arbres de décision Illustration d un arbre binaire x 1 > θ 1 x 2 θ 2 x 2 > θ 3 x 1 θ 4 A B C D E

Méthodes de classification Arbres de décision Illustration d un arbre binaire x 2 E θ 3 B θ 2 C D A θ 1 θ 4 x 1 102/1 Pavage obtenu dans l espace d entrée.

103/1 Méthodes de classification Arbres de décision Explications Un arbre de décision binaire est le résultat d une procédure récursive qui consiste à partitionner l espace de représentation X en cherchant la coupure transversale qui maximise un critère prédéfini qui assure la meilleure sépération possible des individus selon la classe. L algorithme commence avec le noeud racine contenant tous les exemples et cherche une coupure de la forme X j > θ j ou X j θ j où θ j est un seuil. Deux nouveaux noeuds sont ainsi ajoutés à l arbre, l un contenant les exemples respectant X j > θ j et l autre les exemples respectant X j θ j. Ce processus de coupure est répété pour chaque nouveau noeud crée jusqu à ce qu un critere d arrêt soit verifié. L arbre opère un pavage (discrétisation) dans l espace X.

104/1 Méthodes de classification Arbres de décision Construction d un arbre de décision Pour construire un arbre de décision, il faut : Choisir, parmi les variables qui restent, la variable de segmentation du sommet courant. Lorsque la variable est continue, déterminer le seuil de coupure. Déterminer la bonne taille de l arbre? Est-il souhaitable de produire absolument des feuilles pures selon la variable à prédire, même si le groupe correspondant correspond à une fraction très faible des observations? Affecter la valeur de la variable à prédire aux feuilles?

105/1 Méthodes de classification Arbres de décision Critère de segmentation Teste toutes les variables potentielles et choisit celle qui maximise un critère donné. Le critère caractérise le gain en pureté lors du passage du sommet à segmenter vers les feuilles produites par la segmentation. Plusieurs critères existent. Leur choix a peu d influence sur les performances des algorithmes. Le problème est de trouver le meilleur test associé à une variable nominale de n modalités, dans un arbre L-aire avec k classes. Un autre problème est de comparer les meilleurs tests entre variables de nature différente (nominale et continue).

06/1 Méthodes de classification Arbres de décision Critère de choix de variable Posons p(c k ) la proba de la classe C k dans le noeud considéré, Critères les plus utilisés pour mesurer de l hétérogénéité du noeud candidat : Entropie (ID3, C4.5) : H = k p(c k) log 2 (p(c k )), minimum 0 si une seule classe représentée et maximum log 2 (nbclasses) si classes équi-réparties Indice Gini (CART) : Gini = 1 k p2 (C k ) Indice d erreur : Er = 1 max k (p(c k ))

107/1 Méthodes de classification Arbres de décision Gain d homogénéité Soit un test T à m alternatives et divisant le noeud N en m sous-noeuds N j Soit I (N j ) les mesures d hétérogénéité (entropie, Gini,...) des sous-noeuds, et p(n j ) les proportions des éléments de N dirigés vers N j par le test T Le gain d homogénéité/information apporté par le test T est Gain(N, T ) = I (N) m p(n j )I (N j ) j=1 A chaque noeud, choix du test maximisant le gain

108/1 Méthodes de classification Arbres de décision Tests sur les variables Il y a un nb fini de tests possibles à chaque noeud car un nombre fini d instances en apprentissage. En pratique, tri des exemples par valeur croissante de la variable continu et examen d au maximum N 1 seuils, typiquement les médianes entre valeurs successives croissantes. Par exemple si valeurs de A atteintes sur les exemples d apprentissage sont {1, 3, 6, 10, 12}, on considérera les tests A > 1.5; A > 4.5; A > 8; A > 11 Dans le cas d une variable nominale, il y a 2 n 1 tests possibles pour séparer n catégories. Des heuristiques sont nécessaires... Sinon, un noeud fils par catégorie (arbre n-aire).

109/1 Méthodes de classification Arbres de décision Définir la bonne taille de l arbre Il y a un risque de surajustement du modèle : le modèle semble performant (son erreur moyenne est très faible) mais il ne l est en réalité pas du tout. Il faut trouver l arbre le plus petit possible ayant la plus grande performance possible. Plus un arbre est petit et plus il sera stable dans ses prévisions futures (en statistiques, le principe de parcimonie prévaut). Pour éviter un sur-ajustement, il convient d appliquer un principe de parcimonie et de réaliser des arbitrages performance/complexité. A performance comparable, on préfèrere toujours le modèle le plus simple, si l on souhaite pouvoir utiliser ce modèle sur de nouvelles données totalement inconnues.

110/1 Méthodes de classification Arbres de décision Le problème du sur-ajustement L erreur d ajustement de l arbre de décision en fonction du nombre de feuilles de l arbre (complexité) décroît constamment sur l échantillon d apprentissage, à partir d un certain niveau de complexité. Le modèle s éloigne de la réalité, réalité que l on essaie de mesurer sur l échantillon test. Les techniques de pré ou de post élégage des arbres peuvent y remédier.

111/1 Méthodes de classification Arbres de décision Elagage Pré-élagage : critères d arrêt lors de la phase d expansion. (e.g., effectif trop faible, pureté d un sommet suffisante) Post-élagage : construire l arbre en deux temps. L arbre le plus pur possible est élagué en s appuyant sur l échantillon de validation ou l échantillon de test. Pruning set en anglais. Une fois l arbre construit, on affecte aux feuilles la classe majoritaire ou un score = proportion de la classe majoritaire. Attention, il faut calibrer ce score pour estimer la probabilité, tout comme les modèles bayésien naïfs, car le score est biaisé vers les valeurs extrêmes, 0 ou 1.

112/1 Méthodes de classification Arbres de décision Les algorithmes classiques Les algorithmes se distinguent par le ou les critères de segmentation utilisés, par les méthodes d élégage implémentées et leur manière de gérer les données manquantes. Liste non exhaustive des algorithmes classiquement utilisés : CART (Breiman et al., 1984), ID3, C4.5, C5 (Quinlan, 1986 ; Quinlan, 1993).

113/1 Méthodes de classification Arbres de décision Exemple de C4.5 Les tests par défaut considérés par C4.5 sont : A =? pour une variable nominale A, avec un noeud fils pour chaque valeur de A. A t pour un attribut continu A, avec deux noeuds fils, vrai et faux. Pour trouver le seuil t qui maximise le critère de splitting, les individus sont classés selon la valeur de l attribut pour donner des valeurs ordonnées distinctes v 1, v 2,..., v N. Chaque paire de valeurs adjacentes suggère une seuil potentiel t = (v i + v i+1 )/2. Le gain de pureté est affecté par le nombre de résultats du test. Un biais existe vers les attributs ayant de multiples modalités ou de valeurs distinctes.

114/1 Méthodes de classification Arbres de décision Discrétisation avec les arbres Les arbres sont des modèles de prédilection pour la discrétisation supervisée des variables continues, et nominales avec de nombreuses modalités (cas fréquent). Dans le cas des variables continues, il suffit de lancer un algorithme standard. Le nombre de bins est le nombre de noeuds feuilles qu il est facile d ajuster itérativement Dans le cas des variables nominales, on utilise des heuristiques de splitting de complexité linéaire. Pour créer de nouvelles variables d interaction : pour chaque paire Y i, Y j, construire un arbre avec {Y i, Y j }. Récupérer la classe prédite comme nouvelle variable.

15/1 Méthodes de classification Apprentissage par mesure de similarité Mesure de similarité Idée intuitive : calculer une mesure de similarité entre exemples, puis affecter à un nouvel exemple x la classe la plus representée parmi les exemples d apprentissage dont il est proche. Définition Une mesure de similarité sur X est une fonction K : X X [ 1, 1]. On dit que K est symétrique si K(x, y) = K(y, x) pour tout x, y issu de P. Si la mesure est non borneé entre -1 et 1, on peut considérer sans perte de generalité la mesure de similarite normalisée : K(x, y) = K(x, y) K(x, x)k(y, y)

Méthodes de classification Apprentissage par mesure de similarité Classifieur de Parzen Etant donnée une mesure de similarité K, on peut affecter à un nouvel exemple x une classe prédite en utilisant la fonction de classification f suivante : f (x) = signe( n y i K(x, x i )) i=1 Ce classifieur dit classifieur de Parzen consiste simplement à affecter l étiquette correspondant aux exemples les plus similaires. Pour améliorer la classification, on peut donner une importance différente, β i > 0, à chaque exemple, 16/1 n f (x) = signe( β i y i K(x, x i )) i=1

117/1 Méthodes de classification Apprentissage par mesure de similarité k-plus proches voisins C est le classifieur non-paramétrique le plus simple et intuitif. Il s agit pour chaque x de la base de test, de classer les x i de la base d apprentissage selon K(x, x i ), dans l ordre décroissant et de ne chosir que les k premiers x i. La classe de x est alors donnée par la classe majoritaire parmi ces k plus proches voisins x i. Inconvénient : complexité spatiale et temporelle importante par rapport aux modèles paramétriques

118/1 Méthodes de classification Apprentissage par mesure de similarité k-plus proches voisins x 2 x 2 (a) x 1 (b) x 1

Méthodes de classification Apprentissage par mesure de similarité k-plus proches voisins 2 K = 1 2 K = 3 2 K = 3 1 x 7 x 7 x 7 1 1 1 0 0 1 2 x 6 0 0 1 2 x 6 0 0 1 2 x 6 119/1 Les frontières de décision sont plus lisses à mesure que K augmente.

120/1 Méthodes de classification SVM SVM Définition succinte Les séparateurs à vastes marges (SVM) formulent le problème de classification comme un problème d optimisation quadratique lié à la maximisation de la marge maximale. Ce choix est justifié par la théorie statistique de l apprentissage, qui montre que la frontière de séparation de marge maximale possède la plus petite erreur en généralisation. La marge est la distance entre la frontière de séparation et les échantillons les plus proches (vecteurs supports). Dans le cas non linéairement séparables, l idée clé est de transformer l espace de représentation des données d entrées en un espace de redescription de plus grande dimension (possiblement infinie), dans lequel il est probable qu il existe une séparatrice linéaire, grâce à une fonction noyau, Les fonctions noyaux permettent de transformer un produit scalaire dans un espace de grande dimension en une simple évaluation ponctuelle d une fonction (kernel trick)

Méthodes de classification SVM SVM Plus formellement, on applique aux vecteurs d entrée x une transformation non-linéaire φ. L espace d arrivée φ(x ) est appelé espace de redescription. Dans cet espace, on cherche alors l hyperplan y(x) = w T φ(x) + b qui vérifie t k y(x k ) > 0, pour tous les points x k de l ensemble d apprentissage, c est-à-dire l hyperplan séparateur dans l espace de redescription. Le problème de cette formulation est qu elle implique un produit scalaire entre vecteurs dans l espace de redescription, de dimension élevée, ce qui est couteux en terme de calcul. Pour contourner ce problème, on utilise une astuce (kernel trick) qui consiste à utiliser une fonction noyau, qui vérifie 121/1 K(x i, x j ) = φ(x i ) T φ(x j ) L intérêt de la fonction noyau est double : Le calcul se fait dans l espace d origine, ceci est beaucoup moins coûteux qu un produit scalaire en grande dimension. La transformation φ n a pas besoin d être connue explicitement, seule la fonction noyau intervient dans les calculs. On peut donc envisager des transformations complexes, et même des espaces de redescription de dimension infinie.

122/1 Méthodes de classification SVM Illustration y = 1 y = 0 y = 1 y = 1 y = 0 y = 1 y = 1 y = 0 ξ > 1 y = 1 ξ < 1 margin ξ = 0 A droite, une marge souple qui tolère les mauvais classements par l introduction de variables ressort (slack variables), qui permettent de relacher les contraintes. ξ = 0

Méthodes de classification SVM Illustration 123/1 Exemple de données synthétiques à 2 classes en 2 dimensions montrant les courbes de niveaux de y(x) obtenues par un SVM avec un noyau gaussien. La frontière de séparation et de marge et les vecteurs supports sont visibles.

24/1 Méthodes de classification SVM Illustration 2 0 2 2 0 2 Exemple non séparable sur des données synthétiques à 2 classes en 2 dimensions avec des slack variables.

Approches ensemblistes 125/1 Plan 1 Introduction à l apprentissage numérique 2 Evaluation d un classifieur 3 Principe de la classification supervisée 4 Classification multi-classe 5 Classification multi-label 6 Méthodes de classification Classifieur bayésien naïf Arbres de décision Apprentissage par mesure de similarité SVM 7 Approches ensemblistes Méthodes ensemblistes Forêt aléatoire Boosting 8 Comparaison des classifieurs 9 Réseaux Bayésiens

Approches ensemblistes Méthodes ensemblistes Méthodes ensemblistes Définition Une méthode ensembliste combine les décisions individuelles de plusieurs classifieurs y 1,..., y M pour classer de nouveaux exemples Conditions pour qu une méthode ensembliste soit efficace : Les classifieurs construits ont un taux de succès meilleur que l aléatoire Les classifieurs présentent une certaine diversité Question Pourquoi combiner plusieurs classifieurs? 126/1 Un vote réduit la variance Réduire le risque de tomber dans des minima locaux Réduire le biais en augmentant l espace des fonctions possibles

127/1 Approches ensemblistes Méthodes ensemblistes Méthodes ensemblistes On a déjà évoqué l équilibre bias-variance en régression avec une fonction polynomiale sur un jeu de données bruitées. En pratique, il faut introduire de la variabilité au sein du comité. Le bootstrap permet de combiner M modèles ycom(x) = 1 M M y m (x). m=1 Sous l hypothèse y m (x) = h(x) + ɛ m (x) avec les {ɛ m } i.i.d., on montre facilement que Ecom = 1 M E av avec Eav = 1 M M E x [ɛ 2 m(x)] m=1 Sans l hyptohèse d indépendance, on a toujours Ecom Eav.

28/1 Approches ensemblistes Méthodes ensemblistes Méthodes ensemblistes Une classification possible des méthodes ensemblistes repose sur la nature des classifieurs de base [Dzeroski & Zenko 2004] Méthodes ensemblistes homogènes : combinent un ensemble de classifieurs produits par des algorithmes différents sur une même distribution des exemples de D Méthodes ensemblistes hétérogènes : combinent un ensemble de classifieurs produits par un même algorithme d apprentissage. La diversité provient de la modification de la distribution des exemples utilisés pour l apprentissage des classifieurs.

129/1 Approches ensemblistes Méthodes ensemblistes Méthodes ensemblistes hétérogènes La diversité provient des algorithmes d apprentissage Stacking [Wolpert, D.H. 1992] 1 Apprentissage de M classifieurs y 1,..., y M avec des algorithmes différents 2 Apprendre un méta-classifieur sur les réponses de y 1,..., y M. Cascade Generalization [Gamma & Brazdil 2000] 1 Apprentissage d un classifieur y 1 avec un algorithme L 1. Etiquetage avec y 1 des exemples d apprentissage 2 Apprentissage d un classifieur y 2 avec un algorithme L 2 à partir des attributs d origine et l étiquette prédite au niveau précédent. Etiquetage avec y 2 des exemples d apprentissage. 3 Le processus est répété.

30/1 Approches ensemblistes Méthodes ensemblistes Méthodes ensemblistes homogènes La diversité provient de la distribution des exemples d apprentissage Bagging [Breiman 1996] 1 Apprentissage de M classifieurs y 1,..., y M à partir d échantillons bootstrappés D 1,..., D M. 2 Etiquetage des exemples par simple vote des M classifieurs. Output flipping [Breiman 2000, Martinez & Suarez 2005] 1 Apprentissage de M classifieurs y 1,..., y M à partir déchantillons D 1,..., D M obtenus par label switching P j i = wp j et un switching rate de p = w(1 j P2 j ). 2 Etiquetage des exemples par simple vote des M classifieurs. Random Forests [Breiman 2001] Boosting [Freund and Schapire 1996]

131/1 Approches ensemblistes Forêt aléatoire Caractéristiques des Random Forests Efficace et performant sur de grandes bases, avec des milliers de variables, et des données manquantes. Estime quelles variables sont importantes (voire détecte les interactions) pour la classification et fournit des prototypes pour chaque classe. Fournit un estimateur non biaisé de l erreur de généralisation sans base de test. Estime la données manquantes, y compris les étiquettes manquantes. Permet de traiter les classes déséquilibrées Calcule des proximités entre paires d exemples. Permet l imputation de valeurs manquantes, le clustering, la détection de valeurs aberrantes..

132/1 Approches ensemblistes Forêt aléatoire Algorithme Répéter k fois de manière indépendante le processus suivant : Un nombre d d (le nombre total d attributs) (par défaut d = d). Un ensemble de M arbres chacun developpé sur un échantillon bootstrap de l echantillon initial est construit ; Chaque arbre est developpé jusqu à avoir uniquement des feuilles pures (si possible) ; A chaque noeud, d des d attributs sont selectionnés aléatoirement et le meilleur partitionnement selon ces d attributs est utilisé. La prédiction d un nouvel exemple est la classe la plus fréquemment attribuée par l ensemble d arbres.

33/1 Approches ensemblistes Forêt aléatoire Variantes Lorsque d = d, on obtient un Bagging d arbres. Dans le Bagging, l utilisation des echantillons bootstprap permet de reduire la variance globale du classifieur en moyennant les predictions de plusieurs classifieurs divers. Les RF introduisent une double randomisation en augmentant la diversité de l ensemble par le bootstrap d une part, mais également par un tirage aléatoire d un petit groupe d attributs avant la recherche de la meilleure coupure. Il existe de nombreuses variations. En adaptant correctement d, on obtient un gain de temps de calcul important sans détérioration de performance. Le niveau de randomisation introduit dans la procédure via le choix de d contrôle le compromis force-correlation.

134/1 Approches ensemblistes Forêt aléatoire Estimation out-of-bag de l erreur Pas besoin de cross-validation ou de jeu de test set pour obtenir un estimateur non biasé de l erreur de généralisation. Il est estimé en interne, durant l apprentissage de la forêt comme suit : Chaque arbre est construit avec sur échantillon bootstrappé. Environ 1/3 des exemples ne sont utilisés dans sa construction. Idée : classer les exemples oob dans chaque arbre. Ainsi un jeu de test est obtenu pour chaque exemple dans environ 1/3 des arbres. Soit j la classe qui reçoit le plus de votes chaque fois que l exemple n était oob. La proportion des erreurs, moyennée sur tous les exemples, est l erreur out-of-bag (non biasée en pratique)..

135/1 Approches ensemblistes Forêt aléatoire Sélection de variables La sélection d un sous-ensemble de variables explicatives parmi un grand nombre, permet généralement : Réduire de beaucoup les temps de calcul. Obtenir une plus grande variété de modèles. L agrégation des probabilités de sortie (ou classes prédites par vote majoritaire) par tous les modèles générés devrait alors donner un classifieur plus robuste et plus précis.

136/1 Approches ensemblistes Forêt aléatoire Estimer l importance des variables Une variable f est discriminante si la modification de sa valeur pour un individu entraîne sa mauvaise classification. Principe : Classer les exemples oob dans chaque arbre et compter le nombre de votes corrects. Ensuite permuter les valeurs de la variable m dans les exemples oob puis reclasser les exemples oob. Soustraire le nombre de votes de la classe correcte entre l exemple oob non permuté et l exemple oob permuté. La moyenne de cette différence sur tous les arbres où l individu x est oob fournit un score de la variable m pour cet x. En moyennant sur tous les x, on obtient le score de la variable m Une procédure du type Recursive Feature Elimination (RFE) est possible en grande dimension.

137/1 Approches ensemblistes Forêt aléatoire Proximités et prototypes Dans chaque arbre, projeter les exemples (training + oob). Si les exemples k et n sont dans le même noeud terminal, incrémenter leur indice de proximité. A la fin, diviser les proximités par le nombre d arbre pour obtenir une valeur normalisée. Si un jeu test est présent, la proximité des individus en test peut-etre calculé avec ls individus en apprentissage. Prototypes : Pour chaque classe j, trouver l individu qui a le plus grand nombre de voisins de classe j parmi ses k plus proches voisins. Parmi les k voisins, on calcule la médiane (ou catégorie majoritaire) de chaque variable prototype de la classe j.

138/1 Approches ensemblistes Forêt aléatoire Imputation des données manquantes en apprentissage Comment imputer un individu x de le base d apprentissage? Principe : 1 Remplacer les valeurs manquantes par la médiane ou la catégorie la plus fréquente parmi les x de la même classe, 2 Construire la forêt et calculer les proximités, 3 Si x(n, m) est une valeur manquante, estimer sa valeur par une moyenne pondérée des autres valeurs non manquantes de la variable m parmi les k plus proches, pondérées par les proximités entre ces individus. Itérer la procédure (imputation puis construction du RF) une dizaine de fois.

139/1 Approches ensemblistes Forêt aléatoire Imputation des données manquantes en test Comment imputer un individu x de le base de test où la classe est inconnue? Principe : 1 Répliquer C fois l individu (C =nombre de classes) avec les valeurs de x mais un numéro de classe différent, 2 Imputer les valeurs manquantes par la médiane en ne prenant que les individus de la même classe. 3 Projeter ces individus dans la forêt. 4 L individu qui reçoit le plus de votes justes est celui que l on conserve.

140/1 Approches ensemblistes Forêt aléatoire Données aberrantes Un outlier est un individu éloigné des autres, donc douteux. Autre façon de voir : un outlier dans la classe j est un individu dont la proximité aux individus des autres classes est petite. La proximité moyenne d un individu n aux individus de sa classe est : P(n) = d(k)=j prox 2 (n, k) Dans chaque classe, calculer la médiane. Soustraire à P(n) la médiane,et diviser par l écart type, fournit un indice d éloignement à la norme. Permet aussi de détecter les données mal étiquetées!

41/1 Approches ensemblistes Boosting Boosting C est un principe qui regroupe de nombreux algorithmes qui s appuient sur des ensembles de classifieurs binaires. Par itérations successives, la connaissance d un classifieur faible (weak classifier) est ajoutée au classifieur final (strong classifier). Les classifieurs faibles sont capables de reconnaître deux classes au moins aussi bien que le hasard ne le ferait. Le classifieur fourni est pondéré par la qualité de sa classification : plus il classe bien, plus il sera important. Les exemples mal classés sont boostés pour qu ils aient davantage d importance vis-à-vis de l apprenant faible au prochain tour. Un des algorithmes les plus utilisés en boosting est AdaBoost, qui signifie adaptative boosting.

142/1 Approches ensemblistes Boosting Strong vs Weak Learnability Le boosting trouve son origine théorique dans le cadre PAC (Probability Approximatively Correct) Définition Un algorithme d apprentissage L est strong PAC ssi : ɛ < 1/2 et δ < 1/2 avec un nombre polynomial d exemples d apprentissage en 1/ɛ distribution sur D L est capable d induite une classifieur y ayant une erreur en génélalisation ɛ avec une probabilité 1 δ

Approches ensemblistes Boosting Illustration {w (1) n } {w (2) n } {w (M) n } y 1 (x) y 2 (x) y M (x) ( M ) Y M (x) = sign α m y m (x) m 143/1 Adaboost repose sur la sélection itérative de classifieurs faibles y m(x) en fonction d une distribution des exemples d apprentissage. Chaque exemple est pondéré en fonction de sa difficulté avec le classifieur courant. Les poids w n (m) dépendent des performances des clasfieurs précédents y m 1 (x).

Approches ensemblistes Boosting Algorithme 1 Initialiser les {w m} par {w (1) m } = 1/N pour n = 1,..., N. 2 Pour m = 1,..., M : Trouver le classifieur y m : X { 1, +1} qui minimise la fonction d erreur N J m = w n (m) I(y m(x n) t n) n=1 où I(y m(x n) t n) est la fonction indicatrice. Evaluer les quantités N n=1 ɛ m = w n (m) I(y m(x n) t n) N n=1 w n (m) et poser α m = ln{ 1 ɛm } ɛ m Modifier les coéfficients de pondération 44/1 3 La prédiction finale w n(m + 1) = w n(m)exp{α mi(y m(x n) t n)} ( M ) Y M (x) = sign α my m(x) m=1

145/1 Approches ensemblistes Boosting Illustration avec des decision stumps

Approches ensemblistes Boosting Théorie des marges Définition La marge d un point est définie comme étant la différencer entre le poids attribué à une étiquette correcte et le poids attribué à une étiquette incorrecte margin(x) = t M m=1 α my m (x) M m=1 α m 146/1 Observation attendue : Ê(Y M ) baisse pour atteindre éventuellement 0. Risque de sur-apprentissage! Observation pratique : Le boosting tend à augmenter la marge des exemples d apprentissage Ê(Y M ) baisse pour atteindre éventuellement 0.

Approches ensemblistes Boosting Propriétés théoriques du boosting en généralisation Théorème [Shapire, Freund, Barlett & Lee 1997] Avec une probabilité élévée, θ > 0 E(Y M ) ˆPr(margin(x) θ) + O( dy Nθ Cete borne dépend : du nombre d exemples en apprentissage N de la VC dimension d y des classifieurs faibles de la distribution des marges des exemples d apprentissage 147/1 Théorème ˆPr(margin(x) θ) tend exponentiellement vers O en fonction du nombre d itérations M quand l hyptohèse d apprentissage faible est vérifiée.

148/1 Approches ensemblistes Boosting Propriétés théoriques du boosting en généralisation Théorème [Shapire, Freund, Barlett & Lee 1997] Avec une probabilité élévée, θ > 0 E(Y M ) ˆPr(margin(x) θ) + O( dy Nθ Le boosting choisit les α 1,..., α m tels que la borne soit minimisées Pour y arriver, il faut rendre les marges des exemples d apprentissage les plus larges possibles. SVM et boosting cherchent à maximiser la marge minimale des exemples, mais moins explicitement pour le boosting

149/1 Approches ensemblistes Boosting Avantages et inconvénient du boosting Avantages Facile à mettre en oeuvre, aucun paramètre à tuner sauf M Améliore les performances de n importe quel algorithme d apprentissage Possède des résultats théoriques de convergence Inconvénients Choix de weak learner : si trop riche, risque d overfitting, sinon trop lent à converger Présence d outliers augmentation exponentielle de leur poids overfitting Présence d erreur sur le étiquettes ralentissement de la convergence car Adaboost étiquette alternativement les exemples bruiteés par +1 et -1.

150/1 Approches ensemblistes Boosting Fonction d erreur du boosting Les bornes supérieures sur l erreur de généralisation sont trop larges pour expliquer, à elles seules, les performances du boosting. Friedman et al. (2000) ont donné une interpretation plus simple en terme de minimisation séquentielle d une fonction d erreur exponentielle E = N exp{t n f m(x n)} n=1 où f m(x) est le classifieur défini par une combinaison linéaire de classifieurs de base y k (x) de la forme f m(x) = 1 m α k y k (x) 2 k=1 On montre que le boosting réalise une minimisation séquentielle (greedy) de E par rapport à {α k } et aux parametres des classifieurs de base y k (x).

151/1 Approches ensemblistes Boosting Fonction d erreur du boosting La fonction d erreur exponentielle minimisée par AdaBoost diffère des autres. Considérons l espérance de cette erreur E x,t = [exp{ ty(x)}] = t exp{ ty(x)}p(t x)p(x)dx Une minimisation variationelle par rapport aux fonctions y(x) aboutit à y(x) = 1 p(t = 1 x) ln( 2 p(t = 1 x) ) AdaBoost cherche la meilleure approximation du log odds ratio, dans l espace des fonctions représenté par les combinaisons linéaires de classifieurs de base, sous les contraintes d une minimisation séquentielle.

152/1 Approches ensemblistes Boosting Fonctions d erreur vs. z = ty(x) E(z) 2 1 0 1 2 z Fonction d erreur exponentielle E = exp ( yt)(vert) ; entropie croisée recentrée (rouge) (avec p(t = +1 y) = σ(y) d où E = ln (1 + exp ( yt)) ; erreur de hinge des SVMs E = [1 yt] + (bleu) ; taux d erreur de classification (noir).

153/1 Approches ensemblistes Boosting Conséquences de l erreur exponentielle Pour les fortes valeurs négatives de z = ty(x), l entropie croisée croît linéairement tandis que la fonction d erreur exponentielle penalise à outrance. Faiblesses la fonction d erreur exponentielle est beaucoup moins robuste aux données aberrantes ainsi qu aux instances mal étiquetées.

Comparaison des classifieurs 154/1 Plan 1 Introduction à l apprentissage numérique 2 Evaluation d un classifieur 3 Principe de la classification supervisée 4 Classification multi-classe 5 Classification multi-label 6 Méthodes de classification Classifieur bayésien naïf Arbres de décision Apprentissage par mesure de similarité SVM 7 Approches ensemblistes Méthodes ensemblistes Forêt aléatoire Boosting 8 Comparaison des classifieurs 9 Réseaux Bayésiens

155/1 Comparaison des classifieurs Comparaison de deux classifieurs Il arrive que l on compare deux classifieurs. On suppose qu on cherche à maximiser une fonction score qui reflête la précision du classifieur, et qu on teste les classifieurs sur de multiples jeux de données. Y a-t-il une différence siginificative entre les deux au vu des scores? Test t (Student) à deux échantillons : test paramétrique qui suppose que les scores sont distribués selonune loi normale. Test de rang de Wilcoxon : test non paramétrique réputé plus robuste qu un test de Student. Hypothèse nulle H 0 : les différences observées entre les scores ne sont pas statistiquement significatives et peuvent être attribuées au hasard.

156/1 Comparaison des classifieurs Test t à deux échantillons appariés Il est présumé que ces scores ont la même moyenne (H 0 : µ 1 = µ 2 ), et la question est de savoir si leur différence est suffisamment importante pour contredire cette hypothèse (H 1 : µ 1 µ 2 ). On suppose que les deux populations normales sont de même variance σ 2 inconnue, estimée par s 2 = n j (x 1j x 2j ) 2 / n 1. Nous en déduisons que la statistique T = x 2 x 2 s 2 /(n 1) t n 1 L hypothèse nulle est rejetée en faveur de l hypothèse alternative si la valeur de T est dans la région critique définie par la valeur choisie pour le niveau de risque α.

57/1 Comparaison des classifieurs Test de rang de Wilcoxon On pose d i la différence absolue de score sur le jeu i R + = rank(d i ) + 1 rank(d i ), 2 d>0 d=0 R = rank(d i ) + 1 rank(d i ) 2 d<0 d=0 On pose T = min{r, R + }. Pour N > 25, z = 1 24 T 1 4N(N + 1) N(N + 1)(2N + 1) suis approximativement une loi normale.

158/1 Comparaison des classifieurs Illustration Algo1 Algo2 difference rank adult 0.763 0.768 +0.005 3.5 breast cancer 0.599 0.591-0.008 7 breast cancer wisconsin 0.954 0.971 +0.017 9 cmc 0.628 0.661 +0.033 12 ionosphere 0.882 0.888 +0.006 5 iris 0.936 0.931-0.005 3.5 liver disorders 0.661 0.668 +0.007 6 lung cancer 0.583 0.583 0.000 1.5 lymphography 0.775 0.838 +0.063 14 mushrooms 1.000 1.000 0.000 1.5 primary tumor 0.940 0.962 +0.022 11 rheum 0.619 0.666 +0.047 13 voting 0.972 0.981 +0.009 8 wine 0.957 0.978 +0.021 10 R + = 3.5 + 9 + 12 + 5 + 6 + 14 + 11 + 13 + 8 + 10 + 1.5 = 93, R = 7 + 3.5 + 1.5 = 12. Au seuil α = 0.05 et N = 14 la différence est significative car 12 < 21 (21 est la valeur critique exacte lue dans une table).

59/1 Comparaison des classifieurs Comparaisons entre de multiples classifieurs Il arrive que l on compare de multiples (> 2) classifieurs. On suppose qu on cherche à maximiser une fonction score qui reflête la précision du classifieur, et qu on teste les classifieurs sur de multiples jeux de données. Le problème des tests multiple est connu : il faut contrôler la family-wise error la probabilité de faire au moins une erreur de type 1 dans l ensemble des tests réalisés. Y a-t-il une différence siginificative entre les classifieurs au vu des scores? Test de Friedman : test non paramétrique réputé plus robuste qu une ANOVA. Hypothèse nulle H 0 : les différences observées entre les scores ne sont pas statistiquement significatives et peuvent être attribuées au hasard.

Comparaison des classifieurs Test de Friedman On pose rj i le rang du j-ème algorithmes parmi les k sur le i-ème jeu de données parmi les N. Le test de Friedman compare les rangs moyens, R j = 1 N Sous l hypothèse nulle H 0 qui dit que tous les R j devraient etre égaux. On pose χ 2 F = 12N k(k + 1) j R 2 j k(k + 1)2 4 i r j i. 60/1 F F = (N 1)χ2 F N(k 1) χ 2 F est distribué selon une loi de Fisher-Snedecor, notée F, avec k 1 et (k 1)(N 1) degrés de liberté.

161/1 Comparaison des classifieurs Illustration Algo1 Algo2 Algo3 Algo4 adult 4 3 2 1 breast cancer 1 2 3 4 breast cancer wisconsin 4 1 2 3 cmc 4 1 2 3 ionosphere 4 2 3 1 iris 1 2.5 4 2.5 liver disorders 3 2 4 1 lung cancer 2.5 2.5 4 1 lymphography 4 3 2 1 mushrooms 2.5 2.5 2.5 2.5 primary tumor 4 2.5 1 2.5 rheum 3 2 4 1 voting 4 1 2 3 wine 3 1 4 2 average rank 3.143 2.000 2893 1.964

62/1 Comparaison des classifieurs Illustration χ 2 F = 12 14 4 5 [3.143 2 + 2.000 2 + 2.893 2 + 1.964 2 4 ] 52 = 9.28 4 F F = 13 9.28 14 3 9.28 = 3.69 Avec 4 classfieurs et N = 14, F F est distribué selon une loi F à 4 1 = 3 et (4 1) (14 1) = 39 degrés de liberté. Au seuil α = 0.05, F (3; 39) = 2.85 donc la différence est significative, on rejette H 0

Réseaux Bayésiens 163/1 Plan 1 Introduction à l apprentissage numérique 2 Evaluation d un classifieur 3 Principe de la classification supervisée 4 Classification multi-classe 5 Classification multi-label 6 Méthodes de classification Classifieur bayésien naïf Arbres de décision Apprentissage par mesure de similarité SVM 7 Approches ensemblistes Méthodes ensemblistes Forêt aléatoire Boosting 8 Comparaison des classifieurs 9 Réseaux Bayésiens

164/1 Réseaux Bayésiens Modèles génératifs On a vu jusqu à présent des modèles pour P(y x). Il faut connaître x pour prévoir y. Ce sont des modèles dits discriminatifs. Il existe des modèles plus riches, dits génératifs, qui estiment P(y, x) directement. Ils permettent d échantillonner de nouvelles données. Pour classer un nouvel individu, P(y x) = P(y, x)/p(x). Les réseaux bayésiens sont des modèles génératifs.

Réseaux Bayésiens Définition d un réseau bayésien Définition Un réseau bayésien est défini par la description qualitative des dépendances (ou des indépendances conditionnelles) entre des variables S i graphe orienté sans circuit (DAG) la description quantitative de ces dépendances probabilités conditionnelles (CPD) Conséquence 165/1 P(S) = Π n i=1 P(S i parents(s i )) La loi jointe (globale) se décompose en un produit de lois conditionnelles locales RB = représentation compacte de la loi jointe P(S)

166/1 Réseaux Bayésiens Conséquence Rappel du théorème de Bayes généralisé P(S) = P(S 1 ) P(S 2 S 1 ) P(S 3 S 1, S 2 ) P(S n S 1... S n 1 ) Conséquence dans un RB P(S i S 1... S i 1 ) = P(S i parents(s i )) d où P(S) = Π n i=1 P(S i parents(s i )) La loi jointe (globale) se décompose en un produit de lois conditionnelles locales RB = représentation compacte de la loi jointe P(S)

167/1 Réseaux Bayésiens Exemple

168/1 Réseaux Bayésiens Exemple illustratif On cherche la structure du RB < G, P > où G =< U, E > associé à U = {F, V, C}. Les variables désignent : Forme, Valeur et Couleur. La seule propriété d indépendence conditionnelle observée est V F C (V F ). On en déduit P(V, C, F ) = P(C)P(V C)P(F C) = P(V )P(C V )P(F C) = P(F )P(C F )P(V C) D où les trois représentations graphiques équivalentes :

169/1 Réseaux Bayésiens Intérêts et motivation Intérêts des réseaux bayésiens outil de représentation graphique des connaissances représentation de l incertain raisonnement à partir de données incomplètes : inférence Motivation comment déterminer la structure, avec des données complètes ou incomplètes?

Réseaux Bayésiens Intérêts et motivation Autre intérêt outil de découverte de connaissances à partir de données Motivation 170/1 comment découvrir des connaissances : relations causales, variables latentes?

171/1 Réseaux Bayésiens Intérêts et motivation Des domaines d application variés diagnostic, fiabilité, maintenance, sécurité informatique psychologie, sciences de la cognition, maîtrise des risques Motivation fournir des outils pour la modélisation de systèmes complexes