Évaluation de l apprentissage: méthodes Questions L induction est une forme d inférence faillible, il faut donc savoir évaluer sa qualité A. Cornuéjols LRI! Questions types: Quelle est la performance d un système sur un type de tâche? Est-ce que mon système est meilleur que l autre? Comment dois-je régler mon système? (basé sur ebastian Thrun CMU class) A. Cornuéjols Évaluation 2 Approches! Évaluation théorique a priori Dimension de Vapnik-Chervonenkis Critères sur la complexité des modèles : MDL / AIC / BIC Estimer l optimisme de la méthode et ajouter ce terme au taux d erreur! Évaluation empirique E.g. taux d erreur : (dans le cas d un classifieur binaire avec une fonction de coût lié au nombre derreurs) Plan 1. Mesurer la performance 2. Méthodes de validation 3. Matrices de confusion et courbe ROC 4. La comparaison de méthodes d apprentissage 5. Autres mesures de performance A. Cornuéjols Évaluation 3 A. Cornuéjols Évaluation 4
Évaluation des hypothèses produites Ensembles de données (collections) Toutes les données disponibles beaucoup de donnés très peu de données Ensemble d apprentissage Ensemble de test Ensemble de validation données illimitées A. Cornuéjols Évaluation 5 A. Cornuéjols Évaluation 6 Prédiction asymptotique (le cas idéal) Le sur-apprentissage (over-learning) Erreur erreur sur base de test ur-apprentissage! Useful for very large data sets erreur sur base d'apprentissage Arrêt de l'apprentissage t A. Cornuéjols Évaluation 7 A. Cornuéjols Évaluation 8
Utilisation de l ensemble de validation Évaluation des hypothèses produites! On règle les paramètres de l algorithme d apprentissage E.g. : nb de couches cachées, nb de neurones,... en essayant de réduire l erreur de test! Pour avoir une estimation non optimiste de l erreur, il faut recourir à une base d exemples non encore vus : la base de validation beaucoup peu de données A. Cornuéjols Évaluation 9 A. Cornuéjols Évaluation 10 Évaluation de l erreur Exemple:! Erreur vraie: (Risque réel) e =! y " f ( x, # ) p( x, y) dx, y D D D = toutes les données possibles! L hypothèse classe mal 12 des 40 exemples dans l ensemble de test T.! Erreur de test: 1 eˆ =! y # f ( x, $ ) m (Risque empirique) x, y " T! Q : Quelle sera l erreur sur des exemples non vus? m = # de données test T = données test! R :??? A. Cornuéjols Évaluation 11 A. Cornuéjols Évaluation 12
Intervalle de confiance (1)! Définition : un intervalle de confiance à N% pour une variable p est l intervalle dans lequel sa valeur est attendue avec une probabilité de N%! oit une probabilité d erreur (pour 2 classes) de p, la probabilité d avoir r erreurs sur n évènements est : Intervalles de confiance (2)! La loi binomiale peut être estimée par la loi normale si n p (1 - p)! 5 de même moyenne! et même variance " (loi binomiale) Espérance du nombre d erreurs Variance Ecart-type A. Cornuéjols Évaluation 13 A. Cornuéjols Évaluation 14 Intervalles de confiance (3)! Je voudrais évaluer erreur! (h). Intervalles de confiance (4)! Loi normale! Loi normale! Je l estime en utilisant erreur T (h) qui est régie par une loi binomiale De moyenne D écart-type! Que l on estime par la loi normale De moyenne : D écart-type : A. Cornuéjols Évaluation 15 A. Cornuéjols Évaluation 16
Intervalles de confiance (5) Intervalles de confiance (cf. Mitchell 97) Avec une probabilité de N%, l erreur vraie erreur D est dans l intervalle : i Alors T contient m exemples tirés indépendamment m! 30 Avec une probabilité de 95%, l erreur vraie e D est dans l intervalle : N% 50% 68% 80% 90% 95% 98% 99% eˆ ± 1.96 eˆ (1! eˆ ) m z N 0.67 1.0 1.28 1.64 1.96 2.33 2.58 A. Cornuéjols Évaluation 17 A. Cornuéjols Évaluation 18 Exemple: Intervalles de confiance à 95%! L hypothèse classe mal 12 des40 exemples dans la base de test T.! Q: Quelle sera l erreur vraie sur les exemples non vus?! A: Avec 95% de confiance, l erreur vraie sera dans l intervalle : [0.16;0.44] " eˆ ± 1.96 eˆ (1! eˆ ) m m = 40 12 eˆ ˆ eˆ (1 " e ) = = 0.3 1.96! 0. 14 40 m A. Cornuéjols Évaluation 19 A. Cornuéjols Évaluation 20
Courbes de performance Comparaison de différentes hypothèses Erreur de test intervalle de confiance à 95%! On cherche la différence vraie:! On estime par : d = e D (! 1 ) " ed (! 2) d ˆ = eˆ ( ) " eˆ! 1 (! 2 )! Qui est une loi normale différence de 2 lois normales! Intervalle de confiance à 95% : Erreur d apprentissage dˆ ± 1.96 eˆ (! 1 ) (1 " e (! 1)) e (! 2) (1 " e (! 2)) m 1 ˆ ˆ + m 2 ˆ A. Cornuéjols Évaluation 21 Rq : il faudrait normalement ne pas tester les deux hypothèses sur le même ensemble de test. La variance obtenue avec un même ensemble de test est un peu plus faible (cf. paired t tests). A. Cornuéjols Évaluation 22 Évaluation des hypothèses produites Différents ensembles Données Beaucoup de données peu apprentissage test!erreur A. Cornuéjols Évaluation 23 A. Cornuéjols Évaluation 24
Validation croisée à k plis (k-fold) Données Apprend sur jaune, test sur rose! erreur 1 Apprend sur jaune, test sur rose! erreur 2 Apprend sur jaune, test sur rose! erreur 3 k-way split Apprend sur jaune, test sur rose! erreur 4 Apprend sur jaune, test sur rose! erreur 5 Apprend sur jaune, test sur rose! erreur 6 Procédure leave-one-out Données! Faible biais! Haute variance! Tend à sous-estimer l erreur si les données ne sont pas vraiment i.i.d. Apprend sur jaune, test sur rose! erreur 7 Apprend sur jaune, test sur rose! erreur 8 erreur = " erreur i / k A. Cornuéjols Évaluation 25 [Guyon & Elisseeff, jmlr, 03] A. Cornuéjols Évaluation 26 Le Bootstrap Problème Données! Le calcul des intervalles de confiance suppose l indépendance des estimations.! Mais nos estimations sont dépendantes. # " Apprend sur jaune, test sur rose! erreur " Répéter et faire la moyenne Estimation du risque réel pour h finale Moy. du risque sur les k ens. de test Moy. du risque sur l ens. des données A. Cornuéjols Évaluation 27 A. Cornuéjols Évaluation 28
La comparaison de différentes hypothèses : Paired t test Les types d erreurs! Vraie différence:! Pour chaque partition k:! Moyenne: d = e D (! 1 ) " ed (! 2) d ˆ ˆ ( ) ˆ k = e, k! 1 " e, k (! 2) dˆ 1 = k k! dˆ i i= 1 erreur de test pour la partition k! Intervalle de confiance à N% : t N, # 90% 95% 98% 99% dˆ 1 ± t # k 2 N, k " 1!(# ˆ i " ˆ) k( k " 1) i= 1 #=2 #=5 #=10 #=20 #=30 #=120 2.92 2.02 1.81 1.72 1.70 1.66 4.30 2.57 2.23 2.09 2.04 1.98 6.96 3.36 2.76 2.53 2.46 2.36 9.92 4.03 3.17 2.84 2.75 2.62 #=" 1.64 1.96 2.33 2.58 N : intervalle de confiance k-1 degrés de liberté A. Cornuéjols Évaluation 29 A. Cornuéjols Évaluation 30 Matrice de confusion Matrice de confusion 14% des poissons sont pris pour des papillons Estimé Réel + - + VP FP - FN VN A. Cornuéjols Évaluation 31 A. Cornuéjols Évaluation 32
Types d erreurs! Erreur de type 1 (alpha) : faux positifs Probabilité d accepter l hypothèse alors qu elle est fausse! Erreur de type 2 (beta) : faux négatifs Probabilité de rejeter l hypothèse alors qu elle est vraie Courbe ROC ROC = Receiver Operating Characteristic Probabilité de la classe Classe '-' Classe '+'! Comment arbitrer entre ces types d erreurs? A. Cornuéjols Évaluation 33 A. Cornuéjols Évaluation 34 La courbe ROC La courbe ROC Probabilité de la classe Classe '+' 1,0 PROPORTION DE VRAI NEGATIF 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 1,0 Probabilité de la classe Faux négatifs (10%) Classe '-' Vrais négatifs Vrais positifs Faux positifs (90%) PROPORTION DE VRAI POITIF 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 Courbe ROC (pertinence = 0,90) Ligne de hasard (pertinence = 0,5) 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 PROPORTION DE FAUX NEGATIF 0,1 0,1 (50%) (50%) 0 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 0 A. Cornuéjols Évaluation 35 PROPORTION DE FAUX POITIF A. Cornuéjols Évaluation 36
Classe '+' Faux négatifs Classe '- ' Vrais négatifs Faux positifs Vrais positifs Classe '+' Faux négatifs (10%) Classe '- ' Vrais négatifs (50%) (50%) Faux positifs Vrais positifs (90%) La courbe ROC Indicateurs de performances PROPORTION DE VRAI NEGATIF 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 PROPORTION DE VRAI NEGATIF 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0! pécificité VP VP + FN! Rappel VP VP + FN 1,0 1,0 1,0 1,0 PROPORTION DE VRAI POITIF 0,9 0,8 0,7 0,6 0,5 0,4 0,3 Courbe ROC (pertinence = 0,90) Ligne de hasard (pertinence = 0,5) 0,9 0,8 0,7 0,6 0,5 0,4 0,3 PROPORTION DE FAUXNEGATIF PROPORTION DE VRAI POITIF 0,9 0,8 0,7 0,6 0,5 0,4 0,3 euil "sévère" Probabilité delaclase Probabilité delaclase Probabilité delaclase Probabilité delaclase euil "laxiste" 0,9 0,8 0,7 0,6 0,5 0,4 0,3 PROPORTION DE FAUXNEGATIF! ensibilité VN FP + VN Réel Estimé +! Précision - VP VP + FP 0,2 0,2 0,2 0,2 0,1 0,1 0,1 0,1 0 0 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 0 0 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 + VP FP PROPORTION DE FAUX POITIF PROPORTION DE FAUX POITIF - FN VN A. Cornuéjols Évaluation 37 A. Cornuéjols Évaluation 38 Indicateurs de performances! FN-rate! F-measure FN FP! FP-rate VP + FN FP + VN 2 x rappel x précision rappel + précision Réel Estimé + - = 2 VP 2 VP + FP + FN Résumé! Attention à votre fonction de coût : qu est-ce qui importe pour la mesure de performance?! Données en nombre fini: calculez les intervalles de confiance! Données rares : Attention à la répartition entre données d apprentissage et données test. Validation croisée.! N oubliez pas l ensemble de validation + VP FP - FN VN A. Cornuéjols Évaluation 39! L évaluation est très importante Ayez l esprit critique Convainquez-vous vous même! A. Cornuéjols Évaluation 40
Problèmes ouverts Problèmes particuliers! Apprentissage sensible au coût avec > 2 classes! Incorporation des estimations de probabilités avec des méthodes nonprobabilistes! Obtenir des évaluation de probabilité avec des méthodes nonprobabilistes! Apprendre et classer quand les descripteurs ont des coûts différents! Distribution des exemples + / - très déséquilibrée (e.g. 1% ou 1%O )! Existence de «!zones grises!» (étiquettes peu informées)! Tâche multi-objectif A. Cornuéjols Évaluation 41 A. Cornuéjols Évaluation 42 Autres critères d évaluation Références! Intelligibilité des résultats (hypothèses produites) E.g. exit les réseaux de neurones! Performances en généralisation Pas toujours en adéquation totale avec le point précédent Littérature très vaste sur les tests statistiques! Dietterich, T. G., (1998). Approximate tatistical Tests for Comparing upervised Classification Learning Algorithms. Neural Computation, 10 (7) 1895-1924.! Guyon, I., & Elisseeff, A. (2003). An introduction to variable and feature selection. Journal of Machine Learning Research, 3, 1157-1182.! Coûts de préparation (des données) coût computationnel (e.g. coût d une passe et nombre de passes nécessaires, ) coût de l expertise en apprentissage coût de l expertise sur le domaine A. Cornuéjols Évaluation 43 A. Cornuéjols Évaluation 44
Boîte à outils Weka Boîte à outils Weka! http://www.cs.waikato.ac.nz/ml/weka/ A. Cornuéjols Évaluation 45 A. Cornuéjols Évaluation 46 Boîte à outils Weka A. Cornuéjols Évaluation 47