Évaluation de l apprentissage: méthodes

Documents pareils
Introduction à La Fouille de Données. Khai thác dữ liệu. Cours N 2. Cours M1 IA «Systèmes Intelligents & Multimédia» Jean-Daniel Zucker

Etude des propriétés empiriques du lasso par simulations

Probabilités. Rappel : trois exemples. Exemple 2 : On dispose d un dé truqué. On sait que : p(1) = p(2) =1/6 ; p(3) = 1/3 p(4) = p(5) =1/12

K. Ammar, F. Bachoc, JM. Martinez. Séminaire ARISTOTE - 23 octobre Palaiseau

Introduction au Data-Mining

Amélioration de la fiabilité d inspection en CND grâce à la fusion d information : applications en rayons X et ultrasons

TSTI 2D CH X : Exemples de lois à densité 1

Statistiques Décisionnelles L3 Sciences Economiques & Gestion Faculté d économie, gestion & AES Université Montesquieu - Bordeaux

Représentation d une distribution

INF6304 Interfaces Intelligentes

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

Loi binomiale Lois normales

Deuxième Licence en Informatique Data Warehousing et Data Mining La Classification - 1

Validation probabiliste d un Système de Prévision d Ensemble

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

LES GENERATEURS DE NOMBRES ALEATOIRES

ERRATA ET AJOUTS. ( t) 2 s2 dt (4.7) Chapitre 2, p. 64, l équation se lit comme suit : Taux effectif = 1+

Introduction à l approche bootstrap

choisir H 1 quand H 0 est vraie - fausse alarme

Introduction aux Statistiques et à l utilisation du logiciel R

Apprentissage incrémental par sélection de données dans un flux pour une application de sécurité routière

Principe d un test statistique

1 Modélisation d être mauvais payeur

Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE

Sécurité par compression! ReSIST Gilles RICHARD IRIT

NON-LINEARITE ET RESEAUX NEURONAUX

IFT3245. Simulation et modèles

Item 169 : Évaluation thérapeutique et niveau de preuve

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Introduction à la statistique non paramétrique

Chapitre 1 Evaluation des caractéristiques d un test diagnostique. José LABARERE

TESTS D'HYPOTHESES Etude d'un exemple

Laboratoire d Automatique et Productique Université de Batna, Algérie

AICp. Vincent Vandewalle. To cite this version: HAL Id: inria

Introduction au Data-Mining

«Cours Statistique et logiciel R»

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

Restaurer la confiance? Etudes Empiriques Conclusion et ouverture

TABLE DES MATIERES. C Exercices complémentaires 42

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Méthodologie d'évaluation des filtres anti-spam

données en connaissance et en actions?

Baccalauréat ES Antilles Guyane 12 septembre 2014 Corrigé

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

Vous incarnez un surdoué en informatique qui utilise son ordinateur afin de pirater des comptes bancaires un peu partout dans le monde et s en mettre

Introduction aux outils BI de SQL Server Fouille de données avec SQL Server Analysis Services (SSAS)

PROBABILITES ET STATISTIQUE I&II

Méthodologie d'évaluation des filtres anti-spam

Tour d horizon de l apprentissage statistique. from Machine Learning to Big Data Analytics

Lois de probabilité. Anita Burgun

Estimation et tests statistiques, TD 5. Solutions

L utilisation d un réseau de neurones pour optimiser la gestion d un firewall

Probabilités III Introduction à l évaluation d options

Tableau 1 : Structure du tableau des données individuelles. INDIV B i1 1 i2 2 i3 2 i4 1 i5 2 i6 2 i7 1 i8 1

Modélisation aléatoire en fiabilité des logiciels

BACCALAURÉAT GÉNÉRAL SESSION 2012 OBLIGATOIRE MATHÉMATIQUES. Série S. Durée de l épreuve : 4 heures Coefficient : 7 ENSEIGNEMENT OBLIGATOIRE

Bases de données documentaires et distribuées Cours NFE04

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

Outils pour les réseaux de neurones et contenu du CD-Rom

Simulation de variables aléatoires

Quelques rappels concernant la méthode expérimentale

Détection de la défaillance des entreprises tunisiennes par la régression logistique semi paramétrique et les réseaux de neurones

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

Méthodes d apprentissage statistique «Machine Learning»

Tests du χ 2. on accepte H 0 bonne décision erreur de seconde espèce on rejette H 0 erreur de première espèce bonne décision

Face Recognition Performance: Man vs. Machine

Travaux pratiques avec RapidMiner

CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING

TRAITEMENT DES DONNEES MANQUANTES AU MOYEN DE L ALGORITHME DE KOHONEN

Evalua&on tests diagnos&ques. Arnaud Fontanet

Comparaison de fonctions Développements limités. Chapitre 10

Apprentissage statistique dans les graphes et les réseaux sociaux

à moyen Risque moyen Risq à élevé Risque élevé Risq e Risque faible à moyen Risq Risque moyen à élevé Risq

SAS ENTERPRISE MINER POUR L'ACTUAIRE

Quelques précisions concernant les commandes de Ticket Restaurant électronique par fichier Excel

Scénario: Score d appétence de la carte visa premier

Grégoire de Lassence. Copyright 2006, SAS Institute Inc. All rights reserved.

Excel Avancé. Plan. Outils de résolution. Interactivité dans les feuilles. Outils de simulation. La valeur cible Le solveur

LE RÔLE DE LA STATISTIQUE DANS UN PROCESSUS DE PRISE DE DÉCISION

IFT3913 Qualité du logiciel et métriques. Chapitre 2 Modèles de processus du développement du logiciel. Plan du cours

23. Interprétation clinique des mesures de l effet traitement

Commun à tous les candidats

Quantification Scalaire et Prédictive

IBM SPSS Regression 21

Probabilités et Statistiques. Feuille 2 : variables aléatoires discrètes

Ressources pour le lycée général et technologique

Dérivation : cours. Dérivation dans R

Exprimer ce coefficient de proportionnalité sous forme de pourcentage : 3,5 %

Enregistrement et transformation du son. S. Natkin Novembre 2001

UNIVERSITÉ DE STRASBOURG ÉCOLE DOCTORALE DES SCIENCES CHIMIQUES UMR 7177 THÈSE. présentée par. Ioana OPRISIU. soutenue le : 28 mars 2012

Probabilités Loi binomiale Exercices corrigés

Soutenance de stage Laboratoire des Signaux et Systèmes

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

A009 Maîtrise des enregistrements

Algorithme. Table des matières

Annexe 3. Le concept : exemple d une situation d apprentissage.

LES ESCALIERS. Du niveau du rez-de-chaussée à celui de l'étage ou à celui du sous-sol.

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Transcription:

Évaluation de l apprentissage: méthodes Questions L induction est une forme d inférence faillible, il faut donc savoir évaluer sa qualité A. Cornuéjols LRI! Questions types: Quelle est la performance d un système sur un type de tâche? Est-ce que mon système est meilleur que l autre? Comment dois-je régler mon système? (basé sur ebastian Thrun CMU class) A. Cornuéjols Évaluation 2 Approches! Évaluation théorique a priori Dimension de Vapnik-Chervonenkis Critères sur la complexité des modèles : MDL / AIC / BIC Estimer l optimisme de la méthode et ajouter ce terme au taux d erreur! Évaluation empirique E.g. taux d erreur : (dans le cas d un classifieur binaire avec une fonction de coût lié au nombre derreurs) Plan 1. Mesurer la performance 2. Méthodes de validation 3. Matrices de confusion et courbe ROC 4. La comparaison de méthodes d apprentissage 5. Autres mesures de performance A. Cornuéjols Évaluation 3 A. Cornuéjols Évaluation 4

Évaluation des hypothèses produites Ensembles de données (collections) Toutes les données disponibles beaucoup de donnés très peu de données Ensemble d apprentissage Ensemble de test Ensemble de validation données illimitées A. Cornuéjols Évaluation 5 A. Cornuéjols Évaluation 6 Prédiction asymptotique (le cas idéal) Le sur-apprentissage (over-learning) Erreur erreur sur base de test ur-apprentissage! Useful for very large data sets erreur sur base d'apprentissage Arrêt de l'apprentissage t A. Cornuéjols Évaluation 7 A. Cornuéjols Évaluation 8

Utilisation de l ensemble de validation Évaluation des hypothèses produites! On règle les paramètres de l algorithme d apprentissage E.g. : nb de couches cachées, nb de neurones,... en essayant de réduire l erreur de test! Pour avoir une estimation non optimiste de l erreur, il faut recourir à une base d exemples non encore vus : la base de validation beaucoup peu de données A. Cornuéjols Évaluation 9 A. Cornuéjols Évaluation 10 Évaluation de l erreur Exemple:! Erreur vraie: (Risque réel) e =! y " f ( x, # ) p( x, y) dx, y D D D = toutes les données possibles! L hypothèse classe mal 12 des 40 exemples dans l ensemble de test T.! Erreur de test: 1 eˆ =! y # f ( x, $ ) m (Risque empirique) x, y " T! Q : Quelle sera l erreur sur des exemples non vus? m = # de données test T = données test! R :??? A. Cornuéjols Évaluation 11 A. Cornuéjols Évaluation 12

Intervalle de confiance (1)! Définition : un intervalle de confiance à N% pour une variable p est l intervalle dans lequel sa valeur est attendue avec une probabilité de N%! oit une probabilité d erreur (pour 2 classes) de p, la probabilité d avoir r erreurs sur n évènements est : Intervalles de confiance (2)! La loi binomiale peut être estimée par la loi normale si n p (1 - p)! 5 de même moyenne! et même variance " (loi binomiale) Espérance du nombre d erreurs Variance Ecart-type A. Cornuéjols Évaluation 13 A. Cornuéjols Évaluation 14 Intervalles de confiance (3)! Je voudrais évaluer erreur! (h). Intervalles de confiance (4)! Loi normale! Loi normale! Je l estime en utilisant erreur T (h) qui est régie par une loi binomiale De moyenne D écart-type! Que l on estime par la loi normale De moyenne : D écart-type : A. Cornuéjols Évaluation 15 A. Cornuéjols Évaluation 16

Intervalles de confiance (5) Intervalles de confiance (cf. Mitchell 97) Avec une probabilité de N%, l erreur vraie erreur D est dans l intervalle : i Alors T contient m exemples tirés indépendamment m! 30 Avec une probabilité de 95%, l erreur vraie e D est dans l intervalle : N% 50% 68% 80% 90% 95% 98% 99% eˆ ± 1.96 eˆ (1! eˆ ) m z N 0.67 1.0 1.28 1.64 1.96 2.33 2.58 A. Cornuéjols Évaluation 17 A. Cornuéjols Évaluation 18 Exemple: Intervalles de confiance à 95%! L hypothèse classe mal 12 des40 exemples dans la base de test T.! Q: Quelle sera l erreur vraie sur les exemples non vus?! A: Avec 95% de confiance, l erreur vraie sera dans l intervalle : [0.16;0.44] " eˆ ± 1.96 eˆ (1! eˆ ) m m = 40 12 eˆ ˆ eˆ (1 " e ) = = 0.3 1.96! 0. 14 40 m A. Cornuéjols Évaluation 19 A. Cornuéjols Évaluation 20

Courbes de performance Comparaison de différentes hypothèses Erreur de test intervalle de confiance à 95%! On cherche la différence vraie:! On estime par : d = e D (! 1 ) " ed (! 2) d ˆ = eˆ ( ) " eˆ! 1 (! 2 )! Qui est une loi normale différence de 2 lois normales! Intervalle de confiance à 95% : Erreur d apprentissage dˆ ± 1.96 eˆ (! 1 ) (1 " e (! 1)) e (! 2) (1 " e (! 2)) m 1 ˆ ˆ + m 2 ˆ A. Cornuéjols Évaluation 21 Rq : il faudrait normalement ne pas tester les deux hypothèses sur le même ensemble de test. La variance obtenue avec un même ensemble de test est un peu plus faible (cf. paired t tests). A. Cornuéjols Évaluation 22 Évaluation des hypothèses produites Différents ensembles Données Beaucoup de données peu apprentissage test!erreur A. Cornuéjols Évaluation 23 A. Cornuéjols Évaluation 24

Validation croisée à k plis (k-fold) Données Apprend sur jaune, test sur rose! erreur 1 Apprend sur jaune, test sur rose! erreur 2 Apprend sur jaune, test sur rose! erreur 3 k-way split Apprend sur jaune, test sur rose! erreur 4 Apprend sur jaune, test sur rose! erreur 5 Apprend sur jaune, test sur rose! erreur 6 Procédure leave-one-out Données! Faible biais! Haute variance! Tend à sous-estimer l erreur si les données ne sont pas vraiment i.i.d. Apprend sur jaune, test sur rose! erreur 7 Apprend sur jaune, test sur rose! erreur 8 erreur = " erreur i / k A. Cornuéjols Évaluation 25 [Guyon & Elisseeff, jmlr, 03] A. Cornuéjols Évaluation 26 Le Bootstrap Problème Données! Le calcul des intervalles de confiance suppose l indépendance des estimations.! Mais nos estimations sont dépendantes. # " Apprend sur jaune, test sur rose! erreur " Répéter et faire la moyenne Estimation du risque réel pour h finale Moy. du risque sur les k ens. de test Moy. du risque sur l ens. des données A. Cornuéjols Évaluation 27 A. Cornuéjols Évaluation 28

La comparaison de différentes hypothèses : Paired t test Les types d erreurs! Vraie différence:! Pour chaque partition k:! Moyenne: d = e D (! 1 ) " ed (! 2) d ˆ ˆ ( ) ˆ k = e, k! 1 " e, k (! 2) dˆ 1 = k k! dˆ i i= 1 erreur de test pour la partition k! Intervalle de confiance à N% : t N, # 90% 95% 98% 99% dˆ 1 ± t # k 2 N, k " 1!(# ˆ i " ˆ) k( k " 1) i= 1 #=2 #=5 #=10 #=20 #=30 #=120 2.92 2.02 1.81 1.72 1.70 1.66 4.30 2.57 2.23 2.09 2.04 1.98 6.96 3.36 2.76 2.53 2.46 2.36 9.92 4.03 3.17 2.84 2.75 2.62 #=" 1.64 1.96 2.33 2.58 N : intervalle de confiance k-1 degrés de liberté A. Cornuéjols Évaluation 29 A. Cornuéjols Évaluation 30 Matrice de confusion Matrice de confusion 14% des poissons sont pris pour des papillons Estimé Réel + - + VP FP - FN VN A. Cornuéjols Évaluation 31 A. Cornuéjols Évaluation 32

Types d erreurs! Erreur de type 1 (alpha) : faux positifs Probabilité d accepter l hypothèse alors qu elle est fausse! Erreur de type 2 (beta) : faux négatifs Probabilité de rejeter l hypothèse alors qu elle est vraie Courbe ROC ROC = Receiver Operating Characteristic Probabilité de la classe Classe '-' Classe '+'! Comment arbitrer entre ces types d erreurs? A. Cornuéjols Évaluation 33 A. Cornuéjols Évaluation 34 La courbe ROC La courbe ROC Probabilité de la classe Classe '+' 1,0 PROPORTION DE VRAI NEGATIF 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 1,0 Probabilité de la classe Faux négatifs (10%) Classe '-' Vrais négatifs Vrais positifs Faux positifs (90%) PROPORTION DE VRAI POITIF 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 Courbe ROC (pertinence = 0,90) Ligne de hasard (pertinence = 0,5) 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 PROPORTION DE FAUX NEGATIF 0,1 0,1 (50%) (50%) 0 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 0 A. Cornuéjols Évaluation 35 PROPORTION DE FAUX POITIF A. Cornuéjols Évaluation 36

Classe '+' Faux négatifs Classe '- ' Vrais négatifs Faux positifs Vrais positifs Classe '+' Faux négatifs (10%) Classe '- ' Vrais négatifs (50%) (50%) Faux positifs Vrais positifs (90%) La courbe ROC Indicateurs de performances PROPORTION DE VRAI NEGATIF 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 PROPORTION DE VRAI NEGATIF 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0! pécificité VP VP + FN! Rappel VP VP + FN 1,0 1,0 1,0 1,0 PROPORTION DE VRAI POITIF 0,9 0,8 0,7 0,6 0,5 0,4 0,3 Courbe ROC (pertinence = 0,90) Ligne de hasard (pertinence = 0,5) 0,9 0,8 0,7 0,6 0,5 0,4 0,3 PROPORTION DE FAUXNEGATIF PROPORTION DE VRAI POITIF 0,9 0,8 0,7 0,6 0,5 0,4 0,3 euil "sévère" Probabilité delaclase Probabilité delaclase Probabilité delaclase Probabilité delaclase euil "laxiste" 0,9 0,8 0,7 0,6 0,5 0,4 0,3 PROPORTION DE FAUXNEGATIF! ensibilité VN FP + VN Réel Estimé +! Précision - VP VP + FP 0,2 0,2 0,2 0,2 0,1 0,1 0,1 0,1 0 0 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 0 0 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 + VP FP PROPORTION DE FAUX POITIF PROPORTION DE FAUX POITIF - FN VN A. Cornuéjols Évaluation 37 A. Cornuéjols Évaluation 38 Indicateurs de performances! FN-rate! F-measure FN FP! FP-rate VP + FN FP + VN 2 x rappel x précision rappel + précision Réel Estimé + - = 2 VP 2 VP + FP + FN Résumé! Attention à votre fonction de coût : qu est-ce qui importe pour la mesure de performance?! Données en nombre fini: calculez les intervalles de confiance! Données rares : Attention à la répartition entre données d apprentissage et données test. Validation croisée.! N oubliez pas l ensemble de validation + VP FP - FN VN A. Cornuéjols Évaluation 39! L évaluation est très importante Ayez l esprit critique Convainquez-vous vous même! A. Cornuéjols Évaluation 40

Problèmes ouverts Problèmes particuliers! Apprentissage sensible au coût avec > 2 classes! Incorporation des estimations de probabilités avec des méthodes nonprobabilistes! Obtenir des évaluation de probabilité avec des méthodes nonprobabilistes! Apprendre et classer quand les descripteurs ont des coûts différents! Distribution des exemples + / - très déséquilibrée (e.g. 1% ou 1%O )! Existence de «!zones grises!» (étiquettes peu informées)! Tâche multi-objectif A. Cornuéjols Évaluation 41 A. Cornuéjols Évaluation 42 Autres critères d évaluation Références! Intelligibilité des résultats (hypothèses produites) E.g. exit les réseaux de neurones! Performances en généralisation Pas toujours en adéquation totale avec le point précédent Littérature très vaste sur les tests statistiques! Dietterich, T. G., (1998). Approximate tatistical Tests for Comparing upervised Classification Learning Algorithms. Neural Computation, 10 (7) 1895-1924.! Guyon, I., & Elisseeff, A. (2003). An introduction to variable and feature selection. Journal of Machine Learning Research, 3, 1157-1182.! Coûts de préparation (des données) coût computationnel (e.g. coût d une passe et nombre de passes nécessaires, ) coût de l expertise en apprentissage coût de l expertise sur le domaine A. Cornuéjols Évaluation 43 A. Cornuéjols Évaluation 44

Boîte à outils Weka Boîte à outils Weka! http://www.cs.waikato.ac.nz/ml/weka/ A. Cornuéjols Évaluation 45 A. Cornuéjols Évaluation 46 Boîte à outils Weka A. Cornuéjols Évaluation 47