Évaluation de l apprentissage: méthodes
|
|
- Théophile Mongrain
- il y a 6 ans
- Total affichages :
Transcription
1 Évaluation de l apprentissage: méthodes Questions L induction est une forme d inférence faillible, il faut donc savoir évaluer sa qualité A. Cornuéjols LRI! Questions types: Quelle est la performance d un système sur un type de tâche? Est-ce que mon système est meilleur que l autre? Comment dois-je régler mon système? (basé sur ebastian Thrun CMU class) A. Cornuéjols Évaluation 2 Approches! Évaluation théorique a priori Dimension de Vapnik-Chervonenkis Critères sur la complexité des modèles : MDL / AIC / BIC Estimer l optimisme de la méthode et ajouter ce terme au taux d erreur! Évaluation empirique E.g. taux d erreur : (dans le cas d un classifieur binaire avec une fonction de coût lié au nombre derreurs) Plan 1. Mesurer la performance 2. Méthodes de validation 3. Matrices de confusion et courbe ROC 4. La comparaison de méthodes d apprentissage 5. Autres mesures de performance A. Cornuéjols Évaluation 3 A. Cornuéjols Évaluation 4
2 Évaluation des hypothèses produites Ensembles de données (collections) Toutes les données disponibles beaucoup de donnés très peu de données Ensemble d apprentissage Ensemble de test Ensemble de validation données illimitées A. Cornuéjols Évaluation 5 A. Cornuéjols Évaluation 6 Prédiction asymptotique (le cas idéal) Le sur-apprentissage (over-learning) Erreur erreur sur base de test ur-apprentissage! Useful for very large data sets erreur sur base d'apprentissage Arrêt de l'apprentissage t A. Cornuéjols Évaluation 7 A. Cornuéjols Évaluation 8
3 Utilisation de l ensemble de validation Évaluation des hypothèses produites! On règle les paramètres de l algorithme d apprentissage E.g. : nb de couches cachées, nb de neurones,... en essayant de réduire l erreur de test! Pour avoir une estimation non optimiste de l erreur, il faut recourir à une base d exemples non encore vus : la base de validation beaucoup peu de données A. Cornuéjols Évaluation 9 A. Cornuéjols Évaluation 10 Évaluation de l erreur Exemple:! Erreur vraie: (Risque réel) e =! y " f ( x, # ) p( x, y) dx, y D D D = toutes les données possibles! L hypothèse classe mal 12 des 40 exemples dans l ensemble de test T.! Erreur de test: 1 eˆ =! y # f ( x, $ ) m (Risque empirique) x, y " T! Q : Quelle sera l erreur sur des exemples non vus? m = # de données test T = données test! R :??? A. Cornuéjols Évaluation 11 A. Cornuéjols Évaluation 12
4 Intervalle de confiance (1)! Définition : un intervalle de confiance à N% pour une variable p est l intervalle dans lequel sa valeur est attendue avec une probabilité de N%! oit une probabilité d erreur (pour 2 classes) de p, la probabilité d avoir r erreurs sur n évènements est : Intervalles de confiance (2)! La loi binomiale peut être estimée par la loi normale si n p (1 - p)! 5 de même moyenne! et même variance " (loi binomiale) Espérance du nombre d erreurs Variance Ecart-type A. Cornuéjols Évaluation 13 A. Cornuéjols Évaluation 14 Intervalles de confiance (3)! Je voudrais évaluer erreur! (h). Intervalles de confiance (4)! Loi normale! Loi normale! Je l estime en utilisant erreur T (h) qui est régie par une loi binomiale De moyenne D écart-type! Que l on estime par la loi normale De moyenne : D écart-type : A. Cornuéjols Évaluation 15 A. Cornuéjols Évaluation 16
5 Intervalles de confiance (5) Intervalles de confiance (cf. Mitchell 97) Avec une probabilité de N%, l erreur vraie erreur D est dans l intervalle : i Alors T contient m exemples tirés indépendamment m! 30 Avec une probabilité de 95%, l erreur vraie e D est dans l intervalle : N% 50% 68% 80% 90% 95% 98% 99% eˆ ± 1.96 eˆ (1! eˆ ) m z N A. Cornuéjols Évaluation 17 A. Cornuéjols Évaluation 18 Exemple: Intervalles de confiance à 95%! L hypothèse classe mal 12 des40 exemples dans la base de test T.! Q: Quelle sera l erreur vraie sur les exemples non vus?! A: Avec 95% de confiance, l erreur vraie sera dans l intervalle : [0.16;0.44] " eˆ ± 1.96 eˆ (1! eˆ ) m m = eˆ ˆ eˆ (1 " e ) = = ! m A. Cornuéjols Évaluation 19 A. Cornuéjols Évaluation 20
6 Courbes de performance Comparaison de différentes hypothèses Erreur de test intervalle de confiance à 95%! On cherche la différence vraie:! On estime par : d = e D (! 1 ) " ed (! 2) d ˆ = eˆ ( ) " eˆ! 1 (! 2 )! Qui est une loi normale différence de 2 lois normales! Intervalle de confiance à 95% : Erreur d apprentissage dˆ ± 1.96 eˆ (! 1 ) (1 " e (! 1)) e (! 2) (1 " e (! 2)) m 1 ˆ ˆ + m 2 ˆ A. Cornuéjols Évaluation 21 Rq : il faudrait normalement ne pas tester les deux hypothèses sur le même ensemble de test. La variance obtenue avec un même ensemble de test est un peu plus faible (cf. paired t tests). A. Cornuéjols Évaluation 22 Évaluation des hypothèses produites Différents ensembles Données Beaucoup de données peu apprentissage test!erreur A. Cornuéjols Évaluation 23 A. Cornuéjols Évaluation 24
7 Validation croisée à k plis (k-fold) Données Apprend sur jaune, test sur rose! erreur 1 Apprend sur jaune, test sur rose! erreur 2 Apprend sur jaune, test sur rose! erreur 3 k-way split Apprend sur jaune, test sur rose! erreur 4 Apprend sur jaune, test sur rose! erreur 5 Apprend sur jaune, test sur rose! erreur 6 Procédure leave-one-out Données! Faible biais! Haute variance! Tend à sous-estimer l erreur si les données ne sont pas vraiment i.i.d. Apprend sur jaune, test sur rose! erreur 7 Apprend sur jaune, test sur rose! erreur 8 erreur = " erreur i / k A. Cornuéjols Évaluation 25 [Guyon & Elisseeff, jmlr, 03] A. Cornuéjols Évaluation 26 Le Bootstrap Problème Données! Le calcul des intervalles de confiance suppose l indépendance des estimations.! Mais nos estimations sont dépendantes. # " Apprend sur jaune, test sur rose! erreur " Répéter et faire la moyenne Estimation du risque réel pour h finale Moy. du risque sur les k ens. de test Moy. du risque sur l ens. des données A. Cornuéjols Évaluation 27 A. Cornuéjols Évaluation 28
8 La comparaison de différentes hypothèses : Paired t test Les types d erreurs! Vraie différence:! Pour chaque partition k:! Moyenne: d = e D (! 1 ) " ed (! 2) d ˆ ˆ ( ) ˆ k = e, k! 1 " e, k (! 2) dˆ 1 = k k! dˆ i i= 1 erreur de test pour la partition k! Intervalle de confiance à N% : t N, # 90% 95% 98% 99% dˆ 1 ± t # k 2 N, k " 1!(# ˆ i " ˆ) k( k " 1) i= 1 #=2 #=5 #=10 #=20 #=30 #= #=" N : intervalle de confiance k-1 degrés de liberté A. Cornuéjols Évaluation 29 A. Cornuéjols Évaluation 30 Matrice de confusion Matrice de confusion 14% des poissons sont pris pour des papillons Estimé Réel VP FP - FN VN A. Cornuéjols Évaluation 31 A. Cornuéjols Évaluation 32
9 Types d erreurs! Erreur de type 1 (alpha) : faux positifs Probabilité d accepter l hypothèse alors qu elle est fausse! Erreur de type 2 (beta) : faux négatifs Probabilité de rejeter l hypothèse alors qu elle est vraie Courbe ROC ROC = Receiver Operating Characteristic Probabilité de la classe Classe '-' Classe '+'! Comment arbitrer entre ces types d erreurs? A. Cornuéjols Évaluation 33 A. Cornuéjols Évaluation 34 La courbe ROC La courbe ROC Probabilité de la classe Classe '+' 1,0 PROPORTION DE VRAI NEGATIF 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 1,0 Probabilité de la classe Faux négatifs (10%) Classe '-' Vrais négatifs Vrais positifs Faux positifs (90%) PROPORTION DE VRAI POITIF 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 Courbe ROC (pertinence = 0,90) Ligne de hasard (pertinence = 0,5) 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 PROPORTION DE FAUX NEGATIF 0,1 0,1 (50%) (50%) 0 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 0 A. Cornuéjols Évaluation 35 PROPORTION DE FAUX POITIF A. Cornuéjols Évaluation 36
10 Classe '+' Faux négatifs Classe '- ' Vrais négatifs Faux positifs Vrais positifs Classe '+' Faux négatifs (10%) Classe '- ' Vrais négatifs (50%) (50%) Faux positifs Vrais positifs (90%) La courbe ROC Indicateurs de performances PROPORTION DE VRAI NEGATIF 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 PROPORTION DE VRAI NEGATIF 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0! pécificité VP VP + FN! Rappel VP VP + FN 1,0 1,0 1,0 1,0 PROPORTION DE VRAI POITIF 0,9 0,8 0,7 0,6 0,5 0,4 0,3 Courbe ROC (pertinence = 0,90) Ligne de hasard (pertinence = 0,5) 0,9 0,8 0,7 0,6 0,5 0,4 0,3 PROPORTION DE FAUXNEGATIF PROPORTION DE VRAI POITIF 0,9 0,8 0,7 0,6 0,5 0,4 0,3 euil "sévère" Probabilité delaclase Probabilité delaclase Probabilité delaclase Probabilité delaclase euil "laxiste" 0,9 0,8 0,7 0,6 0,5 0,4 0,3 PROPORTION DE FAUXNEGATIF! ensibilité VN FP + VN Réel Estimé +! Précision - VP VP + FP 0,2 0,2 0,2 0,2 0,1 0,1 0,1 0, ,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1, ,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 + VP FP PROPORTION DE FAUX POITIF PROPORTION DE FAUX POITIF - FN VN A. Cornuéjols Évaluation 37 A. Cornuéjols Évaluation 38 Indicateurs de performances! FN-rate! F-measure FN FP! FP-rate VP + FN FP + VN 2 x rappel x précision rappel + précision Réel Estimé + - = 2 VP 2 VP + FP + FN Résumé! Attention à votre fonction de coût : qu est-ce qui importe pour la mesure de performance?! Données en nombre fini: calculez les intervalles de confiance! Données rares : Attention à la répartition entre données d apprentissage et données test. Validation croisée.! N oubliez pas l ensemble de validation + VP FP - FN VN A. Cornuéjols Évaluation 39! L évaluation est très importante Ayez l esprit critique Convainquez-vous vous même! A. Cornuéjols Évaluation 40
11 Problèmes ouverts Problèmes particuliers! Apprentissage sensible au coût avec > 2 classes! Incorporation des estimations de probabilités avec des méthodes nonprobabilistes! Obtenir des évaluation de probabilité avec des méthodes nonprobabilistes! Apprendre et classer quand les descripteurs ont des coûts différents! Distribution des exemples + / - très déséquilibrée (e.g. 1% ou 1%O )! Existence de «!zones grises!» (étiquettes peu informées)! Tâche multi-objectif A. Cornuéjols Évaluation 41 A. Cornuéjols Évaluation 42 Autres critères d évaluation Références! Intelligibilité des résultats (hypothèses produites) E.g. exit les réseaux de neurones! Performances en généralisation Pas toujours en adéquation totale avec le point précédent Littérature très vaste sur les tests statistiques! Dietterich, T. G., (1998). Approximate tatistical Tests for Comparing upervised Classification Learning Algorithms. Neural Computation, 10 (7) ! Guyon, I., & Elisseeff, A. (2003). An introduction to variable and feature selection. Journal of Machine Learning Research, 3, ! Coûts de préparation (des données) coût computationnel (e.g. coût d une passe et nombre de passes nécessaires, ) coût de l expertise en apprentissage coût de l expertise sur le domaine A. Cornuéjols Évaluation 43 A. Cornuéjols Évaluation 44
12 Boîte à outils Weka Boîte à outils Weka! A. Cornuéjols Évaluation 45 A. Cornuéjols Évaluation 46 Boîte à outils Weka A. Cornuéjols Évaluation 47
Introduction à La Fouille de Données. Khai thác dữ liệu. Cours N 2. Cours M1 IA «Systèmes Intelligents & Multimédia» Jean-Daniel Zucker
1 /81 Cours IFI M1 Data Mining Introduction à La Fouille de Données Khai thác dữ liệu Cours N 2 Cours M1 IA «Systèmes Intelligents & Multimédia» Jean-Daniel Zucker Chercheur de l IRD à UMMISCO (Modélisation
Plus en détailEtude des propriétés empiriques du lasso par simulations
Etude des propriétés empiriques du lasso par simulations L objectif de ce TP est d étudier les propriétés empiriques du LASSO et de ses variantes à partir de données simulées. Un deuxième objectif est
Plus en détailProbabilités. Rappel : trois exemples. Exemple 2 : On dispose d un dé truqué. On sait que : p(1) = p(2) =1/6 ; p(3) = 1/3 p(4) = p(5) =1/12
Probabilités. I - Rappel : trois exemples. Exemple 1 : Dans une classe de 25 élèves, il y a 16 filles. Tous les élèves sont blonds ou bruns. Parmi les filles, 6 sont blondes. Parmi les garçons, 3 sont
Plus en détailK. Ammar, F. Bachoc, JM. Martinez. Séminaire ARISTOTE - 23 octobre 2014 - Palaiseau
Apport des modèles de krigeage à la simulation numérique K Ammar, F Bachoc, JM Martinez CEA-Saclay, DEN, DM2S, F-91191 Gif-sur-Yvette, France Séminaire ARISTOTE - 23 octobre 2014 - Palaiseau Apport des
Plus en détailIntroduction au Data-Mining
Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme
Plus en détailAmélioration de la fiabilité d inspection en CND grâce à la fusion d information : applications en rayons X et ultrasons
Amélioration de la fiabilité d inspection en CND grâce à la fusion d information : applications en rayons X et ultrasons Ahmad OSMAN 1a, Valérie KAFTANDJIAN b, Ulf HASSLER a a Fraunhofer Development Center
Plus en détailTSTI 2D CH X : Exemples de lois à densité 1
TSTI 2D CH X : Exemples de lois à densité I Loi uniforme sur ab ; ) Introduction Dans cette activité, on s intéresse à la modélisation du tirage au hasard d un nombre réel de l intervalle [0 ;], chacun
Plus en détailStatistiques Décisionnelles L3 Sciences Economiques & Gestion Faculté d économie, gestion & AES Université Montesquieu - Bordeaux 4 2013-2014
Tests du χ 2 Statistiques Décisionnelles L3 Sciences Economiques & Gestion Faculté d économie, gestion & AES Université Montesquieu - Bordeaux 4 2013-2014 A. Lourme http://alexandrelourme.free.fr Outline
Plus en détailReprésentation d une distribution
5 Représentation d une distribution VARIABLE DISCRÈTE : FRÉQUENCES RELATIVES DES CLASSES Si dans un graphique représentant une distribution, on place en ordonnées le rapport des effectifs n i de chaque
Plus en détailINF6304 Interfaces Intelligentes
INF6304 Interfaces Intelligentes filtres collaboratifs 1/42 INF6304 Interfaces Intelligentes Systèmes de recommandations, Approches filtres collaboratifs Michel C. Desmarais Génie informatique et génie
Plus en détailL'intelligence d'affaires: la statistique dans nos vies de consommateurs
L'intelligence d'affaires: la statistique dans nos vies de consommateurs Jean-François Plante, HEC Montréal Marc Fredette, HEC Montréal Congrès de l ACFAS, Université Laval, 6 mai 2013 Intelligence d affaires
Plus en détailLoi binomiale Lois normales
Loi binomiale Lois normales Christophe ROSSIGNOL Année scolaire 204/205 Table des matières Rappels sur la loi binomiale 2. Loi de Bernoulli............................................ 2.2 Schéma de Bernoulli
Plus en détailDeuxième Licence en Informatique Data Warehousing et Data Mining La Classification - 1
Deuxième Licence en Informatique Data Warehousing et Data Mining La Classification - 1 V. Fiolet Université de Mons-Hainaut 2006-2007 Nous allons aujourd hui nous intéresser à la tâche de classification
Plus en détailValidation probabiliste d un Système de Prévision d Ensemble
Validation probabiliste d un Système de Prévision d Ensemble Guillem Candille, janvier 2006 Système de Prévision d Ensemble (EPS) (ECMWF Newsletter 90, 2001) Plan 1 Critères de validation probabiliste
Plus en détailChapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE
UE4 : Biostatistiques Chapitre 3 : Principe des tests statistiques d hypothèse José LABARERE Année universitaire 2010/2011 Université Joseph Fourier de Grenoble - Tous droits réservés. Plan I. Introduction
Plus en détailLES GENERATEURS DE NOMBRES ALEATOIRES
LES GENERATEURS DE NOMBRES ALEATOIRES 1 Ce travail a deux objectifs : ====================================================================== 1. Comprendre ce que font les générateurs de nombres aléatoires
Plus en détailERRATA ET AJOUTS. ( t) 2 s2 dt (4.7) Chapitre 2, p. 64, l équation se lit comme suit : Taux effectif = 1+
ERRATA ET AJOUTS Chapitre, p. 64, l équation se lit comme suit : 008, Taux effectif = 1+ 0 0816 =, Chapitre 3, p. 84, l équation se lit comme suit : 0, 075 1 000 C = = 37, 50$ Chapitre 4, p. 108, note
Plus en détailIntroduction à l approche bootstrap
Introduction à l approche bootstrap Irène Buvat U494 INSERM buvat@imedjussieufr 25 septembre 2000 Introduction à l approche bootstrap - Irène Buvat - 21/9/00-1 Plan du cours Qu est-ce que le bootstrap?
Plus en détailchoisir H 1 quand H 0 est vraie - fausse alarme
étection et Estimation GEL-64943 Hiver 5 Tests Neyman-Pearson Règles de Bayes: coûts connus min π R ( ) + ( π ) R ( ) { } Règles Minimax: coûts connus min max R ( ), R ( ) Règles Neyman Pearson: coûts
Plus en détailIntroduction aux Statistiques et à l utilisation du logiciel R
Introduction aux Statistiques et à l utilisation du logiciel R Christophe Lalanne Christophe Pallier 1 Introduction 2 Comparaisons de deux moyennes 2.1 Objet de l étude On a mesuré le temps de sommeil
Plus en détailApprentissage incrémental par sélection de données dans un flux pour une application de sécurité routière
Apprentissage incrémental par sélection de données dans un flux pour une application de sécurité routière Nicolas Saunier INRETS Télécom Paris Sophie Midenet INRETS Alain Grumbach Télécom Paris Conférence
Plus en détailPrincipe d un test statistique
Biostatistiques Principe d un test statistique Professeur Jean-Luc BOSSON PCEM2 - Année universitaire 2012/2013 Faculté de Médecine de Grenoble (UJF) - Tous droits réservés. Objectifs pédagogiques Comprendre
Plus en détail1 Modélisation d être mauvais payeur
1 Modélisation d être mauvais payeur 1.1 Description Cet exercice est très largement inspiré d un document que M. Grégoire de Lassence de la société SAS m a transmis. Il est intitulé Guide de démarrage
Plus en détailTests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE
Chapitre 5 UE4 : Biostatistiques Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE Année universitaire 2010/2011 Université Joseph Fourier de Grenoble - Tous droits réservés.
Plus en détailSécurité par compression! ReSIST 2010. Gilles RICHARD IRIT www.irit.fr/bite www.bite.ac.uk
Sécurité par compression! ReSIST 2010 Gilles RICHARD IRIT www.irit.fr/bite www.bite.ac.uk Introduction Sécurité.. intrusion réseau, attaques (DoS,DDoS etc.) virus, etc... spams code injection (SQL,XSS,CSRF,...)
Plus en détailNON-LINEARITE ET RESEAUX NEURONAUX
NON-LINEARITE ET RESEAUX NEURONAUX Vêlayoudom MARIMOUTOU Laboratoire d Analyse et de Recherche Economiques Université de Bordeaux IV Avenue. Leon Duguit, 33608 PESSAC, France tel. 05 56 84 85 77 e-mail
Plus en détailIFT3245. Simulation et modèles
IFT 3245 Simulation et modèles DIRO Université de Montréal Automne 2012 Tests statistiques L étude des propriétés théoriques d un générateur ne suffit; il estindispensable de recourir à des tests statistiques
Plus en détailItem 169 : Évaluation thérapeutique et niveau de preuve
Item 169 : Évaluation thérapeutique et niveau de preuve COFER, Collège Français des Enseignants en Rhumatologie Date de création du document 2010-2011 Table des matières ENC :...3 SPECIFIQUE :...3 I Différentes
Plus en détailCONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)
CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE Cinquième épreuve d admissibilité STATISTIQUE (durée : cinq heures) Une composition portant sur la statistique. SUJET Cette épreuve est composée d un
Plus en détailIntroduction à la statistique non paramétrique
Introduction à la statistique non paramétrique Catherine MATIAS CNRS, Laboratoire Statistique & Génome, Évry http://stat.genopole.cnrs.fr/ cmatias Atelier SFDS 27/28 septembre 2012 Partie 2 : Tests non
Plus en détailChapitre 1 Evaluation des caractéristiques d un test diagnostique. José LABARERE
UE4 : Biostatistiques Chapitre 1 Evaluation des caractéristiques d un test diagnostique José LABARERE Année universitaire 2011/2012 Université Joseph Fourier de Grenoble - Tous droits réservés. lan I.
Plus en détailTESTS D'HYPOTHESES Etude d'un exemple
TESTS D'HYPOTHESES Etude d'un exemple Un examinateur doit faire passer une épreuve type QCM à des étudiants. Ce QCM est constitué de 20 questions indépendantes. Pour chaque question, il y a trois réponses
Plus en détailLaboratoire d Automatique et Productique Université de Batna, Algérie
Anale. Seria Informatică. Vol. IX fasc. 2 Annals. Computer Science Series. 9 th Tome st Fasc. 2 La sélection de paramètres d un système industriel par les colonies de fourmis Ouahab Kadri, L. Hayet Mouss,
Plus en détailAICp. Vincent Vandewalle. To cite this version: HAL Id: inria-00386678 https://hal.inria.fr/inria-00386678
Sélection prédictive d un modèle génératif par le critère AICp Vincent Vandewalle To cite this version: Vincent Vandewalle. Sélection prédictive d un modèle génératif par le critère AICp. 41èmes Journées
Plus en détailIntroduction au Data-Mining
Introduction au Data-Mining Gilles Gasso, Stéphane Canu INSA Rouen -Département ASI Laboratoire LITIS 8 septembre 205. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles Gasso, Stéphane
Plus en détail«Cours Statistique et logiciel R»
«Cours Statistique et logiciel R» Rémy Drouilhet (1), Adeline Leclercq-Samson (1), Frédérique Letué (1), Laurence Viry (2) (1) Laboratoire Jean Kuntzmann, Dép. Probabilites et Statistique, (2) Laboratoire
Plus en détailChapitre 6 Test de comparaison de pourcentages χ². José LABARERE
UE4 : Biostatistiques Chapitre 6 Test de comparaison de pourcentages χ² José LABARERE Année universitaire 2010/2011 Université Joseph Fourier de Grenoble - Tous droits réservés. Plan I. Nature des variables
Plus en détailBaccalauréat ES/L Amérique du Sud 21 novembre 2013
Baccalauréat ES/L Amérique du Sud 21 novembre 2013 A. P. M. E. P. EXERCICE 1 Commun à tous les candidats 5 points Une entreprise informatique produit et vend des clés USB. La vente de ces clés est réalisée
Plus en détailRestaurer la confiance? Etudes Empiriques Conclusion et ouverture
Restaurer la confiance des investisseurs : une exploration expérimentale systématique de l effet des politiques d investissement socialement responsable. Marco Heimann Sous la direction de Jean-François
Plus en détailTABLE DES MATIERES. C Exercices complémentaires 42
TABLE DES MATIERES Chapitre I : Echantillonnage A - Rappels de cours 1. Lois de probabilités de base rencontrées en statistique 1 1.1 Définitions et caractérisations 1 1.2 Les propriétés de convergence
Plus en détailLe Data Mining au service du Scoring ou notation statistique des emprunteurs!
France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative
Plus en détailMéthodologie d'évaluation des filtres anti-spam
Méthodologie d'évaluation des filtres anti-spam José-Marcio Martins da Cruz Mines ParisTech Centre de Calcul et Systèmes d'information 60, bd Saint Michel 75006 - Paris email:jose-marcio.martins@mines-paristech.fr
Plus en détaildonnées en connaissance et en actions?
1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)
Plus en détailBaccalauréat ES Antilles Guyane 12 septembre 2014 Corrigé
Baccalauréat ES Antilles Guyane 12 septembre 2014 Corrigé EXERCICE 1 5 points Commun à tous les candidats 1. Réponse c : ln(10)+2 ln ( 10e 2) = ln(10)+ln ( e 2) = ln(10)+2 2. Réponse b : n 13 0,7 n 0,01
Plus en détailBaccalauréat ES Pondichéry 7 avril 2014 Corrigé
Baccalauréat ES Pondichéry 7 avril 204 Corrigé EXERCICE 4 points Commun à tous les candidats. Proposition fausse. La tangente T, passant par les points A et B d abscisses distinctes, a pour coefficient
Plus en détailVous incarnez un surdoué en informatique qui utilise son ordinateur afin de pirater des comptes bancaires un peu partout dans le monde et s en mettre
Vous incarnez un surdoué en informatique qui utilise son ordinateur afin de pirater des comptes bancaires un peu partout dans le monde et s en mettre plein les poches. Problème : vous n êtes pas seul!
Plus en détailIntroduction aux outils BI de SQL Server 2014. Fouille de données avec SQL Server Analysis Services (SSAS)
MIT820: Entrepôts de données et intelligence artificielle Introduction aux outils BI de SQL Server 2014 Fouille de données avec SQL Server Analysis Services (SSAS) Description générale Ce tutoriel a pour
Plus en détailPROBABILITES ET STATISTIQUE I&II
PROBABILITES ET STATISTIQUE I&II TABLE DES MATIERES CHAPITRE I - COMBINATOIRE ELEMENTAIRE I.1. Rappel des notations de la théorie des ensemble I.1.a. Ensembles et sous-ensembles I.1.b. Diagrammes (dits
Plus en détailMéthodologie d'évaluation des filtres anti-spam
Méthodologie d'évaluation des filtres anti-spam José-Marcio Martins da Cruz Mines ParisTech Centre de Calcul et Systèmes d'information 60, bd Saint Michel 75006 - Paris Résumé Depuis une dizaine d'années,
Plus en détailTour d horizon de l apprentissage statistique. from Machine Learning to Big Data Analytics
Tour d horizon de l apprentissage statistique. from Machine Learning to Big Data Analytics Stéphane Canu asi.insa-rouen.fr/enseignants/~scanu Codeur en Seine 2014, Université de Rouen 27 novembre 2014
Plus en détailLois de probabilité. Anita Burgun
Lois de probabilité Anita Burgun Problème posé Le problème posé en statistique: On s intéresse à une population On extrait un échantillon On se demande quelle sera la composition de l échantillon (pourcentage
Plus en détailEstimation et tests statistiques, TD 5. Solutions
ISTIL, Tronc commun de première année Introduction aux méthodes probabilistes et statistiques, 2008 2009 Estimation et tests statistiques, TD 5. Solutions Exercice 1 Dans un centre avicole, des études
Plus en détailL utilisation d un réseau de neurones pour optimiser la gestion d un firewall
L utilisation d un réseau de neurones pour optimiser la gestion d un firewall Réza Assadi et Karim Khattar École Polytechnique de Montréal Le 1 mai 2002 Résumé Les réseaux de neurones sont utilisés dans
Plus en détailProbabilités III Introduction à l évaluation d options
Probabilités III Introduction à l évaluation d options Jacques Printems Promotion 2012 2013 1 Modèle à temps discret 2 Introduction aux modèles en temps continu Limite du modèle binomial lorsque N + Un
Plus en détailTableau 1 : Structure du tableau des données individuelles. INDIV B i1 1 i2 2 i3 2 i4 1 i5 2 i6 2 i7 1 i8 1
UN GROUPE D INDIVIDUS Un groupe d individus décrit par une variable qualitative binaire DÉCRIT PAR UNE VARIABLE QUALITATIVE BINAIRE ANALYSER UN SOUS-GROUPE COMPARER UN SOUS-GROUPE À UNE RÉFÉRENCE Mots-clés
Plus en détailModélisation aléatoire en fiabilité des logiciels
collection Méthodes stochastiques appliquées dirigée par Nikolaos Limnios et Jacques Janssen La sûreté de fonctionnement des systèmes informatiques est aujourd hui un enjeu économique et sociétal majeur.
Plus en détailBACCALAURÉAT GÉNÉRAL SESSION 2012 OBLIGATOIRE MATHÉMATIQUES. Série S. Durée de l épreuve : 4 heures Coefficient : 7 ENSEIGNEMENT OBLIGATOIRE
BACCALAURÉAT GÉNÉRAL SESSION 2012 MATHÉMATIQUES Série S Durée de l épreuve : 4 heures Coefficient : 7 ENSEIGNEMENT OBLIGATOIRE Les calculatrices électroniques de poche sont autorisées, conformément à la
Plus en détailBases de données documentaires et distribuées Cours NFE04
Bases de données documentaires et distribuées Cours NFE04 Introduction a la recherche d information Auteurs : Raphaël Fournier-S niehotta, Philippe Rigaux, Nicolas Travers prénom.nom@cnam.fr Département
Plus en détailUFR de Sciences Economiques Année 2008-2009 TESTS PARAMÉTRIQUES
Université Paris 13 Cours de Statistiques et Econométrie I UFR de Sciences Economiques Année 2008-2009 Licence de Sciences Economiques L3 Premier semestre TESTS PARAMÉTRIQUES Remarque: les exercices 2,
Plus en détailOutils pour les réseaux de neurones et contenu du CD-Rom
Outils pour les réseaux de neurones et contenu du CD-Rom Depuis le développement théorique des réseaux de neurones à la fin des années 1980-1990, plusieurs outils ont été mis à la disposition des utilisateurs.
Plus en détailSimulation de variables aléatoires
Chapter 1 Simulation de variables aléatoires Références: [F] Fishman, A first course in Monte Carlo, chap 3. [B] Bouleau, Probabilités de l ingénieur, chap 4. [R] Rubinstein, Simulation and Monte Carlo
Plus en détailQuelques rappels concernant la méthode expérimentale
Quelques rappels concernant la méthode expérimentale 1. La Méthode expérimentale : Définition. Une définition classique de la méthode expérimentale est qu elle «correspond à la méthode d investigation
Plus en détailDétection de la défaillance des entreprises tunisiennes par la régression logistique semi paramétrique et les réseaux de neurones
Détection de la défaillance des entreprises tunisiennes par la régression logistique semi paramétrique et les réseaux de neurones Abdeljelil Farhat Unité de recherche EAS-Mahdia Faculté des sciences économiques
Plus en détailUne comparaison de méthodes de discrimination des masses de véhicules automobiles
p.1/34 Une comparaison de méthodes de discrimination des masses de véhicules automobiles A. Rakotomamonjy, R. Le Riche et D. Gualandris INSA de Rouen / CNRS 1884 et SMS / PSA Enquêtes en clientèle dans
Plus en détailMéthodes d apprentissage statistique «Machine Learning»
Méthodes d apprentissage statistique «Machine Learning» Fabrice TAILLIEU, Sébastien DELUCINGE, Rémi BELLINA Le marché de l assurance a rarement été marqué par un environnement aussi difficile qu au cours
Plus en détailTests du χ 2. on accepte H 0 bonne décision erreur de seconde espèce on rejette H 0 erreur de première espèce bonne décision
Page n 1. Tests du χ 2 une des fonctions des statistiques est de proposer, à partir d observations d un phénomène aléatoire (ou modélisé comme tel) une estimation de la loi de ce phénomène. C est que nous
Plus en détailFace Recognition Performance: Man vs. Machine
1 Face Recognition Performance: Man vs. Machine Andy Adler Systems and Computer Engineering Carleton University, Ottawa, Canada Are these the same person? 2 3 Same person? Yes I have just demonstrated
Plus en détailTravaux pratiques avec RapidMiner
Travaux pratiques avec RapidMiner Master Informatique de Paris 6 Spécialité IAD Parcours EDOW Module Algorithmes pour la Fouille de Données Janvier 2012 Prise en main Généralités RapidMiner est un logiciel
Plus en détailCALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING
CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING SÉLECTION DES RISQUES PRÉVISION DES DÉFAUTS SUIVI ET CONTRÔLE Pierre-Louis GONZALEZ Différents types de
Plus en détailTRAITEMENT DES DONNEES MANQUANTES AU MOYEN DE L ALGORITHME DE KOHONEN
TRAITEMENT DES DONNEES MANQUANTES AU MOYEN DE L ALGORITHME DE KOHONEN Marie Cottrell, Smaïl Ibbou, Patrick Letrémy SAMOS-MATISSE UMR 8595 90, rue de Tolbiac 75634 Paris Cedex 13 Résumé : Nous montrons
Plus en détailEvalua&on tests diagnos&ques. Arnaud Fontanet
Evalua&on tests diagnos&ques Arnaud Fontanet Résultats d un test diagnos&que Maladie «Gold standard» Test expérimental + a b a+b - c d c+d a+c b+d Evaluation tests diagnostiques. Arnaud Fontanet 2 Résultats
Plus en détailComparaison de fonctions Développements limités. Chapitre 10
PCSI - 4/5 www.ericreynaud.fr Chapitre Points importants 3 Questions de cours 6 Eercices corrigés Plan du cours 4 Eercices types 7 Devoir maison 5 Eercices Chap Et s il ne fallait retenir que si points?
Plus en détailApprentissage statistique dans les graphes et les réseaux sociaux
Apprentissage statistique dans les graphes et les réseaux sociaux Patrick Gallinari Collaboration : L. Denoyer, S. Peters Université Pierre et Marie Curie AAFD 2010 1 Plan Motivations et Problématique
Plus en détailà moyen Risque moyen Risq à élevé Risque élevé Risq e Risque faible à moyen Risq Risque moyen à élevé Risq
e élevé Risque faible Risq à moyen Risque moyen Risq à élevé Risque élevé Risq e Risque faible à moyen Risq Risque moyen à élevé Risq L e s I n d i c e s F u n d a t a é Risque Les Indices de faible risque
Plus en détailSAS ENTERPRISE MINER POUR L'ACTUAIRE
SAS ENTERPRISE MINER POUR L'ACTUAIRE Conférence de l Association des Actuaires I.A.R.D. 07 JUIN 2013 Sylvain Tremblay Spécialiste en formation statistique SAS Canada AGENDA Survol d Enterprise Miner de
Plus en détailQuelques précisions concernant les commandes de Ticket Restaurant électronique par fichier Excel
Quelques précisions concernant les commandes de Ticket Restaurant électronique par fichier Excel. Commande de cartes Afin de faciliter votre compréhension, les champs obligatoires sont surlignés en jaune
Plus en détailScénario: Score d appétence de la carte visa premier
Scénario: Score d appétence de la carte visa premier Résumé Cette aventure reprend rapidement l exploration des données bancaires avant d aborder systématiquement la construction de modèles de prévision
Plus en détailGrégoire de Lassence. Copyright 2006, SAS Institute Inc. All rights reserved.
Grégoire de Lassence 1 Grégoire de Lassence Responsable Pédagogie et Recherche Département Académique Tel : +33 1 60 62 12 19 gregoire.delassence@fra.sas.com http://www.sas.com/france/academic SAS dans
Plus en détailExcel Avancé. Plan. Outils de résolution. Interactivité dans les feuilles. Outils de simulation. La valeur cible Le solveur
Excel Avancé Plan Outils de résolution La valeur cible Le solveur Interactivité dans les feuilles Fonctions de recherche (ex: RechercheV) Utilisation de la barre d outils «Formulaires» Outils de simulation
Plus en détailLE RÔLE DE LA STATISTIQUE DANS UN PROCESSUS DE PRISE DE DÉCISION
LE RÔLE DE LA STATISTIQUE DANS UN PROCESSUS DE PRISE DE DÉCISION Sylvie Gervais Service des enseignements généraux École de technologie supérieure (sylvie.gervais@etsmtl.ca) Le laboratoire des condensateurs
Plus en détailIFT3913 Qualité du logiciel et métriques. Chapitre 2 Modèles de processus du développement du logiciel. Plan du cours
IFT3913 Qualité du logiciel et métriques Chapitre 2 Modèles de processus du développement du logiciel Plan du cours Introduction Modèles de processus du développement du logiciel Qualité du logiciel Théorie
Plus en détail23. Interprétation clinique des mesures de l effet traitement
23. Interprétation clinique des mesures de l effet traitement 23.1. Critères de jugement binaires Plusieurs mesures (indices) sont utilisables pour quantifier l effet traitement lors de l utilisation d
Plus en détailCommun à tous les candidats
EXERCICE 3 (9 points ) Commun à tous les candidats On s intéresse à des courbes servant de modèle à la distribution de la masse salariale d une entreprise. Les fonctions f associées définies sur l intervalle
Plus en détailQuantification Scalaire et Prédictive
Quantification Scalaire et Prédictive Marco Cagnazzo Département Traitement du Signal et des Images TELECOM ParisTech 7 Décembre 2012 M. Cagnazzo Quantification Scalaire et Prédictive 1/64 Plan Introduction
Plus en détailIBM SPSS Regression 21
IBM SPSS Regression 21 Remarque : Avant d utiliser ces informations et le produit qu elles concernent, lisez les informations générales sous Remarques sur p. 46. Cette version s applique à IBM SPSS Statistics
Plus en détailProbabilités et Statistiques. Feuille 2 : variables aléatoires discrètes
IUT HSE Probabilités et Statistiques Feuille : variables aléatoires discrètes 1 Exercices Dénombrements Exercice 1. On souhaite ranger sur une étagère 4 livres de mathématiques (distincts), 6 livres de
Plus en détailRessources pour le lycée général et technologique
éduscol Ressources pour le lycée général et technologique Ressources pour la classe de terminale générale et technologique Exercices de mathématiques Classes de terminale S, ES, STI2D, STMG Ces documents
Plus en détailDérivation : cours. Dérivation dans R
TS Dérivation dans R Dans tout le capitre, f désigne une fonction définie sur un intervalle I de R (non vide et non réduit à un élément) et à valeurs dans R. Petits rappels de première Téorème-définition
Plus en détailExprimer ce coefficient de proportionnalité sous forme de pourcentage : 3,5 %
23 CALCUL DE L INTÉRÊT Tau d intérêt Paul et Rémi ont reçu pour Noël, respectivement, 20 et 80. Ils placent cet argent dans une banque, au même tau. Au bout d une année, ce placement leur rapportera une
Plus en détailEnregistrement et transformation du son. S. Natkin Novembre 2001
Enregistrement et transformation du son S. Natkin Novembre 2001 1 Éléments d acoustique 2 Dynamique de la puissance sonore 3 Acoustique géométrique: effets de diffusion et de diffraction des ondes sonores
Plus en détailUNIVERSITÉ DE STRASBOURG ÉCOLE DOCTORALE DES SCIENCES CHIMIQUES UMR 7177 THÈSE. présentée par. Ioana OPRISIU. soutenue le : 28 mars 2012
UNIVERSITÉ DE STRASBOURG ÉCOLE DOCTORALE DES SCIENCES CHIMIQUES UMR 7177 THÈSE présentée par Ioana OPRISIU soutenue le : 28 mars 2012 pour obtenir le grade de Docteur de l université de Strasbourg Discipline
Plus en détailProbabilités Loi binomiale Exercices corrigés
Probabilités Loi binomiale Exercices corrigés Sont abordés dans cette fiche : (cliquez sur l exercice pour un accès direct) Exercice 1 : épreuve de Bernoulli Exercice 2 : loi de Bernoulli de paramètre
Plus en détailSoutenance de stage Laboratoire des Signaux et Systèmes
Soutenance de stage Laboratoire des Signaux et Systèmes Bornes inférieures bayésiennes de l'erreur quadratique moyenne. Application à la localisation de points de rupture. M2R ATSI Université Paris-Sud
Plus en détailProjet SINF2275 «Data mining and decision making» Projet classification et credit scoring
Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems
Plus en détailA009 Maîtrise des enregistrements
28.11.2014 Version 11 Page 1 de 8 A009 Maîtrise des enregistrements Modifications : pages 2, 5 South Lane Tower I 1, avenue du Swing L-4367 Belvau Tél.: (+352) 2477 4360 Fa: (+352) 2479 4360 olas@ilnas.etat.lu
Plus en détailAlgorithme. Table des matières
1 Algorithme Table des matières 1 Codage 2 1.1 Système binaire.............................. 2 1.2 La numérotation de position en base décimale............ 2 1.3 La numérotation de position en base binaire..............
Plus en détailAnnexe 3. Le concept : exemple d une situation d apprentissage.
Annexe 3. Le concept : exemple d une situation d apprentissage. Le concept choisi ici comme exemple est une figure arbitrairement définie, appelée «WEZ», reprise d une expérience de Smoke cité dans un
Plus en détailLES ESCALIERS. Du niveau du rez-de-chaussée à celui de l'étage ou à celui du sous-sol.
LES ESCALIERS I. DÉF I NIT I O N Un escalier est un ouvrage constitué d'une suite de marches et de paliers permettant de passer à pied d'un niveau à un autre. Ses caractéristiques dimensionnelles sont
Plus en détailChristophe CANDILLIER Cours de DataMining mars 2004 Page 1
Christophe CANDILLIER Cours de DataMining mars 2004 age 1 1. Introduction 2. rocessus du DataMining 3. Analyse des données en DataMining 4. Analyse en Ligne OLA 5. Logiciels 6. Bibliographie Christophe
Plus en détail