IFT3390/6390 Fondements de l apprentissage machine

Documents pareils
Calculs de probabilités avec la loi normale

Baccalauréat ES Antilles Guyane 12 septembre 2014 Corrigé

Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé

TSTI 2D CH X : Exemples de lois à densité 1

Introduction au Data-Mining

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

Resolution limit in community detection

Simulation de variables aléatoires

Soutenance de stage Laboratoire des Signaux et Systèmes

OPTIMISATION À UNE VARIABLE

Quantification Scalaire et Prédictive

Représentation d une distribution

Théorie et Codage de l Information (IF01) exercices Paul Honeine Université de technologie de Troyes France

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

Moments des variables aléatoires réelles

Validation probabiliste d un Système de Prévision d Ensemble

M2 IAD UE MODE Notes de cours (3)

Résolution d équations non linéaires

Lois de probabilité. Anita Burgun

Introduction au Data-Mining

I3, Probabilités 2014 Travaux Dirigés F BM F BM F BM F BM F B M F B M F B M F B M

Méthodes de Simulation

TD1 Signaux, énergie et puissance, signaux aléatoires

Probabilités et Statistiques. Feuille 2 : variables aléatoires discrètes

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

Texte Agrégation limitée par diffusion interne

Loi binomiale Lois normales

(51) Int Cl.: H04L 29/06 ( ) G06F 21/55 ( )

La classification automatique de données quantitatives

Correction du baccalauréat ES/L Métropole 20 juin 2014

Probabilités III Introduction à l évaluation d options

Actuariat I ACT2121. septième séance. Arthur Charpentier. Automne charpentier.arthur@uqam.ca. http ://freakonometrics.blog.free.

ACTUARIAT 1, ACT 2121, AUTOMNE 2013 #12

MATHS FINANCIERES. Projet OMEGA

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

O, i, ) ln x. (ln x)2

Probabilité. Table des matières. 1 Loi de probabilité Conditions préalables Définitions Loi équirépartie...

Enseignement secondaire technique

Rappels sur les suites - Algorithme

Probabilités. I Petits rappels sur le vocabulaire des ensembles 2 I.1 Définitions... 2 I.2 Propriétés... 2

Espérance conditionnelle

Coefficients binomiaux

Programmes des classes préparatoires aux Grandes Ecoles

CALCUL DES PROBABILITES

Contexte. Pour cela, elles doivent être très compliquées, c est-à-dire elles doivent être très différentes des fonctions simples,

Probabilités. Rappel : trois exemples. Exemple 2 : On dispose d un dé truqué. On sait que : p(1) = p(2) =1/6 ; p(3) = 1/3 p(4) = p(5) =1/12

Glossaire des nombres

Correction du baccalauréat STMG Polynésie 17 juin 2014

Introduction à l approche bootstrap

Probabilités Loi binomiale Exercices corrigés

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes.

Économetrie non paramétrique I. Estimation d une densité

CHAPITRE 5. Stratégies Mixtes

OUTILS STATISTIQUES ET NUMÉRIQUES

K. Ammar, F. Bachoc, JM. Martinez. Séminaire ARISTOTE - 23 octobre Palaiseau

L E Ç O N. Marches aléatoires. Niveau : Terminale S Prérequis : aucun

TP N 57. Déploiement et renouvellement d une constellation de satellites

Big Data et Graphes : Quelques pistes de recherche

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

Modèles à Événements Discrets. Réseaux de Petri Stochastiques

Big Data et Graphes : Quelques pistes de recherche

1.1 Codage de source et test d hypothèse

INF6304 Interfaces Intelligentes

Méthodes de quadrature. Polytech Paris-UPMC. - p. 1/48

Pourquoi l apprentissage?

Raisonnement probabiliste

Economie de l incertain et de l information Partie 1 : Décision en incertain probabilisé Chapitre 1 : Introduction à l incertitude et théorie de

Les algorithmes de base du graphisme

FICHE UE Licence/Master Sciences, Technologies, Santé Mention Informatique

TRACER LE GRAPHE D'UNE FONCTION

Value at Risk. CNAM GFN 206 Gestion d actifs et des risques. Grégory Taillard. 27 février & 13 mars 20061

CHAPITRE V SYSTEMES DIFFERENTIELS LINEAIRES A COEFFICIENTS CONSTANTS DU PREMIER ORDRE. EQUATIONS DIFFERENTIELLES.

Introduction. I Étude rapide du réseau - Apprentissage. II Application à la reconnaissance des notes.

LES GENERATEURS DE NOMBRES ALEATOIRES

CAPTEURS - CHAINES DE MESURES

Programmation linéaire

Cours de méthodes de scoring

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

Peut-on imiter le hasard?

Développements limités, équivalents et calculs de limites

AICp. Vincent Vandewalle. To cite this version: HAL Id: inria

Le modèle de Black et Scholes

Ordonnancement robuste et décision dans l'incertain

Correction du Baccalauréat S Amérique du Nord mai 2007


EXERCICE 2 : SUIVI CINETIQUE D UNE TRANSFORMATION PAR SPECTROPHOTOMETRIE (6 points)

DETERMINATION DE L INCERTITUDE DE MESURE POUR LES ANALYSES CHIMIQUES QUANTITATIVES

Organigramme / Algorigramme Dossier élève 1 SI

Chapitre 6 Apprentissage des réseaux de neurones et régularisation

3. Caractéristiques et fonctions d une v.a.

Probabilités (méthodes et objectifs)

ALGORITHME GENETIQUE ET MODELE DE SIMULATION POUR L'ORDONNANCEMENT D'UN ATELIER DISCONTINU DE CHIMIE

LES TYPES DE DONNÉES DU LANGAGE PASCAL

MODELES DE DUREE DE VIE

Comparaison de fonctions Développements limités. Chapitre 10

Nouvelles propositions pour la résolution exacte du sac à dos multi-objectif unidimensionnel en variables binaires

Modèles et Méthodes de Réservation

4 Distributions particulières de probabilités

Projet de Traitement du Signal Segmentation d images SAR

Transcription:

Département d'informatique et de recherche opérationnelle IFT3390/6390 Fondements de l apprentissage machine http://www.iro.umontreal.ca/~vincentp/ift3390 Sixième cours: Distribution Gaussienne multivariée. Évaluation de la performance de généralisation. Courbes d apprentissage. Professeur: Pascal Vincent Laboratoire d Informatique des Systèmes d Apprentissage

Au programme aujourd hui Opérations sur les Distributions Gaussienne multivariée. Évaluation de performance de généralisation. Courbes d apprentissage

Première partie Distributions

Distributions Voir http://www.techno-science.net/?onglet=glossaire&definition=6395 et le rappel de proba de Balazs On associe naturellement une loi de probabilité (ou distribution) à une variable aléatoire pour décrire la répartition des valeurs qu'elle peut prendre. La distribution d une variable aléatoire peut se caractériser par sa fonction de distribution cumulative (c.d.f.): F X (x) = P(X x) = P(X 1 x 1,,X n x n ) La loi ) d une variable discrète est déterminée par la probabilité de chacune des valeurs qu elle peut prendre. => table de probabilités (qui doivent sommer à 1). x y z p(x,y,z) La loi d une variable continue peut être donnée sous la forme d une fonction de densité de probabilité (p.d.f.) qui est la dérivée de la c.d.f. La probabilité qu un tirage de la variable tombe dans une certaine région de l espace est l intégrale de la densité sur cette région.

Opérations avec les distributions Avec une distribution, on peut vouloir: Générer des données, c.a.d. tirer des échantillons selon la distribution. Calculer la (log) probabilité d une configuration (sachant la valeur de certaines des variables et ayant maginalisé celles dont on ne connaît pas la valeur). Inférence: inférer la valeur la plus probable ou la valeur espérée d un sous ensemble de variables sachant la valeur des autres. Apprentissage des paramètres de la distribution à partir d un ensemble de données (de sorte à maximiser la probabilité que les données soient générées par cette distribution avec ces paramètres: principe du maximum de vraisemblance).

Ex. variable scalaire discrète X Table de probabilité: Ensemble de données: x P(X=x) 1 0.10 0.80 3 0.10 Génération Apprentissage 1 3...

La densité Gaussienne univariée (distribution dite Gaussienne ou Normale) Densité Gaussienne univariée (c.a.d. en dimension 1) de moyenne μ et de variance σ (écart type σ). p(x) = N µ,σ (x) = 1 σ π e (x µ) σ La plupart des graphiques de cette partie proviennent de la page http://www.cs.mcgill.ca/~mcleish/644/normal.html par Erin Mcleish

La densité Gaussienne multivariée Gaussienne isotropique ( sphérique ) en dimension d: Ex: d= p(x) = N µ,σ (x) = 1 1 (π) d σ d e x µ σ Il s agit d une bosse Gaussienne centrée en μ et de largeur σ, la même dans toutes les direcitons. ex. avec d= Gaussienne générale en dimension d, de moyenne μ et de matrice de covariance Σ. p(x) = N µ,σ (x) = 1 e 1 (π) d (x µ)t Σ 1 (x µ) Σ }déterminant de Σ Note: le dénominateur est une simple normalisation qui assure que la densité intègre à 1, mais ne change rien à sa forme

La densité Gaussienne multivariée matrices de covariance particulières Gaussienne isotropique ou sphérique: Σ = σ I (avec I la matrice identité) Gaussienne diagonale: Σ = σ 1 0 σ 0... σd Décomposition en valeurs propres/vecteurs propres: d Σ = λ i v i vi T i=1 Les vecteurs propres indiquent les directions des axes de l ellipsoide associée, les valeurs propres leur longeur. Le déterminant Σ = λ 1 λ... λ d indique la taille de l ellipsoide.

La densité Gaussienne multivariée apprentissage des paramètres On peut apprendre les paramètres d une Gaussienne à partir d un ensemble de données de manière simple: Pour μ on calcule la moyenne empirique des points (le centroide ). Pour Σ on calcule la matrice de covariance empirique des données. On verra comment dériver ces résultats dans un prochain cours (principe du maximum de vraisemblance).

Deuxième partie Evaluation de la performance de généralisation

Le problème: Estimation de l erreur de généralisation Principe de minimisation du risque empirique: on entraîne un modèle (on adapte ses paramètres) de manière à ce qu il fasse un minimum d erreurs sur l ensemble d entraînement. MAIS ce qui nous intéresse vraiment, c est de bien généraliser sur de nouveaux exemples. Puisque les paramètres du modèle sont choisis, spécialisés, pour minimiser l erreur sur les exemples d entraînement, celle-ci sous-estime l erreur de généralisation. Ainsi l erreur d entraînement n est pas un bon estimé de l erreur de généralisation (c est un estimé biaisé).

Estimation d erreur de généralisation: Ensemble de toutes les données étiquetées dont on dispose: } D= (x 1, y 1 ) (x, y ) Ensemble... (x N, y N ) Validation simple } Ensemble On sépare nos données en deux (attention il peut s avérer nécessaire de d abord mélanger les rangées de données) d entraînement (taille n) de test (taille m) On entraîne le modèle pour minimiser l erreur sur l ensemble d entraînement On évalue la performance de généralisation en mesurant les erreurs sur l ensemble de test qu on n a jamais regardé pendant l entraînement. (mesure de performance hors échantillon ).

Sélection des hyper-paramètres D= (x 1, y 1 ) (x, y )... (x N, y N ) } Ensemble } Ensemble } Ensemble On sépare nos données en trois d entraînement (taille n) de validation (taille n ) de test (taille m) Ex: choisir le k des k-ppv Pour chaque valeur d hyperparamètres considérée: 1) On entraîne le modèle pour minimiser l erreur sur l ensemble d entraînement. ) On évalue l erreur sur l ensemble de validation. On utilise finalement la valeur des hyperparamètres donnant l erreur la plus basse sur l ensemble de validation. (possibilité de réentraîner sur les n+n exemples ou non). On évalue la performance de généralisation en mesurant les erreurs sur l ensemble de test qu on n a jamais regardé pendant l entraînement / validation (mesure de performance hors échantillon ).

Courbes d apprentissage Erreur d apprentissage Erreur de validation 6 5 3 0 1 3 5 7 9 11 13 15 Valeur de l hyper-paramètre La valeur de l hyper-paramètre donnant l erreur minimale sur l ensemble de validation est 5 (alors que c est 1 pour l ensemble d apprentissage)

Si on n a pas assez de données:... validation croisée (en k blocs) D= Idée simple: on répète plusieurs fois la procédure entraînement/test en divisant (x 1, y 1 ) } différemment l ensemble de données. Bloc 1 (x, y ) Entraînement Calcul de l erreur } sur (test) sur Bloc D \ Bloc 1 Bloc 1 } Bloc 3 D \ Bloc Bloc...... }... D \ Bloc k Bloc k } Bloc k-1 (x N, y N ) } Bloc k Notre estimé de l erreur de généralisation de l algorithme sur ce problème est déduit de la somme des erreurs obtenues sur tous les blocs. En Anglais on appelle cela k-fold cross validation. Le cas où k=n est appelé leave-one-out ou jackknife.

Double validation croisée Si on a peu de données et qu on veut faire de la sélection d hyper-paramètre ET obtenir un estimé non biaisé de l erreur de généralisation de la procédure, on peut faire une double validation croisée: Un premier niveau de validation croisée est utilisé pour obtenir des paires d ensembles entraînement/test Un deuxième niveau (imbriqué) de validation croisée où l on divise l ensemble d entraînement sert à sélectionner les hyper-paramètres.