IFT-7002 Apprentissage Automatique

Documents pareils
Différentiabilité ; Fonctions de plusieurs variables réelles

Résolution d équations non linéaires

Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Calcul différentiel sur R n Première partie

Programmation linéaire

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer

Espérance conditionnelle

3 Approximation de solutions d équations

Formes quadratiques. 1 Formes quadratiques et formes polaires associées. Imen BHOURI. 1.1 Définitions

Fonctions de plusieurs variables

Notes du cours MTH1101 Calcul I Partie II: fonctions de plusieurs variables

Simulation de variables aléatoires

Théorème du point fixe - Théorème de l inversion locale

Méthodes de quadrature. Polytech Paris-UPMC. - p. 1/48

Fonctions de plusieurs variables, intégrales multiples, et intégrales dépendant d un paramètre

I. Polynômes de Tchebychev

La programmation linéaire : une introduction. Qu est-ce qu un programme linéaire? Terminologie. Écriture mathématique

Optimisation Discrète

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

Notes du cours MTH1101N Calcul I Partie II: fonctions de plusieurs variables

Calcul fonctionnel holomorphe dans les algèbres de Banach

De même, le périmètre P d un cercle de rayon 1 vaut P = 2π (par définition de π). Mais, on peut démontrer (difficilement!) que

CCP PSI Mathématiques 1 : un corrigé

Fonctions de plusieurs variables et applications pour l ingénieur

Cours d Analyse. Fonctions de plusieurs variables

Continuité en un point

Amphi 3: Espaces complets - Applications linéaires continues

Optimisation des fonctions de plusieurs variables

Fonctions de plusieurs variables. Sébastien Tordeux

Quantification Scalaire et Prédictive

8.1 Généralités sur les fonctions de plusieurs variables réelles. f : R 2 R (x, y) 1 x 2 y 2

Exercices - Polynômes : corrigé. Opérations sur les polynômes

Calcul différentiel. Chapitre Différentiabilité

Examen optimisation Centrale Marseille (2008) et SupGalilee (2008)

Fonctions de plusieurs variables : dérivés partielles, diérentielle. Fonctions composées. Fonctions de classe C 1. Exemples

FONCTIONS DE PLUSIEURS VARIABLES (Outils Mathématiques 4)

Probabilités III Introduction à l évaluation d options

LES MÉTHODES DE POINT INTÉRIEUR 1

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

Correction de l examen de la première session

RO04/TI07 - Optimisation non-linéaire

Cours 02 : Problème général de la programmation linéaire

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable T : pour travailler et mémoriser le cours

aux différences est appelé équation aux différences d ordre n en forme normale.

CHAPITRE 10. Jacobien, changement de coordonnées.

Chapitre VI Fonctions de plusieurs variables

Intégrales doubles et triples - M

Coup de Projecteur sur les Réseaux de Neurones

Cours d analyse numérique SMI-S4

I. Ensemble de définition d'une fonction

Planche n o 22. Fonctions de plusieurs variables. Corrigé

Commun à tous les candidats

Précision d un résultat et calculs d incertitudes

Chapitre VI - Méthodes de factorisation

Journées Télécom-UPS «Le numérique pour tous» David A. Madore. 29 mai 2015

Capes Première épreuve

Une introduction aux codes correcteurs quantiques

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I

Programmes des classes préparatoires aux Grandes Ecoles

Fonctions de plusieurs variables et changements de variables

1.1 Codage de source et test d hypothèse

Correction du baccalauréat S Liban juin 2007

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

Résolution de systèmes linéaires par des méthodes directes

Fonctions de plusieurs variables

Cryptographie et fonctions à sens unique

Université Paris-Dauphine DUMI2E 1ère année, Applications

Équations non linéaires

Extrait du poly de Stage de Grésillon 1, août 2010

4. Martingales à temps discret

Introduction à l étude des Corps Finis

ALGORITHMIQUE II NOTION DE COMPLEXITE. SMI AlgoII

Licence Sciences et Technologies Examen janvier 2010

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Image d un intervalle par une fonction continue

Première partie. Préliminaires : noyaux itérés. MPSI B 6 juin 2015

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes.

Filtrage stochastique non linéaire par la théorie de représentation des martingales

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

Etude de fonctions: procédure et exemple

Dualité dans les espaces de Lebesgue et mesures de Radon finies

OM 1 Outils mathématiques : fonction de plusieurs variables

Structures algébriques

Calcul de développements de Puiseux et application au calcul du groupe de monodromie d'une courbe algébrique plane

Continuité d une fonction de plusieurs variables

Le modèle de Black et Scholes

Optimisation, traitement d image et éclipse de Soleil

= 1 si n = m& où n et m sont souvent des indices entiers, par exemple, n, m = 0, 1, 2, 3, 4... En fait,! n m

Calcul Différentiel. I Fonctions différentiables 3

Apprentissage non paramétrique en régression

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Programmation linéaire

Théorie des Graphes Cours 3: Forêts et Arbres II / Modélisation

Cours d Analyse 3 Fonctions de plusieurs variables

I. Introduction. 1. Objectifs. 2. Les options. a. Présentation du problème.

Chapitre 2 Le problème de l unicité des solutions

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable

Exo7. Matrice d une application linéaire. Corrections d Arnaud Bodin.

Transcription:

IFT-7002 Apprentissage Automatique Modèle d apprentissage général et le compromis biais-complexité Shai Shalev-Shwartz The Hebrew University of Jerusalem Traduit et adapté par Mario Marchand Université Laval Hiver 2017 Université Laval IFT-7002 Hiver 2017 1 / 52

Sommaire 1 Le modèle PAC général Enlever la supposition qu il existe un f H avec risque nul Au-delà de la classification binaire Le modèle général PAC 2 Apprendre par la convergence uniforme 3 Régression linéaire et les moindres carrés Ajustement polynômial 4 Régression logistique 5 Le compromis biais-complexité Décomposition de l erreur 6 Validation et sélection du Modèle Université Laval IFT-7002 Hiver 2017 2 / 52

Le modèle PAC agnostique On a supposé que les étiquettes étaient générées par un f H Université Laval IFT-7002 Hiver 2017 3 / 52

Le modèle PAC agnostique On a supposé que les étiquettes étaient générées par un f H Cette supposition peut s avérer trop forte! Université Laval IFT-7002 Hiver 2017 3 / 52

Le modèle PAC agnostique On a supposé que les étiquettes étaient générées par un f H Cette supposition peut s avérer trop forte! Maintenant, soyons plus réaliste en considérant que les étiquettes sont générées par une distribution (que nous ne connaissons pas). Université Laval IFT-7002 Hiver 2017 3 / 52

Le modèle PAC agnostique Pour le modèle PAC, D est une distribution sur le domaine X Université Laval IFT-7002 Hiver 2017 4 / 52

Le modèle PAC agnostique Pour le modèle PAC, D est une distribution sur le domaine X Maintenant, considérons que D est une distribution sur X Y Université Laval IFT-7002 Hiver 2017 4 / 52

Le modèle PAC agnostique Pour le modèle PAC, D est une distribution sur le domaine X Maintenant, considérons que D est une distribution sur X Y Le risque L D (h) d une hypothèse h est alors redéfini comme suit : L D (h) = def P [h(x) y] def = D({(x, y) : h(x) y}) (x,y) D Université Laval IFT-7002 Hiver 2017 4 / 52

Le modèle PAC agnostique Pour le modèle PAC, D est une distribution sur le domaine X Maintenant, considérons que D est une distribution sur X Y Le risque L D (h) d une hypothèse h est alors redéfini comme suit : L D (h) = def P [h(x) y] def = D({(x, y) : h(x) y}) (x,y) D Le critère de approximativement correct est alors remplacé par L D (A(S)) min h H L D(h) + ɛ Université Laval IFT-7002 Hiver 2017 4 / 52

PAC vs. PAC agnostique PAC PAC agnostique Distribution : D sur X D sur X Y Étiquetage : f H pas dans la classe ou n existe pas Risque L D,f (h) = L D (h) = D({x : h(x) f(x)}) D({(x, y) : h(x) y}) Échantillon S : (x 1,..., x m ) D m ((x 1, y 1 ),..., (x m, y m )) D m i, y i = f(x i ) Objectif : L D,f (A(S)) ɛ L D (A(S)) min h H L D (h) + ɛ Université Laval IFT-7002 Hiver 2017 5 / 52

Au-delà de la classification binaire Autres problèmes d apprentissage : Catégorisation multi-classe : Y est un ensemble fini représentant Y differentes classes. E.g. X est l espace des documents et Y = {Actualité, Sports, Biologie, Médicine} Université Laval IFT-7002 Hiver 2017 6 / 52

Au-delà de la classification binaire Autres problèmes d apprentissage : Catégorisation multi-classe : Y est un ensemble fini représentant Y differentes classes. E.g. X est l espace des documents et Y = {Actualité, Sports, Biologie, Médicine} Régression : Y = R. E.g. on désire prédire le poids d un bébé à sa naissance en fonction de la mesure (par ultrasons) de la circonférence du crâne, de la circonférence de l abdomen et de la longueur du fémur. Université Laval IFT-7002 Hiver 2017 6 / 52

Fonctions de perte Soit Z = X Y Université Laval IFT-7002 Hiver 2017 7 / 52

Fonctions de perte Soit Z = X Y Ayant une hypothèse h H, et un exemple (x, y) Z, quelle est la qualité de la prédiction de h sur (x, y)? Université Laval IFT-7002 Hiver 2017 7 / 52

Fonctions de perte Soit Z = X Y Ayant une hypothèse h H, et un exemple (x, y) Z, quelle est la qualité de la prédiction de h sur (x, y)? Fonction de perte : l : H Z R + Université Laval IFT-7002 Hiver 2017 7 / 52

Fonctions de perte Soit Z = X Y Ayant une hypothèse h H, et un exemple (x, y) Z, quelle est la qualité de la prédiction de h sur (x, y)? Fonction de perte : l : H Z R + Exemples : Université Laval IFT-7002 Hiver 2017 7 / 52

Fonctions de perte Soit Z = X Y Ayant une hypothèse h H, et un exemple (x, y) Z, quelle est la qualité de la prédiction de h sur (x, y)? Fonction de perte : l : H Z R + Exemples : { 1 if h(x) y Perte 0-1 : l(h, (x, y)) = 0 if h(x) = y Université Laval IFT-7002 Hiver 2017 7 / 52

Fonctions de perte Soit Z = X Y Ayant une hypothèse h H, et un exemple (x, y) Z, quelle est la qualité de la prédiction de h sur (x, y)? Fonction de perte : l : H Z R + Exemples : { 1 if h(x) y Perte 0-1 : l(h, (x, y)) = 0 if h(x) = y Perte quadratique : l(h, (x, y)) = (h(x) y) 2 Université Laval IFT-7002 Hiver 2017 7 / 52

Fonctions de perte Soit Z = X Y Ayant une hypothèse h H, et un exemple (x, y) Z, quelle est la qualité de la prédiction de h sur (x, y)? Fonction de perte : l : H Z R + Exemples : { 1 if h(x) y Perte 0-1 : l(h, (x, y)) = 0 if h(x) = y Perte quadratique : l(h, (x, y)) = (h(x) y) 2 Valeur absolue de la différence : l(h, (x, y)) = h(x) y Université Laval IFT-7002 Hiver 2017 7 / 52

Fonctions de perte Soit Z = X Y Ayant une hypothèse h H, et un exemple (x, y) Z, quelle est la qualité de la prédiction de h sur (x, y)? Fonction de perte : l : H Z R + Exemples : { 1 if h(x) y Perte 0-1 : l(h, (x, y)) = 0 if h(x) = y Perte quadratique : l(h, (x, y)) = (h(x) y) 2 Valeur absolue de la différence : l(h, (x, y)) = h(x) y Matrice de coûts : l(h, (x, y)) = C h(x),y où C est une matrice Y Y Université Laval IFT-7002 Hiver 2017 7 / 52

Le modèle général PAC Nous désirons probablement et approximativement résoudre : min L D(h) tel que L D (h) = def E [l(h, z)]. h H z D Université Laval IFT-7002 Hiver 2017 8 / 52

Le modèle général PAC Nous désirons probablement et approximativement résoudre : min L D(h) tel que L D (h) = def E [l(h, z)]. h H z D L apprenant connaît H, Z et l Université Laval IFT-7002 Hiver 2017 8 / 52

Le modèle général PAC Nous désirons probablement et approximativement résoudre : min L D(h) tel que L D (h) = def E [l(h, z)]. h H z D L apprenant connaît H, Z et l L apprenant reçoit un paramètre de précision ɛ et un paramètre de confiance δ Université Laval IFT-7002 Hiver 2017 8 / 52

Le modèle général PAC Nous désirons probablement et approximativement résoudre : min L D(h) tel que L D (h) = def E [l(h, z)]. h H z D L apprenant connaît H, Z et l L apprenant reçoit un paramètre de précision ɛ et un paramètre de confiance δ L apprenant choisi le nombre m d exemples en fonction de ɛ, δ Université Laval IFT-7002 Hiver 2017 8 / 52

Le modèle général PAC Nous désirons probablement et approximativement résoudre : min L D(h) tel que L D (h) = def E [l(h, z)]. h H z D L apprenant connaît H, Z et l L apprenant reçoit un paramètre de précision ɛ et un paramètre de confiance δ L apprenant choisi le nombre m d exemples en fonction de ɛ, δ L apprenant ne connaît pas D mais peut obtenir un échantillon S D m Université Laval IFT-7002 Hiver 2017 8 / 52

Le modèle général PAC Nous désirons probablement et approximativement résoudre : min L D(h) tel que L D (h) = def E [l(h, z)]. h H z D L apprenant connaît H, Z et l L apprenant reçoit un paramètre de précision ɛ et un paramètre de confiance δ L apprenant choisi le nombre m d exemples en fonction de ɛ, δ L apprenant ne connaît pas D mais peut obtenir un échantillon S D m En utilisant S, l apprenant A produit une hypothèse A(S) Université Laval IFT-7002 Hiver 2017 8 / 52

Le modèle général PAC Nous désirons probablement et approximativement résoudre : min L D(h) tel que L D (h) = def E [l(h, z)]. h H z D L apprenant connaît H, Z et l L apprenant reçoit un paramètre de précision ɛ et un paramètre de confiance δ L apprenant choisi le nombre m d exemples en fonction de ɛ, δ L apprenant ne connaît pas D mais peut obtenir un échantillon S D m En utilisant S, l apprenant A produit une hypothèse A(S) Nous désirons, avec probabilité au moins 1 δ sur les tirages de S, que l on ait L D (A(S)) min h H L D (h) + ɛ Université Laval IFT-7002 Hiver 2017 8 / 52

PAC agnostique : définition formelle Un classe d hypothèses H est apprenable au sens PAC agnostique, relativement à un ensemble Z = X Y et une une fonction de perte l : H Z R +, s il existe une fonction m H : (0, 1) 2 N et un algorithme d apprentissage A satisfaisant la propriété suivante : pour tout ɛ, δ (0, 1), m m H (ɛ, δ) et distribution D sur Z, }) D ({S m Z m : L D (A(S)) min L D(h) + ɛ 1 δ h H Université Laval IFT-7002 Hiver 2017 9 / 52

Outline 1 Le modèle PAC général Enlever la supposition qu il existe un f H avec risque nul Au-delà de la classification binaire Le modèle général PAC 2 Apprendre par la convergence uniforme 3 Régression linéaire et les moindres carrés Ajustement polynômial 4 Régression logistique 5 Le compromis biais-complexité Décomposition de l erreur 6 Validation et sélection du Modèle Université Laval IFT-7002 Hiver 2017 10 / 52

Échantillon représentatif Définition (échantillon ɛ-représentatif) Un échantillon S est ɛ-représentatif (relativement à H, l et D) si h H, L S (h) L D (h) ɛ. Université Laval IFT-7002 Hiver 2017 11 / 52

Échantillon représentatif Lemme Soit un échantillon S qui est ɛ 2 -représentatif. Alors la sortie de ERM H(S), i.e., tout h S argmin h H L S (h), satisfait L D (h S ) min h H L D(h) + ɛ. Preuve: Pour tout h H, nous avons que L D (h S ) L S (h S ) + ɛ 2 L S(h) + ɛ 2 L D(h) + ɛ 2 + ɛ 2 = L D(h) + ɛ Université Laval IFT-7002 Hiver 2017 12 / 52

La convergence uniforme suffit pour apprendre Définition (convergence uniforme) H possède la propriété de convergence uniforme s il existe une fonction m UC H : (0, 1)2 N telle que pour tout ɛ, δ (0, 1), pour toute distribution D, et pour tout m m UC H (ɛ, δ), nous avons D m ({S Z m : S est ɛ -représentatif}) 1 δ Université Laval IFT-7002 Hiver 2017 13 / 52

La convergence uniforme suffit pour apprendre Définition (convergence uniforme) H possède la propriété de convergence uniforme s il existe une fonction m UC H : (0, 1)2 N telle que pour tout ɛ, δ (0, 1), pour toute distribution D, et pour tout m m UC H (ɛ, δ), nous avons D m ({S Z m : S est ɛ -représentatif}) 1 δ Corollaire (La convergence uniforme suffit pour apprendre) Université Laval IFT-7002 Hiver 2017 13 / 52

La convergence uniforme suffit pour apprendre Définition (convergence uniforme) H possède la propriété de convergence uniforme s il existe une fonction m UC H : (0, 1)2 N telle que pour tout ɛ, δ (0, 1), pour toute distribution D, et pour tout m m UC H (ɛ, δ), nous avons D m ({S Z m : S est ɛ -représentatif}) 1 δ Corollaire (La convergence uniforme suffit pour apprendre) Si H possède la propriété de convergence uniforme avec la fonction m UC H, alors H est apprenable au sens PAC agnostique avec une complexité d échantillon m H (ɛ, δ) m UC H (ɛ/2, δ). Université Laval IFT-7002 Hiver 2017 13 / 52

La convergence uniforme suffit pour apprendre Définition (convergence uniforme) H possède la propriété de convergence uniforme s il existe une fonction m UC H : (0, 1)2 N telle que pour tout ɛ, δ (0, 1), pour toute distribution D, et pour tout m m UC H (ɛ, δ), nous avons D m ({S Z m : S est ɛ -représentatif}) 1 δ Corollaire (La convergence uniforme suffit pour apprendre) Si H possède la propriété de convergence uniforme avec la fonction m UC H, alors H est apprenable au sens PAC agnostique avec une complexité d échantillon m H (ɛ, δ) m UC H (ɛ/2, δ). De plus, dans ce cas, ERM H est un algorithme d apprentissage pour H au sens PAC agnostique. Université Laval IFT-7002 Hiver 2017 13 / 52

Les classes finies sont apprenables au sens PAC agnostique Nous allons démontrer le théorème suivant : Université Laval IFT-7002 Hiver 2017 14 / 52

Les classes finies sont apprenables au sens PAC agnostique Nous allons démontrer le théorème suivant : Théorème Soit H une classe finie et soit une fonction de perte à valeur dans [0, 1]. Alors, H est apprenable au sens PAC agnostique en utilisant ERM H avec la complexité d échantillon satisfaisant 2 log(2 H /δ) m H (ɛ, δ). ɛ 2 Université Laval IFT-7002 Hiver 2017 14 / 52

Les classes finies sont apprenables au sens PAC agnostique Nous allons démontrer le théorème suivant : Théorème Soit H une classe finie et soit une fonction de perte à valeur dans [0, 1]. Alors, H est apprenable au sens PAC agnostique en utilisant ERM H avec la complexité d échantillon satisfaisant 2 log(2 H /δ) m H (ɛ, δ). ɛ 2 Université Laval IFT-7002 Hiver 2017 14 / 52

Les classes finies sont apprenables au sens PAC agnostique Nous allons démontrer le théorème suivant : Théorème Soit H une classe finie et soit une fonction de perte à valeur dans [0, 1]. Alors, H est apprenable au sens PAC agnostique en utilisant ERM H avec la complexité d échantillon satisfaisant 2 log(2 H /δ) m H (ɛ, δ). Preuve: En raison du dernier corollaire, il suffit de démontrer que H possède la propriété de convergence uniforme avec log(2 H /δ) m UC H (ɛ, δ) 2ɛ 2. ɛ 2 Université Laval IFT-7002 Hiver 2017 14 / 52

Preuve (suite) Pour démontrer la convergence uniforme, il suffit de démontrer que : D m ({S : h H, L S (h) L D (h) ɛ}) 1 δ, Université Laval IFT-7002 Hiver 2017 15 / 52

Preuve (suite) Pour démontrer la convergence uniforme, il suffit de démontrer que : D m ({S : h H, L S (h) L D (h) ɛ}) 1 δ, ou, de manière équivalente, il suffit de démontrer que : D m ({S : h H, L S (h) L D (h) > ɛ}) δ. Université Laval IFT-7002 Hiver 2017 15 / 52

Preuve (suite) Pour démontrer la convergence uniforme, il suffit de démontrer que : D m ({S : h H, L S (h) L D (h) ɛ}) 1 δ, ou, de manière équivalente, il suffit de démontrer que : D m ({S : h H, L S (h) L D (h) > ɛ}) δ. Par la borne de l union, nous avons : D m ({S : h H, L S (h) L D (h) > ɛ}) = D m ( h H {S : L S (h) L D (h) > ɛ}) D m ({S : L S (h) L D (h) > ɛ}) h H H max h H Dm ({S : L S (h) L D (h) > ɛ}). Université Laval IFT-7002 Hiver 2017 15 / 52

Preuve (suite) Rappel : L D (h) = E z D [l(h, z)] et L S (h) = 1 m m i=1 l(h, z i). Université Laval IFT-7002 Hiver 2017 16 / 52

Preuve (suite) Rappel : L D (h) = E z D [l(h, z)] et L S (h) = 1 m m i=1 l(h, z i). Soit θ i = l(h, z i ). Université Laval IFT-7002 Hiver 2017 16 / 52

Preuve (suite) Rappel : L D (h) = E z D [l(h, z)] et L S (h) = 1 m m i=1 l(h, z i). Soit θ i = l(h, z i ). Alors, pour tout i, E[θ i ] = L D (h) Université Laval IFT-7002 Hiver 2017 16 / 52

Preuve (suite) Rappel : L D (h) = E z D [l(h, z)] et L S (h) = 1 m m i=1 l(h, z i). Soit θ i = l(h, z i ). Alors, pour tout i, E[θ i ] = L D (h) Lemme (Inégalité de Hoeffding) Soit θ 1,..., θ m une sequence de variables aléatoires i.i.d. et supposez que pour tout i, E[θ i ] = µ et P[a θ i b] = 1. Alors, pour tout ɛ > 0 [ ] m 1 P m θ i µ > ɛ 2 exp ( 2 m ɛ 2 /(b a) 2). i=1 Université Laval IFT-7002 Hiver 2017 16 / 52

Preuve (suite) Rappel : L D (h) = E z D [l(h, z)] et L S (h) = 1 m m i=1 l(h, z i). Soit θ i = l(h, z i ). Alors, pour tout i, E[θ i ] = L D (h) Lemme (Inégalité de Hoeffding) Soit θ 1,..., θ m une sequence de variables aléatoires i.i.d. et supposez que pour tout i, E[θ i ] = µ et P[a θ i b] = 1. Alors, pour tout ɛ > 0 [ ] m 1 P m θ i µ > ɛ 2 exp ( 2 m ɛ 2 /(b a) 2). i=1 Université Laval IFT-7002 Hiver 2017 16 / 52

Preuve (suite) Rappel : L D (h) = E z D [l(h, z)] et L S (h) = 1 m m i=1 l(h, z i). Soit θ i = l(h, z i ). Alors, pour tout i, E[θ i ] = L D (h) Lemme (Inégalité de Hoeffding) Soit θ 1,..., θ m une sequence de variables aléatoires i.i.d. et supposez que pour tout i, E[θ i ] = µ et P[a θ i b] = 1. Alors, pour tout ɛ > 0 [ ] m 1 P m θ i µ > ɛ 2 exp ( 2 m ɛ 2 /(b a) 2). i=1 Cela implique que pour h fixe, on a D m ({S : L S (h) L D (h) > ɛ}) 2 exp ( 2 m ɛ 2). Université Laval IFT-7002 Hiver 2017 16 / 52

Preuve (suite) Nous avons démontré que : D m ({S : h H, L S (h) L D (h) > ɛ}) 2 H exp ( 2 m ɛ 2) Alors, si m log(2 H /δ), le terme à droite est δ tel que désiré. 2ɛ 2 Université Laval IFT-7002 Hiver 2017 17 / 52

Le truc de discrétisation Supposons que H est paramétrisé par d nombres (e.g., les demi-espaces à d 1 dimensions avec seuil). Université Laval IFT-7002 Hiver 2017 18 / 52

Le truc de discrétisation Supposons que H est paramétrisé par d nombres (e.g., les demi-espaces à d 1 dimensions avec seuil). Supposons que nous utilisions b bits pour coder chaque nombre (e.g., b = 32) Université Laval IFT-7002 Hiver 2017 18 / 52

Le truc de discrétisation Supposons que H est paramétrisé par d nombres (e.g., les demi-espaces à d 1 dimensions avec seuil). Supposons que nous utilisions b bits pour coder chaque nombre (e.g., b = 32) Alors H 2 db, et donc 2db log 2 + 2 log(2/δ) m H (ɛ, δ). ɛ 2 Université Laval IFT-7002 Hiver 2017 18 / 52

Le truc de discrétisation Supposons que H est paramétrisé par d nombres (e.g., les demi-espaces à d 1 dimensions avec seuil). Supposons que nous utilisions b bits pour coder chaque nombre (e.g., b = 32) Alors H 2 db, et donc 2db log 2 + 2 log(2/δ) m H (ɛ, δ). Pas très élégant, mais utile pour borner supérieurement la complexité d échantillon. ɛ 2 Université Laval IFT-7002 Hiver 2017 18 / 52

Convergence uniform des classes de VCdim finies Les classes H dont VCdim(H) = d < possèdent la propriété de convergence uniforme. Université Laval IFT-7002 Hiver 2017 19 / 52

Convergence uniform des classes de VCdim finies Les classes H dont VCdim(H) = d < possèdent la propriété de convergence uniforme. Théorème (Convergence uniforme et VCdim) Considérez la fonction de perte zéro-un. Soit H une classe de fonctions de X vers {0, 1} et de VCdim(H) = d <. Il existe alors une fonction m UC H : (0, 1)2 N et des constantes C 1, C 2 satisfaisant C 1 d + log(1/δ) ɛ 2 telles que pour tout m m UC H (ɛ, δ), on a. m UC H (ɛ, δ) C 2 d + log(1/δ) ɛ 2, D m {S : L D (h) L S (h) ɛ, h H} 1 δ Université Laval IFT-7002 Hiver 2017 19 / 52

Les classes de VCdim finies sont apprenables En conséquence, le dernier théorème admet le corollaire suivant. Université Laval IFT-7002 Hiver 2017 20 / 52

Les classes de VCdim finies sont apprenables En conséquence, le dernier théorème admet le corollaire suivant. Corollaire (généralisation du théorème fondamental de l apprentissage) Considérez la fonction de perte zéro-un. Soit H une classe de fonctions de X vers {0, 1} et de VCdim(H) = d <. H est apprenable au sens PAC agnostique. Plus spécifiquement, pour tout m m UC H (ɛ/2, δ) et pour tout h S argmin h H L S (h), on a D m {S : L D (h S ) min h H L D(h) + ɛ, } 1 δ. Université Laval IFT-7002 Hiver 2017 20 / 52

Les classes de VCdim finies sont apprenables En conséquence, le dernier théorème admet le corollaire suivant. Corollaire (généralisation du théorème fondamental de l apprentissage) Considérez la fonction de perte zéro-un. Soit H une classe de fonctions de X vers {0, 1} et de VCdim(H) = d <. H est apprenable au sens PAC agnostique. Plus spécifiquement, pour tout m m UC H (ɛ/2, δ) et pour tout h S argmin h H L S (h), on a D m {S : L D (h S ) min h H L D(h) + ɛ, } 1 δ. Université Laval IFT-7002 Hiver 2017 20 / 52

Les classes de VCdim finies sont apprenables En conséquence, le dernier théorème admet le corollaire suivant. Corollaire (généralisation du théorème fondamental de l apprentissage) Considérez la fonction de perte zéro-un. Soit H une classe de fonctions de X vers {0, 1} et de VCdim(H) = d <. H est apprenable au sens PAC agnostique. Plus spécifiquement, pour tout m m UC H (ɛ/2, δ) et pour tout h S argmin h H L S (h), on a Remarques : D m {S : L D (h S ) min h H L D(h) + ɛ, } 1 δ. Des résultats similaires existent pour les problèmes de régression avec la fonction de perte quadratique (et la valeur absolue de la différence). Université Laval IFT-7002 Hiver 2017 20 / 52

Les classes de VCdim finies sont apprenables En conséquence, le dernier théorème admet le corollaire suivant. Corollaire (généralisation du théorème fondamental de l apprentissage) Considérez la fonction de perte zéro-un. Soit H une classe de fonctions de X vers {0, 1} et de VCdim(H) = d <. H est apprenable au sens PAC agnostique. Plus spécifiquement, pour tout m m UC H (ɛ/2, δ) et pour tout h S argmin h H L S (h), on a Remarques : D m {S : L D (h S ) min h H L D(h) + ɛ, } 1 δ. Des résultats similaires existent pour les problèmes de régression avec la fonction de perte quadratique (et la valeur absolue de la différence). La convergence uniforme est suffisante mais non nécessaire. Nous verrons plus loin qu il est possible d apprendre avec une classe de fonctions ne possédant pas la propriété de convergence uniforme. Université Laval IFT-7002 Hiver 2017 20 / 52

Outline 1 Le modèle PAC général Enlever la supposition qu il existe un f H avec risque nul Au-delà de la classification binaire Le modèle général PAC 2 Apprendre par la convergence uniforme 3 Régression linéaire et les moindres carrés Ajustement polynômial 4 Régression logistique 5 Le compromis biais-complexité Décomposition de l erreur 6 Validation et sélection du Modèle Université Laval IFT-7002 Hiver 2017 21 / 52

Régression linéaire X R d, Y R, H = {x w, x : w R d } Université Laval IFT-7002 Hiver 2017 22 / 52

Régression linéaire X R d, Y R, H = {x w, x : w R d } Exemple pour d = 1 : prédire le poids d un enfant à partir de son âge. Université Laval IFT-7002 Hiver 2017 22 / 52

Régression linéaire X R d, Y R, H = {x w, x : w R d } Exemple pour d = 1 : prédire le poids d un enfant à partir de son âge. Université Laval IFT-7002 Hiver 2017 22 / 52

Régression linéaire X R d, Y R, H = {x w, x : w R d } Exemple pour d = 1 : prédire le poids d un enfant à partir de son âge. 18 poids (kg) 16 14 2 2.5 3 3.5 4 4.5 5 âge (années) Université Laval IFT-7002 Hiver 2017 22 / 52

La perte quadratique La perte zéro-un n est pas appropriée pour la régression. Université Laval IFT-7002 Hiver 2017 23 / 52

La perte quadratique La perte zéro-un n est pas appropriée pour la régression. Utilisons la perte quadratique : l(h, (x, y)) = (h(x) y) 2. Université Laval IFT-7002 Hiver 2017 23 / 52

La perte quadratique La perte zéro-un n est pas appropriée pour la régression. Utilisons la perte quadratique : l(h, (x, y)) = (h(x) y) 2. Minimisation du risque empirique s écrit alors : 1 min w R d m m ( w, x i y i ) 2 i=1 Université Laval IFT-7002 Hiver 2017 23 / 52

La perte quadratique La perte zéro-un n est pas appropriée pour la régression. Utilisons la perte quadratique : l(h, (x, y)) = (h(x) y) 2. Minimisation du risque empirique s écrit alors : 1 min w R d m m ( w, x i y i ) 2 i=1 Soit X la matrice d m telle que sa ième colonne est x i, et y le vecteur tel que sa ième composante est y i. Université Laval IFT-7002 Hiver 2017 23 / 52

La perte quadratique La perte zéro-un n est pas appropriée pour la régression. Utilisons la perte quadratique : l(h, (x, y)) = (h(x) y) 2. Minimisation du risque empirique s écrit alors : 1 min w R d m m ( w, x i y i ) 2 i=1 Soit X la matrice d m telle que sa ième colonne est x i, et y le vecteur tel que sa ième composante est y i. Alors la minimisation du risque empirique s écrit : min X w y 2 w R d Université Laval IFT-7002 Hiver 2017 23 / 52

Gradient et Optimisation La dérivée, f, d une fonction f : R R est définie par f f(x + ) f(x) (x) = def lim. 0 Université Laval IFT-7002 Hiver 2017 24 / 52

Gradient et Optimisation La dérivée, f, d une fonction f : R R est définie par f f(x + ) f(x) (x) = def lim. 0 Si x minimise f(x) alors f (x) = 0. Université Laval IFT-7002 Hiver 2017 24 / 52

Gradient et Optimisation La dérivée, f, d une fonction f : R R est définie par f f(x + ) f(x) (x) = def lim. 0 Si x minimise f(x) alors f (x) = 0. Soit f : R d R. Université Laval IFT-7002 Hiver 2017 24 / 52

Gradient et Optimisation La dérivée, f, d une fonction f : R R est définie par f f(x + ) f(x) (x) = def lim. 0 Si x minimise f(x) alors f (x) = 0. Soit f : R d R. Son gradient, f(x), est un vecteur de dimension d tel que sa ième composante est la dérivée (évaluée en a = 0) de la fonction scalaire g(a) = def f((x 1,..., x i 1, x i + a, x i+1,..., x d )). Université Laval IFT-7002 Hiver 2017 24 / 52

Gradient et Optimisation La dérivée, f, d une fonction f : R R est définie par f f(x + ) f(x) (x) = def lim. 0 Si x minimise f(x) alors f (x) = 0. Soit f : R d R. Son gradient, f(x), est un vecteur de dimension d tel que sa ième composante est la dérivée (évaluée en a = 0) de la fonction scalaire g(a) = def f((x 1,..., x i 1, x i + a, x i+1,..., x d )). La dérivée de g s appelle la dérivée partielle de f, dénotée par f/ x i. Université Laval IFT-7002 Hiver 2017 24 / 52

Gradient et Optimisation La dérivée, f, d une fonction f : R R est définie par f f(x + ) f(x) (x) = def lim. 0 Si x minimise f(x) alors f (x) = 0. Soit f : R d R. Son gradient, f(x), est un vecteur de dimension d tel que sa ième composante est la dérivée (évaluée en a = 0) de la fonction scalaire g(a) = def f((x 1,..., x i 1, x i + a, x i+1,..., x d )). La dérivée de g s appelle la dérivée partielle de f, dénotée par f/ x i. Si x minimise f(x) alors f(x) = (0,..., 0). Université Laval IFT-7002 Hiver 2017 24 / 52

Le Jacobien et la règle d enchainement Le Jacobien d une fonction f : R d R m évalué à x R d, dénoté J x (f), est une matrice m d telle que sa ième ligne est f i (x). Université Laval IFT-7002 Hiver 2017 25 / 52

Le Jacobien et la règle d enchainement Le Jacobien d une fonction f : R d R m évalué à x R d, dénoté J x (f), est une matrice m d telle que sa ième ligne est f i (x). Si m = 1 alors J x (f) = [ f(x)] (un vecteur ligne). Université Laval IFT-7002 Hiver 2017 25 / 52

Le Jacobien et la règle d enchainement Le Jacobien d une fonction f : R d R m évalué à x R d, dénoté J x (f), est une matrice m d telle que sa ième ligne est f i (x). Si m = 1 alors J x (f) = [ f(x)] (un vecteur ligne). Si f(w) = Aw pour A R m,d alors J w (f) = A. Université Laval IFT-7002 Hiver 2017 25 / 52

Le Jacobien et la règle d enchainement Le Jacobien d une fonction f : R d R m évalué à x R d, dénoté J x (f), est une matrice m d telle que sa ième ligne est f i (x). Si m = 1 alors J x (f) = [ f(x)] (un vecteur ligne). Si f(w) = Aw pour A R m,d alors J w (f) = A. Règle d enchainement : Soit f : R d R m et g : R k R d, le Jacobien de la composition (f g) : R k R m, évalué à x, est donné par J x (f g) = J g(x) (f)j x (g). Université Laval IFT-7002 Hiver 2017 25 / 52

Les moindres carrés De retour à notre problème de minimisation du risque empirique : 1 min w R d 2 X w y 2 Université Laval IFT-7002 Hiver 2017 26 / 52

Les moindres carrés De retour à notre problème de minimisation du risque empirique : 1 min w R d 2 X w y 2 Soit g(w) = X w y et f(v) = 1 2 v 2 = 1 2 m i=1 v2 i. Université Laval IFT-7002 Hiver 2017 26 / 52

Les moindres carrés De retour à notre problème de minimisation du risque empirique : 1 min w R d 2 X w y 2 Soit g(w) = X w y et f(v) = 1 2 v 2 = 1 2 m i=1 v2 i. argmin w f(g(w)) est donné par w satisfaisant J w (f g) = 0. Université Laval IFT-7002 Hiver 2017 26 / 52

Les moindres carrés De retour à notre problème de minimisation du risque empirique : 1 min w R d 2 X w y 2 Soit g(w) = X w y et f(v) = 1 2 v 2 = 1 2 m i=1 v2 i. argmin w f(g(w)) est donné par w satisfaisant J w (f g) = 0. Or, J w (g) = X et J v (f) = (v 1,..., v m ). Université Laval IFT-7002 Hiver 2017 26 / 52

Les moindres carrés De retour à notre problème de minimisation du risque empirique : 1 min w R d 2 X w y 2 Soit g(w) = X w y et f(v) = 1 2 v 2 = 1 2 m i=1 v2 i. argmin w f(g(w)) est donné par w satisfaisant J w (f g) = 0. Or, J w (g) = X et J v (f) = (v 1,..., v m ). La règle d enchainement nous dit que J w (f g) = J g(w) (f)j w (g) = g(w) X = (X w y) X. Université Laval IFT-7002 Hiver 2017 26 / 52

Les moindres carrés De retour à notre problème de minimisation du risque empirique : 1 min w R d 2 X w y 2 Soit g(w) = X w y et f(v) = 1 2 v 2 = 1 2 m i=1 v2 i. argmin w f(g(w)) est donné par w satisfaisant J w (f g) = 0. Or, J w (g) = X et J v (f) = (v 1,..., v m ). La règle d enchainement nous dit que J w (f g) = J g(w) (f)j w (g) = g(w) X = (X w y) X. En imposant que J w (f g) = (0,..., 0), nous obtenons (X w y) X = 0 XX w = Xy. Université Laval IFT-7002 Hiver 2017 26 / 52

Les moindres carrés De retour à notre problème de minimisation du risque empirique : 1 min w R d 2 X w y 2 Soit g(w) = X w y et f(v) = 1 2 v 2 = 1 2 m i=1 v2 i. argmin w f(g(w)) est donné par w satisfaisant J w (f g) = 0. Or, J w (g) = X et J v (f) = (v 1,..., v m ). La règle d enchainement nous dit que J w (f g) = J g(w) (f)j w (g) = g(w) X = (X w y) X. En imposant que J w (f g) = (0,..., 0), nous obtenons (X w y) X = 0 XX w = Xy. Si XX est inversible, la solution de ce système d équations linéaires est donnée par w = (XX ) 1 Xy. Université Laval IFT-7002 Hiver 2017 26 / 52

Les moindres carrés Petit truc non rigoureux pour se rappeler de cette solution : Université Laval IFT-7002 Hiver 2017 27 / 52

Les moindres carrés Petit truc non rigoureux pour se rappeler de cette solution : Nous désirons obtenir X w y Université Laval IFT-7002 Hiver 2017 27 / 52

Les moindres carrés Petit truc non rigoureux pour se rappeler de cette solution : Nous désirons obtenir X w y Multipliez les deux côtés par X pour obtenir XX w Xy Université Laval IFT-7002 Hiver 2017 27 / 52

Les moindres carrés Petit truc non rigoureux pour se rappeler de cette solution : Nous désirons obtenir X w y Multipliez les deux côtés par X pour obtenir XX w Xy Multipliez les deux côtés par (XX ) 1 pour obtenir : w = (XX ) 1 Xy Université Laval IFT-7002 Hiver 2017 27 / 52

On a toujours au moins une solution! ( XX ) 1 existe ssi les vecteurs colonnes de X génèrent R d. Université Laval IFT-7002 Hiver 2017 28 / 52

On a toujours au moins une solution! ( XX ) 1 existe ssi les vecteurs colonnes de X génèrent R d. ( Preuve: ) XX 1 existe ssi pour tout w, il existe un seul w satisfaisant w = XX w. Or, m m m XX w = x k x k w = x k x k, w = c k x k = w. k=1 k=1 k=1 Université Laval IFT-7002 Hiver 2017 28 / 52

On a toujours au moins une solution! ( XX ) 1 existe ssi les vecteurs colonnes de X génèrent R d. ( Preuve: ) XX 1 existe ssi pour tout w, il existe un seul w satisfaisant w = XX w. Or, m m m XX w = x k x k w = x k x k, w = c k x k = w. k=1 k=1 Si {x k } m k=1 ne génère pas Rd, il existe plusieurs vecteurs w donnant le même (c 1,..., c m ), et donc le même w. k=1 Université Laval IFT-7002 Hiver 2017 28 / 52

On a toujours au moins une solution! ( XX ) 1 existe ssi les vecteurs colonnes de X génèrent R d. ( Preuve: ) XX 1 existe ssi pour tout w, il existe un seul w satisfaisant w = XX w. Or, m m m XX w = x k x k w = x k x k, w = c k x k = w. k=1 k=1 Si {x k } m k=1 ne génère pas Rd, il existe plusieurs vecteurs w donnant le même (c 1,..., c m ), et donc le même w. Si {x k } m k=1 génère Rd, il existe un seul w donnant (c 1,..., c m ), et donc w. k=1 Université Laval IFT-7002 Hiver 2017 28 / 52

On a toujours au moins une solution! ( XX ) 1 existe ssi les vecteurs colonnes de X génèrent R d. ( Preuve: ) XX 1 existe ssi pour tout w, il existe un seul w satisfaisant w = XX w. Or, m m m XX w = x k x k w = x k x k, w = c k x k = w. k=1 k=1 Si {x k } m k=1 ne génère pas Rd, il existe plusieurs vecteurs w donnant le même (c 1,..., c m ), et donc le même w. Si {x k } m k=1 génère Rd, il existe un seul w donnant (c 1,..., c m ), et donc w. Mais puisque Xy est un vecteur appartenant à l espace généré par les vecteurs colonnes de X, notre système d équations linéaires possède, en fait, une infinité de solutions lorsque l inverse de XX n existe pas. k=1 Université Laval IFT-7002 Hiver 2017 28 / 52

On a toujours au moins une solution! ( XX ) 1 existe ssi les vecteurs colonnes de X génèrent R d. ( Preuve: ) XX 1 existe ssi pour tout w, il existe un seul w satisfaisant w = XX w. Or, m m m XX w = x k x k w = x k x k, w = c k x k = w. k=1 k=1 Si {x k } m k=1 ne génère pas Rd, il existe plusieurs vecteurs w donnant le même (c 1,..., c m ), et donc le même w. Si {x k } m k=1 génère Rd, il existe un seul w donnant (c 1,..., c m ), et donc w. Mais puisque Xy est un vecteur appartenant à l espace généré par les vecteurs colonnes de X, notre système d équations linéaires possède, en fait, une infinité de solutions lorsque l inverse de XX n existe pas. Essayons alors de trouver l une de ces solutions. k=1 Université Laval IFT-7002 Hiver 2017 28 / 52

Puisque XX est une matrice d d symétrique, ses valeurs propres λ 1,..., λ d sont toutes non négatives et l on peut écrire XX = d λ k v k vk = V DV. k=1 Université Laval IFT-7002 Hiver 2017 29 / 52

Puisque XX est une matrice d d symétrique, ses valeurs propres λ 1,..., λ d sont toutes non négatives et l on peut écrire XX = d λ k v k vk = V DV. k=1 Ceci constitue la décomposition SVD de XX. Chaque colonne de V est un vecteur propre v k de XX, et D est une matrice diagonale constituée des valeurs propres λ 1,..., λ d. Université Laval IFT-7002 Hiver 2017 29 / 52

Puisque XX est une matrice d d symétrique, ses valeurs propres λ 1,..., λ d sont toutes non négatives et l on peut écrire XX = d λ k v k vk = V DV. k=1 Ceci constitue la décomposition SVD de XX. Chaque colonne de V est un vecteur propre v k de XX, et D est une matrice diagonale constituée des valeurs propres λ 1,..., λ d. Les vecteurs propres ici sont orthonormés, i.e., v i, v j = δ i,j. Université Laval IFT-7002 Hiver 2017 29 / 52

Puisque XX est une matrice d d symétrique, ses valeurs propres λ 1,..., λ d sont toutes non négatives et l on peut écrire XX = d λ k v k vk = V DV. k=1 Ceci constitue la décomposition SVD de XX. Chaque colonne de V est un vecteur propre v k de XX, et D est une matrice diagonale constituée des valeurs propres λ 1,..., λ d. Les vecteurs propres ici sont orthonormés, i.e., v i, v j = δ i,j. Notez que XX projette dans un espace de dimension < d (et n est donc pas inversible) ssi il existe k tel que λ k = 0. Université Laval IFT-7002 Hiver 2017 29 / 52

Puisque XX est une matrice d d symétrique, ses valeurs propres λ 1,..., λ d sont toutes non négatives et l on peut écrire XX = d λ k v k vk = V DV. k=1 Ceci constitue la décomposition SVD de XX. Chaque colonne de V est un vecteur propre v k de XX, et D est une matrice diagonale constituée des valeurs propres λ 1,..., λ d. Les vecteurs propres ici sont orthonormés, i.e., v i, v j = δ i,j. Notez que XX projette dans un espace de dimension < d (et n est donc pas inversible) ssi il existe k tel que λ k = 0. Trouvons alors un w solutionnant XX w = Xy qui se trouve dans l espace générés par les v k tel que λ k > 0, i.e., écrivons w = β k v k. k:λ k >0 Université Laval IFT-7002 Hiver 2017 29 / 52

La pseudo-inverse La pseudo-inverse de XX, noté ( XX ) +, est définie par ( XX ) + def = k:λ k >0 1 λ k v k v k. Université Laval IFT-7002 Hiver 2017 30 / 52

La pseudo-inverse La pseudo-inverse de XX, noté ( XX ) +, est définie par ( XX ) + def = On a alors (XX ) + XX = k:λ k >0 i:λ i >0 j:λ j >0 = i:λ i >0 j:λ j >0 1 λ k v k v k. λ j λ i v i v i v j v j λ j δ i,j v i vj = λ i i:λ i >0 v i v i. Université Laval IFT-7002 Hiver 2017 30 / 52

La pseudo-inverse La pseudo-inverse de XX, noté ( XX ) +, est définie par ( XX ) + def = On a alors (XX ) + XX = k:λ k >0 i:λ i >0 j:λ j >0 = i:λ i >0 j:λ j >0 1 λ k v k v k. λ j λ i v i v i v j v j λ j δ i,j v i vj = λ i i:λ i >0 v i v i. Puisqu il s agit de l opérateur identité lorsque toutes les valeurs propres sont non nulles, nous avons ( XX ) + = ( XX ) 1 lorsqu il n existe pas k t.q. λ k = 0, i.e., lorsque ( XX ) 1 existe. Université Laval IFT-7002 Hiver 2017 30 / 52

La solution générale Donc, pour tout w = k:λ k >0 β kv k, on a (XX ) + XX w = i:λ i >0 v i v i k:λ k >0 β k v k = w. Université Laval IFT-7002 Hiver 2017 31 / 52

La solution générale Donc, pour tout w = k:λ k >0 β kv k, on a (XX ) + XX w = i:λ i >0 v i v i k:λ k >0 β k v k = w. Mais puisque XX w = Xy, on a que w = ce qui constitue toujours une solution. ( XX ) + Xy, Université Laval IFT-7002 Hiver 2017 31 / 52

La solution générale Donc, pour tout w = k:λ k >0 β kv k, on a (XX ) + XX w = i:λ i >0 v i v i k:λ k >0 β k v k = w. Mais puisque XX w = Xy, on a que w = ce qui constitue toujours une solution. ( XX ) + Xy, Il s agit de la solution de norme Euclidienne minimale et elle se trouve dans l espace généré par les vecteurs colonnes de X. Université Laval IFT-7002 Hiver 2017 31 / 52

La solution des moindres carrés est une projection Nous désirons trouver w minimisant X w y. Université Laval IFT-7002 Hiver 2017 32 / 52

La solution des moindres carrés est une projection Nous désirons trouver w minimisant X w y. L ensemble C = def {X w : w R d } R m est le sous espace linéaire (de dimension d d) généré par X. Université Laval IFT-7002 Hiver 2017 32 / 52

La solution des moindres carrés est une projection Nous désirons trouver w minimisant X w y. L ensemble C = def {X w : w R d } R m est le sous espace linéaire (de dimension d d) généré par X. Puisque w est le solution des moindres carrés, alors ŷ = X w est le vecteur dans C qui est le plus près de y. Université Laval IFT-7002 Hiver 2017 32 / 52

La solution des moindres carrés est une projection Nous désirons trouver w minimisant X w y. L ensemble C = def {X w : w R d } R m est le sous espace linéaire (de dimension d d) généré par X. Puisque w est le solution des moindres carrés, alors ŷ = X w est le vecteur dans C qui est le plus près de y. ŷ est donc la projection de y sur C. Université Laval IFT-7002 Hiver 2017 32 / 52

La solution des moindres carrés est une projection Nous désirons trouver w minimisant X w y. L ensemble C = def {X w : w R d } R m est le sous espace linéaire (de dimension d d) généré par X. Puisque w est le solution des moindres carrés, alors ŷ = X w est le vecteur dans C qui est le plus près de y. ŷ est donc la projection de y sur C. Si M est une matrice m d constitué d une base orthonormale de C, ŷ peut alors s écrire comme ŷ = MM y. Université Laval IFT-7002 Hiver 2017 32 / 52

Ajustement polynômial Parfois, les prédicteurs linéaires ne sont pas suffisamment expressifs. Université Laval IFT-7002 Hiver 2017 33 / 52

Ajustement polynômial Parfois, les prédicteurs linéaires ne sont pas suffisamment expressifs. Montrons qu il est possible d ajuster un polynôme en utilisant la régression linéaire. Université Laval IFT-7002 Hiver 2017 33 / 52

Ajustement polynomial Considérons d abord X = R et les fonctions polynomiales de degré n : p(x) = a 0 + a 1 x + a 2 x 2 +... + a n x n Université Laval IFT-7002 Hiver 2017 34 / 52

Ajustement polynomial Considérons d abord X = R et les fonctions polynomiales de degré n : p(x) = a 0 + a 1 x + a 2 x 2 +... + a n x n Objectif : ayant les données S = ((x 1, y 1 ),..., (x m, y m )), trouvez un polynôme de degré n minimisant le risque empirique Université Laval IFT-7002 Hiver 2017 34 / 52

Ajustement polynomial Considérons d abord X = R et les fonctions polynomiales de degré n : p(x) = a 0 + a 1 x + a 2 x 2 +... + a n x n Objectif : ayant les données S = ((x 1, y 1 ),..., (x m, y m )), trouvez un polynôme de degré n minimisant le risque empirique Réduction à la régression linéaire : Université Laval IFT-7002 Hiver 2017 34 / 52

Ajustement polynomial Considérons d abord X = R et les fonctions polynomiales de degré n : p(x) = a 0 + a 1 x + a 2 x 2 +... + a n x n Objectif : ayant les données S = ((x 1, y 1 ),..., (x m, y m )), trouvez un polynôme de degré n minimisant le risque empirique Réduction à la régression linéaire : Soit ψ : R R n+1 tel que ψ(x) = def (1, x, x 2,..., x n ) Université Laval IFT-7002 Hiver 2017 34 / 52

Ajustement polynomial Considérons d abord X = R et les fonctions polynomiales de degré n : p(x) = a 0 + a 1 x + a 2 x 2 +... + a n x n Objectif : ayant les données S = ((x 1, y 1 ),..., (x m, y m )), trouvez un polynôme de degré n minimisant le risque empirique Réduction à la régression linéaire : Soit ψ : R R n+1 tel que ψ(x) = def (1, x, x 2,..., x n ) Soit a = (a 0, a 1,..., a n ). Observez que : p(x) = n a i x i = a, ψ(x) i=0 Université Laval IFT-7002 Hiver 2017 34 / 52

Ajustement polynomial Considérons d abord X = R et les fonctions polynomiales de degré n : p(x) = a 0 + a 1 x + a 2 x 2 +... + a n x n Objectif : ayant les données S = ((x 1, y 1 ),..., (x m, y m )), trouvez un polynôme de degré n minimisant le risque empirique Réduction à la régression linéaire : Soit ψ : R R n+1 tel que ψ(x) = def (1, x, x 2,..., x n ) Soit a = (a 0, a 1,..., a n ). Observez que : p(x) = n a i x i = a, ψ(x) i=0 Pour trouver a, il suffit de résoudre les moindres carrés par rapport à ((ψ(x 1 ), y 1 ),..., (ψ(x m ), y m )) Université Laval IFT-7002 Hiver 2017 34 / 52

Ajustement polynomial Le même truc s applique si X = R d au lieu de R. Dans ce cas, considérons Université Laval IFT-7002 Hiver 2017 35 / 52

Ajustement polynomial Le même truc s applique si X = R d au lieu de R. Dans ce cas, considérons ψ : R d R N(d,n) tel que : ψ(x) = (1, {x i } d i=1, {x i x j }, {x i x j x k },...) contenant tous les produits d au plus d composantes de x Université Laval IFT-7002 Hiver 2017 35 / 52

Ajustement polynomial Le même truc s applique si X = R d au lieu de R. Dans ce cas, considérons ψ : R d R N(d,n) tel que : ψ(x) = (1, {x i } d i=1, {x i x j }, {x i x j x k },...) contenant tous les produits d au plus d composantes de x Donc N(d, n) = 1 + d + d 2 +... + d n = (d n+1 1)/(d 1) pour tout d > 1. Université Laval IFT-7002 Hiver 2017 35 / 52

Ajustement polynomial Le même truc s applique si X = R d au lieu de R. Dans ce cas, considérons ψ : R d R N(d,n) tel que : ψ(x) = (1, {x i } d i=1, {x i x j }, {x i x j x k },...) contenant tous les produits d au plus d composantes de x Donc N(d, n) = 1 + d + d 2 +... + d n = (d n+1 1)/(d 1) pour tout d > 1. Notez que dans ce cas, X est un matrice N(d, n) m. Université Laval IFT-7002 Hiver 2017 35 / 52

Ajustement polynomial Le même truc s applique si X = R d au lieu de R. Dans ce cas, considérons ψ : R d R N(d,n) tel que : ψ(x) = (1, {x i } d i=1, {x i x j }, {x i x j x k },...) contenant tous les produits d au plus d composantes de x Donc N(d, n) = 1 + d + d 2 +... + d n = (d n+1 1)/(d 1) pour tout d > 1. Notez que dans ce cas, X est un matrice N(d, n) m. Donc XX est N(d, n) N(d, n) et nécessite alors un temps en O(d 3n ) pour son inversion. Université Laval IFT-7002 Hiver 2017 35 / 52

Ajustement polynomial Le même truc s applique si X = R d au lieu de R. Dans ce cas, considérons ψ : R d R N(d,n) tel que : ψ(x) = (1, {x i } d i=1, {x i x j }, {x i x j x k },...) contenant tous les produits d au plus d composantes de x Donc N(d, n) = 1 + d + d 2 +... + d n = (d n+1 1)/(d 1) pour tout d > 1. Notez que dans ce cas, X est un matrice N(d, n) m. Donc XX est N(d, n) N(d, n) et nécessite alors un temps en O(d 3n ) pour son inversion. Nous verrons plus loin qu il est possible d utiliser un noyau à la place de ψ ; ce qui nécessitera (uniquement) l inversion d une matrice m m, peu importe la valeur de n. Université Laval IFT-7002 Hiver 2017 35 / 52

Outline 1 Le modèle PAC général Enlever la supposition qu il existe un f H avec risque nul Au-delà de la classification binaire Le modèle général PAC 2 Apprendre par la convergence uniforme 3 Régression linéaire et les moindres carrés Ajustement polynômial 4 Régression logistique 5 Le compromis biais-complexité Décomposition de l erreur 6 Validation et sélection du Modèle Université Laval IFT-7002 Hiver 2017 36 / 52

Prédire la probabilité d appartenir à une classe On a K classes : Y = {1,..., K} ; alors Y = K. Université Laval IFT-7002 Hiver 2017 37 / 52

Prédire la probabilité d appartenir à une classe On a K classes : Y = {1,..., K} ; alors Y = K. Pour tout x X, on désire prédire la probabilité que x appartienne à la classe i Y. Université Laval IFT-7002 Hiver 2017 37 / 52

Prédire la probabilité d appartenir à une classe On a K classes : Y = {1,..., K} ; alors Y = K. Pour tout x X, on désire prédire la probabilité que x appartienne à la classe i Y. L approche de la régression logistique consiste à construire h = (h 1,..., h K ) : X [0, 1] K tel que h i (x) représente la probabilité que x appartienne à la classe i. Université Laval IFT-7002 Hiver 2017 37 / 52

Prédire la probabilité d appartenir à une classe On a K classes : Y = {1,..., K} ; alors Y = K. Pour tout x X, on désire prédire la probabilité que x appartienne à la classe i Y. L approche de la régression logistique consiste à construire h = (h 1,..., h K ) : X [0, 1] K tel que h i (x) représente la probabilité que x appartienne à la classe i. C est donc une approche de régression car il faut construire K fonctions à valeur dans [0, 1]. Cependant, il faut aussi satisfaire K h i (x) = 1, x X. i=1 Université Laval IFT-7002 Hiver 2017 37 / 52

Fonction de perte logarithmique Lorsque X = R d, l approche la plus courante consiste à utiliser un vecteur w i R d par fonction h i et de choisir h i (x) = 1 Z(x) e w i,x, Z(x) = def K e wi,x, i=1 ce qui nous assure d avoir K i=1 h i(x) = 1, x R d. Université Laval IFT-7002 Hiver 2017 38 / 52

Fonction de perte logarithmique Lorsque X = R d, l approche la plus courante consiste à utiliser un vecteur w i R d par fonction h i et de choisir h i (x) = 1 Z(x) e w i,x, Z(x) = def K e wi,x, i=1 ce qui nous assure d avoir K i=1 h i(x) = 1, x R d. La perte l(h, (x, y)) subit par le prédicteur h sur l exemple (x, y) est donnée par la fonction logarithmique ( ) 1 l(h, (x, y)) = def log = log Z(x) w y, x. h y (x) Université Laval IFT-7002 Hiver 2017 38 / 52

Fonction de perte logarithmique Lorsque X = R d, l approche la plus courante consiste à utiliser un vecteur w i R d par fonction h i et de choisir h i (x) = 1 Z(x) e w i,x, Z(x) = def K e wi,x, i=1 ce qui nous assure d avoir K i=1 h i(x) = 1, x R d. La perte l(h, (x, y)) subit par le prédicteur h sur l exemple (x, y) est donnée par la fonction logarithmique ( ) 1 l(h, (x, y)) = def log = log Z(x) w y, x. h y (x) Ainsi la perte sur (x, y) sera élevée lorsque h y (x) 1. Université Laval IFT-7002 Hiver 2017 38 / 52

Minimiser le risque empirique On peut démontrer que cette fonction de perte est convexe en (w 1,..., w K ) et, conséquemment, minimiser le risque empirique 1 m m i=1 ( ) 1 log, h yi (x i ) s effectue efficacement à l aide de la descente de gradient que l on verra plus loin. Université Laval IFT-7002 Hiver 2017 39 / 52

Minimiser le risque empirique On peut démontrer que cette fonction de perte est convexe en (w 1,..., w K ) et, conséquemment, minimiser le risque empirique 1 m m i=1 ( ) 1 log, h yi (x i ) s effectue efficacement à l aide de la descente de gradient que l on verra plus loin. Notez que pour la classification binaire (K = 2), on a h 1 (x) = h 2 (x) = e w 1,x e w1,x + e w 2,x e w 2,x e w2,x + e w 1,x = = 1 1 + e w 1 w 2,x 1 1 + e w 2 w 1,x Université Laval IFT-7002 Hiver 2017 39 / 52

Classification binaire et perte logistique En utilisant w = def w 1 w 2, on obtient 1 def h 1 (x) = 1 + e w,x = σ( w, x ) h 2 (x) = 1 1 + e w,x = 1 h 1 (x) Université Laval IFT-7002 Hiver 2017 40 / 52

Classification binaire et perte logistique En utilisant w = def w 1 w 2, on obtient 1 def h 1 (x) = 1 + e w,x = σ( w, x ) h 2 (x) = 1 1 + e w,x = 1 h 1 (x) La fonction σ(a) = 1/(1 + exp( a)) est appelée une sigmoïde (en forme de s ). Université Laval IFT-7002 Hiver 2017 40 / 52

Classification binaire et perte logistique En utilisant w = def w 1 w 2, on obtient 1 def h 1 (x) = 1 + e w,x = σ( w, x ) h 2 (x) = 1 1 + e w,x = 1 h 1 (x) La fonction σ(a) = 1/(1 + exp( a)) est appelée une sigmoïde (en forme de s ). On a : σ( ) = 0, σ(+ ) = 1, et σ(0) = 1/2. Université Laval IFT-7002 Hiver 2017 40 / 52

Classification binaire et perte logistique En utilisant w = def w 1 w 2, on obtient 1 def h 1 (x) = 1 + e w,x = σ( w, x ) h 2 (x) = 1 1 + e w,x = 1 h 1 (x) La fonction σ(a) = 1/(1 + exp( a)) est appelée une sigmoïde (en forme de s ). On a : σ( ) = 0, σ(+ ) = 1, et σ(0) = 1/2. Maintenant, utilisons Y = { 1, +1} à la place de Y = {1, 2} et w à la place de h. On obtient alors la perte logistique : ( ) ( ) 1 1 l(w, (x, y)) = 1 [y=+1] log + 1 [y= 1] log = 1 [y=+1] log = log h + (x) ( 1 + e w,x ) + 1 [y= 1] log ( 1 + e y w,x ). h (x) (1 + e w,x ) Université Laval IFT-7002 Hiver 2017 40 / 52

Régression logistique La régression logistique se résume alors à trouver w minimisant le risque empirique 1 m m i=1 ( ) log 1 + e y i w,x i. Université Laval IFT-7002 Hiver 2017 41 / 52

Régression logistique La régression logistique se résume alors à trouver w minimisant le risque empirique 1 m m i=1 ( ) log 1 + e y i w,x i. Puisque la fonction de perte logistique est convexe, trouver w minimisant le risque empirique se fait efficacement par la descente de gradient (voir plus tard) Université Laval IFT-7002 Hiver 2017 41 / 52

Régression logistique La régression logistique se résume alors à trouver w minimisant le risque empirique 1 m m i=1 ( ) log 1 + e y i w,x i. Puisque la fonction de perte logistique est convexe, trouver w minimisant le risque empirique se fait efficacement par la descente de gradient (voir plus tard) La fonction σ( w, x ) ainsi obtenue s interprète comme la probabilité, selon w, que l étiquette de x soit +1. Université Laval IFT-7002 Hiver 2017 41 / 52

Régression logistique La régression logistique se résume alors à trouver w minimisant le risque empirique 1 m m i=1 ( ) log 1 + e y i w,x i. Puisque la fonction de perte logistique est convexe, trouver w minimisant le risque empirique se fait efficacement par la descente de gradient (voir plus tard) La fonction σ( w, x ) ainsi obtenue s interprète comme la probabilité, selon w, que l étiquette de x soit +1. La régression logistique et la régression linéaire s utilisent le plus souvent en ajoutant λ w 2 au risque empirique (avec λ 1/ m, voir plus loin) et deviennent des algorithmes d apprentissage très performants lorsqu utilisés avec une représentation appropriée pour X où un noyau approprié (voir plus loin). Université Laval IFT-7002 Hiver 2017 41 / 52

Outline 1 Le modèle PAC général Enlever la supposition qu il existe un f H avec risque nul Au-delà de la classification binaire Le modèle général PAC 2 Apprendre par la convergence uniforme 3 Régression linéaire et les moindres carrés Ajustement polynômial 4 Régression logistique 5 Le compromis biais-complexité Décomposition de l erreur 6 Validation et sélection du Modèle Université Laval IFT-7002 Hiver 2017 42 / 52