IFT-7002 Apprentissage Automatique

IFT-7002 Apprentissage Automatique Modèle d apprentissage général et le compromis biais-complexité Shai Shalev-Shwartz The Hebrew University of Jerusalem Traduit et adapté par Mario Marchand Université Laval Hiver 2017 Université Laval IFT-7002 Hiver 2017 1 / 52

Sommaire 1 Le modèle PAC général Enlever la supposition qu il existe un f H avec risque nul Au-delà de la classification binaire Le modèle général PAC 2 Apprendre par la convergence uniforme 3 Régression linéaire et les moindres carrés Ajustement polynômial 4 Régression logistique 5 Le compromis biais-complexité Décomposition de l erreur 6 Validation et sélection du Modèle Université Laval IFT-7002 Hiver 2017 2 / 52

Le modèle PAC agnostique On a supposé que les étiquettes étaient générées par un f H Université Laval IFT-7002 Hiver 2017 3 / 52

Le modèle PAC agnostique On a supposé que les étiquettes étaient générées par un f H Cette supposition peut s avérer trop forte! Université Laval IFT-7002 Hiver 2017 3 / 52

Le modèle PAC agnostique On a supposé que les étiquettes étaient générées par un f H Cette supposition peut s avérer trop forte! Maintenant, soyons plus réaliste en considérant que les étiquettes sont générées par une distribution (que nous ne connaissons pas). Université Laval IFT-7002 Hiver 2017 3 / 52

Le modèle PAC agnostique Pour le modèle PAC, D est une distribution sur le domaine X Université Laval IFT-7002 Hiver 2017 4 / 52

Le modèle PAC agnostique Pour le modèle PAC, D est une distribution sur le domaine X Maintenant, considérons que D est une distribution sur X Y Université Laval IFT-7002 Hiver 2017 4 / 52

Le modèle PAC agnostique Pour le modèle PAC, D est une distribution sur le domaine X Maintenant, considérons que D est une distribution sur X Y Le risque L D (h) d une hypothèse h est alors redéfini comme suit : L D (h) = def P [h(x) y] def = D({(x, y) : h(x) y}) (x,y) D Université Laval IFT-7002 Hiver 2017 4 / 52

Le modèle PAC agnostique Pour le modèle PAC, D est une distribution sur le domaine X Maintenant, considérons que D est une distribution sur X Y Le risque L D (h) d une hypothèse h est alors redéfini comme suit : L D (h) = def P [h(x) y] def = D({(x, y) : h(x) y}) (x,y) D Le critère de approximativement correct est alors remplacé par L D (A(S)) min h H L D(h) + ɛ Université Laval IFT-7002 Hiver 2017 4 / 52

PAC vs. PAC agnostique PAC PAC agnostique Distribution : D sur X D sur X Y Étiquetage : f H pas dans la classe ou n existe pas Risque L D,f (h) = L D (h) = D({x : h(x) f(x)}) D({(x, y) : h(x) y}) Échantillon S : (x 1,..., x m ) D m ((x 1, y 1 ),..., (x m, y m )) D m i, y i = f(x i ) Objectif : L D,f (A(S)) ɛ L D (A(S)) min h H L D (h) + ɛ Université Laval IFT-7002 Hiver 2017 5 / 52

Au-delà de la classification binaire Autres problèmes d apprentissage : Catégorisation multi-classe : Y est un ensemble fini représentant Y differentes classes. E.g. X est l espace des documents et Y = {Actualité, Sports, Biologie, Médicine} Université Laval IFT-7002 Hiver 2017 6 / 52

Au-delà de la classification binaire Autres problèmes d apprentissage : Catégorisation multi-classe : Y est un ensemble fini représentant Y differentes classes. E.g. X est l espace des documents et Y = {Actualité, Sports, Biologie, Médicine} Régression : Y = R. E.g. on désire prédire le poids d un bébé à sa naissance en fonction de la mesure (par ultrasons) de la circonférence du crâne, de la circonférence de l abdomen et de la longueur du fémur. Université Laval IFT-7002 Hiver 2017 6 / 52

Fonctions de perte Soit Z = X Y Université Laval IFT-7002 Hiver 2017 7 / 52

Fonctions de perte Soit Z = X Y Ayant une hypothèse h H, et un exemple (x, y) Z, quelle est la qualité de la prédiction de h sur (x, y)? Université Laval IFT-7002 Hiver 2017 7 / 52

Fonctions de perte Soit Z = X Y Ayant une hypothèse h H, et un exemple (x, y) Z, quelle est la qualité de la prédiction de h sur (x, y)? Fonction de perte : l : H Z R + Université Laval IFT-7002 Hiver 2017 7 / 52

Fonctions de perte Soit Z = X Y Ayant une hypothèse h H, et un exemple (x, y) Z, quelle est la qualité de la prédiction de h sur (x, y)? Fonction de perte : l : H Z R + Exemples : Université Laval IFT-7002 Hiver 2017 7 / 52

Fonctions de perte Soit Z = X Y Ayant une hypothèse h H, et un exemple (x, y) Z, quelle est la qualité de la prédiction de h sur (x, y)? Fonction de perte : l : H Z R + Exemples : { 1 if h(x) y Perte 0-1 : l(h, (x, y)) = 0 if h(x) = y Université Laval IFT-7002 Hiver 2017 7 / 52

Fonctions de perte Soit Z = X Y Ayant une hypothèse h H, et un exemple (x, y) Z, quelle est la qualité de la prédiction de h sur (x, y)? Fonction de perte : l : H Z R + Exemples : { 1 if h(x) y Perte 0-1 : l(h, (x, y)) = 0 if h(x) = y Perte quadratique : l(h, (x, y)) = (h(x) y) 2 Université Laval IFT-7002 Hiver 2017 7 / 52

Fonctions de perte Soit Z = X Y Ayant une hypothèse h H, et un exemple (x, y) Z, quelle est la qualité de la prédiction de h sur (x, y)? Fonction de perte : l : H Z R + Exemples : { 1 if h(x) y Perte 0-1 : l(h, (x, y)) = 0 if h(x) = y Perte quadratique : l(h, (x, y)) = (h(x) y) 2 Valeur absolue de la différence : l(h, (x, y)) = h(x) y Université Laval IFT-7002 Hiver 2017 7 / 52

Fonctions de perte Soit Z = X Y Ayant une hypothèse h H, et un exemple (x, y) Z, quelle est la qualité de la prédiction de h sur (x, y)? Fonction de perte : l : H Z R + Exemples : { 1 if h(x) y Perte 0-1 : l(h, (x, y)) = 0 if h(x) = y Perte quadratique : l(h, (x, y)) = (h(x) y) 2 Valeur absolue de la différence : l(h, (x, y)) = h(x) y Matrice de coûts : l(h, (x, y)) = C h(x),y où C est une matrice Y Y Université Laval IFT-7002 Hiver 2017 7 / 52

Le modèle général PAC Nous désirons probablement et approximativement résoudre : min L D(h) tel que L D (h) = def E [l(h, z)]. h H z D Université Laval IFT-7002 Hiver 2017 8 / 52

Le modèle général PAC Nous désirons probablement et approximativement résoudre : min L D(h) tel que L D (h) = def E [l(h, z)]. h H z D L apprenant connaît H, Z et l Université Laval IFT-7002 Hiver 2017 8 / 52

Le modèle général PAC Nous désirons probablement et approximativement résoudre : min L D(h) tel que L D (h) = def E [l(h, z)]. h H z D L apprenant connaît H, Z et l L apprenant reçoit un paramètre de précision ɛ et un paramètre de confiance δ Université Laval IFT-7002 Hiver 2017 8 / 52

Le modèle général PAC Nous désirons probablement et approximativement résoudre : min L D(h) tel que L D (h) = def E [l(h, z)]. h H z D L apprenant connaît H, Z et l L apprenant reçoit un paramètre de précision ɛ et un paramètre de confiance δ L apprenant choisi le nombre m d exemples en fonction de ɛ, δ Université Laval IFT-7002 Hiver 2017 8 / 52

Le modèle général PAC Nous désirons probablement et approximativement résoudre : min L D(h) tel que L D (h) = def E [l(h, z)]. h H z D L apprenant connaît H, Z et l L apprenant reçoit un paramètre de précision ɛ et un paramètre de confiance δ L apprenant choisi le nombre m d exemples en fonction de ɛ, δ L apprenant ne connaît pas D mais peut obtenir un échantillon S D m Université Laval IFT-7002 Hiver 2017 8 / 52

Le modèle général PAC Nous désirons probablement et approximativement résoudre : min L D(h) tel que L D (h) = def E [l(h, z)]. h H z D L apprenant connaît H, Z et l L apprenant reçoit un paramètre de précision ɛ et un paramètre de confiance δ L apprenant choisi le nombre m d exemples en fonction de ɛ, δ L apprenant ne connaît pas D mais peut obtenir un échantillon S D m En utilisant S, l apprenant A produit une hypothèse A(S) Université Laval IFT-7002 Hiver 2017 8 / 52

Le modèle général PAC Nous désirons probablement et approximativement résoudre : min L D(h) tel que L D (h) = def E [l(h, z)]. h H z D L apprenant connaît H, Z et l L apprenant reçoit un paramètre de précision ɛ et un paramètre de confiance δ L apprenant choisi le nombre m d exemples en fonction de ɛ, δ L apprenant ne connaît pas D mais peut obtenir un échantillon S D m En utilisant S, l apprenant A produit une hypothèse A(S) Nous désirons, avec probabilité au moins 1 δ sur les tirages de S, que l on ait L D (A(S)) min h H L D (h) + ɛ Université Laval IFT-7002 Hiver 2017 8 / 52

PAC agnostique : définition formelle Un classe d hypothèses H est apprenable au sens PAC agnostique, relativement à un ensemble Z = X Y et une une fonction de perte l : H Z R +, s il existe une fonction m H : (0, 1) 2 N et un algorithme d apprentissage A satisfaisant la propriété suivante : pour tout ɛ, δ (0, 1), m m H (ɛ, δ) et distribution D sur Z, }) D ({S m Z m : L D (A(S)) min L D(h) + ɛ 1 δ h H Université Laval IFT-7002 Hiver 2017 9 / 52

Outline 1 Le modèle PAC général Enlever la supposition qu il existe un f H avec risque nul Au-delà de la classification binaire Le modèle général PAC 2 Apprendre par la convergence uniforme 3 Régression linéaire et les moindres carrés Ajustement polynômial 4 Régression logistique 5 Le compromis biais-complexité Décomposition de l erreur 6 Validation et sélection du Modèle Université Laval IFT-7002 Hiver 2017 10 / 52

Échantillon représentatif Définition (échantillon ɛ-représentatif) Un échantillon S est ɛ-représentatif (relativement à H, l et D) si h H, L S (h) L D (h) ɛ. Université Laval IFT-7002 Hiver 2017 11 / 52

Échantillon représentatif Lemme Soit un échantillon S qui est ɛ 2 -représentatif. Alors la sortie de ERM H(S), i.e., tout h S argmin h H L S (h), satisfait L D (h S ) min h H L D(h) + ɛ. Preuve: Pour tout h H, nous avons que L D (h S ) L S (h S ) + ɛ 2 L S(h) + ɛ 2 L D(h) + ɛ 2 + ɛ 2 = L D(h) + ɛ Université Laval IFT-7002 Hiver 2017 12 / 52

La convergence uniforme suffit pour apprendre Définition (convergence uniforme) H possède la propriété de convergence uniforme s il existe une fonction m UC H : (0, 1)2 N telle que pour tout ɛ, δ (0, 1), pour toute distribution D, et pour tout m m UC H (ɛ, δ), nous avons D m ({S Z m : S est ɛ -représentatif}) 1 δ Université Laval IFT-7002 Hiver 2017 13 / 52

La convergence uniforme suffit pour apprendre Définition (convergence uniforme) H possède la propriété de convergence uniforme s il existe une fonction m UC H : (0, 1)2 N telle que pour tout ɛ, δ (0, 1), pour toute distribution D, et pour tout m m UC H (ɛ, δ), nous avons D m ({S Z m : S est ɛ -représentatif}) 1 δ Corollaire (La convergence uniforme suffit pour apprendre) Université Laval IFT-7002 Hiver 2017 13 / 52

La convergence uniforme suffit pour apprendre Définition (convergence uniforme) H possède la propriété de convergence uniforme s il existe une fonction m UC H : (0, 1)2 N telle que pour tout ɛ, δ (0, 1), pour toute distribution D, et pour tout m m UC H (ɛ, δ), nous avons D m ({S Z m : S est ɛ -représentatif}) 1 δ Corollaire (La convergence uniforme suffit pour apprendre) Si H possède la propriété de convergence uniforme avec la fonction m UC H, alors H est apprenable au sens PAC agnostique avec une complexité d échantillon m H (ɛ, δ) m UC H (ɛ/2, δ). Université Laval IFT-7002 Hiver 2017 13 / 52

La convergence uniforme suffit pour apprendre Définition (convergence uniforme) H possède la propriété de convergence uniforme s il existe une fonction m UC H : (0, 1)2 N telle que pour tout ɛ, δ (0, 1), pour toute distribution D, et pour tout m m UC H (ɛ, δ), nous avons D m ({S Z m : S est ɛ -représentatif}) 1 δ Corollaire (La convergence uniforme suffit pour apprendre) Si H possède la propriété de convergence uniforme avec la fonction m UC H, alors H est apprenable au sens PAC agnostique avec une complexité d échantillon m H (ɛ, δ) m UC H (ɛ/2, δ). De plus, dans ce cas, ERM H est un algorithme d apprentissage pour H au sens PAC agnostique. Université Laval IFT-7002 Hiver 2017 13 / 52

Les classes finies sont apprenables au sens PAC agnostique Nous allons démontrer le théorème suivant : Université Laval IFT-7002 Hiver 2017 14 / 52

Les classes finies sont apprenables au sens PAC agnostique Nous allons démontrer le théorème suivant : Théorème Soit H une classe finie et soit une fonction de perte à valeur dans [0, 1]. Alors, H est apprenable au sens PAC agnostique en utilisant ERM H avec la complexité d échantillon satisfaisant 2 log(2 H /δ) m H (ɛ, δ). ɛ 2 Université Laval IFT-7002 Hiver 2017 14 / 52

Les classes finies sont apprenables au sens PAC agnostique Nous allons démontrer le théorème suivant : Théorème Soit H une classe finie et soit une fonction de perte à valeur dans [0, 1]. Alors, H est apprenable au sens PAC agnostique en utilisant ERM H avec la complexité d échantillon satisfaisant 2 log(2 H /δ) m H (ɛ, δ). Preuve: En raison du dernier corollaire, il suffit de démontrer que H possède la propriété de convergence uniforme avec log(2 H /δ) m UC H (ɛ, δ) 2ɛ 2. ɛ 2 Université Laval IFT-7002 Hiver 2017 14 / 52

Preuve (suite) Pour démontrer la convergence uniforme, il suffit de démontrer que : D m ({S : h H, L S (h) L D (h) ɛ}) 1 δ, Université Laval IFT-7002 Hiver 2017 15 / 52

Preuve (suite) Pour démontrer la convergence uniforme, il suffit de démontrer que : D m ({S : h H, L S (h) L D (h) ɛ}) 1 δ, ou, de manière équivalente, il suffit de démontrer que : D m ({S : h H, L S (h) L D (h) > ɛ}) δ. Université Laval IFT-7002 Hiver 2017 15 / 52

Preuve (suite) Pour démontrer la convergence uniforme, il suffit de démontrer que : D m ({S : h H, L S (h) L D (h) ɛ}) 1 δ, ou, de manière équivalente, il suffit de démontrer que : D m ({S : h H, L S (h) L D (h) > ɛ}) δ. Par la borne de l union, nous avons : D m ({S : h H, L S (h) L D (h) > ɛ}) = D m ( h H {S : L S (h) L D (h) > ɛ}) D m ({S : L S (h) L D (h) > ɛ}) h H H max h H Dm ({S : L S (h) L D (h) > ɛ}). Université Laval IFT-7002 Hiver 2017 15 / 52

Preuve (suite) Rappel : L D (h) = E z D [l(h, z)] et L S (h) = 1 m m i=1 l(h, z i). Université Laval IFT-7002 Hiver 2017 16 / 52

Preuve (suite) Rappel : L D (h) = E z D [l(h, z)] et L S (h) = 1 m m i=1 l(h, z i). Soit θ i = l(h, z i ). Université Laval IFT-7002 Hiver 2017 16 / 52

Preuve (suite) Rappel : L D (h) = E z D [l(h, z)] et L S (h) = 1 m m i=1 l(h, z i). Soit θ i = l(h, z i ). Alors, pour tout i, E[θ i ] = L D (h) Université Laval IFT-7002 Hiver 2017 16 / 52

Preuve (suite) Rappel : L D (h) = E z D [l(h, z)] et L S (h) = 1 m m i=1 l(h, z i). Soit θ i = l(h, z i ). Alors, pour tout i, E[θ i ] = L D (h) Lemme (Inégalité de Hoeffding) Soit θ 1,..., θ m une sequence de variables aléatoires i.i.d. et supposez que pour tout i, E[θ i ] = µ et P[a θ i b] = 1. Alors, pour tout ɛ > 0 [ ] m 1 P m θ i µ > ɛ 2 exp ( 2 m ɛ 2 /(b a) 2). i=1 Université Laval IFT-7002 Hiver 2017 16 / 52

Preuve (suite) Rappel : L D (h) = E z D [l(h, z)] et L S (h) = 1 m m i=1 l(h, z i). Soit θ i = l(h, z i ). Alors, pour tout i, E[θ i ] = L D (h) Lemme (Inégalité de Hoeffding) Soit θ 1,..., θ m une sequence de variables aléatoires i.i.d. et supposez que pour tout i, E[θ i ] = µ et P[a θ i b] = 1. Alors, pour tout ɛ > 0 [ ] m 1 P m θ i µ > ɛ 2 exp ( 2 m ɛ 2 /(b a) 2). i=1 Cela implique que pour h fixe, on a D m ({S : L S (h) L D (h) > ɛ}) 2 exp ( 2 m ɛ 2). Université Laval IFT-7002 Hiver 2017 16 / 52

Preuve (suite) Nous avons démontré que : D m ({S : h H, L S (h) L D (h) > ɛ}) 2 H exp ( 2 m ɛ 2) Alors, si m log(2 H /δ), le terme à droite est δ tel que désiré. 2ɛ 2 Université Laval IFT-7002 Hiver 2017 17 / 52

Le truc de discrétisation Supposons que H est paramétrisé par d nombres (e.g., les demi-espaces à d 1 dimensions avec seuil). Université Laval IFT-7002 Hiver 2017 18 / 52

Le truc de discrétisation Supposons que H est paramétrisé par d nombres (e.g., les demi-espaces à d 1 dimensions avec seuil). Supposons que nous utilisions b bits pour coder chaque nombre (e.g., b = 32) Université Laval IFT-7002 Hiver 2017 18 / 52

Le truc de discrétisation Supposons que H est paramétrisé par d nombres (e.g., les demi-espaces à d 1 dimensions avec seuil). Supposons que nous utilisions b bits pour coder chaque nombre (e.g., b = 32) Alors H 2 db, et donc 2db log 2 + 2 log(2/δ) m H (ɛ, δ). ɛ 2 Université Laval IFT-7002 Hiver 2017 18 / 52

Le truc de discrétisation Supposons que H est paramétrisé par d nombres (e.g., les demi-espaces à d 1 dimensions avec seuil). Supposons que nous utilisions b bits pour coder chaque nombre (e.g., b = 32) Alors H 2 db, et donc 2db log 2 + 2 log(2/δ) m H (ɛ, δ). Pas très élégant, mais utile pour borner supérieurement la complexité d échantillon. ɛ 2 Université Laval IFT-7002 Hiver 2017 18 / 52

Convergence uniform des classes de VCdim finies Les classes H dont VCdim(H) = d < possèdent la propriété de convergence uniforme. Université Laval IFT-7002 Hiver 2017 19 / 52

Convergence uniform des classes de VCdim finies Les classes H dont VCdim(H) = d < possèdent la propriété de convergence uniforme. Théorème (Convergence uniforme et VCdim) Considérez la fonction de perte zéro-un. Soit H une classe de fonctions de X vers {0, 1} et de VCdim(H) = d <. Il existe alors une fonction m UC H : (0, 1)2 N et des constantes C 1, C 2 satisfaisant C 1 d + log(1/δ) ɛ 2 telles que pour tout m m UC H (ɛ, δ), on a. m UC H (ɛ, δ) C 2 d + log(1/δ) ɛ 2, D m {S : L D (h) L S (h) ɛ, h H} 1 δ Université Laval IFT-7002 Hiver 2017 19 / 52

Les classes de VCdim finies sont apprenables En conséquence, le dernier théorème admet le corollaire suivant. Université Laval IFT-7002 Hiver 2017 20 / 52

Les classes de VCdim finies sont apprenables En conséquence, le dernier théorème admet le corollaire suivant. Corollaire (généralisation du théorème fondamental de l apprentissage) Considérez la fonction de perte zéro-un. Soit H une classe de fonctions de X vers {0, 1} et de VCdim(H) = d <. H est apprenable au sens PAC agnostique. Plus spécifiquement, pour tout m m UC H (ɛ/2, δ) et pour tout h S argmin h H L S (h), on a D m {S : L D (h S ) min h H L D(h) + ɛ, } 1 δ. Université Laval IFT-7002 Hiver 2017 20 / 52

Les classes de VCdim finies sont apprenables En conséquence, le dernier théorème admet le corollaire suivant. Corollaire (généralisation du théorème fondamental de l apprentissage) Considérez la fonction de perte zéro-un. Soit H une classe de fonctions de X vers {0, 1} et de VCdim(H) = d <. H est apprenable au sens PAC agnostique. Plus spécifiquement, pour tout m m UC H (ɛ/2, δ) et pour tout h S argmin h H L S (h), on a Remarques : D m {S : L D (h S ) min h H L D(h) + ɛ, } 1 δ. Des résultats similaires existent pour les problèmes de régression avec la fonction de perte quadratique (et la valeur absolue de la différence). Université Laval IFT-7002 Hiver 2017 20 / 52

Les classes de VCdim finies sont apprenables En conséquence, le dernier théorème admet le corollaire suivant. Corollaire (généralisation du théorème fondamental de l apprentissage) Considérez la fonction de perte zéro-un. Soit H une classe de fonctions de X vers {0, 1} et de VCdim(H) = d <. H est apprenable au sens PAC agnostique. Plus spécifiquement, pour tout m m UC H (ɛ/2, δ) et pour tout h S argmin h H L S (h), on a Remarques : D m {S : L D (h S ) min h H L D(h) + ɛ, } 1 δ. Des résultats similaires existent pour les problèmes de régression avec la fonction de perte quadratique (et la valeur absolue de la différence). La convergence uniforme est suffisante mais non nécessaire. Nous verrons plus loin qu il est possible d apprendre avec une classe de fonctions ne possédant pas la propriété de convergence uniforme. Université Laval IFT-7002 Hiver 2017 20 / 52

Régression linéaire X R d, Y R, H = {x w, x : w R d } Université Laval IFT-7002 Hiver 2017 22 / 52

Régression linéaire X R d, Y R, H = {x w, x : w R d } Exemple pour d = 1 : prédire le poids d un enfant à partir de son âge. Université Laval IFT-7002 Hiver 2017 22 / 52

Régression linéaire X R d, Y R, H = {x w, x : w R d } Exemple pour d = 1 : prédire le poids d un enfant à partir de son âge. 18 poids (kg) 16 14 2 2.5 3 3.5 4 4.5 5 âge (années) Université Laval IFT-7002 Hiver 2017 22 / 52

La perte quadratique La perte zéro-un n est pas appropriée pour la régression. Université Laval IFT-7002 Hiver 2017 23 / 52

La perte quadratique La perte zéro-un n est pas appropriée pour la régression. Utilisons la perte quadratique : l(h, (x, y)) = (h(x) y) 2. Université Laval IFT-7002 Hiver 2017 23 / 52

La perte quadratique La perte zéro-un n est pas appropriée pour la régression. Utilisons la perte quadratique : l(h, (x, y)) = (h(x) y) 2. Minimisation du risque empirique s écrit alors : 1 min w R d m m ( w, x i y i ) 2 i=1 Université Laval IFT-7002 Hiver 2017 23 / 52

La perte quadratique La perte zéro-un n est pas appropriée pour la régression. Utilisons la perte quadratique : l(h, (x, y)) = (h(x) y) 2. Minimisation du risque empirique s écrit alors : 1 min w R d m m ( w, x i y i ) 2 i=1 Soit X la matrice d m telle que sa ième colonne est x i, et y le vecteur tel que sa ième composante est y i. Université Laval IFT-7002 Hiver 2017 23 / 52

La perte quadratique La perte zéro-un n est pas appropriée pour la régression. Utilisons la perte quadratique : l(h, (x, y)) = (h(x) y) 2. Minimisation du risque empirique s écrit alors : 1 min w R d m m ( w, x i y i ) 2 i=1 Soit X la matrice d m telle que sa ième colonne est x i, et y le vecteur tel que sa ième composante est y i. Alors la minimisation du risque empirique s écrit : min X w y 2 w R d Université Laval IFT-7002 Hiver 2017 23 / 52

Gradient et Optimisation La dérivée, f, d une fonction f : R R est définie par f f(x + ) f(x) (x) = def lim. 0 Université Laval IFT-7002 Hiver 2017 24 / 52

Gradient et Optimisation La dérivée, f, d une fonction f : R R est définie par f f(x + ) f(x) (x) = def lim. 0 Si x minimise f(x) alors f (x) = 0. Université Laval IFT-7002 Hiver 2017 24 / 52

Gradient et Optimisation La dérivée, f, d une fonction f : R R est définie par f f(x + ) f(x) (x) = def lim. 0 Si x minimise f(x) alors f (x) = 0. Soit f : R d R. Université Laval IFT-7002 Hiver 2017 24 / 52

Gradient et Optimisation La dérivée, f, d une fonction f : R R est définie par f f(x + ) f(x) (x) = def lim. 0 Si x minimise f(x) alors f (x) = 0. Soit f : R d R. Son gradient, f(x), est un vecteur de dimension d tel que sa ième composante est la dérivée (évaluée en a = 0) de la fonction scalaire g(a) = def f((x 1,..., x i 1, x i + a, x i+1,..., x d )). Université Laval IFT-7002 Hiver 2017 24 / 52

Gradient et Optimisation La dérivée, f, d une fonction f : R R est définie par f f(x + ) f(x) (x) = def lim. 0 Si x minimise f(x) alors f (x) = 0. Soit f : R d R. Son gradient, f(x), est un vecteur de dimension d tel que sa ième composante est la dérivée (évaluée en a = 0) de la fonction scalaire g(a) = def f((x 1,..., x i 1, x i + a, x i+1,..., x d )). La dérivée de g s appelle la dérivée partielle de f, dénotée par f/ x i. Université Laval IFT-7002 Hiver 2017 24 / 52

Gradient et Optimisation La dérivée, f, d une fonction f : R R est définie par f f(x + ) f(x) (x) = def lim. 0 Si x minimise f(x) alors f (x) = 0. Soit f : R d R. Son gradient, f(x), est un vecteur de dimension d tel que sa ième composante est la dérivée (évaluée en a = 0) de la fonction scalaire g(a) = def f((x 1,..., x i 1, x i + a, x i+1,..., x d )). La dérivée de g s appelle la dérivée partielle de f, dénotée par f/ x i. Si x minimise f(x) alors f(x) = (0,..., 0). Université Laval IFT-7002 Hiver 2017 24 / 52

Le Jacobien et la règle d enchainement Le Jacobien d une fonction f : R d R m évalué à x R d, dénoté J x (f), est une matrice m d telle que sa ième ligne est f i (x). Université Laval IFT-7002 Hiver 2017 25 / 52

Le Jacobien et la règle d enchainement Le Jacobien d une fonction f : R d R m évalué à x R d, dénoté J x (f), est une matrice m d telle que sa ième ligne est f i (x). Si m = 1 alors J x (f) = [ f(x)] (un vecteur ligne). Université Laval IFT-7002 Hiver 2017 25 / 52

Le Jacobien et la règle d enchainement Le Jacobien d une fonction f : R d R m évalué à x R d, dénoté J x (f), est une matrice m d telle que sa ième ligne est f i (x). Si m = 1 alors J x (f) = [ f(x)] (un vecteur ligne). Si f(w) = Aw pour A R m,d alors J w (f) = A. Université Laval IFT-7002 Hiver 2017 25 / 52

Le Jacobien et la règle d enchainement Le Jacobien d une fonction f : R d R m évalué à x R d, dénoté J x (f), est une matrice m d telle que sa ième ligne est f i (x). Si m = 1 alors J x (f) = [ f(x)] (un vecteur ligne). Si f(w) = Aw pour A R m,d alors J w (f) = A. Règle d enchainement : Soit f : R d R m et g : R k R d, le Jacobien de la composition (f g) : R k R m, évalué à x, est donné par J x (f g) = J g(x) (f)j x (g). Université Laval IFT-7002 Hiver 2017 25 / 52

Les moindres carrés De retour à notre problème de minimisation du risque empirique : 1 min w R d 2 X w y 2 Université Laval IFT-7002 Hiver 2017 26 / 52

Les moindres carrés De retour à notre problème de minimisation du risque empirique : 1 min w R d 2 X w y 2 Soit g(w) = X w y et f(v) = 1 2 v 2 = 1 2 m i=1 v2 i. Université Laval IFT-7002 Hiver 2017 26 / 52

Les moindres carrés De retour à notre problème de minimisation du risque empirique : 1 min w R d 2 X w y 2 Soit g(w) = X w y et f(v) = 1 2 v 2 = 1 2 m i=1 v2 i. argmin w f(g(w)) est donné par w satisfaisant J w (f g) = 0. Université Laval IFT-7002 Hiver 2017 26 / 52

Les moindres carrés De retour à notre problème de minimisation du risque empirique : 1 min w R d 2 X w y 2 Soit g(w) = X w y et f(v) = 1 2 v 2 = 1 2 m i=1 v2 i. argmin w f(g(w)) est donné par w satisfaisant J w (f g) = 0. Or, J w (g) = X et J v (f) = (v 1,..., v m ). Université Laval IFT-7002 Hiver 2017 26 / 52

Les moindres carrés De retour à notre problème de minimisation du risque empirique : 1 min w R d 2 X w y 2 Soit g(w) = X w y et f(v) = 1 2 v 2 = 1 2 m i=1 v2 i. argmin w f(g(w)) est donné par w satisfaisant J w (f g) = 0. Or, J w (g) = X et J v (f) = (v 1,..., v m ). La règle d enchainement nous dit que J w (f g) = J g(w) (f)j w (g) = g(w) X = (X w y) X. Université Laval IFT-7002 Hiver 2017 26 / 52

Les moindres carrés De retour à notre problème de minimisation du risque empirique : 1 min w R d 2 X w y 2 Soit g(w) = X w y et f(v) = 1 2 v 2 = 1 2 m i=1 v2 i. argmin w f(g(w)) est donné par w satisfaisant J w (f g) = 0. Or, J w (g) = X et J v (f) = (v 1,..., v m ). La règle d enchainement nous dit que J w (f g) = J g(w) (f)j w (g) = g(w) X = (X w y) X. En imposant que J w (f g) = (0,..., 0), nous obtenons (X w y) X = 0 XX w = Xy. Université Laval IFT-7002 Hiver 2017 26 / 52

Les moindres carrés De retour à notre problème de minimisation du risque empirique : 1 min w R d 2 X w y 2 Soit g(w) = X w y et f(v) = 1 2 v 2 = 1 2 m i=1 v2 i. argmin w f(g(w)) est donné par w satisfaisant J w (f g) = 0. Or, J w (g) = X et J v (f) = (v 1,..., v m ). La règle d enchainement nous dit que J w (f g) = J g(w) (f)j w (g) = g(w) X = (X w y) X. En imposant que J w (f g) = (0,..., 0), nous obtenons (X w y) X = 0 XX w = Xy. Si XX est inversible, la solution de ce système d équations linéaires est donnée par w = (XX ) 1 Xy. Université Laval IFT-7002 Hiver 2017 26 / 52

Les moindres carrés Petit truc non rigoureux pour se rappeler de cette solution : Université Laval IFT-7002 Hiver 2017 27 / 52

Les moindres carrés Petit truc non rigoureux pour se rappeler de cette solution : Nous désirons obtenir X w y Université Laval IFT-7002 Hiver 2017 27 / 52

Les moindres carrés Petit truc non rigoureux pour se rappeler de cette solution : Nous désirons obtenir X w y Multipliez les deux côtés par X pour obtenir XX w Xy Université Laval IFT-7002 Hiver 2017 27 / 52

Les moindres carrés Petit truc non rigoureux pour se rappeler de cette solution : Nous désirons obtenir X w y Multipliez les deux côtés par X pour obtenir XX w Xy Multipliez les deux côtés par (XX ) 1 pour obtenir : w = (XX ) 1 Xy Université Laval IFT-7002 Hiver 2017 27 / 52

On a toujours au moins une solution! ( XX ) 1 existe ssi les vecteurs colonnes de X génèrent R d. Université Laval IFT-7002 Hiver 2017 28 / 52

On a toujours au moins une solution! ( XX ) 1 existe ssi les vecteurs colonnes de X génèrent R d. ( Preuve: ) XX 1 existe ssi pour tout w, il existe un seul w satisfaisant w = XX w. Or, m m m XX w = x k x k w = x k x k, w = c k x k = w. k=1 k=1 k=1 Université Laval IFT-7002 Hiver 2017 28 / 52

On a toujours au moins une solution! ( XX ) 1 existe ssi les vecteurs colonnes de X génèrent R d. ( Preuve: ) XX 1 existe ssi pour tout w, il existe un seul w satisfaisant w = XX w. Or, m m m XX w = x k x k w = x k x k, w = c k x k = w. k=1 k=1 Si {x k } m k=1 ne génère pas Rd, il existe plusieurs vecteurs w donnant le même (c 1,..., c m ), et donc le même w. k=1 Université Laval IFT-7002 Hiver 2017 28 / 52

On a toujours au moins une solution! ( XX ) 1 existe ssi les vecteurs colonnes de X génèrent R d. ( Preuve: ) XX 1 existe ssi pour tout w, il existe un seul w satisfaisant w = XX w. Or, m m m XX w = x k x k w = x k x k, w = c k x k = w. k=1 k=1 Si {x k } m k=1 ne génère pas Rd, il existe plusieurs vecteurs w donnant le même (c 1,..., c m ), et donc le même w. Si {x k } m k=1 génère Rd, il existe un seul w donnant (c 1,..., c m ), et donc w. k=1 Université Laval IFT-7002 Hiver 2017 28 / 52

On a toujours au moins une solution! ( XX ) 1 existe ssi les vecteurs colonnes de X génèrent R d. ( Preuve: ) XX 1 existe ssi pour tout w, il existe un seul w satisfaisant w = XX w. Or, m m m XX w = x k x k w = x k x k, w = c k x k = w. k=1 k=1 Si {x k } m k=1 ne génère pas Rd, il existe plusieurs vecteurs w donnant le même (c 1,..., c m ), et donc le même w. Si {x k } m k=1 génère Rd, il existe un seul w donnant (c 1,..., c m ), et donc w. Mais puisque Xy est un vecteur appartenant à l espace généré par les vecteurs colonnes de X, notre système d équations linéaires possède, en fait, une infinité de solutions lorsque l inverse de XX n existe pas. k=1 Université Laval IFT-7002 Hiver 2017 28 / 52

On a toujours au moins une solution! ( XX ) 1 existe ssi les vecteurs colonnes de X génèrent R d. ( Preuve: ) XX 1 existe ssi pour tout w, il existe un seul w satisfaisant w = XX w. Or, m m m XX w = x k x k w = x k x k, w = c k x k = w. k=1 k=1 Si {x k } m k=1 ne génère pas Rd, il existe plusieurs vecteurs w donnant le même (c 1,..., c m ), et donc le même w. Si {x k } m k=1 génère Rd, il existe un seul w donnant (c 1,..., c m ), et donc w. Mais puisque Xy est un vecteur appartenant à l espace généré par les vecteurs colonnes de X, notre système d équations linéaires possède, en fait, une infinité de solutions lorsque l inverse de XX n existe pas. Essayons alors de trouver l une de ces solutions. k=1 Université Laval IFT-7002 Hiver 2017 28 / 52

Puisque XX est une matrice d d symétrique, ses valeurs propres λ 1,..., λ d sont toutes non négatives et l on peut écrire XX = d λ k v k vk = V DV. k=1 Université Laval IFT-7002 Hiver 2017 29 / 52

Puisque XX est une matrice d d symétrique, ses valeurs propres λ 1,..., λ d sont toutes non négatives et l on peut écrire XX = d λ k v k vk = V DV. k=1 Ceci constitue la décomposition SVD de XX. Chaque colonne de V est un vecteur propre v k de XX, et D est une matrice diagonale constituée des valeurs propres λ 1,..., λ d. Université Laval IFT-7002 Hiver 2017 29 / 52

Puisque XX est une matrice d d symétrique, ses valeurs propres λ 1,..., λ d sont toutes non négatives et l on peut écrire XX = d λ k v k vk = V DV. k=1 Ceci constitue la décomposition SVD de XX. Chaque colonne de V est un vecteur propre v k de XX, et D est une matrice diagonale constituée des valeurs propres λ 1,..., λ d. Les vecteurs propres ici sont orthonormés, i.e., v i, v j = δ i,j. Université Laval IFT-7002 Hiver 2017 29 / 52

Puisque XX est une matrice d d symétrique, ses valeurs propres λ 1,..., λ d sont toutes non négatives et l on peut écrire XX = d λ k v k vk = V DV. k=1 Ceci constitue la décomposition SVD de XX. Chaque colonne de V est un vecteur propre v k de XX, et D est une matrice diagonale constituée des valeurs propres λ 1,..., λ d. Les vecteurs propres ici sont orthonormés, i.e., v i, v j = δ i,j. Notez que XX projette dans un espace de dimension < d (et n est donc pas inversible) ssi il existe k tel que λ k = 0. Université Laval IFT-7002 Hiver 2017 29 / 52

Puisque XX est une matrice d d symétrique, ses valeurs propres λ 1,..., λ d sont toutes non négatives et l on peut écrire XX = d λ k v k vk = V DV. k=1 Ceci constitue la décomposition SVD de XX. Chaque colonne de V est un vecteur propre v k de XX, et D est une matrice diagonale constituée des valeurs propres λ 1,..., λ d. Les vecteurs propres ici sont orthonormés, i.e., v i, v j = δ i,j. Notez que XX projette dans un espace de dimension < d (et n est donc pas inversible) ssi il existe k tel que λ k = 0. Trouvons alors un w solutionnant XX w = Xy qui se trouve dans l espace générés par les v k tel que λ k > 0, i.e., écrivons w = β k v k. k:λ k >0 Université Laval IFT-7002 Hiver 2017 29 / 52

La pseudo-inverse La pseudo-inverse de XX, noté ( XX ) +, est définie par ( XX ) + def = k:λ k >0 1 λ k v k v k. Université Laval IFT-7002 Hiver 2017 30 / 52

La pseudo-inverse La pseudo-inverse de XX, noté ( XX ) +, est définie par ( XX ) + def = On a alors (XX ) + XX = k:λ k >0 i:λ i >0 j:λ j >0 = i:λ i >0 j:λ j >0 1 λ k v k v k. λ j λ i v i v i v j v j λ j δ i,j v i vj = λ i i:λ i >0 v i v i. Université Laval IFT-7002 Hiver 2017 30 / 52

La pseudo-inverse La pseudo-inverse de XX, noté ( XX ) +, est définie par ( XX ) + def = On a alors (XX ) + XX = k:λ k >0 i:λ i >0 j:λ j >0 = i:λ i >0 j:λ j >0 1 λ k v k v k. λ j λ i v i v i v j v j λ j δ i,j v i vj = λ i i:λ i >0 v i v i. Puisqu il s agit de l opérateur identité lorsque toutes les valeurs propres sont non nulles, nous avons ( XX ) + = ( XX ) 1 lorsqu il n existe pas k t.q. λ k = 0, i.e., lorsque ( XX ) 1 existe. Université Laval IFT-7002 Hiver 2017 30 / 52

La solution générale Donc, pour tout w = k:λ k >0 β kv k, on a (XX ) + XX w = i:λ i >0 v i v i k:λ k >0 β k v k = w. Université Laval IFT-7002 Hiver 2017 31 / 52

La solution générale Donc, pour tout w = k:λ k >0 β kv k, on a (XX ) + XX w = i:λ i >0 v i v i k:λ k >0 β k v k = w. Mais puisque XX w = Xy, on a que w = ce qui constitue toujours une solution. ( XX ) + Xy, Université Laval IFT-7002 Hiver 2017 31 / 52

La solution générale Donc, pour tout w = k:λ k >0 β kv k, on a (XX ) + XX w = i:λ i >0 v i v i k:λ k >0 β k v k = w. Mais puisque XX w = Xy, on a que w = ce qui constitue toujours une solution. ( XX ) + Xy, Il s agit de la solution de norme Euclidienne minimale et elle se trouve dans l espace généré par les vecteurs colonnes de X. Université Laval IFT-7002 Hiver 2017 31 / 52

La solution des moindres carrés est une projection Nous désirons trouver w minimisant X w y. Université Laval IFT-7002 Hiver 2017 32 / 52

La solution des moindres carrés est une projection Nous désirons trouver w minimisant X w y. L ensemble C = def {X w : w R d } R m est le sous espace linéaire (de dimension d d) généré par X. Université Laval IFT-7002 Hiver 2017 32 / 52

La solution des moindres carrés est une projection Nous désirons trouver w minimisant X w y. L ensemble C = def {X w : w R d } R m est le sous espace linéaire (de dimension d d) généré par X. Puisque w est le solution des moindres carrés, alors ŷ = X w est le vecteur dans C qui est le plus près de y. Université Laval IFT-7002 Hiver 2017 32 / 52

La solution des moindres carrés est une projection Nous désirons trouver w minimisant X w y. L ensemble C = def {X w : w R d } R m est le sous espace linéaire (de dimension d d) généré par X. Puisque w est le solution des moindres carrés, alors ŷ = X w est le vecteur dans C qui est le plus près de y. ŷ est donc la projection de y sur C. Université Laval IFT-7002 Hiver 2017 32 / 52

La solution des moindres carrés est une projection Nous désirons trouver w minimisant X w y. L ensemble C = def {X w : w R d } R m est le sous espace linéaire (de dimension d d) généré par X. Puisque w est le solution des moindres carrés, alors ŷ = X w est le vecteur dans C qui est le plus près de y. ŷ est donc la projection de y sur C. Si M est une matrice m d constitué d une base orthonormale de C, ŷ peut alors s écrire comme ŷ = MM y. Université Laval IFT-7002 Hiver 2017 32 / 52

Ajustement polynômial Parfois, les prédicteurs linéaires ne sont pas suffisamment expressifs. Université Laval IFT-7002 Hiver 2017 33 / 52

Ajustement polynômial Parfois, les prédicteurs linéaires ne sont pas suffisamment expressifs. Montrons qu il est possible d ajuster un polynôme en utilisant la régression linéaire. Université Laval IFT-7002 Hiver 2017 33 / 52

Ajustement polynomial Considérons d abord X = R et les fonctions polynomiales de degré n : p(x) = a 0 + a 1 x + a 2 x 2 +... + a n x n Université Laval IFT-7002 Hiver 2017 34 / 52

Ajustement polynomial Considérons d abord X = R et les fonctions polynomiales de degré n : p(x) = a 0 + a 1 x + a 2 x 2 +... + a n x n Objectif : ayant les données S = ((x 1, y 1 ),..., (x m, y m )), trouvez un polynôme de degré n minimisant le risque empirique Université Laval IFT-7002 Hiver 2017 34 / 52

Ajustement polynomial Considérons d abord X = R et les fonctions polynomiales de degré n : p(x) = a 0 + a 1 x + a 2 x 2 +... + a n x n Objectif : ayant les données S = ((x 1, y 1 ),..., (x m, y m )), trouvez un polynôme de degré n minimisant le risque empirique Réduction à la régression linéaire : Université Laval IFT-7002 Hiver 2017 34 / 52

Ajustement polynomial Considérons d abord X = R et les fonctions polynomiales de degré n : p(x) = a 0 + a 1 x + a 2 x 2 +... + a n x n Objectif : ayant les données S = ((x 1, y 1 ),..., (x m, y m )), trouvez un polynôme de degré n minimisant le risque empirique Réduction à la régression linéaire : Soit ψ : R R n+1 tel que ψ(x) = def (1, x, x 2,..., x n ) Université Laval IFT-7002 Hiver 2017 34 / 52

Ajustement polynomial Considérons d abord X = R et les fonctions polynomiales de degré n : p(x) = a 0 + a 1 x + a 2 x 2 +... + a n x n Objectif : ayant les données S = ((x 1, y 1 ),..., (x m, y m )), trouvez un polynôme de degré n minimisant le risque empirique Réduction à la régression linéaire : Soit ψ : R R n+1 tel que ψ(x) = def (1, x, x 2,..., x n ) Soit a = (a 0, a 1,..., a n ). Observez que : p(x) = n a i x i = a, ψ(x) i=0 Université Laval IFT-7002 Hiver 2017 34 / 52

Ajustement polynomial Considérons d abord X = R et les fonctions polynomiales de degré n : p(x) = a 0 + a 1 x + a 2 x 2 +... + a n x n Objectif : ayant les données S = ((x 1, y 1 ),..., (x m, y m )), trouvez un polynôme de degré n minimisant le risque empirique Réduction à la régression linéaire : Soit ψ : R R n+1 tel que ψ(x) = def (1, x, x 2,..., x n ) Soit a = (a 0, a 1,..., a n ). Observez que : p(x) = n a i x i = a, ψ(x) i=0 Pour trouver a, il suffit de résoudre les moindres carrés par rapport à ((ψ(x 1 ), y 1 ),..., (ψ(x m ), y m )) Université Laval IFT-7002 Hiver 2017 34 / 52

Ajustement polynomial Le même truc s applique si X = R d au lieu de R. Dans ce cas, considérons Université Laval IFT-7002 Hiver 2017 35 / 52

Ajustement polynomial Le même truc s applique si X = R d au lieu de R. Dans ce cas, considérons ψ : R d R N(d,n) tel que : ψ(x) = (1, {x i } d i=1, {x i x j }, {x i x j x k },...) contenant tous les produits d au plus d composantes de x Université Laval IFT-7002 Hiver 2017 35 / 52

Ajustement polynomial Le même truc s applique si X = R d au lieu de R. Dans ce cas, considérons ψ : R d R N(d,n) tel que : ψ(x) = (1, {x i } d i=1, {x i x j }, {x i x j x k },...) contenant tous les produits d au plus d composantes de x Donc N(d, n) = 1 + d + d 2 +... + d n = (d n+1 1)/(d 1) pour tout d > 1. Université Laval IFT-7002 Hiver 2017 35 / 52

Ajustement polynomial Le même truc s applique si X = R d au lieu de R. Dans ce cas, considérons ψ : R d R N(d,n) tel que : ψ(x) = (1, {x i } d i=1, {x i x j }, {x i x j x k },...) contenant tous les produits d au plus d composantes de x Donc N(d, n) = 1 + d + d 2 +... + d n = (d n+1 1)/(d 1) pour tout d > 1. Notez que dans ce cas, X est un matrice N(d, n) m. Université Laval IFT-7002 Hiver 2017 35 / 52

Ajustement polynomial Le même truc s applique si X = R d au lieu de R. Dans ce cas, considérons ψ : R d R N(d,n) tel que : ψ(x) = (1, {x i } d i=1, {x i x j }, {x i x j x k },...) contenant tous les produits d au plus d composantes de x Donc N(d, n) = 1 + d + d 2 +... + d n = (d n+1 1)/(d 1) pour tout d > 1. Notez que dans ce cas, X est un matrice N(d, n) m. Donc XX est N(d, n) N(d, n) et nécessite alors un temps en O(d 3n ) pour son inversion. Université Laval IFT-7002 Hiver 2017 35 / 52

Ajustement polynomial Le même truc s applique si X = R d au lieu de R. Dans ce cas, considérons ψ : R d R N(d,n) tel que : ψ(x) = (1, {x i } d i=1, {x i x j }, {x i x j x k },...) contenant tous les produits d au plus d composantes de x Donc N(d, n) = 1 + d + d 2 +... + d n = (d n+1 1)/(d 1) pour tout d > 1. Notez que dans ce cas, X est un matrice N(d, n) m. Donc XX est N(d, n) N(d, n) et nécessite alors un temps en O(d 3n ) pour son inversion. Nous verrons plus loin qu il est possible d utiliser un noyau à la place de ψ ; ce qui nécessitera (uniquement) l inversion d une matrice m m, peu importe la valeur de n. Université Laval IFT-7002 Hiver 2017 35 / 52

Prédire la probabilité d appartenir à une classe On a K classes : Y = {1,..., K} ; alors Y = K. Université Laval IFT-7002 Hiver 2017 37 / 52

Prédire la probabilité d appartenir à une classe On a K classes : Y = {1,..., K} ; alors Y = K. Pour tout x X, on désire prédire la probabilité que x appartienne à la classe i Y. Université Laval IFT-7002 Hiver 2017 37 / 52

Prédire la probabilité d appartenir à une classe On a K classes : Y = {1,..., K} ; alors Y = K. Pour tout x X, on désire prédire la probabilité que x appartienne à la classe i Y. L approche de la régression logistique consiste à construire h = (h 1,..., h K ) : X [0, 1] K tel que h i (x) représente la probabilité que x appartienne à la classe i. Université Laval IFT-7002 Hiver 2017 37 / 52

Prédire la probabilité d appartenir à une classe On a K classes : Y = {1,..., K} ; alors Y = K. Pour tout x X, on désire prédire la probabilité que x appartienne à la classe i Y. L approche de la régression logistique consiste à construire h = (h 1,..., h K ) : X [0, 1] K tel que h i (x) représente la probabilité que x appartienne à la classe i. C est donc une approche de régression car il faut construire K fonctions à valeur dans [0, 1]. Cependant, il faut aussi satisfaire K h i (x) = 1, x X. i=1 Université Laval IFT-7002 Hiver 2017 37 / 52

Fonction de perte logarithmique Lorsque X = R d, l approche la plus courante consiste à utiliser un vecteur w i R d par fonction h i et de choisir h i (x) = 1 Z(x) e w i,x, Z(x) = def K e wi,x, i=1 ce qui nous assure d avoir K i=1 h i(x) = 1, x R d. Université Laval IFT-7002 Hiver 2017 38 / 52

Fonction de perte logarithmique Lorsque X = R d, l approche la plus courante consiste à utiliser un vecteur w i R d par fonction h i et de choisir h i (x) = 1 Z(x) e w i,x, Z(x) = def K e wi,x, i=1 ce qui nous assure d avoir K i=1 h i(x) = 1, x R d. La perte l(h, (x, y)) subit par le prédicteur h sur l exemple (x, y) est donnée par la fonction logarithmique ( ) 1 l(h, (x, y)) = def log = log Z(x) w y, x. h y (x) Université Laval IFT-7002 Hiver 2017 38 / 52

Fonction de perte logarithmique Lorsque X = R d, l approche la plus courante consiste à utiliser un vecteur w i R d par fonction h i et de choisir h i (x) = 1 Z(x) e w i,x, Z(x) = def K e wi,x, i=1 ce qui nous assure d avoir K i=1 h i(x) = 1, x R d. La perte l(h, (x, y)) subit par le prédicteur h sur l exemple (x, y) est donnée par la fonction logarithmique ( ) 1 l(h, (x, y)) = def log = log Z(x) w y, x. h y (x) Ainsi la perte sur (x, y) sera élevée lorsque h y (x) 1. Université Laval IFT-7002 Hiver 2017 38 / 52

Minimiser le risque empirique On peut démontrer que cette fonction de perte est convexe en (w 1,..., w K ) et, conséquemment, minimiser le risque empirique 1 m m i=1 ( ) 1 log, h yi (x i ) s effectue efficacement à l aide de la descente de gradient que l on verra plus loin. Université Laval IFT-7002 Hiver 2017 39 / 52

Minimiser le risque empirique On peut démontrer que cette fonction de perte est convexe en (w 1,..., w K ) et, conséquemment, minimiser le risque empirique 1 m m i=1 ( ) 1 log, h yi (x i ) s effectue efficacement à l aide de la descente de gradient que l on verra plus loin. Notez que pour la classification binaire (K = 2), on a h 1 (x) = h 2 (x) = e w 1,x e w1,x + e w 2,x e w 2,x e w2,x + e w 1,x = = 1 1 + e w 1 w 2,x 1 1 + e w 2 w 1,x Université Laval IFT-7002 Hiver 2017 39 / 52

Classification binaire et perte logistique En utilisant w = def w 1 w 2, on obtient 1 def h 1 (x) = 1 + e w,x = σ( w, x ) h 2 (x) = 1 1 + e w,x = 1 h 1 (x) Université Laval IFT-7002 Hiver 2017 40 / 52

Classification binaire et perte logistique En utilisant w = def w 1 w 2, on obtient 1 def h 1 (x) = 1 + e w,x = σ( w, x ) h 2 (x) = 1 1 + e w,x = 1 h 1 (x) La fonction σ(a) = 1/(1 + exp( a)) est appelée une sigmoïde (en forme de s ). Université Laval IFT-7002 Hiver 2017 40 / 52

Classification binaire et perte logistique En utilisant w = def w 1 w 2, on obtient 1 def h 1 (x) = 1 + e w,x = σ( w, x ) h 2 (x) = 1 1 + e w,x = 1 h 1 (x) La fonction σ(a) = 1/(1 + exp( a)) est appelée une sigmoïde (en forme de s ). On a : σ( ) = 0, σ(+ ) = 1, et σ(0) = 1/2. Université Laval IFT-7002 Hiver 2017 40 / 52

Classification binaire et perte logistique En utilisant w = def w 1 w 2, on obtient 1 def h 1 (x) = 1 + e w,x = σ( w, x ) h 2 (x) = 1 1 + e w,x = 1 h 1 (x) La fonction σ(a) = 1/(1 + exp( a)) est appelée une sigmoïde (en forme de s ). On a : σ( ) = 0, σ(+ ) = 1, et σ(0) = 1/2. Maintenant, utilisons Y = { 1, +1} à la place de Y = {1, 2} et w à la place de h. On obtient alors la perte logistique : ( ) ( ) 1 1 l(w, (x, y)) = 1 [y=+1] log + 1 [y= 1] log = 1 [y=+1] log = log h + (x) ( 1 + e w,x ) + 1 [y= 1] log ( 1 + e y w,x ). h (x) (1 + e w,x ) Université Laval IFT-7002 Hiver 2017 40 / 52

Régression logistique La régression logistique se résume alors à trouver w minimisant le risque empirique 1 m m i=1 ( ) log 1 + e y i w,x i. Université Laval IFT-7002 Hiver 2017 41 / 52

Régression logistique La régression logistique se résume alors à trouver w minimisant le risque empirique 1 m m i=1 ( ) log 1 + e y i w,x i. Puisque la fonction de perte logistique est convexe, trouver w minimisant le risque empirique se fait efficacement par la descente de gradient (voir plus tard) Université Laval IFT-7002 Hiver 2017 41 / 52

Régression logistique La régression logistique se résume alors à trouver w minimisant le risque empirique 1 m m i=1 ( ) log 1 + e y i w,x i. Puisque la fonction de perte logistique est convexe, trouver w minimisant le risque empirique se fait efficacement par la descente de gradient (voir plus tard) La fonction σ( w, x ) ainsi obtenue s interprète comme la probabilité, selon w, que l étiquette de x soit +1. Université Laval IFT-7002 Hiver 2017 41 / 52

Régression logistique La régression logistique se résume alors à trouver w minimisant le risque empirique 1 m m i=1 ( ) log 1 + e y i w,x i. Puisque la fonction de perte logistique est convexe, trouver w minimisant le risque empirique se fait efficacement par la descente de gradient (voir plus tard) La fonction σ( w, x ) ainsi obtenue s interprète comme la probabilité, selon w, que l étiquette de x soit +1. La régression logistique et la régression linéaire s utilisent le plus souvent en ajoutant λ w 2 au risque empirique (avec λ 1/ m, voir plus loin) et deviennent des algorithmes d apprentissage très performants lorsqu utilisés avec une représentation appropriée pour X où un noyau approprié (voir plus loin). Université Laval IFT-7002 Hiver 2017 41 / 52