IFT-7002 Apprentissage Automatique

Dimension: px
Commencer à balayer dès la page:

Download "IFT-7002 Apprentissage Automatique"

Transcription

1 IFT-7002 Apprentissage Automatique Modèle d apprentissage général et le compromis biais-complexité Shai Shalev-Shwartz The Hebrew University of Jerusalem Traduit et adapté par Mario Marchand Université Laval Hiver 2017 Université Laval IFT-7002 Hiver / 52

2 Sommaire 1 Le modèle PAC général Enlever la supposition qu il existe un f H avec risque nul Au-delà de la classification binaire Le modèle général PAC 2 Apprendre par la convergence uniforme 3 Régression linéaire et les moindres carrés Ajustement polynômial 4 Régression logistique 5 Le compromis biais-complexité Décomposition de l erreur 6 Validation et sélection du Modèle Université Laval IFT-7002 Hiver / 52

3 Le modèle PAC agnostique On a supposé que les étiquettes étaient générées par un f H Université Laval IFT-7002 Hiver / 52

4 Le modèle PAC agnostique On a supposé que les étiquettes étaient générées par un f H Cette supposition peut s avérer trop forte! Université Laval IFT-7002 Hiver / 52

5 Le modèle PAC agnostique On a supposé que les étiquettes étaient générées par un f H Cette supposition peut s avérer trop forte! Maintenant, soyons plus réaliste en considérant que les étiquettes sont générées par une distribution (que nous ne connaissons pas). Université Laval IFT-7002 Hiver / 52

6 Le modèle PAC agnostique Pour le modèle PAC, D est une distribution sur le domaine X Université Laval IFT-7002 Hiver / 52

7 Le modèle PAC agnostique Pour le modèle PAC, D est une distribution sur le domaine X Maintenant, considérons que D est une distribution sur X Y Université Laval IFT-7002 Hiver / 52

8 Le modèle PAC agnostique Pour le modèle PAC, D est une distribution sur le domaine X Maintenant, considérons que D est une distribution sur X Y Le risque L D (h) d une hypothèse h est alors redéfini comme suit : L D (h) = def P [h(x) y] def = D({(x, y) : h(x) y}) (x,y) D Université Laval IFT-7002 Hiver / 52

9 Le modèle PAC agnostique Pour le modèle PAC, D est une distribution sur le domaine X Maintenant, considérons que D est une distribution sur X Y Le risque L D (h) d une hypothèse h est alors redéfini comme suit : L D (h) = def P [h(x) y] def = D({(x, y) : h(x) y}) (x,y) D Le critère de approximativement correct est alors remplacé par L D (A(S)) min h H L D(h) + ɛ Université Laval IFT-7002 Hiver / 52

10 PAC vs. PAC agnostique PAC PAC agnostique Distribution : D sur X D sur X Y Étiquetage : f H pas dans la classe ou n existe pas Risque L D,f (h) = L D (h) = D({x : h(x) f(x)}) D({(x, y) : h(x) y}) Échantillon S : (x 1,..., x m ) D m ((x 1, y 1 ),..., (x m, y m )) D m i, y i = f(x i ) Objectif : L D,f (A(S)) ɛ L D (A(S)) min h H L D (h) + ɛ Université Laval IFT-7002 Hiver / 52

11 Au-delà de la classification binaire Autres problèmes d apprentissage : Catégorisation multi-classe : Y est un ensemble fini représentant Y differentes classes. E.g. X est l espace des documents et Y = {Actualité, Sports, Biologie, Médicine} Université Laval IFT-7002 Hiver / 52

12 Au-delà de la classification binaire Autres problèmes d apprentissage : Catégorisation multi-classe : Y est un ensemble fini représentant Y differentes classes. E.g. X est l espace des documents et Y = {Actualité, Sports, Biologie, Médicine} Régression : Y = R. E.g. on désire prédire le poids d un bébé à sa naissance en fonction de la mesure (par ultrasons) de la circonférence du crâne, de la circonférence de l abdomen et de la longueur du fémur. Université Laval IFT-7002 Hiver / 52

13 Fonctions de perte Soit Z = X Y Université Laval IFT-7002 Hiver / 52

14 Fonctions de perte Soit Z = X Y Ayant une hypothèse h H, et un exemple (x, y) Z, quelle est la qualité de la prédiction de h sur (x, y)? Université Laval IFT-7002 Hiver / 52

15 Fonctions de perte Soit Z = X Y Ayant une hypothèse h H, et un exemple (x, y) Z, quelle est la qualité de la prédiction de h sur (x, y)? Fonction de perte : l : H Z R + Université Laval IFT-7002 Hiver / 52

16 Fonctions de perte Soit Z = X Y Ayant une hypothèse h H, et un exemple (x, y) Z, quelle est la qualité de la prédiction de h sur (x, y)? Fonction de perte : l : H Z R + Exemples : Université Laval IFT-7002 Hiver / 52

17 Fonctions de perte Soit Z = X Y Ayant une hypothèse h H, et un exemple (x, y) Z, quelle est la qualité de la prédiction de h sur (x, y)? Fonction de perte : l : H Z R + Exemples : { 1 if h(x) y Perte 0-1 : l(h, (x, y)) = 0 if h(x) = y Université Laval IFT-7002 Hiver / 52

18 Fonctions de perte Soit Z = X Y Ayant une hypothèse h H, et un exemple (x, y) Z, quelle est la qualité de la prédiction de h sur (x, y)? Fonction de perte : l : H Z R + Exemples : { 1 if h(x) y Perte 0-1 : l(h, (x, y)) = 0 if h(x) = y Perte quadratique : l(h, (x, y)) = (h(x) y) 2 Université Laval IFT-7002 Hiver / 52

19 Fonctions de perte Soit Z = X Y Ayant une hypothèse h H, et un exemple (x, y) Z, quelle est la qualité de la prédiction de h sur (x, y)? Fonction de perte : l : H Z R + Exemples : { 1 if h(x) y Perte 0-1 : l(h, (x, y)) = 0 if h(x) = y Perte quadratique : l(h, (x, y)) = (h(x) y) 2 Valeur absolue de la différence : l(h, (x, y)) = h(x) y Université Laval IFT-7002 Hiver / 52

20 Fonctions de perte Soit Z = X Y Ayant une hypothèse h H, et un exemple (x, y) Z, quelle est la qualité de la prédiction de h sur (x, y)? Fonction de perte : l : H Z R + Exemples : { 1 if h(x) y Perte 0-1 : l(h, (x, y)) = 0 if h(x) = y Perte quadratique : l(h, (x, y)) = (h(x) y) 2 Valeur absolue de la différence : l(h, (x, y)) = h(x) y Matrice de coûts : l(h, (x, y)) = C h(x),y où C est une matrice Y Y Université Laval IFT-7002 Hiver / 52

21 Le modèle général PAC Nous désirons probablement et approximativement résoudre : min L D(h) tel que L D (h) = def E [l(h, z)]. h H z D Université Laval IFT-7002 Hiver / 52

22 Le modèle général PAC Nous désirons probablement et approximativement résoudre : min L D(h) tel que L D (h) = def E [l(h, z)]. h H z D L apprenant connaît H, Z et l Université Laval IFT-7002 Hiver / 52

23 Le modèle général PAC Nous désirons probablement et approximativement résoudre : min L D(h) tel que L D (h) = def E [l(h, z)]. h H z D L apprenant connaît H, Z et l L apprenant reçoit un paramètre de précision ɛ et un paramètre de confiance δ Université Laval IFT-7002 Hiver / 52

24 Le modèle général PAC Nous désirons probablement et approximativement résoudre : min L D(h) tel que L D (h) = def E [l(h, z)]. h H z D L apprenant connaît H, Z et l L apprenant reçoit un paramètre de précision ɛ et un paramètre de confiance δ L apprenant choisi le nombre m d exemples en fonction de ɛ, δ Université Laval IFT-7002 Hiver / 52

25 Le modèle général PAC Nous désirons probablement et approximativement résoudre : min L D(h) tel que L D (h) = def E [l(h, z)]. h H z D L apprenant connaît H, Z et l L apprenant reçoit un paramètre de précision ɛ et un paramètre de confiance δ L apprenant choisi le nombre m d exemples en fonction de ɛ, δ L apprenant ne connaît pas D mais peut obtenir un échantillon S D m Université Laval IFT-7002 Hiver / 52

26 Le modèle général PAC Nous désirons probablement et approximativement résoudre : min L D(h) tel que L D (h) = def E [l(h, z)]. h H z D L apprenant connaît H, Z et l L apprenant reçoit un paramètre de précision ɛ et un paramètre de confiance δ L apprenant choisi le nombre m d exemples en fonction de ɛ, δ L apprenant ne connaît pas D mais peut obtenir un échantillon S D m En utilisant S, l apprenant A produit une hypothèse A(S) Université Laval IFT-7002 Hiver / 52

27 Le modèle général PAC Nous désirons probablement et approximativement résoudre : min L D(h) tel que L D (h) = def E [l(h, z)]. h H z D L apprenant connaît H, Z et l L apprenant reçoit un paramètre de précision ɛ et un paramètre de confiance δ L apprenant choisi le nombre m d exemples en fonction de ɛ, δ L apprenant ne connaît pas D mais peut obtenir un échantillon S D m En utilisant S, l apprenant A produit une hypothèse A(S) Nous désirons, avec probabilité au moins 1 δ sur les tirages de S, que l on ait L D (A(S)) min h H L D (h) + ɛ Université Laval IFT-7002 Hiver / 52

28 PAC agnostique : définition formelle Un classe d hypothèses H est apprenable au sens PAC agnostique, relativement à un ensemble Z = X Y et une une fonction de perte l : H Z R +, s il existe une fonction m H : (0, 1) 2 N et un algorithme d apprentissage A satisfaisant la propriété suivante : pour tout ɛ, δ (0, 1), m m H (ɛ, δ) et distribution D sur Z, }) D ({S m Z m : L D (A(S)) min L D(h) + ɛ 1 δ h H Université Laval IFT-7002 Hiver / 52

29 Outline 1 Le modèle PAC général Enlever la supposition qu il existe un f H avec risque nul Au-delà de la classification binaire Le modèle général PAC 2 Apprendre par la convergence uniforme 3 Régression linéaire et les moindres carrés Ajustement polynômial 4 Régression logistique 5 Le compromis biais-complexité Décomposition de l erreur 6 Validation et sélection du Modèle Université Laval IFT-7002 Hiver / 52

30 Échantillon représentatif Définition (échantillon ɛ-représentatif) Un échantillon S est ɛ-représentatif (relativement à H, l et D) si h H, L S (h) L D (h) ɛ. Université Laval IFT-7002 Hiver / 52

31 Échantillon représentatif Lemme Soit un échantillon S qui est ɛ 2 -représentatif. Alors la sortie de ERM H(S), i.e., tout h S argmin h H L S (h), satisfait L D (h S ) min h H L D(h) + ɛ. Preuve: Pour tout h H, nous avons que L D (h S ) L S (h S ) + ɛ 2 L S(h) + ɛ 2 L D(h) + ɛ 2 + ɛ 2 = L D(h) + ɛ Université Laval IFT-7002 Hiver / 52

32 La convergence uniforme suffit pour apprendre Définition (convergence uniforme) H possède la propriété de convergence uniforme s il existe une fonction m UC H : (0, 1)2 N telle que pour tout ɛ, δ (0, 1), pour toute distribution D, et pour tout m m UC H (ɛ, δ), nous avons D m ({S Z m : S est ɛ -représentatif}) 1 δ Université Laval IFT-7002 Hiver / 52

33 La convergence uniforme suffit pour apprendre Définition (convergence uniforme) H possède la propriété de convergence uniforme s il existe une fonction m UC H : (0, 1)2 N telle que pour tout ɛ, δ (0, 1), pour toute distribution D, et pour tout m m UC H (ɛ, δ), nous avons D m ({S Z m : S est ɛ -représentatif}) 1 δ Corollaire (La convergence uniforme suffit pour apprendre) Université Laval IFT-7002 Hiver / 52

34 La convergence uniforme suffit pour apprendre Définition (convergence uniforme) H possède la propriété de convergence uniforme s il existe une fonction m UC H : (0, 1)2 N telle que pour tout ɛ, δ (0, 1), pour toute distribution D, et pour tout m m UC H (ɛ, δ), nous avons D m ({S Z m : S est ɛ -représentatif}) 1 δ Corollaire (La convergence uniforme suffit pour apprendre) Si H possède la propriété de convergence uniforme avec la fonction m UC H, alors H est apprenable au sens PAC agnostique avec une complexité d échantillon m H (ɛ, δ) m UC H (ɛ/2, δ). Université Laval IFT-7002 Hiver / 52

35 La convergence uniforme suffit pour apprendre Définition (convergence uniforme) H possède la propriété de convergence uniforme s il existe une fonction m UC H : (0, 1)2 N telle que pour tout ɛ, δ (0, 1), pour toute distribution D, et pour tout m m UC H (ɛ, δ), nous avons D m ({S Z m : S est ɛ -représentatif}) 1 δ Corollaire (La convergence uniforme suffit pour apprendre) Si H possède la propriété de convergence uniforme avec la fonction m UC H, alors H est apprenable au sens PAC agnostique avec une complexité d échantillon m H (ɛ, δ) m UC H (ɛ/2, δ). De plus, dans ce cas, ERM H est un algorithme d apprentissage pour H au sens PAC agnostique. Université Laval IFT-7002 Hiver / 52

36 Les classes finies sont apprenables au sens PAC agnostique Nous allons démontrer le théorème suivant : Université Laval IFT-7002 Hiver / 52

37 Les classes finies sont apprenables au sens PAC agnostique Nous allons démontrer le théorème suivant : Théorème Soit H une classe finie et soit une fonction de perte à valeur dans [0, 1]. Alors, H est apprenable au sens PAC agnostique en utilisant ERM H avec la complexité d échantillon satisfaisant 2 log(2 H /δ) m H (ɛ, δ). ɛ 2 Université Laval IFT-7002 Hiver / 52

38 Les classes finies sont apprenables au sens PAC agnostique Nous allons démontrer le théorème suivant : Théorème Soit H une classe finie et soit une fonction de perte à valeur dans [0, 1]. Alors, H est apprenable au sens PAC agnostique en utilisant ERM H avec la complexité d échantillon satisfaisant 2 log(2 H /δ) m H (ɛ, δ). ɛ 2 Université Laval IFT-7002 Hiver / 52

39 Les classes finies sont apprenables au sens PAC agnostique Nous allons démontrer le théorème suivant : Théorème Soit H une classe finie et soit une fonction de perte à valeur dans [0, 1]. Alors, H est apprenable au sens PAC agnostique en utilisant ERM H avec la complexité d échantillon satisfaisant 2 log(2 H /δ) m H (ɛ, δ). Preuve: En raison du dernier corollaire, il suffit de démontrer que H possède la propriété de convergence uniforme avec log(2 H /δ) m UC H (ɛ, δ) 2ɛ 2. ɛ 2 Université Laval IFT-7002 Hiver / 52

40 Preuve (suite) Pour démontrer la convergence uniforme, il suffit de démontrer que : D m ({S : h H, L S (h) L D (h) ɛ}) 1 δ, Université Laval IFT-7002 Hiver / 52

41 Preuve (suite) Pour démontrer la convergence uniforme, il suffit de démontrer que : D m ({S : h H, L S (h) L D (h) ɛ}) 1 δ, ou, de manière équivalente, il suffit de démontrer que : D m ({S : h H, L S (h) L D (h) > ɛ}) δ. Université Laval IFT-7002 Hiver / 52

42 Preuve (suite) Pour démontrer la convergence uniforme, il suffit de démontrer que : D m ({S : h H, L S (h) L D (h) ɛ}) 1 δ, ou, de manière équivalente, il suffit de démontrer que : D m ({S : h H, L S (h) L D (h) > ɛ}) δ. Par la borne de l union, nous avons : D m ({S : h H, L S (h) L D (h) > ɛ}) = D m ( h H {S : L S (h) L D (h) > ɛ}) D m ({S : L S (h) L D (h) > ɛ}) h H H max h H Dm ({S : L S (h) L D (h) > ɛ}). Université Laval IFT-7002 Hiver / 52

43 Preuve (suite) Rappel : L D (h) = E z D [l(h, z)] et L S (h) = 1 m m i=1 l(h, z i). Université Laval IFT-7002 Hiver / 52

44 Preuve (suite) Rappel : L D (h) = E z D [l(h, z)] et L S (h) = 1 m m i=1 l(h, z i). Soit θ i = l(h, z i ). Université Laval IFT-7002 Hiver / 52

45 Preuve (suite) Rappel : L D (h) = E z D [l(h, z)] et L S (h) = 1 m m i=1 l(h, z i). Soit θ i = l(h, z i ). Alors, pour tout i, E[θ i ] = L D (h) Université Laval IFT-7002 Hiver / 52

46 Preuve (suite) Rappel : L D (h) = E z D [l(h, z)] et L S (h) = 1 m m i=1 l(h, z i). Soit θ i = l(h, z i ). Alors, pour tout i, E[θ i ] = L D (h) Lemme (Inégalité de Hoeffding) Soit θ 1,..., θ m une sequence de variables aléatoires i.i.d. et supposez que pour tout i, E[θ i ] = µ et P[a θ i b] = 1. Alors, pour tout ɛ > 0 [ ] m 1 P m θ i µ > ɛ 2 exp ( 2 m ɛ 2 /(b a) 2). i=1 Université Laval IFT-7002 Hiver / 52

47 Preuve (suite) Rappel : L D (h) = E z D [l(h, z)] et L S (h) = 1 m m i=1 l(h, z i). Soit θ i = l(h, z i ). Alors, pour tout i, E[θ i ] = L D (h) Lemme (Inégalité de Hoeffding) Soit θ 1,..., θ m une sequence de variables aléatoires i.i.d. et supposez que pour tout i, E[θ i ] = µ et P[a θ i b] = 1. Alors, pour tout ɛ > 0 [ ] m 1 P m θ i µ > ɛ 2 exp ( 2 m ɛ 2 /(b a) 2). i=1 Université Laval IFT-7002 Hiver / 52

48 Preuve (suite) Rappel : L D (h) = E z D [l(h, z)] et L S (h) = 1 m m i=1 l(h, z i). Soit θ i = l(h, z i ). Alors, pour tout i, E[θ i ] = L D (h) Lemme (Inégalité de Hoeffding) Soit θ 1,..., θ m une sequence de variables aléatoires i.i.d. et supposez que pour tout i, E[θ i ] = µ et P[a θ i b] = 1. Alors, pour tout ɛ > 0 [ ] m 1 P m θ i µ > ɛ 2 exp ( 2 m ɛ 2 /(b a) 2). i=1 Cela implique que pour h fixe, on a D m ({S : L S (h) L D (h) > ɛ}) 2 exp ( 2 m ɛ 2). Université Laval IFT-7002 Hiver / 52

49 Preuve (suite) Nous avons démontré que : D m ({S : h H, L S (h) L D (h) > ɛ}) 2 H exp ( 2 m ɛ 2) Alors, si m log(2 H /δ), le terme à droite est δ tel que désiré. 2ɛ 2 Université Laval IFT-7002 Hiver / 52

50 Le truc de discrétisation Supposons que H est paramétrisé par d nombres (e.g., les demi-espaces à d 1 dimensions avec seuil). Université Laval IFT-7002 Hiver / 52

51 Le truc de discrétisation Supposons que H est paramétrisé par d nombres (e.g., les demi-espaces à d 1 dimensions avec seuil). Supposons que nous utilisions b bits pour coder chaque nombre (e.g., b = 32) Université Laval IFT-7002 Hiver / 52

52 Le truc de discrétisation Supposons que H est paramétrisé par d nombres (e.g., les demi-espaces à d 1 dimensions avec seuil). Supposons que nous utilisions b bits pour coder chaque nombre (e.g., b = 32) Alors H 2 db, et donc 2db log log(2/δ) m H (ɛ, δ). ɛ 2 Université Laval IFT-7002 Hiver / 52

53 Le truc de discrétisation Supposons que H est paramétrisé par d nombres (e.g., les demi-espaces à d 1 dimensions avec seuil). Supposons que nous utilisions b bits pour coder chaque nombre (e.g., b = 32) Alors H 2 db, et donc 2db log log(2/δ) m H (ɛ, δ). Pas très élégant, mais utile pour borner supérieurement la complexité d échantillon. ɛ 2 Université Laval IFT-7002 Hiver / 52

54 Convergence uniform des classes de VCdim finies Les classes H dont VCdim(H) = d < possèdent la propriété de convergence uniforme. Université Laval IFT-7002 Hiver / 52

55 Convergence uniform des classes de VCdim finies Les classes H dont VCdim(H) = d < possèdent la propriété de convergence uniforme. Théorème (Convergence uniforme et VCdim) Considérez la fonction de perte zéro-un. Soit H une classe de fonctions de X vers {0, 1} et de VCdim(H) = d <. Il existe alors une fonction m UC H : (0, 1)2 N et des constantes C 1, C 2 satisfaisant C 1 d + log(1/δ) ɛ 2 telles que pour tout m m UC H (ɛ, δ), on a. m UC H (ɛ, δ) C 2 d + log(1/δ) ɛ 2, D m {S : L D (h) L S (h) ɛ, h H} 1 δ Université Laval IFT-7002 Hiver / 52

56 Les classes de VCdim finies sont apprenables En conséquence, le dernier théorème admet le corollaire suivant. Université Laval IFT-7002 Hiver / 52

57 Les classes de VCdim finies sont apprenables En conséquence, le dernier théorème admet le corollaire suivant. Corollaire (généralisation du théorème fondamental de l apprentissage) Considérez la fonction de perte zéro-un. Soit H une classe de fonctions de X vers {0, 1} et de VCdim(H) = d <. H est apprenable au sens PAC agnostique. Plus spécifiquement, pour tout m m UC H (ɛ/2, δ) et pour tout h S argmin h H L S (h), on a D m {S : L D (h S ) min h H L D(h) + ɛ, } 1 δ. Université Laval IFT-7002 Hiver / 52

58 Les classes de VCdim finies sont apprenables En conséquence, le dernier théorème admet le corollaire suivant. Corollaire (généralisation du théorème fondamental de l apprentissage) Considérez la fonction de perte zéro-un. Soit H une classe de fonctions de X vers {0, 1} et de VCdim(H) = d <. H est apprenable au sens PAC agnostique. Plus spécifiquement, pour tout m m UC H (ɛ/2, δ) et pour tout h S argmin h H L S (h), on a D m {S : L D (h S ) min h H L D(h) + ɛ, } 1 δ. Université Laval IFT-7002 Hiver / 52

59 Les classes de VCdim finies sont apprenables En conséquence, le dernier théorème admet le corollaire suivant. Corollaire (généralisation du théorème fondamental de l apprentissage) Considérez la fonction de perte zéro-un. Soit H une classe de fonctions de X vers {0, 1} et de VCdim(H) = d <. H est apprenable au sens PAC agnostique. Plus spécifiquement, pour tout m m UC H (ɛ/2, δ) et pour tout h S argmin h H L S (h), on a Remarques : D m {S : L D (h S ) min h H L D(h) + ɛ, } 1 δ. Des résultats similaires existent pour les problèmes de régression avec la fonction de perte quadratique (et la valeur absolue de la différence). Université Laval IFT-7002 Hiver / 52

60 Les classes de VCdim finies sont apprenables En conséquence, le dernier théorème admet le corollaire suivant. Corollaire (généralisation du théorème fondamental de l apprentissage) Considérez la fonction de perte zéro-un. Soit H une classe de fonctions de X vers {0, 1} et de VCdim(H) = d <. H est apprenable au sens PAC agnostique. Plus spécifiquement, pour tout m m UC H (ɛ/2, δ) et pour tout h S argmin h H L S (h), on a Remarques : D m {S : L D (h S ) min h H L D(h) + ɛ, } 1 δ. Des résultats similaires existent pour les problèmes de régression avec la fonction de perte quadratique (et la valeur absolue de la différence). La convergence uniforme est suffisante mais non nécessaire. Nous verrons plus loin qu il est possible d apprendre avec une classe de fonctions ne possédant pas la propriété de convergence uniforme. Université Laval IFT-7002 Hiver / 52

61 Outline 1 Le modèle PAC général Enlever la supposition qu il existe un f H avec risque nul Au-delà de la classification binaire Le modèle général PAC 2 Apprendre par la convergence uniforme 3 Régression linéaire et les moindres carrés Ajustement polynômial 4 Régression logistique 5 Le compromis biais-complexité Décomposition de l erreur 6 Validation et sélection du Modèle Université Laval IFT-7002 Hiver / 52

62 Régression linéaire X R d, Y R, H = {x w, x : w R d } Université Laval IFT-7002 Hiver / 52

63 Régression linéaire X R d, Y R, H = {x w, x : w R d } Exemple pour d = 1 : prédire le poids d un enfant à partir de son âge. Université Laval IFT-7002 Hiver / 52

64 Régression linéaire X R d, Y R, H = {x w, x : w R d } Exemple pour d = 1 : prédire le poids d un enfant à partir de son âge. Université Laval IFT-7002 Hiver / 52

65 Régression linéaire X R d, Y R, H = {x w, x : w R d } Exemple pour d = 1 : prédire le poids d un enfant à partir de son âge. 18 poids (kg) âge (années) Université Laval IFT-7002 Hiver / 52

66 La perte quadratique La perte zéro-un n est pas appropriée pour la régression. Université Laval IFT-7002 Hiver / 52

67 La perte quadratique La perte zéro-un n est pas appropriée pour la régression. Utilisons la perte quadratique : l(h, (x, y)) = (h(x) y) 2. Université Laval IFT-7002 Hiver / 52

68 La perte quadratique La perte zéro-un n est pas appropriée pour la régression. Utilisons la perte quadratique : l(h, (x, y)) = (h(x) y) 2. Minimisation du risque empirique s écrit alors : 1 min w R d m m ( w, x i y i ) 2 i=1 Université Laval IFT-7002 Hiver / 52

69 La perte quadratique La perte zéro-un n est pas appropriée pour la régression. Utilisons la perte quadratique : l(h, (x, y)) = (h(x) y) 2. Minimisation du risque empirique s écrit alors : 1 min w R d m m ( w, x i y i ) 2 i=1 Soit X la matrice d m telle que sa ième colonne est x i, et y le vecteur tel que sa ième composante est y i. Université Laval IFT-7002 Hiver / 52

70 La perte quadratique La perte zéro-un n est pas appropriée pour la régression. Utilisons la perte quadratique : l(h, (x, y)) = (h(x) y) 2. Minimisation du risque empirique s écrit alors : 1 min w R d m m ( w, x i y i ) 2 i=1 Soit X la matrice d m telle que sa ième colonne est x i, et y le vecteur tel que sa ième composante est y i. Alors la minimisation du risque empirique s écrit : min X w y 2 w R d Université Laval IFT-7002 Hiver / 52

71 Gradient et Optimisation La dérivée, f, d une fonction f : R R est définie par f f(x + ) f(x) (x) = def lim. 0 Université Laval IFT-7002 Hiver / 52

72 Gradient et Optimisation La dérivée, f, d une fonction f : R R est définie par f f(x + ) f(x) (x) = def lim. 0 Si x minimise f(x) alors f (x) = 0. Université Laval IFT-7002 Hiver / 52

73 Gradient et Optimisation La dérivée, f, d une fonction f : R R est définie par f f(x + ) f(x) (x) = def lim. 0 Si x minimise f(x) alors f (x) = 0. Soit f : R d R. Université Laval IFT-7002 Hiver / 52

74 Gradient et Optimisation La dérivée, f, d une fonction f : R R est définie par f f(x + ) f(x) (x) = def lim. 0 Si x minimise f(x) alors f (x) = 0. Soit f : R d R. Son gradient, f(x), est un vecteur de dimension d tel que sa ième composante est la dérivée (évaluée en a = 0) de la fonction scalaire g(a) = def f((x 1,..., x i 1, x i + a, x i+1,..., x d )). Université Laval IFT-7002 Hiver / 52

75 Gradient et Optimisation La dérivée, f, d une fonction f : R R est définie par f f(x + ) f(x) (x) = def lim. 0 Si x minimise f(x) alors f (x) = 0. Soit f : R d R. Son gradient, f(x), est un vecteur de dimension d tel que sa ième composante est la dérivée (évaluée en a = 0) de la fonction scalaire g(a) = def f((x 1,..., x i 1, x i + a, x i+1,..., x d )). La dérivée de g s appelle la dérivée partielle de f, dénotée par f/ x i. Université Laval IFT-7002 Hiver / 52

76 Gradient et Optimisation La dérivée, f, d une fonction f : R R est définie par f f(x + ) f(x) (x) = def lim. 0 Si x minimise f(x) alors f (x) = 0. Soit f : R d R. Son gradient, f(x), est un vecteur de dimension d tel que sa ième composante est la dérivée (évaluée en a = 0) de la fonction scalaire g(a) = def f((x 1,..., x i 1, x i + a, x i+1,..., x d )). La dérivée de g s appelle la dérivée partielle de f, dénotée par f/ x i. Si x minimise f(x) alors f(x) = (0,..., 0). Université Laval IFT-7002 Hiver / 52

77 Le Jacobien et la règle d enchainement Le Jacobien d une fonction f : R d R m évalué à x R d, dénoté J x (f), est une matrice m d telle que sa ième ligne est f i (x). Université Laval IFT-7002 Hiver / 52

78 Le Jacobien et la règle d enchainement Le Jacobien d une fonction f : R d R m évalué à x R d, dénoté J x (f), est une matrice m d telle que sa ième ligne est f i (x). Si m = 1 alors J x (f) = [ f(x)] (un vecteur ligne). Université Laval IFT-7002 Hiver / 52

79 Le Jacobien et la règle d enchainement Le Jacobien d une fonction f : R d R m évalué à x R d, dénoté J x (f), est une matrice m d telle que sa ième ligne est f i (x). Si m = 1 alors J x (f) = [ f(x)] (un vecteur ligne). Si f(w) = Aw pour A R m,d alors J w (f) = A. Université Laval IFT-7002 Hiver / 52

80 Le Jacobien et la règle d enchainement Le Jacobien d une fonction f : R d R m évalué à x R d, dénoté J x (f), est une matrice m d telle que sa ième ligne est f i (x). Si m = 1 alors J x (f) = [ f(x)] (un vecteur ligne). Si f(w) = Aw pour A R m,d alors J w (f) = A. Règle d enchainement : Soit f : R d R m et g : R k R d, le Jacobien de la composition (f g) : R k R m, évalué à x, est donné par J x (f g) = J g(x) (f)j x (g). Université Laval IFT-7002 Hiver / 52

81 Les moindres carrés De retour à notre problème de minimisation du risque empirique : 1 min w R d 2 X w y 2 Université Laval IFT-7002 Hiver / 52

82 Les moindres carrés De retour à notre problème de minimisation du risque empirique : 1 min w R d 2 X w y 2 Soit g(w) = X w y et f(v) = 1 2 v 2 = 1 2 m i=1 v2 i. Université Laval IFT-7002 Hiver / 52

83 Les moindres carrés De retour à notre problème de minimisation du risque empirique : 1 min w R d 2 X w y 2 Soit g(w) = X w y et f(v) = 1 2 v 2 = 1 2 m i=1 v2 i. argmin w f(g(w)) est donné par w satisfaisant J w (f g) = 0. Université Laval IFT-7002 Hiver / 52

84 Les moindres carrés De retour à notre problème de minimisation du risque empirique : 1 min w R d 2 X w y 2 Soit g(w) = X w y et f(v) = 1 2 v 2 = 1 2 m i=1 v2 i. argmin w f(g(w)) est donné par w satisfaisant J w (f g) = 0. Or, J w (g) = X et J v (f) = (v 1,..., v m ). Université Laval IFT-7002 Hiver / 52

85 Les moindres carrés De retour à notre problème de minimisation du risque empirique : 1 min w R d 2 X w y 2 Soit g(w) = X w y et f(v) = 1 2 v 2 = 1 2 m i=1 v2 i. argmin w f(g(w)) est donné par w satisfaisant J w (f g) = 0. Or, J w (g) = X et J v (f) = (v 1,..., v m ). La règle d enchainement nous dit que J w (f g) = J g(w) (f)j w (g) = g(w) X = (X w y) X. Université Laval IFT-7002 Hiver / 52

86 Les moindres carrés De retour à notre problème de minimisation du risque empirique : 1 min w R d 2 X w y 2 Soit g(w) = X w y et f(v) = 1 2 v 2 = 1 2 m i=1 v2 i. argmin w f(g(w)) est donné par w satisfaisant J w (f g) = 0. Or, J w (g) = X et J v (f) = (v 1,..., v m ). La règle d enchainement nous dit que J w (f g) = J g(w) (f)j w (g) = g(w) X = (X w y) X. En imposant que J w (f g) = (0,..., 0), nous obtenons (X w y) X = 0 XX w = Xy. Université Laval IFT-7002 Hiver / 52

87 Les moindres carrés De retour à notre problème de minimisation du risque empirique : 1 min w R d 2 X w y 2 Soit g(w) = X w y et f(v) = 1 2 v 2 = 1 2 m i=1 v2 i. argmin w f(g(w)) est donné par w satisfaisant J w (f g) = 0. Or, J w (g) = X et J v (f) = (v 1,..., v m ). La règle d enchainement nous dit que J w (f g) = J g(w) (f)j w (g) = g(w) X = (X w y) X. En imposant que J w (f g) = (0,..., 0), nous obtenons (X w y) X = 0 XX w = Xy. Si XX est inversible, la solution de ce système d équations linéaires est donnée par w = (XX ) 1 Xy. Université Laval IFT-7002 Hiver / 52

88 Les moindres carrés Petit truc non rigoureux pour se rappeler de cette solution : Université Laval IFT-7002 Hiver / 52

89 Les moindres carrés Petit truc non rigoureux pour se rappeler de cette solution : Nous désirons obtenir X w y Université Laval IFT-7002 Hiver / 52

90 Les moindres carrés Petit truc non rigoureux pour se rappeler de cette solution : Nous désirons obtenir X w y Multipliez les deux côtés par X pour obtenir XX w Xy Université Laval IFT-7002 Hiver / 52

91 Les moindres carrés Petit truc non rigoureux pour se rappeler de cette solution : Nous désirons obtenir X w y Multipliez les deux côtés par X pour obtenir XX w Xy Multipliez les deux côtés par (XX ) 1 pour obtenir : w = (XX ) 1 Xy Université Laval IFT-7002 Hiver / 52

92 On a toujours au moins une solution! ( XX ) 1 existe ssi les vecteurs colonnes de X génèrent R d. Université Laval IFT-7002 Hiver / 52

93 On a toujours au moins une solution! ( XX ) 1 existe ssi les vecteurs colonnes de X génèrent R d. ( Preuve: ) XX 1 existe ssi pour tout w, il existe un seul w satisfaisant w = XX w. Or, m m m XX w = x k x k w = x k x k, w = c k x k = w. k=1 k=1 k=1 Université Laval IFT-7002 Hiver / 52

94 On a toujours au moins une solution! ( XX ) 1 existe ssi les vecteurs colonnes de X génèrent R d. ( Preuve: ) XX 1 existe ssi pour tout w, il existe un seul w satisfaisant w = XX w. Or, m m m XX w = x k x k w = x k x k, w = c k x k = w. k=1 k=1 Si {x k } m k=1 ne génère pas Rd, il existe plusieurs vecteurs w donnant le même (c 1,..., c m ), et donc le même w. k=1 Université Laval IFT-7002 Hiver / 52

95 On a toujours au moins une solution! ( XX ) 1 existe ssi les vecteurs colonnes de X génèrent R d. ( Preuve: ) XX 1 existe ssi pour tout w, il existe un seul w satisfaisant w = XX w. Or, m m m XX w = x k x k w = x k x k, w = c k x k = w. k=1 k=1 Si {x k } m k=1 ne génère pas Rd, il existe plusieurs vecteurs w donnant le même (c 1,..., c m ), et donc le même w. Si {x k } m k=1 génère Rd, il existe un seul w donnant (c 1,..., c m ), et donc w. k=1 Université Laval IFT-7002 Hiver / 52

96 On a toujours au moins une solution! ( XX ) 1 existe ssi les vecteurs colonnes de X génèrent R d. ( Preuve: ) XX 1 existe ssi pour tout w, il existe un seul w satisfaisant w = XX w. Or, m m m XX w = x k x k w = x k x k, w = c k x k = w. k=1 k=1 Si {x k } m k=1 ne génère pas Rd, il existe plusieurs vecteurs w donnant le même (c 1,..., c m ), et donc le même w. Si {x k } m k=1 génère Rd, il existe un seul w donnant (c 1,..., c m ), et donc w. Mais puisque Xy est un vecteur appartenant à l espace généré par les vecteurs colonnes de X, notre système d équations linéaires possède, en fait, une infinité de solutions lorsque l inverse de XX n existe pas. k=1 Université Laval IFT-7002 Hiver / 52

97 On a toujours au moins une solution! ( XX ) 1 existe ssi les vecteurs colonnes de X génèrent R d. ( Preuve: ) XX 1 existe ssi pour tout w, il existe un seul w satisfaisant w = XX w. Or, m m m XX w = x k x k w = x k x k, w = c k x k = w. k=1 k=1 Si {x k } m k=1 ne génère pas Rd, il existe plusieurs vecteurs w donnant le même (c 1,..., c m ), et donc le même w. Si {x k } m k=1 génère Rd, il existe un seul w donnant (c 1,..., c m ), et donc w. Mais puisque Xy est un vecteur appartenant à l espace généré par les vecteurs colonnes de X, notre système d équations linéaires possède, en fait, une infinité de solutions lorsque l inverse de XX n existe pas. Essayons alors de trouver l une de ces solutions. k=1 Université Laval IFT-7002 Hiver / 52

98 Puisque XX est une matrice d d symétrique, ses valeurs propres λ 1,..., λ d sont toutes non négatives et l on peut écrire XX = d λ k v k vk = V DV. k=1 Université Laval IFT-7002 Hiver / 52

99 Puisque XX est une matrice d d symétrique, ses valeurs propres λ 1,..., λ d sont toutes non négatives et l on peut écrire XX = d λ k v k vk = V DV. k=1 Ceci constitue la décomposition SVD de XX. Chaque colonne de V est un vecteur propre v k de XX, et D est une matrice diagonale constituée des valeurs propres λ 1,..., λ d. Université Laval IFT-7002 Hiver / 52

100 Puisque XX est une matrice d d symétrique, ses valeurs propres λ 1,..., λ d sont toutes non négatives et l on peut écrire XX = d λ k v k vk = V DV. k=1 Ceci constitue la décomposition SVD de XX. Chaque colonne de V est un vecteur propre v k de XX, et D est une matrice diagonale constituée des valeurs propres λ 1,..., λ d. Les vecteurs propres ici sont orthonormés, i.e., v i, v j = δ i,j. Université Laval IFT-7002 Hiver / 52

101 Puisque XX est une matrice d d symétrique, ses valeurs propres λ 1,..., λ d sont toutes non négatives et l on peut écrire XX = d λ k v k vk = V DV. k=1 Ceci constitue la décomposition SVD de XX. Chaque colonne de V est un vecteur propre v k de XX, et D est une matrice diagonale constituée des valeurs propres λ 1,..., λ d. Les vecteurs propres ici sont orthonormés, i.e., v i, v j = δ i,j. Notez que XX projette dans un espace de dimension < d (et n est donc pas inversible) ssi il existe k tel que λ k = 0. Université Laval IFT-7002 Hiver / 52

102 Puisque XX est une matrice d d symétrique, ses valeurs propres λ 1,..., λ d sont toutes non négatives et l on peut écrire XX = d λ k v k vk = V DV. k=1 Ceci constitue la décomposition SVD de XX. Chaque colonne de V est un vecteur propre v k de XX, et D est une matrice diagonale constituée des valeurs propres λ 1,..., λ d. Les vecteurs propres ici sont orthonormés, i.e., v i, v j = δ i,j. Notez que XX projette dans un espace de dimension < d (et n est donc pas inversible) ssi il existe k tel que λ k = 0. Trouvons alors un w solutionnant XX w = Xy qui se trouve dans l espace générés par les v k tel que λ k > 0, i.e., écrivons w = β k v k. k:λ k >0 Université Laval IFT-7002 Hiver / 52

103 La pseudo-inverse La pseudo-inverse de XX, noté ( XX ) +, est définie par ( XX ) + def = k:λ k >0 1 λ k v k v k. Université Laval IFT-7002 Hiver / 52

104 La pseudo-inverse La pseudo-inverse de XX, noté ( XX ) +, est définie par ( XX ) + def = On a alors (XX ) + XX = k:λ k >0 i:λ i >0 j:λ j >0 = i:λ i >0 j:λ j >0 1 λ k v k v k. λ j λ i v i v i v j v j λ j δ i,j v i vj = λ i i:λ i >0 v i v i. Université Laval IFT-7002 Hiver / 52

105 La pseudo-inverse La pseudo-inverse de XX, noté ( XX ) +, est définie par ( XX ) + def = On a alors (XX ) + XX = k:λ k >0 i:λ i >0 j:λ j >0 = i:λ i >0 j:λ j >0 1 λ k v k v k. λ j λ i v i v i v j v j λ j δ i,j v i vj = λ i i:λ i >0 v i v i. Puisqu il s agit de l opérateur identité lorsque toutes les valeurs propres sont non nulles, nous avons ( XX ) + = ( XX ) 1 lorsqu il n existe pas k t.q. λ k = 0, i.e., lorsque ( XX ) 1 existe. Université Laval IFT-7002 Hiver / 52

106 La solution générale Donc, pour tout w = k:λ k >0 β kv k, on a (XX ) + XX w = i:λ i >0 v i v i k:λ k >0 β k v k = w. Université Laval IFT-7002 Hiver / 52

107 La solution générale Donc, pour tout w = k:λ k >0 β kv k, on a (XX ) + XX w = i:λ i >0 v i v i k:λ k >0 β k v k = w. Mais puisque XX w = Xy, on a que w = ce qui constitue toujours une solution. ( XX ) + Xy, Université Laval IFT-7002 Hiver / 52

108 La solution générale Donc, pour tout w = k:λ k >0 β kv k, on a (XX ) + XX w = i:λ i >0 v i v i k:λ k >0 β k v k = w. Mais puisque XX w = Xy, on a que w = ce qui constitue toujours une solution. ( XX ) + Xy, Il s agit de la solution de norme Euclidienne minimale et elle se trouve dans l espace généré par les vecteurs colonnes de X. Université Laval IFT-7002 Hiver / 52

109 La solution des moindres carrés est une projection Nous désirons trouver w minimisant X w y. Université Laval IFT-7002 Hiver / 52

110 La solution des moindres carrés est une projection Nous désirons trouver w minimisant X w y. L ensemble C = def {X w : w R d } R m est le sous espace linéaire (de dimension d d) généré par X. Université Laval IFT-7002 Hiver / 52

111 La solution des moindres carrés est une projection Nous désirons trouver w minimisant X w y. L ensemble C = def {X w : w R d } R m est le sous espace linéaire (de dimension d d) généré par X. Puisque w est le solution des moindres carrés, alors ŷ = X w est le vecteur dans C qui est le plus près de y. Université Laval IFT-7002 Hiver / 52

112 La solution des moindres carrés est une projection Nous désirons trouver w minimisant X w y. L ensemble C = def {X w : w R d } R m est le sous espace linéaire (de dimension d d) généré par X. Puisque w est le solution des moindres carrés, alors ŷ = X w est le vecteur dans C qui est le plus près de y. ŷ est donc la projection de y sur C. Université Laval IFT-7002 Hiver / 52

113 La solution des moindres carrés est une projection Nous désirons trouver w minimisant X w y. L ensemble C = def {X w : w R d } R m est le sous espace linéaire (de dimension d d) généré par X. Puisque w est le solution des moindres carrés, alors ŷ = X w est le vecteur dans C qui est le plus près de y. ŷ est donc la projection de y sur C. Si M est une matrice m d constitué d une base orthonormale de C, ŷ peut alors s écrire comme ŷ = MM y. Université Laval IFT-7002 Hiver / 52

114 Ajustement polynômial Parfois, les prédicteurs linéaires ne sont pas suffisamment expressifs. Université Laval IFT-7002 Hiver / 52

115 Ajustement polynômial Parfois, les prédicteurs linéaires ne sont pas suffisamment expressifs. Montrons qu il est possible d ajuster un polynôme en utilisant la régression linéaire. Université Laval IFT-7002 Hiver / 52

116 Ajustement polynomial Considérons d abord X = R et les fonctions polynomiales de degré n : p(x) = a 0 + a 1 x + a 2 x a n x n Université Laval IFT-7002 Hiver / 52

117 Ajustement polynomial Considérons d abord X = R et les fonctions polynomiales de degré n : p(x) = a 0 + a 1 x + a 2 x a n x n Objectif : ayant les données S = ((x 1, y 1 ),..., (x m, y m )), trouvez un polynôme de degré n minimisant le risque empirique Université Laval IFT-7002 Hiver / 52

118 Ajustement polynomial Considérons d abord X = R et les fonctions polynomiales de degré n : p(x) = a 0 + a 1 x + a 2 x a n x n Objectif : ayant les données S = ((x 1, y 1 ),..., (x m, y m )), trouvez un polynôme de degré n minimisant le risque empirique Réduction à la régression linéaire : Université Laval IFT-7002 Hiver / 52

119 Ajustement polynomial Considérons d abord X = R et les fonctions polynomiales de degré n : p(x) = a 0 + a 1 x + a 2 x a n x n Objectif : ayant les données S = ((x 1, y 1 ),..., (x m, y m )), trouvez un polynôme de degré n minimisant le risque empirique Réduction à la régression linéaire : Soit ψ : R R n+1 tel que ψ(x) = def (1, x, x 2,..., x n ) Université Laval IFT-7002 Hiver / 52

120 Ajustement polynomial Considérons d abord X = R et les fonctions polynomiales de degré n : p(x) = a 0 + a 1 x + a 2 x a n x n Objectif : ayant les données S = ((x 1, y 1 ),..., (x m, y m )), trouvez un polynôme de degré n minimisant le risque empirique Réduction à la régression linéaire : Soit ψ : R R n+1 tel que ψ(x) = def (1, x, x 2,..., x n ) Soit a = (a 0, a 1,..., a n ). Observez que : p(x) = n a i x i = a, ψ(x) i=0 Université Laval IFT-7002 Hiver / 52

121 Ajustement polynomial Considérons d abord X = R et les fonctions polynomiales de degré n : p(x) = a 0 + a 1 x + a 2 x a n x n Objectif : ayant les données S = ((x 1, y 1 ),..., (x m, y m )), trouvez un polynôme de degré n minimisant le risque empirique Réduction à la régression linéaire : Soit ψ : R R n+1 tel que ψ(x) = def (1, x, x 2,..., x n ) Soit a = (a 0, a 1,..., a n ). Observez que : p(x) = n a i x i = a, ψ(x) i=0 Pour trouver a, il suffit de résoudre les moindres carrés par rapport à ((ψ(x 1 ), y 1 ),..., (ψ(x m ), y m )) Université Laval IFT-7002 Hiver / 52

122 Ajustement polynomial Le même truc s applique si X = R d au lieu de R. Dans ce cas, considérons Université Laval IFT-7002 Hiver / 52

123 Ajustement polynomial Le même truc s applique si X = R d au lieu de R. Dans ce cas, considérons ψ : R d R N(d,n) tel que : ψ(x) = (1, {x i } d i=1, {x i x j }, {x i x j x k },...) contenant tous les produits d au plus d composantes de x Université Laval IFT-7002 Hiver / 52

124 Ajustement polynomial Le même truc s applique si X = R d au lieu de R. Dans ce cas, considérons ψ : R d R N(d,n) tel que : ψ(x) = (1, {x i } d i=1, {x i x j }, {x i x j x k },...) contenant tous les produits d au plus d composantes de x Donc N(d, n) = 1 + d + d d n = (d n+1 1)/(d 1) pour tout d > 1. Université Laval IFT-7002 Hiver / 52

125 Ajustement polynomial Le même truc s applique si X = R d au lieu de R. Dans ce cas, considérons ψ : R d R N(d,n) tel que : ψ(x) = (1, {x i } d i=1, {x i x j }, {x i x j x k },...) contenant tous les produits d au plus d composantes de x Donc N(d, n) = 1 + d + d d n = (d n+1 1)/(d 1) pour tout d > 1. Notez que dans ce cas, X est un matrice N(d, n) m. Université Laval IFT-7002 Hiver / 52

126 Ajustement polynomial Le même truc s applique si X = R d au lieu de R. Dans ce cas, considérons ψ : R d R N(d,n) tel que : ψ(x) = (1, {x i } d i=1, {x i x j }, {x i x j x k },...) contenant tous les produits d au plus d composantes de x Donc N(d, n) = 1 + d + d d n = (d n+1 1)/(d 1) pour tout d > 1. Notez que dans ce cas, X est un matrice N(d, n) m. Donc XX est N(d, n) N(d, n) et nécessite alors un temps en O(d 3n ) pour son inversion. Université Laval IFT-7002 Hiver / 52

127 Ajustement polynomial Le même truc s applique si X = R d au lieu de R. Dans ce cas, considérons ψ : R d R N(d,n) tel que : ψ(x) = (1, {x i } d i=1, {x i x j }, {x i x j x k },...) contenant tous les produits d au plus d composantes de x Donc N(d, n) = 1 + d + d d n = (d n+1 1)/(d 1) pour tout d > 1. Notez que dans ce cas, X est un matrice N(d, n) m. Donc XX est N(d, n) N(d, n) et nécessite alors un temps en O(d 3n ) pour son inversion. Nous verrons plus loin qu il est possible d utiliser un noyau à la place de ψ ; ce qui nécessitera (uniquement) l inversion d une matrice m m, peu importe la valeur de n. Université Laval IFT-7002 Hiver / 52

128 Outline 1 Le modèle PAC général Enlever la supposition qu il existe un f H avec risque nul Au-delà de la classification binaire Le modèle général PAC 2 Apprendre par la convergence uniforme 3 Régression linéaire et les moindres carrés Ajustement polynômial 4 Régression logistique 5 Le compromis biais-complexité Décomposition de l erreur 6 Validation et sélection du Modèle Université Laval IFT-7002 Hiver / 52

129 Prédire la probabilité d appartenir à une classe On a K classes : Y = {1,..., K} ; alors Y = K. Université Laval IFT-7002 Hiver / 52

130 Prédire la probabilité d appartenir à une classe On a K classes : Y = {1,..., K} ; alors Y = K. Pour tout x X, on désire prédire la probabilité que x appartienne à la classe i Y. Université Laval IFT-7002 Hiver / 52

131 Prédire la probabilité d appartenir à une classe On a K classes : Y = {1,..., K} ; alors Y = K. Pour tout x X, on désire prédire la probabilité que x appartienne à la classe i Y. L approche de la régression logistique consiste à construire h = (h 1,..., h K ) : X [0, 1] K tel que h i (x) représente la probabilité que x appartienne à la classe i. Université Laval IFT-7002 Hiver / 52

132 Prédire la probabilité d appartenir à une classe On a K classes : Y = {1,..., K} ; alors Y = K. Pour tout x X, on désire prédire la probabilité que x appartienne à la classe i Y. L approche de la régression logistique consiste à construire h = (h 1,..., h K ) : X [0, 1] K tel que h i (x) représente la probabilité que x appartienne à la classe i. C est donc une approche de régression car il faut construire K fonctions à valeur dans [0, 1]. Cependant, il faut aussi satisfaire K h i (x) = 1, x X. i=1 Université Laval IFT-7002 Hiver / 52

133 Fonction de perte logarithmique Lorsque X = R d, l approche la plus courante consiste à utiliser un vecteur w i R d par fonction h i et de choisir h i (x) = 1 Z(x) e w i,x, Z(x) = def K e wi,x, i=1 ce qui nous assure d avoir K i=1 h i(x) = 1, x R d. Université Laval IFT-7002 Hiver / 52

134 Fonction de perte logarithmique Lorsque X = R d, l approche la plus courante consiste à utiliser un vecteur w i R d par fonction h i et de choisir h i (x) = 1 Z(x) e w i,x, Z(x) = def K e wi,x, i=1 ce qui nous assure d avoir K i=1 h i(x) = 1, x R d. La perte l(h, (x, y)) subit par le prédicteur h sur l exemple (x, y) est donnée par la fonction logarithmique ( ) 1 l(h, (x, y)) = def log = log Z(x) w y, x. h y (x) Université Laval IFT-7002 Hiver / 52

135 Fonction de perte logarithmique Lorsque X = R d, l approche la plus courante consiste à utiliser un vecteur w i R d par fonction h i et de choisir h i (x) = 1 Z(x) e w i,x, Z(x) = def K e wi,x, i=1 ce qui nous assure d avoir K i=1 h i(x) = 1, x R d. La perte l(h, (x, y)) subit par le prédicteur h sur l exemple (x, y) est donnée par la fonction logarithmique ( ) 1 l(h, (x, y)) = def log = log Z(x) w y, x. h y (x) Ainsi la perte sur (x, y) sera élevée lorsque h y (x) 1. Université Laval IFT-7002 Hiver / 52

136 Minimiser le risque empirique On peut démontrer que cette fonction de perte est convexe en (w 1,..., w K ) et, conséquemment, minimiser le risque empirique 1 m m i=1 ( ) 1 log, h yi (x i ) s effectue efficacement à l aide de la descente de gradient que l on verra plus loin. Université Laval IFT-7002 Hiver / 52

137 Minimiser le risque empirique On peut démontrer que cette fonction de perte est convexe en (w 1,..., w K ) et, conséquemment, minimiser le risque empirique 1 m m i=1 ( ) 1 log, h yi (x i ) s effectue efficacement à l aide de la descente de gradient que l on verra plus loin. Notez que pour la classification binaire (K = 2), on a h 1 (x) = h 2 (x) = e w 1,x e w1,x + e w 2,x e w 2,x e w2,x + e w 1,x = = e w 1 w 2,x e w 2 w 1,x Université Laval IFT-7002 Hiver / 52

138 Classification binaire et perte logistique En utilisant w = def w 1 w 2, on obtient 1 def h 1 (x) = 1 + e w,x = σ( w, x ) h 2 (x) = e w,x = 1 h 1 (x) Université Laval IFT-7002 Hiver / 52

139 Classification binaire et perte logistique En utilisant w = def w 1 w 2, on obtient 1 def h 1 (x) = 1 + e w,x = σ( w, x ) h 2 (x) = e w,x = 1 h 1 (x) La fonction σ(a) = 1/(1 + exp( a)) est appelée une sigmoïde (en forme de s ). Université Laval IFT-7002 Hiver / 52

140 Classification binaire et perte logistique En utilisant w = def w 1 w 2, on obtient 1 def h 1 (x) = 1 + e w,x = σ( w, x ) h 2 (x) = e w,x = 1 h 1 (x) La fonction σ(a) = 1/(1 + exp( a)) est appelée une sigmoïde (en forme de s ). On a : σ( ) = 0, σ(+ ) = 1, et σ(0) = 1/2. Université Laval IFT-7002 Hiver / 52

141 Classification binaire et perte logistique En utilisant w = def w 1 w 2, on obtient 1 def h 1 (x) = 1 + e w,x = σ( w, x ) h 2 (x) = e w,x = 1 h 1 (x) La fonction σ(a) = 1/(1 + exp( a)) est appelée une sigmoïde (en forme de s ). On a : σ( ) = 0, σ(+ ) = 1, et σ(0) = 1/2. Maintenant, utilisons Y = { 1, +1} à la place de Y = {1, 2} et w à la place de h. On obtient alors la perte logistique : ( ) ( ) 1 1 l(w, (x, y)) = 1 [y=+1] log + 1 [y= 1] log = 1 [y=+1] log = log h + (x) ( 1 + e w,x ) + 1 [y= 1] log ( 1 + e y w,x ). h (x) (1 + e w,x ) Université Laval IFT-7002 Hiver / 52

142 Régression logistique La régression logistique se résume alors à trouver w minimisant le risque empirique 1 m m i=1 ( ) log 1 + e y i w,x i. Université Laval IFT-7002 Hiver / 52

143 Régression logistique La régression logistique se résume alors à trouver w minimisant le risque empirique 1 m m i=1 ( ) log 1 + e y i w,x i. Puisque la fonction de perte logistique est convexe, trouver w minimisant le risque empirique se fait efficacement par la descente de gradient (voir plus tard) Université Laval IFT-7002 Hiver / 52

144 Régression logistique La régression logistique se résume alors à trouver w minimisant le risque empirique 1 m m i=1 ( ) log 1 + e y i w,x i. Puisque la fonction de perte logistique est convexe, trouver w minimisant le risque empirique se fait efficacement par la descente de gradient (voir plus tard) La fonction σ( w, x ) ainsi obtenue s interprète comme la probabilité, selon w, que l étiquette de x soit +1. Université Laval IFT-7002 Hiver / 52

145 Régression logistique La régression logistique se résume alors à trouver w minimisant le risque empirique 1 m m i=1 ( ) log 1 + e y i w,x i. Puisque la fonction de perte logistique est convexe, trouver w minimisant le risque empirique se fait efficacement par la descente de gradient (voir plus tard) La fonction σ( w, x ) ainsi obtenue s interprète comme la probabilité, selon w, que l étiquette de x soit +1. La régression logistique et la régression linéaire s utilisent le plus souvent en ajoutant λ w 2 au risque empirique (avec λ 1/ m, voir plus loin) et deviennent des algorithmes d apprentissage très performants lorsqu utilisés avec une représentation appropriée pour X où un noyau approprié (voir plus loin). Université Laval IFT-7002 Hiver / 52

146 Outline 1 Le modèle PAC général Enlever la supposition qu il existe un f H avec risque nul Au-delà de la classification binaire Le modèle général PAC 2 Apprendre par la convergence uniforme 3 Régression linéaire et les moindres carrés Ajustement polynômial 4 Régression logistique 5 Le compromis biais-complexité Décomposition de l erreur 6 Validation et sélection du Modèle Université Laval IFT-7002 Hiver / 52

Différentiabilité ; Fonctions de plusieurs variables réelles

Différentiabilité ; Fonctions de plusieurs variables réelles Différentiabilité ; Fonctions de plusieurs variables réelles Denis Vekemans R n est muni de l une des trois normes usuelles. 1,. 2 ou.. x 1 = i i n Toutes les normes de R n sont équivalentes. x i ; x 2

Plus en détail

Résolution d équations non linéaires

Résolution d équations non linéaires Analyse Numérique Résolution d équations non linéaires Said EL HAJJI et Touria GHEMIRES Université Mohammed V - Agdal. Faculté des Sciences Département de Mathématiques. Laboratoire de Mathématiques, Informatique

Plus en détail

Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34

Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34 Capacité d un canal Second Théorème de Shannon Théorie de l information 1/34 Plan du cours 1. Canaux discrets sans mémoire, exemples ; 2. Capacité ; 3. Canaux symétriques ; 4. Codage de canal ; 5. Second

Plus en détail

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/ Recherche opérationnelle Les démonstrations et les exemples seront traités en cours Souad EL Bernoussi Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/ Table des matières 1 Programmation

Plus en détail

Calcul différentiel sur R n Première partie

Calcul différentiel sur R n Première partie Calcul différentiel sur R n Première partie Université De Metz 2006-2007 1 Définitions générales On note L(R n, R m ) l espace vectoriel des applications linéaires de R n dans R m. Définition 1.1 (différentiabilité

Plus en détail

Programmation linéaire

Programmation linéaire 1 Programmation linéaire 1. Le problème, un exemple. 2. Le cas b = 0 3. Théorème de dualité 4. L algorithme du simplexe 5. Problèmes équivalents 6. Complexité de l Algorithme 2 Position du problème Soit

Plus en détail

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer Pour commencer Exercice 1 - Ensembles de définition - Première année - 1. Le logarithme est défini si x + y > 0. On trouve donc le demi-plan supérieur délimité par la droite d équation x + y = 0.. 1 xy

Plus en détail

Espérance conditionnelle

Espérance conditionnelle Espérance conditionnelle Samy Tindel Nancy-Université Master 1 - Nancy Samy T. (IECN) M1 - Espérance conditionnelle Nancy-Université 1 / 58 Plan 1 Définition 2 Exemples 3 Propriétés de l espérance conditionnelle

Plus en détail

3 Approximation de solutions d équations

3 Approximation de solutions d équations 3 Approximation de solutions d équations Une équation scalaire a la forme générale f(x) =0où f est une fonction de IR dans IR. Un système de n équations à n inconnues peut aussi se mettre sous une telle

Plus en détail

Formes quadratiques. 1 Formes quadratiques et formes polaires associées. Imen BHOURI. 1.1 Définitions

Formes quadratiques. 1 Formes quadratiques et formes polaires associées. Imen BHOURI. 1.1 Définitions Formes quadratiques Imen BHOURI 1 Ce cours s adresse aux étudiants de niveau deuxième année de Licence et à ceux qui préparent le capes. Il combine d une façon indissociable l étude des concepts bilinéaires

Plus en détail

Fonctions de plusieurs variables

Fonctions de plusieurs variables Module : Analyse 03 Chapitre 00 : Fonctions de plusieurs variables Généralités et Rappels des notions topologiques dans : Qu est- ce que?: Mathématiquement, n étant un entier non nul, on définit comme

Plus en détail

Notes du cours MTH1101 Calcul I Partie II: fonctions de plusieurs variables

Notes du cours MTH1101 Calcul I Partie II: fonctions de plusieurs variables Notes du cours MTH1101 Calcul I Partie II: fonctions de plusieurs variables Guy Desaulniers Département de mathématiques et de génie industriel École Polytechnique de Montréal Automne 2014 Table des matières

Plus en détail

Simulation de variables aléatoires

Simulation de variables aléatoires Chapter 1 Simulation de variables aléatoires Références: [F] Fishman, A first course in Monte Carlo, chap 3. [B] Bouleau, Probabilités de l ingénieur, chap 4. [R] Rubinstein, Simulation and Monte Carlo

Plus en détail

Théorème du point fixe - Théorème de l inversion locale

Théorème du point fixe - Théorème de l inversion locale Chapitre 7 Théorème du point fixe - Théorème de l inversion locale Dans ce chapitre et le suivant, on montre deux applications importantes de la notion de différentiabilité : le théorème de l inversion

Plus en détail

Méthodes de quadrature. Polytech Paris-UPMC. - p. 1/48

Méthodes de quadrature. Polytech Paris-UPMC. - p. 1/48 Méthodes de Polytech Paris-UPMC - p. 1/48 Polynôme d interpolation de Preuve et polynôme de Calcul de l erreur d interpolation Étude de la formule d erreur Autres méthodes - p. 2/48 Polynôme d interpolation

Plus en détail

Fonctions de plusieurs variables, intégrales multiples, et intégrales dépendant d un paramètre

Fonctions de plusieurs variables, intégrales multiples, et intégrales dépendant d un paramètre IUFM du Limousin 2009-10 PLC1 Mathématiques S. Vinatier Rappels de cours Fonctions de plusieurs variables, intégrales multiples, et intégrales dépendant d un paramètre 1 Fonctions de plusieurs variables

Plus en détail

I. Polynômes de Tchebychev

I. Polynômes de Tchebychev Première épreuve CCP filière MP I. Polynômes de Tchebychev ( ) 1.a) Tout réel θ vérifie cos(nθ) = Re ((cos θ + i sin θ) n ) = Re Cn k (cos θ) n k i k (sin θ) k Or i k est réel quand k est pair et imaginaire

Plus en détail

La programmation linéaire : une introduction. Qu est-ce qu un programme linéaire? Terminologie. Écriture mathématique

La programmation linéaire : une introduction. Qu est-ce qu un programme linéaire? Terminologie. Écriture mathématique La programmation linéaire : une introduction Qu est-ce qu un programme linéaire? Qu est-ce qu un programme linéaire? Exemples : allocation de ressources problème de recouvrement Hypothèses de la programmation

Plus en détail

Optimisation Discrète

Optimisation Discrète Prof F Eisenbrand EPFL - DISOPT Optimisation Discrète Adrian Bock Semestre de printemps 2011 Série 7 7 avril 2011 Exercice 1 i Considérer le programme linéaire max{c T x : Ax b} avec c R n, A R m n et

Plus en détail

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications A. Optimisation sans contrainte.... Généralités.... Condition nécessaire et condition suffisante

Plus en détail

Notes du cours MTH1101N Calcul I Partie II: fonctions de plusieurs variables

Notes du cours MTH1101N Calcul I Partie II: fonctions de plusieurs variables Notes du cours MTH1101N Calcul I Partie II: fonctions de plusieurs variables Fausto Errico Département de mathématiques et de génie industriel École Polytechnique de Montréal Automne 2012 Table des matières

Plus en détail

Calcul fonctionnel holomorphe dans les algèbres de Banach

Calcul fonctionnel holomorphe dans les algèbres de Banach Chapitre 7 Calcul fonctionnel holomorphe dans les algèbres de Banach L objet de ce chapitre est de définir un calcul fonctionnel holomorphe qui prolonge le calcul fonctionnel polynômial et qui respecte

Plus en détail

De même, le périmètre P d un cercle de rayon 1 vaut P = 2π (par définition de π). Mais, on peut démontrer (difficilement!) que

De même, le périmètre P d un cercle de rayon 1 vaut P = 2π (par définition de π). Mais, on peut démontrer (difficilement!) que Introduction. On suppose connus les ensembles N (des entiers naturels), Z des entiers relatifs et Q (des nombres rationnels). On s est rendu compte, depuis l antiquité, que l on ne peut pas tout mesurer

Plus en détail

CCP PSI - 2010 Mathématiques 1 : un corrigé

CCP PSI - 2010 Mathématiques 1 : un corrigé CCP PSI - 00 Mathématiques : un corrigé Première partie. Définition d une structure euclidienne sur R n [X]... B est clairement symétrique et linéaire par rapport à sa seconde variable. De plus B(P, P

Plus en détail

Fonctions de plusieurs variables et applications pour l ingénieur

Fonctions de plusieurs variables et applications pour l ingénieur Service Commun de Formation Continue Année Universitaire 2006-2007 Fonctions de plusieurs variables et applications pour l ingénieur Polycopié de cours Rédigé par Yannick Privat Bureau 321 - Institut Élie

Plus en détail

Cours d Analyse. Fonctions de plusieurs variables

Cours d Analyse. Fonctions de plusieurs variables Cours d Analyse Fonctions de plusieurs variables Licence 1ère année 2007/2008 Nicolas Prioux Université de Marne-la-Vallée Table des matières 1 Notions de géométrie dans l espace et fonctions à deux variables........

Plus en détail

Continuité en un point

Continuité en un point DOCUMENT 4 Continuité en un point En général, D f désigne l ensemble de définition de la fonction f et on supposera toujours que cet ensemble est inclus dans R. Toutes les fonctions considérées sont à

Plus en détail

Amphi 3: Espaces complets - Applications linéaires continues

Amphi 3: Espaces complets - Applications linéaires continues Amphi 3: Espaces complets - Applications linéaires continues Département de Mathématiques École polytechnique Remise en forme mathématique 2013 Suite de Cauchy Soit (X, d) un espace métrique. Une suite

Plus en détail

Optimisation des fonctions de plusieurs variables

Optimisation des fonctions de plusieurs variables Optimisation des fonctions de plusieurs variables Hervé Hocquard Université de Bordeaux, France 8 avril 2013 Extrema locaux et globaux Définition On étudie le comportement d une fonction de plusieurs variables

Plus en détail

Fonctions de plusieurs variables. Sébastien Tordeux

Fonctions de plusieurs variables. Sébastien Tordeux Fonctions de plusieurs variables Sébastien Tordeux 22 février 2009 Table des matières 1 Fonctions de plusieurs variables 3 1.1 Définition............................. 3 1.2 Limite et continuité.......................

Plus en détail

Quantification Scalaire et Prédictive

Quantification Scalaire et Prédictive Quantification Scalaire et Prédictive Marco Cagnazzo Département Traitement du Signal et des Images TELECOM ParisTech 7 Décembre 2012 M. Cagnazzo Quantification Scalaire et Prédictive 1/64 Plan Introduction

Plus en détail

8.1 Généralités sur les fonctions de plusieurs variables réelles. f : R 2 R (x, y) 1 x 2 y 2

8.1 Généralités sur les fonctions de plusieurs variables réelles. f : R 2 R (x, y) 1 x 2 y 2 Chapitre 8 Fonctions de plusieurs variables 8.1 Généralités sur les fonctions de plusieurs variables réelles Définition. Une fonction réelle de n variables réelles est une application d une partie de R

Plus en détail

Exercices - Polynômes : corrigé. Opérations sur les polynômes

Exercices - Polynômes : corrigé. Opérations sur les polynômes Opérations sur les polynômes Exercice 1 - Carré - L1/Math Sup - Si P = Q est le carré d un polynôme, alors Q est nécessairement de degré, et son coefficient dominant est égal à 1. On peut donc écrire Q(X)

Plus en détail

Calcul différentiel. Chapitre 1. 1.1 Différentiabilité

Calcul différentiel. Chapitre 1. 1.1 Différentiabilité Chapitre 1 Calcul différentiel L idée du calcul différentiel est d approcher au voisinage d un point une fonction f par une fonction plus simple (ou d approcher localement le graphe de f par un espace

Plus en détail

Examen optimisation Centrale Marseille (2008) et SupGalilee (2008)

Examen optimisation Centrale Marseille (2008) et SupGalilee (2008) Examen optimisation Centrale Marseille (28) et SupGalilee (28) Olivier Latte, Jean-Michel Innocent, Isabelle Terrasse, Emmanuel Audusse, Francois Cuvelier duree 4 h Tout resultat enonce dans le texte peut

Plus en détail

Fonctions de plusieurs variables : dérivés partielles, diérentielle. Fonctions composées. Fonctions de classe C 1. Exemples

Fonctions de plusieurs variables : dérivés partielles, diérentielle. Fonctions composées. Fonctions de classe C 1. Exemples 45 Fonctions de plusieurs variables : dérivés partielles, diérentielle. Fonctions composées. Fonctions de classe C 1. Exemples Les espaces vectoriels considérés sont réels, non réduits au vecteur nul et

Plus en détail

FONCTIONS DE PLUSIEURS VARIABLES (Outils Mathématiques 4)

FONCTIONS DE PLUSIEURS VARIABLES (Outils Mathématiques 4) FONCTIONS DE PLUSIEURS VARIABLES (Outils Mathématiques 4) Bernard Le Stum Université de Rennes 1 Version du 13 mars 2009 Table des matières 1 Fonctions partielles, courbes de niveau 1 2 Limites et continuité

Plus en détail

Probabilités III Introduction à l évaluation d options

Probabilités III Introduction à l évaluation d options Probabilités III Introduction à l évaluation d options Jacques Printems Promotion 2012 2013 1 Modèle à temps discret 2 Introduction aux modèles en temps continu Limite du modèle binomial lorsque N + Un

Plus en détail

LES MÉTHODES DE POINT INTÉRIEUR 1

LES MÉTHODES DE POINT INTÉRIEUR 1 Chapitre XIII LES MÉTHODES DE POINT INTÉRIEUR 1 XIII.1 Introduction Nous débutons par un rappel de la formulation standard d un problème d optimisation 2 linéaire et donnons un bref aperçu des différences

Plus en détail

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé Baccalauréat ES Pondichéry 7 avril 204 Corrigé EXERCICE 4 points Commun à tous les candidats. Proposition fausse. La tangente T, passant par les points A et B d abscisses distinctes, a pour coefficient

Plus en détail

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

Baccalauréat ES/L Amérique du Sud 21 novembre 2013 Baccalauréat ES/L Amérique du Sud 21 novembre 2013 A. P. M. E. P. EXERCICE 1 Commun à tous les candidats 5 points Une entreprise informatique produit et vend des clés USB. La vente de ces clés est réalisée

Plus en détail

Correction de l examen de la première session

Correction de l examen de la première session de l examen de la première session Julian Tugaut, Franck Licini, Didier Vincent Si vous trouvez des erreurs de Français ou de mathématiques ou bien si vous avez des questions et/ou des suggestions, envoyez-moi

Plus en détail

RO04/TI07 - Optimisation non-linéaire

RO04/TI07 - Optimisation non-linéaire RO04/TI07 - Optimisation non-linéaire Stéphane Mottelet Université de Technologie de Compiègne Printemps 2003 I Motivations et notions fondamentales 4 I1 Motivations 5 I2 Formes quadratiques 13 I3 Rappels

Plus en détail

Cours 02 : Problème général de la programmation linéaire

Cours 02 : Problème général de la programmation linéaire Cours 02 : Problème général de la programmation linéaire Cours 02 : Problème général de la Programmation Linéaire. 5 . Introduction Un programme linéaire s'écrit sous la forme suivante. MinZ(ou maxw) =

Plus en détail

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable T : pour travailler et mémoriser le cours

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable T : pour travailler et mémoriser le cours Exo7 Continuité (étude globale). Diverses fonctions Exercices de Jean-Louis Rouget. Retrouver aussi cette fiche sur www.maths-france.fr * très facile ** facile *** difficulté moyenne **** difficile *****

Plus en détail

aux différences est appelé équation aux différences d ordre n en forme normale.

aux différences est appelé équation aux différences d ordre n en forme normale. MODÉLISATION ET SIMULATION EQUATIONS AUX DIFFÉRENCES (I/II) 1. Rappels théoriques : résolution d équations aux différences 1.1. Équations aux différences. Définition. Soit x k = x(k) X l état scalaire

Plus en détail

CHAPITRE 10. Jacobien, changement de coordonnées.

CHAPITRE 10. Jacobien, changement de coordonnées. CHAPITRE 10 Jacobien, changement de coordonnées ans ce chapitre, nous allons premièrement rappeler la définition du déterminant d une matrice Nous nous limiterons au cas des matrices d ordre 2 2et3 3,

Plus en détail

Chapitre VI Fonctions de plusieurs variables

Chapitre VI Fonctions de plusieurs variables Chapitre VI Fonctions de plusieurs variables 6. 1 Fonctions différentiables de R 2 dans R. 6. 1. 1 Définition de la différentiabilité Nous introduisons la différentiabilité sous l angle des développements

Plus en détail

Intégrales doubles et triples - M

Intégrales doubles et triples - M Intégrales s et - fournie@mip.ups-tlse.fr 1/27 - Intégrales (rappel) Rappels Approximation éfinition : Intégrale définie Soit f définie continue sur I = [a, b] telle que f (x) > 3 2.5 2 1.5 1.5.5 1 1.5

Plus en détail

Coup de Projecteur sur les Réseaux de Neurones

Coup de Projecteur sur les Réseaux de Neurones Coup de Projecteur sur les Réseaux de Neurones Les réseaux de neurones peuvent être utilisés pour des problèmes de prévision ou de classification. La représentation la plus populaire est le réseau multicouche

Plus en détail

Cours d analyse numérique SMI-S4

Cours d analyse numérique SMI-S4 ours d analyse numérique SMI-S4 Introduction L objet de l analyse numérique est de concevoir et d étudier des méthodes de résolution de certains problèmes mathématiques, en général issus de problèmes réels,

Plus en détail

I. Ensemble de définition d'une fonction

I. Ensemble de définition d'une fonction Chapitre 2 Généralités sur les fonctions Fonctions de références et fonctions associées Ce que dit le programme : Étude de fonctions Fonctions de référence x x et x x Connaître les variations de ces deux

Plus en détail

Planche n o 22. Fonctions de plusieurs variables. Corrigé

Planche n o 22. Fonctions de plusieurs variables. Corrigé Planche n o Fonctions de plusieurs variables Corrigé n o : f est définie sur R \ {, } Pour, f, = Quand tend vers, le couple, tend vers le couple, et f, tend vers Donc, si f a une limite réelle en, cette

Plus en détail

Commun à tous les candidats

Commun à tous les candidats EXERCICE 3 (9 points ) Commun à tous les candidats On s intéresse à des courbes servant de modèle à la distribution de la masse salariale d une entreprise. Les fonctions f associées définies sur l intervalle

Plus en détail

Précision d un résultat et calculs d incertitudes

Précision d un résultat et calculs d incertitudes Précision d un résultat et calculs d incertitudes PSI* 2012-2013 Lycée Chaptal 3 Table des matières Table des matières 1. Présentation d un résultat numérique................................ 4 1.1 Notations.........................................................

Plus en détail

Chapitre VI - Méthodes de factorisation

Chapitre VI - Méthodes de factorisation Université Pierre et Marie Curie Cours de cryptographie MM067-2012/13 Alain Kraus Chapitre VI - Méthodes de factorisation Le problème de la factorisation des grands entiers est a priori très difficile.

Plus en détail

Journées Télécom-UPS «Le numérique pour tous» David A. Madore. david.madore@enst.fr. 29 mai 2015

Journées Télécom-UPS «Le numérique pour tous» David A. Madore. david.madore@enst.fr. 29 mai 2015 et et Journées Télécom-UPS «Le numérique pour tous» David A. Madore Télécom ParisTech david.madore@enst.fr 29 mai 2015 1/31 et 2/31 : définition Un réseau de R m est un sous-groupe (additif) discret L

Plus en détail

Capes 2002 - Première épreuve

Capes 2002 - Première épreuve Cette correction a été rédigée par Frédéric Bayart. Si vous avez des remarques à faire, ou pour signaler des erreurs, n hésitez pas à écrire à : mathweb@free.fr Mots-clés : équation fonctionnelle, série

Plus en détail

Une introduction aux codes correcteurs quantiques

Une introduction aux codes correcteurs quantiques Une introduction aux codes correcteurs quantiques Jean-Pierre Tillich INRIA Rocquencourt, équipe-projet SECRET 20 mars 2008 1/38 De quoi est-il question ici? Code quantique : il est possible de corriger

Plus en détail

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I Roxane Duroux 1 Cadre de l étude Cette étude s inscrit dans le cadre de recherche de doses pour des essais cliniques

Plus en détail

Programmes des classes préparatoires aux Grandes Ecoles

Programmes des classes préparatoires aux Grandes Ecoles Programmes des classes préparatoires aux Grandes Ecoles Filière : scientifique Voie : Biologie, chimie, physique et sciences de la Terre (BCPST) Discipline : Mathématiques Seconde année Préambule Programme

Plus en détail

Fonctions de plusieurs variables et changements de variables

Fonctions de plusieurs variables et changements de variables Notes du cours d'équations aux Dérivées Partielles de l'isima, première année http://wwwisimafr/leborgne Fonctions de plusieurs variables et changements de variables Gilles Leborgne juin 006 Table des

Plus en détail

1.1 Codage de source et test d hypothèse

1.1 Codage de source et test d hypothèse Théorie de l information et codage 200/20 Cours 8février20 Enseignant: Marc Lelarge Scribe: Marc Lelarge Pour information Page webdu cours http://www.di.ens.fr/~lelarge/info.html Notations Pour des variables

Plus en détail

Correction du baccalauréat S Liban juin 2007

Correction du baccalauréat S Liban juin 2007 Correction du baccalauréat S Liban juin 07 Exercice. a. Signe de lnx lnx) : on fait un tableau de signes : x 0 e + ln x 0 + + lnx + + 0 lnx lnx) 0 + 0 b. On afx) gx) lnx lnx) lnx lnx). On déduit du tableau

Plus en détail

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles Valentin Patilea 1 Cesar Sanchez-sellero 2 Matthieu Saumard 3 1 CREST-ENSAI et IRMAR 2 USC Espagne 3 IRMAR-INSA

Plus en détail

Résolution de systèmes linéaires par des méthodes directes

Résolution de systèmes linéaires par des méthodes directes Résolution de systèmes linéaires par des méthodes directes J. Erhel Janvier 2014 1 Inverse d une matrice carrée et systèmes linéaires Ce paragraphe a pour objet les matrices carrées et les systèmes linéaires.

Plus en détail

Fonctions de plusieurs variables

Fonctions de plusieurs variables Maths MP Exercices Fonctions de plusieurs variables Les indications ne sont ici que pour être consultées après le T (pour les exercices non traités). Avant et pendant le T, tenez bon et n allez pas les

Plus en détail

Cryptographie et fonctions à sens unique

Cryptographie et fonctions à sens unique Cryptographie et fonctions à sens unique Pierre Rouchon Centre Automatique et Systèmes Mines ParisTech pierre.rouchon@mines-paristech.fr Octobre 2012 P.Rouchon (Mines ParisTech) Cryptographie et fonctions

Plus en détail

Université Paris-Dauphine DUMI2E 1ère année, 2009-2010. Applications

Université Paris-Dauphine DUMI2E 1ère année, 2009-2010. Applications Université Paris-Dauphine DUMI2E 1ère année, 2009-2010 Applications 1 Introduction Une fonction f (plus précisément, une fonction réelle d une variable réelle) est une règle qui associe à tout réel x au

Plus en détail

Équations non linéaires

Équations non linéaires Équations non linéaires Objectif : trouver les zéros de fonctions (ou systèmes) non linéaires, c-à-d les valeurs α R telles que f(α) = 0. y f(x) α 1 α 2 α 3 x Equations non lineaires p. 1/49 Exemples et

Plus en détail

Extrait du poly de Stage de Grésillon 1, août 2010

Extrait du poly de Stage de Grésillon 1, août 2010 MINI-COURS SUR LES POLYNÔMES À UNE VARIABLE Extrait du poly de Stage de Grésillon 1, août 2010 Table des matières I Opérations sur les polynômes 3 II Division euclidienne et racines 5 1 Division euclidienne

Plus en détail

4. Martingales à temps discret

4. Martingales à temps discret Martingales à temps discret 25 4. Martingales à temps discret 4.1. Généralités. On fixe un espace de probabilités filtré (Ω, (F n ) n, F, IP ). On pose que F contient ses ensembles négligeables mais les

Plus en détail

Introduction à l étude des Corps Finis

Introduction à l étude des Corps Finis Introduction à l étude des Corps Finis Robert Rolland (Résumé) 1 Introduction La structure de corps fini intervient dans divers domaines des mathématiques, en particulier dans la théorie de Galois sur

Plus en détail

ALGORITHMIQUE II NOTION DE COMPLEXITE. SMI AlgoII

ALGORITHMIQUE II NOTION DE COMPLEXITE. SMI AlgoII ALGORITHMIQUE II NOTION DE COMPLEXITE 1 2 Comment choisir entre différents algorithmes pour résoudre un même problème? Plusieurs critères de choix : Exactitude Simplicité Efficacité (but de ce chapitre)

Plus en détail

Licence Sciences et Technologies Examen janvier 2010

Licence Sciences et Technologies Examen janvier 2010 Université de Provence Introduction à l Informatique Licence Sciences et Technologies Examen janvier 2010 Année 2009-10 Aucun document n est autorisé Les exercices peuvent être traités dans le désordre.

Plus en détail

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers

Plus en détail

Image d un intervalle par une fonction continue

Image d un intervalle par une fonction continue DOCUMENT 27 Image d un intervalle par une fonction continue La continuité d une fonction en un point est une propriété locale : une fonction est continue en un point x 0 si et seulement si sa restriction

Plus en détail

Première partie. Préliminaires : noyaux itérés. MPSI B 6 juin 2015

Première partie. Préliminaires : noyaux itérés. MPSI B 6 juin 2015 Énoncé Soit V un espace vectoriel réel. L espace vectoriel des endomorphismes de V est désigné par L(V ). Lorsque f L(V ) et k N, on désigne par f 0 = Id V, f k = f k f la composée de f avec lui même k

Plus en détail

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes.

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes. 1 Définitions, notations Calcul matriciel Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes. On utilise aussi la notation m n pour le

Plus en détail

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Filtrage stochastique non linéaire par la théorie de représentation des martingales Filtrage stochastique non linéaire par la théorie de représentation des martingales Adriana Climescu-Haulica Laboratoire de Modélisation et Calcul Institut d Informatique et Mathématiques Appliquées de

Plus en détail

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1 La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1 La licence Mathématiques et Economie-MASS de l Université des Sciences Sociales de Toulouse propose sur les trois

Plus en détail

Etude de fonctions: procédure et exemple

Etude de fonctions: procédure et exemple Etude de fonctions: procédure et exemple Yves Delhaye 8 juillet 2007 Résumé Dans ce court travail, nous présentons les différentes étapes d une étude de fonction à travers un exemple. Nous nous limitons

Plus en détail

Dualité dans les espaces de Lebesgue et mesures de Radon finies

Dualité dans les espaces de Lebesgue et mesures de Radon finies Chapitre 6 Dualité dans les espaces de Lebesgue et mesures de Radon finies Nous allons maintenant revenir sur les espaces L p du Chapitre 4, à la lumière de certains résultats du Chapitre 5. Sauf mention

Plus en détail

OM 1 Outils mathématiques : fonction de plusieurs variables

OM 1 Outils mathématiques : fonction de plusieurs variables Outils mathématiques : fonction de plusieurs variables PCSI 2013 2014 Certaines partie de ce chapitre ne seront utiles qu à partir de l année prochaine, mais une grande partie nous servira dès cette année.

Plus en détail

Structures algébriques

Structures algébriques Structures algébriques 1. Lois de composition s Soit E un ensemble. Une loi de composition interne sur E est une application de E E dans E. Soient E et F deux ensembles. Une loi de composition externe

Plus en détail

Calcul de développements de Puiseux et application au calcul du groupe de monodromie d'une courbe algébrique plane

Calcul de développements de Puiseux et application au calcul du groupe de monodromie d'une courbe algébrique plane Calcul de développements de Puiseux et application au calcul du groupe de monodromie d'une courbe algébrique plane Poteaux Adrien XLIM-DMI, UMR-CNRS 6172 Université de Limoges Soutenance de thèse 15 octobre

Plus en détail

Continuité d une fonction de plusieurs variables

Continuité d une fonction de plusieurs variables Chapitre 2 Continuité d une fonction de plusieurs variables Maintenant qu on a défini la notion de limite pour des suites dans R n, la notion de continuité s étend sans problème à des fonctions de plusieurs

Plus en détail

Le modèle de Black et Scholes

Le modèle de Black et Scholes Le modèle de Black et Scholes Alexandre Popier février 21 1 Introduction : exemple très simple de modèle financier On considère un marché avec une seule action cotée, sur une période donnée T. Dans un

Plus en détail

Optimisation, traitement d image et éclipse de Soleil

Optimisation, traitement d image et éclipse de Soleil Kléber, PCSI1&3 014-015 I. Introduction 1/8 Optimisation, traitement d image et éclipse de Soleil Partie I Introduction Le 0 mars 015 a eu lieu en France une éclipse partielle de Soleil qu il était particulièrement

Plus en détail

= 1 si n = m& où n et m sont souvent des indices entiers, par exemple, n, m = 0, 1, 2, 3, 4... En fait,! n m

= 1 si n = m& où n et m sont souvent des indices entiers, par exemple, n, m = 0, 1, 2, 3, 4... En fait,! n m 1 épartement de Physique, Université Laval, Québec Pierre Amiot, 1. La fonction delta et certaines de ses utilisations. Clientèle Ce texte est destiné aux physiciens, ingénieurs et autres scientifiques.

Plus en détail

Calcul Différentiel. I Fonctions différentiables 3

Calcul Différentiel. I Fonctions différentiables 3 Université de la Méditerranée Faculté des Sciences de Luminy Licence de Mathématiques, Semestre 5, année 2008-2009 Calcul Différentiel Support du cours de Glenn Merlet 1, version du 6 octobre 2008. Remarques

Plus en détail

Apprentissage non paramétrique en régression

Apprentissage non paramétrique en régression 1 Apprentissage non paramétrique en régression Apprentissage non paramétrique en régression Résumé Différentes méthodes d estimation non paramétriques en régression sont présentées. Tout d abord les plus

Plus en détail

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES Dominique LAFFLY Maître de Conférences, Université de Pau Laboratoire Société Environnement Territoire UMR 5603 du CNRS et Université de Pau Domaine

Plus en détail

Programmation linéaire

Programmation linéaire Programmation linéaire DIDIER MAQUIN Ecole Nationale Supérieure d Electricité et de Mécanique Institut National Polytechnique de Lorraine Mathématiques discrètes cours de 2ème année Programmation linéaire

Plus en détail

Théorie des Graphes Cours 3: Forêts et Arbres II / Modélisation

Théorie des Graphes Cours 3: Forêts et Arbres II / Modélisation IFIPS S7 - informatique Université Paris-Sud 11 1er semestre 2009/2010 Théorie des Graphes Cours 3: Forêts et Arbres II / 1 Forêts et arbres II Théorème 1.1. Les assertions suivantes sont équivalentes

Plus en détail

Cours d Analyse 3 Fonctions de plusieurs variables

Cours d Analyse 3 Fonctions de plusieurs variables Université Claude Bernard, Lyon I Licence Sciences, Technologies & Santé 43, boulevard 11 novembre 1918 Spécialité Mathématiques 69622 Villeurbanne cedex, France L. Pujo-Menjouet pujo@math.univ-lyon1.fr

Plus en détail

I. Introduction. 1. Objectifs. 2. Les options. a. Présentation du problème.

I. Introduction. 1. Objectifs. 2. Les options. a. Présentation du problème. I. Introduction. 1. Objectifs. Le but de ces quelques séances est d introduire les outils mathématiques, plus précisément ceux de nature probabiliste, qui interviennent dans les modèles financiers ; nous

Plus en détail

Chapitre 2 Le problème de l unicité des solutions

Chapitre 2 Le problème de l unicité des solutions Université Joseph Fourier UE MAT 127 Mathématiques année 2011-2012 Chapitre 2 Le problème de l unicité des solutions Ce que nous verrons dans ce chapitre : un exemple d équation différentielle y = f(y)

Plus en détail

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable Eo7 Fonctions de plusieurs variables Eercices de Jean-Louis Rouget Retrouver aussi cette fiche sur wwwmaths-francefr * très facile ** facile *** difficulté moenne **** difficile ***** très difficile I

Plus en détail

Exo7. Matrice d une application linéaire. Corrections d Arnaud Bodin.

Exo7. Matrice d une application linéaire. Corrections d Arnaud Bodin. Exo7 Matrice d une application linéaire Corrections d Arnaud odin. Exercice Soit R muni de la base canonique = ( i, j). Soit f : R R la projection sur l axe des abscisses R i parallèlement à R( i + j).

Plus en détail