Introduction à la régression PLS. Carole BINARD

Dimension: px
Commencer à balayer dès la page:

Download "Introduction à la régression PLS. Carole BINARD"

Transcription

1 Carole BINARD 16 novembre 2012

2 1

3 Sommaire 1 Présentation de méthodes de régression dans le cadre de données corrélées Introduction MCO, méthodes pas à pas et RCP Moindres Carrés Ordinaires Les méthodes pas à pas a. Méthode ascendante en anglais forward selection ) b. Méthode descendante en anglais backward selection ).. 7 c. Méthode de régression pas à pas en anglais stepwise regression ) d. Remarques Regression sur Composantes Principales RCP) Partial Least Squares Présentation L'algorithme a. Recherche de la première composante b. Interprétations géométriques w 1) t 1) p 1) c c. Ecriture de l'algorithme d. Interprétations géométriques Interprétation des coordonnées de w h) Interprétation des coordonnées de t h) Interprétation des coordonnées de p h) Interprétation du scalaire c h e. Remarques Propriétés mathématiques des composantes PLS a. Preuve de b. Preuve de c. Preuve de d. Preuve de e. Preuve de f. Preuve de g. Preuve de h. Preuve de

4 1.3.4 Autres propriétés relatives à la régression PLS a. Simplication de l'algorithme de régression PLS1 lorsqu'il n'y a pas de données manquantes b. Construction des paramètres de la PLS par orthogonalisation de Gram-Schmidt de suites de Krylov c. Remarques Formules de décomposition a. X et y en fonction des nouvelles composantes b. X [h] en fonction de X Preuve de c. t [h] en fonction de X d. Conclusion Equation de régression PLS et estimation a. Equation de régression PLS b. Estimation Etude d'un exemple Les données Traitement des données Estimation des paramètres par MCO Remarques Mise en évidence de corrélations entre variables a. Matrice des corrélations b. Déterminant de X X c. Remarque Régression dans le cadre de données corrélées Les méthodes pas à pas a. Application sur les données b. Remarques La RCP appliquée à nos données a. L'algorithme utilisé b. Nombre de composantes à retenir c. Application sur les données La PLS appliquée à nos données a. Nombre de composantes à retenir b. Application sur nos données Comparaison RCP vs régression PLS à partir des résidus Conclusion et perspectives Conclusion Pour aller plus loin PLS : une famille de méthodes PLS : une approche algorithmique de la régression A Suites de Krylov 40 3

5 B Validation croisée 41 B.1 Test et validation B.2 k-fold cross-validation B.3 leave-one-out cross-validation novembre 2012

6 Chapitre 1 Présentation de méthodes de régression dans le cadre de données corrélées 1.1 Introduction Dans certains problèmes de régression linéaire ou de prédiction d'un phénomène, les variables explicatives peuvent être corrélées voire fortement corrélées) entraînant parfois de la quasi colinéarité. Ce phénomène est souvent appelé multicolinéarité et produit de très mauvais résultats concernant les coecients de régression estimés par Moindres Carrés Ordinaires MCO) ou pour les prédictions basées sur ces estimations. Beaucoup de méthodes ont alors été développées pour pallier à ce problème telles que la Régression sur Composantes Principales RCP) et la régression PLS Partial Least Squares regression). 1.2 MCO, méthodes pas à pas et RCP Le modèle de régression utilisé pour les méthodes est déni par l'équation : y = β 0 + Xβ + ɛ 1.1) où, y est un vecteur à n observations, β 0 est une constante inconnue, X est une matrice n p contenant n observations et p variables, β est un vecteur à p coecients inconnus, ɛ est un vecteur à n coordonnées. C'est le vecteurs d'erreur i.i.d de moyenne nulle et de variance σ 2. Si les variables contenues dans X et le vecteur y sont centrées, l'équation 1.1 peut être simpliée comme suit : y = Xβ + ɛ 1.2) 5

7 1.2.1 Moindres Carrés Ordinaires Quand la matrice X est de rang p, l'estimateur par les MCO ˆβ MCO est obtenu par minimisation de la somme des carrés des résidus : ˆβ MCO = argmin ) y Xβ 2 1.3) β On cherche donc à minimiser la quantité : ˆɛ ˆɛ = y X ˆβ ) y X ˆβ ) 1.4) Ce qui donne : ˆβ MCO = X X) 1 X y 1.5) où ˆβ MCO est un vecteur p 1 de paramètres estimés. C'est un estimateur sans biais de β, de variance minimale. Quand les variables explicatives sont fortement corrélées entre elles, X X est dite mal conditionnée et la variance de l'estimateur des MCO devient grande.avec une multicolinéarité, les coecients estimés par MCO peuvent devenir statistiquement insigniant trop grand, trop petit voire de signe contraire) même si le coecient de détermination R 2 ) est grand. C'est pourquoi un certain nombre de méthodes ont été developpées an de proposer des estimations tout en combattant la multicolinéarité des variables du modèle Les méthodes pas à pas Lorsqu'un modèle de régression multiple contient un nombre important de variables explicatives fortement corrélées entre elles, il est intéressant d'examiner si un sousensemble de ces variables permettrait d'obtenir un modèle meilleur que le modèle global. a. Méthode ascendante en anglais forward selection ) La méthode de régression ascendante consiste à inclure une à une les variables explicatives du modèle global dans un nouveau modèle. Elle se décompose en plusieurs étapes. La première étape consiste à sélectionner la variable explicative présentant la corrélation la plus élevée de toutes avec la variables à expliquer. Une fois la variable sélectionnée, il est nécessaire d'étudier la signicativité de son coecient. S'il s'avère qu'il n'est pas signicativement diérent de 0, la variable ne sera pas retenue pour faire partie du nouveau modèle. Il s'agit ensuite de réitérer ce processus sans omettre de tester la signicativité du coecient relatif à la variable étudiée. Le problème est que l'on ne soucie pas de savoir si les variables incluses aux étapes précédentes sont toujours aussi pertinentes dans l'explication de y malgré l'ajout d'une nouvelle variable novembre 2012

8 b. Méthode descendante en anglais backward selection ) La procédure démarre en estimant les paramètres du modèle complet incluant toutes les variables explicatives. A chaque étape, on choisit la variable dont le test de Student H 0 :α j = 0) est le moins signicatif p-value la plus grande), on la supprime et on réestime le modèle. Lors du passage du modèle complet M p non contraint) au modèle contraint M q, on subit une perte. Il s'agit donc de tester si cette perte est signicative ou pas. Pour cela on utilise la statistique de Fisher construite à partir des E.A.V associées à chaque modèle : Modèle M p :SCT = SCE p + SCR p Modèle M q :SCT = SCE q + SCR q Le test associé : { H0 : SCE p SCE q = 0 H 1 : SCE p SCE q 0 On peut construire la statistique de test suivante : F = R 2 p R2 q p q) [1 R 2 p ] n p 1) avec : p :nombre de variables du modèle non contraint q :nombre de variables du contraint n :le nombre d'observations On rejette l'hypothèse H 0 au risque α si la statistique de test dépasse un certain seuil f α, tel que : f α = F 1 α [p q, n p 1] c. Méthode de régression pas à pas en anglais stepwise regression ) Il s'agit d'une amélioration de la méthode ascendante. A chaque étape de la procédure, on examine à la fois si une nouvelle variable doit être ajoutée selon un seuil d'entrée xé, et si une des variables déjà incluses doit être éliminée selon un seuil de sortie xé. Cette méthode permet de retirer du modèle d'éventuelles variables qui seraient devenues moins indispensables du fait de la présence de celles nouvellement introduites. La procédure s'arrête lorsqu'aucune variable ne peut être rajoutée ou retirée du modèle selon les critères choisis. d. Remarques Il est important de noter que ces méthodes peuvent ne pas conduire au même choix de variables explicatives à retenir dans le modèle nal. Nous verrons, dans le chapitre 2 Etude d'un exemple), que ces méthodes fournissent des résultats dicilement acceptables pour les praticiens. En eet, nous verrons que les variables les plus corrélées avec la variable réponse n'interviennent pas forcément dans le modèle issu de la sélection novembre 2012

9 Comment alors construire un modèle comportant toutes les variables indépendantes dans le cas de données corrélées? Regression sur Composantes Principales RCP) La RCP est un moyen de traiter du problème de matrices mal conditionnées. L'objectif est d'obtenir un certain nombre de composantes captant le maximum de variation relative aux variables de la matrice X tout en assurant au modèle une certaine qualité de prédiction. La RCP peut en fait être considérée comme une méthode de régression linéaire dans laquelle la variable réponse est régressée sur de nouvelles composantes. On considère la matrice X centrée ou centrée-réduite), et X Xγ i) = λ i γ i), i = 1, 2,..., p 1.6) où les λ i sont les valeurs propres de la matrices des covariances ou des corrélations) X X et les γ i) sont les vecteurs propres associés. Le vecteur γ i) est utilisé pour construire la ième composante principale de la forme : C i) = γ i) 1 X 1) + γ i) 2 X 2) γ i) p X p) 1.7) Les composantes C i) sont orthogonales 2 à 2 et combinaison linéaire des variables initiales elles sont appelées variables latentes). De la sorte, tous les prédicteurs sont gardés car ŷ est combinaison linéaire des composantes principales. Mais est-ce que ces composantes sont les meilleures pour établir la prédiction de y étant donné qu'elles ne font qu'extraire le maximum de variance des prédicteurs sans tenir compte de y? 1.3 Partial Least Squares La régression PLS est une méthode itérative développée par Herman Wold dans les années 60 et permet la construction de modèles prédictifs quand les variables sont nombreuses et fortement corrélées entre elles. Cette méthode peut également être utilisée quand le nombre de variables dépasse celui des observations Présentation Pour régresser une variable y centrée) sur p variables explicatives X 1), X 2),..., X p)) centrées), la méthode PLS propose de trouver de nouveaux facteurs qui joueront le même rôle que les variables explicatives initiales. Ces nouveaux facteurs sont appelés variables latentes ou composantes. Chaque composante est une combinaison linéaire des variables X 1), X 2),..., X p). Beaucoup de similarités sont donc à noter entre la régression PLS et la RCP. Dans les deux méthodes l'objectif est de construire de nouvelles variables qui soient combinaison linéaire des variables initiales sur lesquelles la variable réponse est régressée. Par contre, la principale diérence entre les deux méthodes réside dans le fait que 8 16 novembre 2012

10 la RCP utilise uniquement les corrélations entre les variables exogènes alors que la PLS utilise non seulement ces mêmes corrélations mais également celles entre X et y pour construire les nouveaux facteurs qui joueront le rôle de variables explicatives. La matrice X justiera alors d' une décomposition bilinéaire de la forme suivante : X = t 1) p 1) + t 2) p 2) t p) p p) = p t j) p j) = T P 1.8) j=1 où : - les t j) sont des combinaisons linéaires des variables explicatives initiales, que nous écrirons Xw j), - les vecteurs p j) de taille p 1 sont appelés les poids dans la littérature on parle de loadings). 1 Notons que cette expression fournit une décomposition de X similaire à la décomposition obtenue en Composantes Principales 1.7). La diérence entre les deux est mieux comprise compte tenu des critères de maximisation que les deux méthodes doivent résoudre. En régression PLS, le critère d'optimisation est donné par : { )} argmax cov X[k 1] w k, y [k 1] q k w k,q k sous les contraintes :w k w k = q k q k = 1 et cov X [k 1] w k, X [k 1]w k ) = 0, k k L'algorithme On souhaite construire des composantes qui puissent à la fois se rapprocher des composantes issues de la RCP combinaison linéaire des variables explicatives dénissant un espace dans lequel le nuage des individus initial est le moins déformé possible) et s'en défaire an d'améliorer la prédiction de la variable réponse en prenant en considération le lien entre y et les X j) ). a. Recherche de la première composante A la n des années 80 Höskuldsson et Manne ont démontré que la première composante PLS, t 1) = Xw 1) est obtenue en maximisant le critère de Tucker de l'analyse factorielle inter-batterie : sous la contrainte : w 1) = 1 cov 2 y, Xw 1) ) = r 2 y; Xw 1) )V arxw 1) )V ary) 1.9) On essaie ainsi de maximiser simultanément la variance expliquée par t 1) et la corrélation entre t 1) et y. On cherche donc un vecteur w 1) normé maximisant : < t 1), y >=< Xw 1), y >= Xw 1). y.corxw 1), y) 1.10) 1. Plusieurs propriétés relatives aux composantes construites au cours de l'algorithme seront présentées en Alors que le criètre de maximisation de la RCP est : argmax {var Xw k )} sous les contraintes : w k w k w k = 1 et cov Xw k, Xw k ) = 0, k k 9 16 novembre 2012

11 Pour obtenir l'expression de w 1), on résoud le problème d'optimisation sous contrainte 1.10 en utilisant la méthode des multiplicateurs de Lagrange : Lw 1), λ) = covy, Xw 1) ) λw 1) w 1) 1) = w 1) X y λw 1) w 1) 1) 1.11) avec λ R +. On annule les dérivées partielles : L λ = w 1) w 1) 1) = ) Soit encore : L w 1) = X y 2λw 1) = ) w 1) w 1) = ) X y = 2λw 1) 1.15) En multipliant 1.15 par w 1) on a : w 1) X y = 2λ 1.16) car w 1) 2λw 1) = 2λw 1) w 1) = 2λ) Soit θ R tel que : θ = 2λ = w 1) X y =< t 1), y >= y Xw 1) par symetrie 1.17) Comme X y = 2λw 1) = θw 1) on a par 1.17 : X y)y Xw 1) = θw 1) )θ = θ 2 w 1) 1.18) Par conséquent, w 1) est vecteur propre de la matrice X yy X associé à la valeur propre θ 2. Et la maximisation de < Xw 1), y > revient à considérer θ 2 comme étant la plus grande des valeurs propres de la matrice X yy X. 3 On peut donc en déduire une expression de w 1) et de la valeur propre associée. Par ce qui précède, on peut écrire : X yy Xw 1) = λ 1 w 1). Or λ 1 =< Xw 1), y > 2 = w 1) X y) w 1) X y) = y Xw 1) w 1) X y = y XX y 3. cela a été souligné dans [3] novembre 2012

12 Ainsi : X yy Xw 1) = X y)y Xw 1) ) = λ 1 w 1) = y XX yw 1) = w 1) y XX y car y XX y R) = w 1) )y XX y) w 1) = X y Et comme w 1) doit être de norme 1 on a : w 1) = X y X y An de savoir si la première composante t 1) = Xw 1) explique susamment l'ensemble des variables explicatives et la variable endogène y, nous eectuons deux régressions : une de X sur t 1) puis une de y sur t 1). On a : où : p 1) = X [0] t1) t 1) t 1) X = X [0] = t 1) p 1) + X [1] y = y [0] = c 1 t 1) + y [1] coecient de régression linéaire multiple classique) et c 1 = y [0] t1) t 1) t 1) b. Interprétations géométriques w 1) est un vecteur de R p. Chacune de ses coordonnées s'écrit : w 1) cov X j), y ) j = p j=1 cov2 X j), y) De la sorte w 1) j représente la pente de la droite des moindres carrés, passant par l'origine, ) du nuage de points y i, X j) i. t 1) est un vecteur de R n. Chacune de ses coordonnées s'écrit : où w 1) j = w 1) j p j=1 w 1) j ) 2 t 1) i = p j=1 w1) j p j=1 w 1) j X j) i ) 2 De la sorte, t 1) i représente la pente ) de la droite des moindres carrés, passant par l'origine, du nuage de points w 1) j, X j) i. p 1) est un vecteur de R p. Chacune de ses coordonnées p 1) j représente le coecient de régression de t 1) dans la régression de la j ième colonne de X [0] sur la composante t 1) novembre 2012

13 c 1 est un scalaire de R. Il représente le coecient de régression de t 1) dans la régression de la variable y [0] sur la variable t 1). On réitère les étapes précédentes mais sur les X et y déatés. Dénition 1. On appelle déation de X l'extraction des résidus suite à la régression de X sur t 1). On appelle déation de y l'extraction des résidus suite à la régression de y sur t 1). On construit donc les résidus X [1] et y [1] ) de chacune de nos régressions an de réitérer les étapes décrites précédemment : c. Ecriture de l'algorithme X [1] = X [0] t 1) p 1) y [1] = y [0] c 1 t 1) An de construire toutes les composantes via la méthode PLS, on passe par l'algorithme itératif suivant : Etape 0 : X [0] = X ; y [0] = y Etape 1 : Pour h = 1,..., p : Etape 1.1 : w h) = X [h 1] y [h 1] X [h 1] y [h 1] Etape 1.2 : on construit t h) : t h) = X [h 1]w h) Etape 1.3 : p h) = X [h 1] th) t h) t h) Etape 1.4 :c h = y [h 1] th) t h) t h) Etape 1.5 :X [h] = X [h 1] t h) p h) Etape 1.6 :y [h] = y [h 1] c h t h) w h) w h) où : y [h 1] : résidus issus de la régression de y [h 2] sur t h 1) X [h 1] : résidus issus de la régression de X [h 2] sur t h 1) d. Interprétations géométriques Interprétation des coordonnées de w h) pour h = 1,..., p w h) = X [h 1] y [h 1] X [h 1] y [h 1] où w h) j est la coordonnée j du vecteur w h) représentant le coecient de régression de y [h 1] dans la régression de la j ième colonne de la matrice x [h 1] sur la variable y [h 1] Interprétation des coordonnées de t h) pour h = 1,..., p t h) = X [h 1]w h) w h) w h) novembre 2012

14 Interprétation du scalaire c h pour h = 1,..., p Groupe de travail PLS où t h) i est la coordonnée i du vecteur t h) représentant le coecient de régression de w h) dans la régression sans constante de la variable dénie par la i ième ligne de la matrice X [h 1] sur la variable w h). Interprétation des coordonnées de p h) pour h = 1,..., p p h) = X [h 1] th) t h) t h) où p h) j est la coordonnée j du vecteur p h) représentant le coecient de régression de t h) dans la régression de la j ième colonne de la matrice X [h 1] sur la composante t h) c h = y [h 1] th) t h) t h) C'est le coecient de régression de t h) dans la régression de la variable y [h 1] sur la variable t h) e. Remarques ) A chaque étape h, la régression PLS maximise la variance des prédicteurs X j) [h 1] et maximise la corrélation entre X [h 1] et la variable à expliquer y [h 1]. Donc, contrairement à la méthode des moindres carrés où la détermination de paramètres optimaux se ramène à la résolution d'un système d'équations linéaires, la régression PLS justie de problèmes d'optimisation dépendant d'itérations successives. L'algorithme est ici construit sous l'hypothèse qu'il n'y a pas de données manquantes. Il existe pourtant une version qui s'adapte au cas de données manquantes mais nous n'en ferons pas référence ici Propriétés mathématiques des composantes PLS Nous allons présenter dans cette section les propriétés des composantes PLS construites à partir de l'algorithme précédent. t h) X [h] = ) t h) y [h] = ) t h) t l) = 0, l > h 1.21) w h) p h) = ) w h) X [l] = 0, l h 1.23) w h) p l) = 0, l > h 1.24) w h) w l) = 0, l > h 1.25) t h) X [l] = 0, l h 1.26) 4. on invite le lecteur à se référer à [20] p pour de plus amples informations novembre 2012

15 a. Preuve de 1.19 Par déition, X [h] est le résidu de la régression de X [h 1] sur t h). Ainsi X [h] est orthogonal à t h). b. Preuve de 1.20 Par dénition, y [h] est lé résidu de la régression de y [h 1] sur t h). Ainsi y [h] est orthogonal à t h). c. Preuve de 1.21 On procède par récurrence. cas initial : t 1) t 2) = t 1) X [1] w 1) ) = 0 par 1.19) hypothèse de récurrence : On suppose la propriété d'orthogonalité vraie jusqu'à l'itération h : t 1), t 2),..., t h) orthogonaux deux à deux. Montrons alors que cette propriété est vraie jusqu'à l'itération h+1 : t h) t h+1) = t h) X [h] w h+1) ) = 0 par 1.19) t h 1) t h+1) = t h 1) X [h] w h+1) ) = t h 1) X [h 1] t h) p h) )w h+1) = t h 1) X [h 1] t }{{}} h 1) {{ t h) } p h) )w h+1) = 0 =0 =0 par HR t h 2) t h+1) = t h 2) X [h] w h+1) ) = t h 2) X [h 1] t h) p h) )w h+1) = t h 2) X [h 2] t h 1) p h 1) t h) p h) )w h+1) = t h 2) X [h 2] t h 2) t h 1) p h 1) t h 2) t h) p h) )w h+1) = t h 2) X [h 2] t }{{}} h 2) {{ t h 1) } p h 1) t } h 2) {{ t h) } p h) )w h+1) = 0 =0 =0 par HR =0 par HR Et ainsi de suite, d'où le résultat novembre 2012

16 d. Preuve de 1.22 w h) p h) = w h) X [h 1] th) t h) t h) = w h) X [h 1] )th) t h) t h) = t h) )t h) t h) t h) = 1 e. Preuve de 1.23 Prouvons w h) X [l] = 0 pour l h. Pour l=h w h) X [h] = w h) X [h 1] t h) p h) ) = w h) X [h 1] w h) p h) t h) = t h) 1.t h) d après 1.22) = 0 Pour l>h Montrons que w h) X [l] = 0, pour un indice l h, implique w h) X [l+1] = 0 w h) X [l+1] = w h) X [l] t l+1) p l+1) ) f. Preuve de 1.24 = w h) X [l] w h) p l+1) t l+1) =0 {}}{ w h) X = w h) X [l] [l] t l+1) = 0 }{{} t l+1) t l+1) =0 w h) w l) = w h) X [l 1] y [l 1] = 0 si l 1 h l > h d'après 1.23) g. Preuve de 1.25 w h) p l) = w h) X [l 1] tl) t l) t l) ) = 0 si l 1 h l > h d'après 1.23) h. Preuve de 1.26 Prouvons t h) X [l] = 0, l h. Pour l=h novembre 2012

17 t h) X [h] = t h) X [h 1] t h) p h)) = t h) X [h 1] t h) t h) p h) = t h) X [h 1] t h) t h) t h) X [h 1] t h) t h) = 0 Pour l>h t h) X [l] = t h) X [l 1] t l) p l)). = t h) X [l 1] t } h) {{ t l) } p l) =0 par 1.21 = t h) X [l 2] t l 1) p l 1)) = t h) X [l 2] } t h) {{ t l 1) } p l 1) =0 par 1.21 = t h) X [h] = 0 pour le cas l = h) Autres propriétés relatives à la régression PLS a. Simplication de l'algorithme de régression PLS1 lorsqu'il n'y a pas de données manquantes On va montrer ici que le calcul de y [h] à chaque étape h n'est pas nécessaire. En eet, à l'étape 1.1 de l'algorithme PLS1 pour la calcul de w [h] ), intervient le terme X [h 1] y [h 1]. Or : X [h 1]y [h 1] = X [h 1] y[h 2] c h 1 t h 1)) = X [h 1] y[h 3] c h 2 t h 2) c h 1 t h 1)). = X [h 1] y c1 t 1)... c [h 1] t h 1)) = X [h 1]y X [h 1]c 1 t 1)... X [h 1]c [h 1] t h 1) }{{}}{{} =0 =0 = X [h 1]y Ainsi, à l'étape 1.1, w h) s'écrit : w h) = X [h 1] y X [h 1] y par 1.26) A l'étape 1.4, le calcul de y [h] est également inutile en absence de données manquantes novembre 2012

18 car : y [h 1]t h) = y [h 2] c h 1 t h 1)) t h) = y [h 3] c h 2 t h 2) c h 1 t h 1)) t h). = y c 1 t 1)... c h 1 t h 1)) t h) = y t h) c 1 t } 1) {{ t h) }... c h 1 t } h 1) {{ t h) } =0 =0 = y t h) Et donc le calcul de c h devient :c h = y t h) t h) t h) par 1.21) Grâce à la même propriété d'orthogonalité entre les composantes 1.21), on peut simplier le calcul de p h) en absence de données manquantes. En eet : X [h 1]t h) = X [h 2] t h 1) p h 1)) t h) Et p h) s'écrit : p h) = X t h) t h) t h). = X [h 3] t h 2) p h 2) t h 1) p h 1)) t h) = X t 1) p 1)... t h 1) p h 1)) t h) = X t h) p 1) t } 1) {{ t h) }... p h 1) } t h 1) {{ t h) } =0 =0 = X t h) par 1.21) Etapes Algorithme PLS1 avant simplication Algorithme PLS1 après simplication Etape 0 X [0] = X X [0] = X y [0] = y Etape 1 pour h = 1,..., p pour h = 1,..., p Etape 1.1 Etape 1.2 Etape 1.3 w h) = X [h 1] y [h 1] X [h 1] y [h 1] t h) = X [h 1]w h) w h) w h) p h) = X [h 1] th) t h) t h) w h) = X [h 1] y X[h 1] y t h) = X [h 1]w h) w h) w h) p h) = X t h) t h) t h) Etape 1.4 c h = y [h 1] th) c t h) t h) h = y t h) t h) t h) Etape 1.5 X [h] = X [h 1] t h) p h) X [h] = X [h 1] t h) p h) y [h] = y [h 1] c h t h) Table 1.1 Mises en évidence des simplications apportées à l'algorithme PLS novembre 2012

19 b. Construction des paramètres de la PLS par orthogonalisation de Gram- Schmidt de suites de Krylov Soient les hypothèses suivantes : - w h) = X [h 1] y - w h) = wh) w h) - les w h) sont orthogonaux 2 à 2 - les w h) sont orthognaux 2 à 2 - { w 1), w 2),..., w h)} engendre le même espace que la suite de Krylov { s, Cs,..., C h 1 s } avec s = X y et C = X X) - { w 1), w 2),..., w h)} engendre le même espace que la suite de Krylov { s, Cs,..., C h 1 s } avec s = X y et C = X X) - { p 1), p 2),..., p h)} engendre le même espace que la suite de Krylov { Cs, C 2 s,..., C h s } avec s = X y et C = X X) - { t 1), t 2),..., t h)} engendre le même espace que la suite de Krylov { t, Dt,..., D h 1 t } avec t = Xs et D = XX ) Alors : La suite { w 1), w 2),..., w h)} est obtenue par orthogonalisation de Gram- Schmidt sur la suite de Krylov { s, Cs,..., C h 1 s } : Pour h=1 : w 1) = X [0] y = X y = s w 1) = w1) = X y = s w 1) X y s Pour h>1 : On sait que w h) appartient à l'espace engendré par { w 1), w 2),..., w h)} { s, Cs,..., C h 1 s } par hypothèse). On a donc une écriture de w h) en fonction des éléments de { s, Cs,..., C h 1 s } : h 2 w h) = α i C i s + α h 1 C h 1 s 1.27) i=0 Or par hypothèse w l) w h) = 0, l < h. Donc w h) est orthogonal aux éléments de { w 1), w 2),..., w h 1)} et aussi aux éléments de { s, Cs,..., C h 2 s }. Soit Π {s,cs,...,c h 2 s} la projection orthognale sur l'espace { s, Cs,..., C h 2 s }. Alors : Π {s,cs,...,c h 2 s} wh) = Π {s,cs,...,c h 2 s} i=0 h 2 ) α i C i s + α h 1 C h 1 s i=0 h 2 0 = α i C i s + Π {s,cs,...,c h 2 s} αh 1 C h 1 s ) h 2 α i C i s = Π {s,cs,...,c h 2 s} αh 1 C h 1 s ) i= novembre 2012

20 D'où : w h) = α h 1 C h 1 s Π {s,cs,...,c h 2 s} αh 1 C h 1 s ) Et donc : w h) = wh) w h) 1.28) correspond à l'orthogonalisation de Gram-Schmidt de l'élément C h 1 s de la suite { s, Cs,..., C h 1 s }. La suite { t 1), t 2),..., t h)},aux éléments normés à 1, est obtenue par orthogonalisation de Gram-Schmidt sur la suite de Krylov { t, Dt,..., D h 1 t }. Pour h=1 : t 1) = Xw 1) Par ce qui précède : t 1) = X w1) w 1) = X X y X y qui est proportionnel à t = XX y. Pour h>1 : On sait que t h) appartient à l'espace engendré par { t 1), t 2),..., t h)} qui, par hypothèse : { t 1), t 2),..., t h)} { t, Dt,..., D h 1 t }. On peut donc écrire t h) comme suit : h 2 t h) = β i D i t + β h 1 D h 1 t i=0 Par 1.21, on sait que t h) est orthogonal aux éléments de { t 1), t 2),..., t h 1)} et donc également orthogonal aux éléments de { t, Dt,..., D h 2 t }. Soit Π {t,dt,...,d h 2 t} la projection orthogonale sur l'espace { t, Dt,..., D h 2 t }. On a alors : Π ) {t,dt,...,d h 2 t} t h) = Π {t,dt,...,d h 2 t} i=0 h 2 ) β i D i t + β h 1 D h 1 t i=0 h 2 0 = β i D i t + Π {t,dt,...,d h 2 t} βh 1 D h 1 t ) h 2 β i D i t = Π {t,dt,...,d h 2 t} βh 1 D h 1 t ) i=0 D'où : Et donc : t h) = β h 1 D h 1 t Π {t,dt,...,d h 2 t} βh 1 D h 1 t ) t h) t h) = β h 1Dh 1 t Π {t,dt,...,dh 2t} βh 1 D h 1 t ) β h 1 D h 1 t Π {t,dt,...,d h 2 t} β h 1D h 1 t) qui correspond à l'orthogonalisation de Gram-Schmidt de l'élément D h 1 t de la suite de Krylov { t, Dt,..., D h 1 t } Proposition 1. Soient W h = [ w 1),..., w h)] et P h = [ p 1),..., p h)]. Alors P h W h est une matrice bidiagonale à droite novembre 2012

21 Preuve 1. On sait que w h) { s, Cs,..., C h 1 s }, w h) est orthogonal aux vecteurs de l'espace { s, CS,..., C h 2 s } et que p l) appartient à l'espace { Cs,..., C l s }. Donc pour l h 2 : p l) w h) = 0 Et d'après la propriété 1.24 on a : Et d'après 1.22, p h) w h) = 1. Donc en écrivant P h W h comme suit : p l) w h) = 0, pour l > h p 1) w 1) p 1) w 2) p 1) w h) p 2) w 1) p 2) w 2) p 2) w h) P hw h = p h) w 1) p h) w 2) p h) w h) les relations entre p h) et w h) conduisent à la matrice : 1 p 1) w 2) P hw h = p h 1) w h) qui est une matrice bidiagonale à droite. c. Remarques Les hypothèses dressées dans cette partie sont prouvées dans [20]. D'autres propriétés existent et également démontrées dans [10] et dans [20]) mais ne sont pas explicitées dans ce chier propriétés sur les vecteurs issus de la PLS1, liaison entre l'acp appliquée sur X et la régression PLS de y sur X...) Formules de décomposition a. X et y en fonction des nouvelles composantes Les matrice X et le vecteur y peuvent se décomposer par régression sur les composantes t 1), t 2),..., t k) où k est le nombre total de composantes : X [k] = X [k 1] t k) p k). = X [k 2] t k 1) p k 1) t k) p k) = X t 1) p 1) t 2) p 2)... t k) p k) novembre 2012

22 D'où : Par le même raisonnement : X = t 1) p 1) + t 2) p 2) t k) p k) + X [k] 1.29) y = c 1 t 1) + c 2 t 2) c k t k) + y [k] 1.30) Comme les t h) sont orthogonaux entre eux, on retrouve bien les mêmes coecients de régression dans 1.29 et 1.30 que dans la méthode itérative décrite plus haut : ex : t 1) X = t 1) t 1) p 1) p 1) = X t 1) t 1) t 1) b. X [h] en fonction de X La matrice des résidus X [h] à l'étape h peut s'exprimer en fonction de X : X [h] = X I w 1) p 1)) I w 2) p 2))... I w h) p h)) 1.31) Preuve de 1.31 Prouvons X [h] = X h j=1 I wj) p j) ), pourh 1, pourh 1. Procédons par récurrence : Cas initial : pour h=1 X [1] résidus de la régression de X [0] sur t 1) : X [1] = X [0] t 1) p 1) Or X [0] = X et t 1) = X [0] w 1). D'où : X [1] = X Xw 1) p 1) = X I w 1) p 1)) Hypothèse de récurrence Supposons la propriété vraie pour un entier h. Montrons qu'elle est vraie au rang h+1. Pour h>1 X [h+1] = X [h] t h+1) p h+1) = X [h] X [h] w h+1) p h+1) = X [h] I w h+1) p h+1)) h = X I w j) p j)) I w h+1) p h+1)) par HR) j=1 h+1 = X I w j) p j)) j= novembre 2012

23 c. t [h] en fonction de X La composante t h) est combinaison linéaire des colonnes de X : h 1 t h) = X [h 1] w h) = X I w j) p j)) w h) = Xw h) 1.32) j=1 avec w h) = h 1 j=1 I w j) p j)) w h) Proposition 2. w h) = h 1 j=1 I w j) p j)) w h) vérie l'équation de récurrence : { w 1) = w 1) Preuve 2. w h+1) = = = w h) = w h) w h 1) p h 1) w h) h I w j) p j)) w h+1) j=1 h 1 I w j) p j))) I w h) p h)) w h+1) j=1 h 1 I w j) p j))) w h+1) w h) p h) w h+1)) j=1 h 1 = I w j) p j)) h 1 w h+1) I w j) p j)) w h) p h) w h+1)) j=1 j=1 } {{ } =w h+1) h 1 = w h+1) I w j) p j)) w h) p h) w h+1)) j=1 } {{ } w h) = w h+1) w h) p h) w h+1) En eet, h 1 j=1 I w j) p j)) w h+1) = w h+1) car p i) w h+1) = 0 pour i h 1 et P h W h est bidiagonale. Proposition 3. La matrice W h = [ w 1), w 2),..., w h)] vérie l'équation : W h = W h P hw h ) 1 avec W h = [ w 1), w 2),..., w h)] et P h = [ p 1), p 2),..., p h)] Preuve 3. On sait, par la proposition 1, que P h W h est bidiagonale à droite et, par la proposition 2, que w h) = w h) w h 1) p h 1) w h) novembre 2012

24 Ainsi, w h) = w h) + w h 1) p h 1) w h) et donc W h = W h P h W h. En eet : w 1) 1 w 2) 1... w h 1) 1 w h) 1 p 1) w 2) WhP hw w 1) 2 w 2) 2... w h 1) 2 w h) 0 1 p 2) w 3) h = wp 1) wp 2)... wp h) wp h) p h 1) w h) w 1) 1 w 1) 1 p 1) w 2) + w 2) 1... w h) 1 + w h 1) 1 p h 1) w h) w 1) 2 w 1) 2 p 1) w 2) + w 2) 2... w h) 2 + w h 1) 2 p h 1) w h) = wp 1) wp 1) p 1) w 2) + wp 2)... wp h) + wp h 1) p h 1) w h) = w 1) w 2)... w h) = W h..... Donc W h = W h P h W h) 1 d. Conclusion. Les composantes PLS t 1), t 2),..., t k) sont donc des combinaisons linéaires des colonnes de X matrice centrée-réduite des variables initiales), non corrélées entre elles, résumant au mieux X tout en expliquant autant que possible y vecteur centré-réduit de la variable réponse initiale). Ces composantes sont donc analogues à des composantes principales des X 1), X 2),..., X p) les p variables explicatives initiales) expliquant au mieux la variable réponse initiale Equation de régression PLS et estimation a. Equation de régression PLS Jusqu'à présent, les formules ont été établies à partir d'une matrice de variables explicatives centrées-réduites nommée X et d'un vecteur réponse centré-réduit nommé y. Pour alléger les notations des formules précédentes aucune distinction d'écriture n'a été établie entre les matrices/vecteur initiaux et les matrices/vecteur centrés-réduits. Dans cette partie nous allons faire une distinction entre les diérents éléments : - X : matrice de taille n p des variables explicatives initiales non centréesréduites - y : vecteur de taille n 1 de la variable à expliquer initiale non centréeréduite - E 0 : matrice de taille n p des variables explicatives initiales centréesréduites novembre 2012

25 - f 0 : vecteur de taille n 1 de la variable à expliquer initiale centrée-réduite D'après la décomposition de f 0 sur t 1), t 2),..., t h) voir formule 1.30) on déduit la régression PLS de y sur X 1), X 2),..., X p) : f 0 = y y s y = c 1 t 1) + c 2 t 2) c k t k) + f [k] = = = = = k c j t j) + f [k] j=1 k c j E 0 w j) + f [k] par 1.32) j=1 k j=1 p c j k J=1 j=1 p J=1 w j) J c j w j) J ) X J) X J) s X J) }{{} E J) 0 +f [k] ) X J) X J) + f [k] s X J) ) p X J) X J) β J + f [k] J=1 s X J) avec β J = k j=1 c jw j) J Ainsi : avec β 0 = y s y y y s y ) p X J) X J) β J J=1 y s y y s y y s y β 0 + ) p J=1 β X J) J s X J) s X J) p β J J=1 p J=1 X J) s X J) β J X J) s X J) ) ) + p J=1 ) X J) β J s X J) Et on a donc : pour β 0 = β 0 s y et β J = β J sy s X J) p y β 0 + β JX J) 1.33) J=1 L'équation 1.33 est donc la régression PLS de y sur les variables explicatives X 1), X 2),..., X p) novembre 2012

26 Pouvons-nous alors estimer β tel que : b. Estimation ˆβ P LS = argmin y Xβ? β L'objectif est de résoudre un problème de la forme Ax = b en présence d'un grand nombre de données. Dans ce contexte, les méthodes directes sont impossibles mais pas les méthodes itératives. Parmi ces méthodes, nous allons considérer celles faisant intervenir des espaces de Krylov de la forme { v, Av,..., A k 1 v }. 5, où v est le résidu initial v = Ax 0 b). Ainsi projeter le problème linéaire sur ce sous-espace permet de se ramener à un problème de plus petite taille qui approche le problème initial. Cependant, cette approche devient dicile quand la matrice A n'est pas symétrique ce qui est notre cas :p >> n). Dans ce cas, une approche possible est de se ramener au cas symétrique défni positif en résolvant l'équation normale A T Ax = A T b et de considérer l'espace de Krylov de la forme : { v, A T Av,..., A T A) h 1 v }. En posant : A = X, x = β, b = y et v = X y à signe près) pourx 0 a : ˆβ P LS = argmin y Xβ β K h = 0 on où : K h = V ect { X T y, X T XX T y,..., X T X) h 1 X T y } = V ect { s, Cs,..., C h 1 s } avec s = X y et C = X X. 6 Proposition 4. Soient W h = [ w 1),..., w h)] et P h = [ p 1),..., p h)]. Alors on dénit T h = [ t 1),..., t h)] par : T h = XW h P hw h ) 1 Preuve 4. Par l'alogrithme de PLS1, on dénit t h) par : t h) = X [h 1] w h), h = 1,..., k avec k déni par validation-croisée. Et par 1.32 on a : t h) = Xw h) avec w 1) = w 1) et pour h > 1 w h) = h 1 i=1 I w i) p i)) w h). Ainsi on peut écrire : T h = XW h avec T h = [ t 1),..., t h)] et W h = [ w 1),..., w h)] Or par la proposition 2, W h = W h P h W h) 1. Donc on a bien : T h = XW h P h W h) 1. Proposition 5. Soient W h = [ w 1),..., w h)], P h = [ p 1),..., p h)] et C h = [c 1,..., c h ]. Alors on dénit ˆβ P LS par : ˆβ P LS = W h P hw h ) 1 C h avec h le nombre de composantes retenues après validation croisée. 5. voir annexe A 6. pour plus de détails voir [13] et [11] novembre 2012

27 Preuve 5. A partir de l'algorithme PLS1, on peut avoir une estimation de y : ŷ = c 1 t 1) + c 2 t 2) c h t h) avec h le nombre de composantes déni par validation croisée. c 1 c 2... En posant C h =. et T h = t 1) t 2)... t h) on a :... c h ŷ = T h C h = XW hc h = XW h P hw h ) 1 C h = X ˆβ P LS avec ˆβ P LS = W h P h W h) 1 C h Remarque 1. On sait que les composantes de la régression PLS t 1), t 2),..., t h)) sont orthogonales. On a donc : c h = t h) t h)) 1 t h) y [h 1] = t h) t h)) 1 t h) y et donc : C h = T ht h ) 1 T hy novembre 2012

28 Chapitre 2 Etude d'un exemple An de mettre en lumière les avantages de la PLS, d'un point de vue pratique, nous allons traiter d'un exemple étudié dans [20]. 2.1 Les données L'objectif est de déterminer l'inuence de sept composants sur l'indice d'octane moteur de douze mélanges diérents. distillation directe 0 x Réformat 0 x Naphta de craquage thermique 0 x Naphta de craquage catalytique 0 x Polymère 0 x Alkylat 0 x Essence naturelle 0 x Table 2.1 Présentation des 7 composants Les données représentant des proportions, les variables somment toutes à 1. 27

29 composantes mélange x 1 x 2 x 3 x 4 x 5 x 6 x Table 2.2 Données de Cornell variables exogènes) Les 7 variables exogènes sont mises en relation ave une variable endogène notée y : indice d'octane moteur mélange Table 2.3 Données de Cornell variable endogène) y 2.2 Traitement des données Estimation des paramètres par MCO novembre 2012

30 Figure 2.1 Estimation des coecients par MCO du modèle général utilisation du logiciel R) Figure 2.2 Statistiques des paramètres estimés sorties logiciel R) Remarques Plusieurs points sont à souligner : - les variances des paramètres sont excessivement grandes - les paramètres estimés sont également grands en valeur absolue) - le coecient de la 7ème variable n'a pas été estimé Tout cela nous laisse penser que la matrice X X est mal conditionnée. Un fait d'ailleurs conrmé par la sortie logiciel précédente où la présence de singularités a été soulignée Mise en évidence de corrélations entre variables Plusieurs moyens existent pour prouver la présence de corrélations entre les variables. Ici, nous allons nous contenter de 2 tests simples que sont la construction de la matrice X X et le calcul de son déterminant novembre 2012

31 a. Matrice des corrélations Figure 2.3 Corrélations entre variables exogènes et endogène sorties logiciel R) b. Déterminant de X X Figure 2.4 déterminant de la matrice X X sorties logiciel R) c. Remarque La présence de corrélations conrmées par det X X) 0 et les forts coecients de corrélation entre les variables) explique les résultats aberrants de l'estimation par MCO. 2.3 Régression dans le cadre de données corrélées Les méthodes pas à pas Nous avons vu que lorsqu'un modèle de régression multiple contient un nombre important de variables explicatives fortement corrélées entre elles, il est intéressant d'examiner si un sous-ensemble de ces variables permettrait d'obtenir un modèle meilleur que le modèle global. Plusieurs méthodes existent méthode ascendant forward), méthode descendante backward), méthode mixte stepwise)) et nous avons choisi d'utiliser la méthode mixte qui nous semble être la plus objective des trois grâce à une mise en concurrence des variables explicatives). a. Application sur les données Ici, les données sont centrées-réduites et on applique la méthode mixte stepwise) : 1 1. voir [7] pour comprendre les choix de sélection du logiciel même si le document utilise un autre logiciel le logiciel SAS), les interprétations statistiques restent identiques) novembre 2012

32

33 b. Remarques Les variables x 1, x 2, x 4, x 5 sont retenues. 2 Cependant, ce modèle est dicilement acceptable par le praticien qui ne comprendra pas pourquoi la variable x 6, alors la plus corrélée à y, n'est pas prise en compte. Le problème avec ce genre de modèles issus de sélections) est qu'il est dicile de proposer à l'utilisateur une formule qui ne tienne pas compte de variables pourtant inuentes et ne permette pas de quantier l'eet de leurs variations sur la réponse y. C'est pourquoi on va considérer des méthodes présentées théoriquement au chapite précédent) prenant en compte toutes les variables dans le modèle La RCP appliquée à nos données a. L'algorithme utilisé Etapes Procédures Code Etape 0 initialisation de la matrice d'itération X [0] = X Etape 1 Construction itérative des k composantes principales pour h = 1,..., k Etape 1.1 initialisation de la h ième composante principale t h) = X [h 1] [, 1] Etape 1.2 à répéter jusqu'à convergence de p h) ou de 1 n 1 t t h) Etape construction du h ième vecteur propre p h) = X [h 1] th) t h) t h) Etape construction de la h ième composante principale t h) = X [h 1]p h) p h) p h) Etape 1.3 Extraction des résidus de la régression de X [h 1] sur t h) X [h] = X [h 1] t h) p h) b. Nombre de composantes à retenir Table 2.4 Algorithme NIPALS En pratique, on utilise le plus souvent des critères empiriques comme celui de Kaiser ou le diagramme des valeurs propres an de mettre en évidence la présence d'un coude voir [19]). Comme ce dernier n'est pas toujours évident à identier, on va considérer le critère de Kaiser. D'après ce critère, quand on travaille avec des données centréesréduites, les composantes principales correspondant à des valeurs propres supérieures à 1 doivent etre retenues. En eet, les composantes principales t étant des combianisons linéaires des z j) i = xj) i x j) de variance maximale V art) = λ, seules présentent un s x j) intérêt des composantes de variance supérieure à celle des variables initiales centréesréduites) et donc supérieure à 1. c. Application sur les données On calcule les vecteurs et valeurs propres associées de la matrice X X matrice des corrélations) : 2. cela rejoint les résultats obtenus dans [20] novembre 2012

34 Figure 2.5 Calculs des valeurs propres et vecteurs propres de la matrice des corrélations par l'algorithme des puissances itérées sorties logiciel R) Le nombre de composantes à retenir est de 4. On applique l'algorithme NIPALS sur la matrice centrée-réduite des variables explicatives initiales an de déterminer les composantes principales. On se donne ɛ = le seuil qui nous permet de tester la convergence de p h) dans l'algorithme et on a : Figure 2.6 Composantes principales issues de l'acp sorties logiciel R) Pour estimer la variable réponse, on régresse celle-ci sur les 4 composantes construites : novembre 2012

35 y centré-réduit y non centré-réduit y ŷ y ŷ Table 2.5 Tableau des y observés centrés-réduits et non centrés-réduits) et des prévisions ŷ associées à partir de la RCP à 4 composantes La PLS appliquée à nos données a. Nombre de composantes à retenir Toujours d'après [20], la validation croisée ou cross-validation) est le moyen le plus utilisé pour déterminer le nombre de composantes à inclure dans la régression PLS. 3 Au regard du peu de données disponibles, on applique la leave-one-out cross-validation. On dénit 2 critères : n ) 2 RSS h = yi ŷ [h],i P RESS h = i=1 n ) 2 yi ŷ [h] i). 4 i=1 où : y i = ŷ [h 1],i + c h t h) i + y [h],i ŷ [h], i) est l'estimation pour l'individu i de y lorsque l'individu i a été retiré dans la construction de l'estimateur PLS. Remarque Le P RESS de l'étape h sera forcément inférieur ou égal à ce qu'il été à l'étape h 1. Il sera également supérieur ou égal au RSS de l'étape h. Par contre, s'il est inférieur au RSS de l'étape h 1 cela signierait que la qualité d'estimation du modèle se serait considérablement améliorée. En eet, on pourrait, dans ce cas, estimer avec plus 3. voir annexe B pour plus de détails sur la Validation-croisée 4. où : - ŷ [h],i est la prédiction de y i à l'aide du modèle 1.30) obtenu en utilisant toutes les observations - ŷ [h] 1) est la prédiction de y i via le modèle 1.30) obtenu sans utiliser l'observation i novembre 2012

36 de précision les valeurs y i des individus sans les connaitre au préalable) qu'avec le modèle, de l'étape précédente, construit à partir de toutes les observations. Donc le fait que la composante h ait une importance signicative dans la régression pourrait se traduire par le fait que P RESS h soit inférieur à RSS h 1. Soit le critère suivant à calculer à chaque étape h) : Q 2 h = 1 P RESS h RSS h 1 D'après [20]), une nouvelle composante est signicative donc conservée) si Q 2 h ou si P RESS h 0.95 RSS h 1. 5 Cette équation signie que pour conserver la composante h il faut que les résidus, tels qu'ils sont calculés dans le P RESS h pris en valeur absolue), n'excèdent pas 95% des résidus tels qu'ils sont calculés dans le critère RSS h 1. b. Application sur nos données On calcule tout d'abord toutes les composantes possibles au total p=nombre de colonnes de la matrice X centrée-réduite)) : Figure 2.7 Composantes de la régression PLS de y sur X et coecients associés sorties logiciel R) On sélectionne les composantes à retenir par validation croisée. 5. Le fait que l'équation soit sous forme de racine est simplement la conséquence du fait qu'on cherche à se replacer à l'échelle des résidus et non à l'échelle des résidus au carré novembre 2012

37 Figure 2.8 Résultats de la cross-validation sorties logiciel R) Les composantes à retenir sont les 3 premières. Elles permettent d'avoir une estimation de la variable réponse. y centré-réduit y non centré-réduit y ŷ y ŷ Table 2.6 Tableau des y observés centrés-réduits et non centrés-réduits) et des prévisions ŷ associées à partir de la régression PLS à 3 composantes novembre 2012

38 2.3.4 Comparaison RCP vs régression PLS à partir des résidus résidus issus de la RCP résidus issus de la PLS Table 2.7 Comparaison des résidus des régressions sur CP et PLS RMSE RCP RMSE PLS Table 2.8 comparaison des qualités prédictives des modèles issus des régressions sur CP et PLS novembre 2012

39 Chapitre 3 Conclusion et perspectives 3.1 Conclusion La régression PLS1 réalise donc un compromis entre la régression multiple de y sur X et l'analyse en composantes principales de X. Le nombre de composantes k est déterminé par validation croisée. L'algorithme utilisé s'inspirant de l'algorithme NI- PALS) est itératif et permet d'exprimer les composantes, alors nouvellement construites t 1),t 2),...,t k), en fonction des variables initiales X j) pour obtenir le modèle de régression PLS à k composantes : y = c 1 t 1) + c 2 t 2) c k t k) + res = c 1 w 1) 1 x 1) c 1 w 1) p x p) + c 2 w 2) 1 x 1) p 1) 1 t 1) ) c 2 w 2) p x p) p 1) p t 1) ) c k w k) 1 x 1) p k 1) 1 t k 1) ) c k w k) p x p) p k 1) p t k 1) ) + res Ce modèle assure des qualités de prédiction du phénomène meilleures que la RCP même quand cette dernière justie de plus de composantes. Cela s'explique par le fait que les composantes PLS captent l'information portée par les variables explicatives tout en se souciant du lien entre les variables exogènes et endogène. Enn, il est important de noter que l'algorithme tel qu'il a été présenté n'est pas celui qui s'applique avec des données manquantes. Pour rentrer dans ce cadre quelques conditions doivent être vériées pour le calcul des composantes. 3.2 Pour aller plus loin... Ce qui a été présenté dans ce chier concerne la régression PLS et en particulier la PLS1. Pour cela, la PLS fait appel à diérents thèmes et notions mathématiques PLS : une famille de méthodes - régression PLS : P LS1 cas univarié) P LS2 cas multivarié) - GLM-PLS [4]) 38

40 - PLS-Cox [1], [2]) - Kernel PLS [8], [12], [16], [17]) - Sparse-PLS [6], [14], [15]) PLS : une approche algorithmique de la régression - algorithme NIPALS [20]) - SIMPLS [3], [9], [20]) - PLS et méthodes de Lanczos [3]) - PLS et gradients conjugués - algorithme PLS-Cox [3] + références de [3]) novembre 2012

41 Annexe A Suites de Krylov Les méthodes de Krylov sont des méthodes de résolution itératives du système linéaire de dimension n : Ax = b où A est une matrice carrée inversible, utilisant des projections dans des sous-espaces particuliers, les espaces de Krylov. Les espaces de Krylov permettent de construire, par des opérations de type produit matrice-vecteur, produit scalaire ou combinaison linéaire de vecteurs, des sous-espaces anes pour chercher des approximations de la solution du système linéaire précédent. On appelle sous-espace de Krylov d'ordre k, associé à M R k et v R le sous-espace : K k M, v) = V ect v, Mv,..., M k 1 v ) où v, Mv,..., M k 1 v ) est la suite de Krylov associée. On peut dénir quelques propriétés : 1. K k σv, τm) = K k v, M), pour σ, τ 0 2. K k v, M τi)) = K k v, M) 3. K k Av, AMA ) = AK k v, M), pour A = A 1 40

42 Annexe B Validation croisée La validation croisée est une méthode qui permet de tester la abilité d'un modèle. Il existe au moins trois techniques de validation croisée : 1 1. test et validation 2. k-fold cross-validation 3. leave-one-out cross validation B.1 Test et validation On divise l'échantillon de taille n en un échantillon d'apprentissage et en un échantillon test. Le modèle est alors construit sur l'échantillon d'apprentissage et validé sur l'échantillon test. L'erreur est estimée en calculant l'erreur quadratique moyenne. Cependant, cette méthode statistique suggère un grand nombre d'observations pour établir 2 sous-échantillons de taille satisfaisante. Ceci est dicile d'obtenir dans la réalité. D'autres méthodes sont alors utilisées. B.2 k-fold cross-validation On divise k fois l'échantillon puis on sélectionne un des k échantillons comme ensemble de validation et les k 1) autres échantillons constitueront l'ensemble d'apprentissage. On calcule l'erreur quadratique moyenne puis on répète l'opération en sélectionnant un autre éhantillon de validation parmi les k 1) échantillons qui n'ont pas encore été utilisés pour la validation du modèle. L'opération se répète ainsi k fois pour que chaque sous-échantillon ait été utilisé une fois comme ensemble de validation. La moyenne des k erreur quadratiques moyennes est calculée pour estimer l'erreur de prédiction. B.3 leave-one-out cross-validation Cette méthode est un cas particulier de la méthode précédente où k = n. Ici, on apprend sur n 1) observations puis on valide le modèle sur l'observation restante. On répète l'opération n fois. 1. tout ceci est davantage détaillé dans [18] 41

43 Bibliographie [1] Philippe Bastien. Pls-cox model : Application to gene expression data. In : Proceedings COMPSTAT'04, Springer : Physica-Verlag, pages , [2] Philippe Bastien. Deviance residuals based pls regression for censored data in high dimensional setting. Chemometrics and intelligent laboratory systems, [3] Philippe Bastien. Régression PLS et données censurées. PhD thesis, Conservatoire national des arts et métiers de Paris, mars [4] Philippe Bastien, Vincenzo Esposito Vinzi, and Michel Tenenhaus. Pls generalised linear regression. Computational statistics and data analysis, [5] Marie Chavent and Brigitte Patouille. Calcul des coecients de régression et du press en régression pls1. Revue MODULAD, 30) :19, Juin [6] Hyonho Chun and Sündüz Keles. Sparse partial least squares regression for simultaneous dimension reduction and variable selection. Journal of the Royal Statistical Society, avril [7] Josiane Confais and Monique Le Guen. Premiers pas en régression linéaire avec sas. Revue MODULAD, 35) :330332, [8] B.S. Dayal and J.F. MacGregor. Improved pls algorithms. Journal of Chemometrics, 11) :7385, [9] S. de Jong. Simpls : An alternative approach to partial least squares regression. Chemometrics and Intelligent Laboratory Systems, 18), [10] Inge S. Helland. On the structure of partial least squares regression. Department of Mathematical Sciences - Agricultural University of Norway, [11] INRIA. Projet aladin : Algorithmes adaptés au calcul numérique intensif. Technical report, [12] De Jong and C. ter Braak. Comments on the pls kernel algorithm. Journal of Chemometrics, 8) :169174, [13] Athanassios Kondylis. PLS methods in regression - Model assessment and inference. PhD thesis, Insitut de statistique - Faculté des sciences économiques - Université de Neuchâtel, septembre [14] Kim-Anh Lê Cao, Pascal G.P. Martin, Christèle Robert-Granié, and Philippe Besse. Sparse canonical methods for biological data integration : application to a cross-platform study. septembre [15] Kim-Anh Lê Cao, Debra Rossouw, Christèle Robert-Granié, and Philippe Besse. A sparse pls for variable selection when integrating omics data. 42

44 [16] F. Lingren, P. Geladi, and S. Wold. The kernel algorithm for pls. Journal of Chemometrics, 7) :4559, [17] S. Rännar, F. Lindgren, P. Geladi, and S. Wold. A pls kernel algorithm for data sets with many variables and fewer objects. part i : Theory and algorithm. Journal of Chemometrics, 8) :111125, [18] Payam Refaeilzadeh, Lei Tang, and Huan Liu. Cross-validation. Technical report, Arizona State University, novembre [19] Gilles Saporta. Probabilités, analyse des données et statistique. Technip, [20] Michel Tenenhaus. La régression PLS - Théorie et Pratique. Technip, novembre 2012

Examen optimisation Centrale Marseille (2008) et SupGalilee (2008)

Examen optimisation Centrale Marseille (2008) et SupGalilee (2008) Examen optimisation Centrale Marseille (28) et SupGalilee (28) Olivier Latte, Jean-Michel Innocent, Isabelle Terrasse, Emmanuel Audusse, Francois Cuvelier duree 4 h Tout resultat enonce dans le texte peut

Plus en détail

3 Approximation de solutions d équations

3 Approximation de solutions d équations 3 Approximation de solutions d équations Une équation scalaire a la forme générale f(x) =0où f est une fonction de IR dans IR. Un système de n équations à n inconnues peut aussi se mettre sous une telle

Plus en détail

Fonctions de plusieurs variables : dérivés partielles, diérentielle. Fonctions composées. Fonctions de classe C 1. Exemples

Fonctions de plusieurs variables : dérivés partielles, diérentielle. Fonctions composées. Fonctions de classe C 1. Exemples 45 Fonctions de plusieurs variables : dérivés partielles, diérentielle. Fonctions composées. Fonctions de classe C 1. Exemples Les espaces vectoriels considérés sont réels, non réduits au vecteur nul et

Plus en détail

Raisonnement par récurrence Suites numériques

Raisonnement par récurrence Suites numériques Chapitre 1 Raisonnement par récurrence Suites numériques Terminale S Ce que dit le programme : CONTENUS CAPACITÉS ATTENDUES COMMENTAIRES Raisonnement par récurrence. Limite finie ou infinie d une suite.

Plus en détail

Introduction à la Statistique Inférentielle

Introduction à la Statistique Inférentielle UNIVERSITE MOHAMMED V-AGDAL SCIENCES FACULTE DES DEPARTEMENT DE MATHEMATIQUES SMI semestre 4 : Probabilités - Statistique Introduction à la Statistique Inférentielle Prinemps 2013 0 INTRODUCTION La statistique

Plus en détail

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications A. Optimisation sans contrainte.... Généralités.... Condition nécessaire et condition suffisante

Plus en détail

UEO11 COURS/TD 1. nombres entiers et réels codés en mémoire centrale. Caractères alphabétiques et caractères spéciaux.

UEO11 COURS/TD 1. nombres entiers et réels codés en mémoire centrale. Caractères alphabétiques et caractères spéciaux. UEO11 COURS/TD 1 Contenu du semestre Cours et TDs sont intégrés L objectif de ce cours équivalent a 6h de cours, 10h de TD et 8h de TP est le suivant : - initiation à l algorithmique - notions de bases

Plus en détail

Problème : Calcul d'échéanciers de prêt bancaire (15 pt)

Problème : Calcul d'échéanciers de prêt bancaire (15 pt) Problème : Calcul d'échéanciers de prêt bancaire (15 pt) 1 Principe d'un prêt bancaire et dénitions Lorsque vous empruntez de l'argent dans une banque, cet argent (appelé capital) vous est loué. Chaque

Plus en détail

Bureau : 238 Tel : 04 76 82 58 90 Email : [email protected]

Bureau : 238 Tel : 04 76 82 58 90 Email : dominique.muller@upmf-grenoble.fr Dominique Muller Laboratoire Inter-universitaire de Psychologie Bureau : 238 Tel : 04 76 82 58 90 Email : [email protected] Supports de cours : webcom.upmf-grenoble.fr/lip/perso/dmuller/m2r/acm/

Plus en détail

Projet de traitement d'image - SI 381 reconstitution 3D d'intérieur à partir de photographies

Projet de traitement d'image - SI 381 reconstitution 3D d'intérieur à partir de photographies Projet de traitement d'image - SI 381 reconstitution 3D d'intérieur à partir de photographies Régis Boulet Charlie Demené Alexis Guyot Balthazar Neveu Guillaume Tartavel Sommaire Sommaire... 1 Structure

Plus en détail

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ INTRODUCTION Données : n individus observés sur p variables quantitatives. L A.C.P. permet d eplorer les liaisons entre variables et

Plus en détail

2. RAPPEL DES TECHNIQUES DE CALCUL DANS R

2. RAPPEL DES TECHNIQUES DE CALCUL DANS R 2. RAPPEL DES TECHNIQUES DE CALCUL DANS R Dans la mesure où les résultats de ce chapitre devraient normalement être bien connus, il n'est rappelé que les formules les plus intéressantes; les justications

Plus en détail

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers

Plus en détail

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, 2011-2012 LES STATISTIQUES INFERENTIELLES

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, 2011-2012 LES STATISTIQUES INFERENTIELLES LES STATISTIQUES INFERENTIELLES (test de Student) L inférence statistique est la partie des statistiques qui, contrairement à la statistique descriptive, ne se contente pas de décrire des observations,

Plus en détail

Résolution de systèmes linéaires par des méthodes directes

Résolution de systèmes linéaires par des méthodes directes Résolution de systèmes linéaires par des méthodes directes J. Erhel Janvier 2014 1 Inverse d une matrice carrée et systèmes linéaires Ce paragraphe a pour objet les matrices carrées et les systèmes linéaires.

Plus en détail

D'UN THÉORÈME NOUVEAU

D'UN THÉORÈME NOUVEAU DÉMONSTRATION D'UN THÉORÈME NOUVEAU CONCERNANT LES NOMBRES PREMIERS 1. (Nouveaux Mémoires de l'académie royale des Sciences et Belles-Lettres de Berlin, année 1771.) 1. Je viens de trouver, dans un excellent

Plus en détail

OPTIMISATION À UNE VARIABLE

OPTIMISATION À UNE VARIABLE OPTIMISATION À UNE VARIABLE Sommaire 1. Optimum locaux d'une fonction... 1 1.1. Maximum local... 1 1.2. Minimum local... 1 1.3. Points stationnaires et points critiques... 2 1.4. Recherche d'un optimum

Plus en détail

III- Raisonnement par récurrence

III- Raisonnement par récurrence III- Raisonnement par récurrence Les raisonnements en mathématiques se font en général par une suite de déductions, du style : si alors, ou mieux encore si c est possible, par une suite d équivalences,

Plus en détail

RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/2011. 1.1 Présentation. 1.2 Ressources

RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/2011. 1.1 Présentation. 1.2 Ressources Master Maths Finances 2010/2011 Data Mining janvier 2011 RapidMiner 1 Introduction 1.1 Présentation RapidMiner est un logiciel open source et gratuit dédié au data mining. Il contient de nombreux outils

Plus en détail

Programmation linéaire

Programmation linéaire 1 Programmation linéaire 1. Le problème, un exemple. 2. Le cas b = 0 3. Théorème de dualité 4. L algorithme du simplexe 5. Problèmes équivalents 6. Complexité de l Algorithme 2 Position du problème Soit

Plus en détail

RÉSOLUTION DE SYSTÈMES À DEUX INCONNUES

RÉSOLUTION DE SYSTÈMES À DEUX INCONNUES RÉSOLUTION DE SYSTÈMES À DEUX INCONNUES Sommaire 1 Méthodes de résolution... 3 1.1. Méthode de Substitution... 3 1.2. Méthode des combinaisons linéaires... 6 La rubrique d'aide qui suit s'attardera aux

Plus en détail

Régression linéaire. Nicolas Turenne INRA [email protected]

Régression linéaire. Nicolas Turenne INRA nicolas.turenne@jouy.inra.fr Régression linéaire Nicolas Turenne INRA [email protected] 2005 Plan Régression linéaire simple Régression multiple Compréhension de la sortie de la régression Coefficient de détermination R

Plus en détail

Introduction a l'algorithmique des objets partages. Robert Cori. Antoine Petit. Lifac, ENS Cachan, 94235 Cachan Cedex. Resume

Introduction a l'algorithmique des objets partages. Robert Cori. Antoine Petit. Lifac, ENS Cachan, 94235 Cachan Cedex. Resume Introduction a l'algorithmique des objets partages Bernadette Charron{Bost Robert Cori Lix, Ecole Polytechnique, 91128 Palaiseau Cedex, France, [email protected] [email protected] Antoine

Plus en détail

La problématique des tests. Cours V. 7 mars 2008. Comment quantifier la performance d un test? Hypothèses simples et composites

La problématique des tests. Cours V. 7 mars 2008. Comment quantifier la performance d un test? Hypothèses simples et composites La problématique des tests Cours V 7 mars 8 Test d hypothèses [Section 6.1] Soit un modèle statistique P θ ; θ Θ} et des hypothèses H : θ Θ H 1 : θ Θ 1 = Θ \ Θ Un test (pur) est une statistique à valeur

Plus en détail

STATISTIQUES. UE Modélisation pour la biologie

STATISTIQUES. UE Modélisation pour la biologie STATISTIQUES UE Modélisation pour la biologie 2011 Cadre Général n individus: 1, 2,..., n Y variable à expliquer : Y = (y 1, y 2,..., y n ), y i R Modèle: Y = Xθ + ε X matrice du plan d expériences θ paramètres

Plus en détail

Introduction. I Étude rapide du réseau - Apprentissage. II Application à la reconnaissance des notes.

Introduction. I Étude rapide du réseau - Apprentissage. II Application à la reconnaissance des notes. Introduction L'objectif de mon TIPE est la reconnaissance de sons ou de notes de musique à l'aide d'un réseau de neurones. Ce réseau doit être capable d'apprendre à distinguer les exemples présentés puis

Plus en détail

Pourquoi l apprentissage?

Pourquoi l apprentissage? Pourquoi l apprentissage? Les SE sont basés sur la possibilité d extraire la connaissance d un expert sous forme de règles. Dépend fortement de la capacité à extraire et formaliser ces connaissances. Apprentissage

Plus en détail

L'analyse de données. Polycopié de cours ENSIETA - Réf. : 1463. Arnaud MARTIN

L'analyse de données. Polycopié de cours ENSIETA - Réf. : 1463. Arnaud MARTIN L'analyse de données Polycopié de cours ENSIETA - Réf : 1463 Arnaud MARTIN Septembre 2004 Table des matières 1 Introduction 1 11 Domaines d'application 2 12 Les données 2 13 Les objectifs 3 14 Les méthodes

Plus en détail

Le défi : L'avantage Videojet :

Le défi : L'avantage Videojet : Note d'application Impression-pose d'étiquettes Améliorez votre rendement : passez des applicateurs mécaniques à l'étiquetage Direct Apply TM Le défi : Au cours de ces 20 dernières années, les systèmes

Plus en détail

Correction de l examen de la première session

Correction de l examen de la première session de l examen de la première session Julian Tugaut, Franck Licini, Didier Vincent Si vous trouvez des erreurs de Français ou de mathématiques ou bien si vous avez des questions et/ou des suggestions, envoyez-moi

Plus en détail

Les indices à surplus constant

Les indices à surplus constant Les indices à surplus constant Une tentative de généralisation des indices à utilité constante On cherche ici en s inspirant des indices à utilité constante à définir un indice de prix de référence adapté

Plus en détail

Conception d'un réseau de transport d'électricité

Conception d'un réseau de transport d'électricité La Fédération Française des Jeux Mathématiques et la Société de Calcul Mathématique SA avec l'appui de Réseau de Transport d'electricité Conception d'un réseau de transport d'électricité Auteurs : Florian

Plus en détail

chapitre 4 Nombres de Catalan

chapitre 4 Nombres de Catalan chapitre 4 Nombres de Catalan I Dénitions Dénition 1 La suite de Catalan (C n ) n est la suite dénie par C 0 = 1 et, pour tout n N, C n+1 = C k C n k. Exemple 2 On trouve rapidement C 0 = 1, C 1 = 1, C

Plus en détail

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/ Recherche opérationnelle Les démonstrations et les exemples seront traités en cours Souad EL Bernoussi Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/ Table des matières 1 Programmation

Plus en détail

Algorithmes d'apprentissage

Algorithmes d'apprentissage Algorithmes d'apprentissage 1 Agents qui apprennent à partir d'exemples La problématique : prise de décision automatisée à partir d'un ensemble d'exemples Diagnostic médical Réponse à une demande de prêt

Plus en détail

CAPTEURS - CHAINES DE MESURES

CAPTEURS - CHAINES DE MESURES CAPTEURS - CHAINES DE MESURES Pierre BONNET Pierre Bonnet Master GSI - Capteurs Chaînes de Mesures 1 Plan du Cours Propriétés générales des capteurs Notion de mesure Notion de capteur: principes, classes,

Plus en détail

NOTATIONS PRÉLIMINAIRES

NOTATIONS PRÉLIMINAIRES Pour le Jeudi 14 Octobre 2010 NOTATIONS Soit V un espace vectoriel réel ; l'espace vectoriel des endomorphismes de l'espace vectoriel V est désigné par L(V ). Soit f un endomorphisme de l'espace vectoriel

Plus en détail

Cours 02 : Problème général de la programmation linéaire

Cours 02 : Problème général de la programmation linéaire Cours 02 : Problème général de la programmation linéaire Cours 02 : Problème général de la Programmation Linéaire. 5 . Introduction Un programme linéaire s'écrit sous la forme suivante. MinZ(ou maxw) =

Plus en détail

Cours Informatique Master STEP

Cours Informatique Master STEP Cours Informatique Master STEP Bases de la programmation: Compilateurs/logiciels Algorithmique et structure d'un programme Programmation en langage structuré (Fortran 90) Variables, expressions, instructions

Plus en détail

LE PROBLEME DU PLUS COURT CHEMIN

LE PROBLEME DU PLUS COURT CHEMIN LE PROBLEME DU PLUS COURT CHEMIN Dans cette leçon nous définissons le modèle de plus court chemin, présentons des exemples d'application et proposons un algorithme de résolution dans le cas où les longueurs

Plus en détail

ENSIIE. Macroéconomie - Chapitre I

ENSIIE. Macroéconomie - Chapitre I ENSIIE Macroéconomie - Chapitre I Le 13 avril 2013 Table des matières 1 Introduction 2 2 La théorie Keynésienne 3 2.1 Keynes......................................... 3 2.2 Quelques ordres de grandeur.............................

Plus en détail

Algorithmes de recherche

Algorithmes de recherche Algorithmes de recherche 1 Résolution de problèmes par recherche On représente un problème par un espace d'états (arbre/graphe). Chaque état est une conguration possible du problème. Résoudre le problème

Plus en détail

Carl-Louis-Ferdinand von Lindemann (1852-1939)

Carl-Louis-Ferdinand von Lindemann (1852-1939) Par Boris Gourévitch "L'univers de Pi" http://go.to/pi314 [email protected] Alors ça, c'est fort... Tranches de vie Autour de Carl-Louis-Ferdinand von Lindemann (1852-1939) est transcendant!!! Carl Louis

Plus en détail

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures) CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE Cinquième épreuve d admissibilité STATISTIQUE (durée : cinq heures) Une composition portant sur la statistique. SUJET Cette épreuve est composée d un

Plus en détail

La programmation linéaire : une introduction. Qu est-ce qu un programme linéaire? Terminologie. Écriture mathématique

La programmation linéaire : une introduction. Qu est-ce qu un programme linéaire? Terminologie. Écriture mathématique La programmation linéaire : une introduction Qu est-ce qu un programme linéaire? Qu est-ce qu un programme linéaire? Exemples : allocation de ressources problème de recouvrement Hypothèses de la programmation

Plus en détail

Programmation linéaire et Optimisation. Didier Smets

Programmation linéaire et Optimisation. Didier Smets Programmation linéaire et Optimisation Didier Smets Chapitre 1 Un problème d optimisation linéaire en dimension 2 On considère le cas d un fabricant d automobiles qui propose deux modèles à la vente, des

Plus en détail

Etude des propriétés empiriques du lasso par simulations

Etude des propriétés empiriques du lasso par simulations Etude des propriétés empiriques du lasso par simulations L objectif de ce TP est d étudier les propriétés empiriques du LASSO et de ses variantes à partir de données simulées. Un deuxième objectif est

Plus en détail

Econométrie La régression linéaire simple et multiple

Econométrie La régression linéaire simple et multiple Ricco Rakotomalala Econométrie La régression linéaire simple et multiple Version 1.1 Université Lumière Lyon 2 Page: 1 job: Econometrie_Regression macro: svmono.cls date/time: 26-May-2015/18:13 Page: 2

Plus en détail

C f tracée ci- contre est la représentation graphique d une

C f tracée ci- contre est la représentation graphique d une TLES1 DEVOIR A LA MAISON N 7 La courbe C f tracée ci- contre est la représentation graphique d une fonction f définie et dérivable sur R. On note f ' la fonction dérivée de f. La tangente T à la courbe

Plus en détail

Analyse de corrélation Étude des dépendances - Variables quantitatives

Analyse de corrélation Étude des dépendances - Variables quantitatives Ricco Rakotomalala Analyse de corrélation Étude des dépendances - Variables quantitatives Version 1.1 Université Lumière Lyon 2 Page: 1 job: Analyse_de_Correlation macro: svmono.cls date/time: 8-Mar-2015/7:21

Plus en détail

SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique

SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique DOMAINE P3.C3.D1. Pratiquer une démarche scientifique et technologique, résoudre des

Plus en détail

Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures)

Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures) Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures) Eercice 1 (5 points) pour les candidats n ayant pas choisi la spécialité MATH Le tableau suivant donne l évolution du chiffre

Plus en détail

PROBLEMES D'ORDONNANCEMENT AVEC RESSOURCES

PROBLEMES D'ORDONNANCEMENT AVEC RESSOURCES Leçon 11 PROBLEMES D'ORDONNANCEMENT AVEC RESSOURCES Dans cette leçon, nous retrouvons le problème d ordonnancement déjà vu mais en ajoutant la prise en compte de contraintes portant sur les ressources.

Plus en détail

Résolution d équations non linéaires

Résolution d équations non linéaires Analyse Numérique Résolution d équations non linéaires Said EL HAJJI et Touria GHEMIRES Université Mohammed V - Agdal. Faculté des Sciences Département de Mathématiques. Laboratoire de Mathématiques, Informatique

Plus en détail

1.5 0.5 -0.5 -1.5 0 20 40 60 80 100 120. (VM(t i ),Q(t i+j ),VM(t i+j ))

1.5 0.5 -0.5 -1.5 0 20 40 60 80 100 120. (VM(t i ),Q(t i+j ),VM(t i+j )) La logique oue dans les PME/PMI Application au dosage de l'eau dans les bétons P.Y. Glorennec INSA de Rennes/IRISA [email protected] C. Hérault Hydrostop [email protected] V. Hulin Hydrostop [email protected]

Plus en détail

FORMULAIRE DE STATISTIQUES

FORMULAIRE DE STATISTIQUES FORMULAIRE DE STATISTIQUES I. STATISTIQUES DESCRIPTIVES Moyenne arithmétique Remarque: population: m xμ; échantillon: Mx 1 Somme des carrés des écarts "# FR MOYENNE(série) MOYENNE(série) NL GEMIDDELDE(série)

Plus en détail

Recherche dans un tableau

Recherche dans un tableau Chapitre 3 Recherche dans un tableau 3.1 Introduction 3.1.1 Tranche On appelle tranche de tableau, la donnée d'un tableau t et de deux indices a et b. On note cette tranche t.(a..b). Exemple 3.1 : 3 6

Plus en détail

Fonctions de plusieurs variables

Fonctions de plusieurs variables Module : Analyse 03 Chapitre 00 : Fonctions de plusieurs variables Généralités et Rappels des notions topologiques dans : Qu est- ce que?: Mathématiquement, n étant un entier non nul, on définit comme

Plus en détail

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI 1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage

Plus en détail

CORRECTION EXERCICES ALGORITHME 1

CORRECTION EXERCICES ALGORITHME 1 CORRECTION 1 Mr KHATORY (GIM 1 A) 1 Ecrire un algorithme permettant de résoudre une équation du second degré. Afficher les solutions! 2 2 b b 4ac ax bx c 0; solution: x 2a Solution: ALGORITHME seconddegré

Plus en détail

Chapitre 2 Le problème de l unicité des solutions

Chapitre 2 Le problème de l unicité des solutions Université Joseph Fourier UE MAT 127 Mathématiques année 2011-2012 Chapitre 2 Le problème de l unicité des solutions Ce que nous verrons dans ce chapitre : un exemple d équation différentielle y = f(y)

Plus en détail

LES CARTES À POINTS : POUR UNE MEILLEURE PERCEPTION

LES CARTES À POINTS : POUR UNE MEILLEURE PERCEPTION LES CARTES À POINTS : POUR UNE MEILLEURE PERCEPTION DES NOMBRES par Jean-Luc BREGEON professeur formateur à l IUFM d Auvergne LE PROBLÈME DE LA REPRÉSENTATION DES NOMBRES On ne conçoit pas un premier enseignement

Plus en détail

Critère du choix des variables auxiliaires à utiliser dans l'estimateur par calage

Critère du choix des variables auxiliaires à utiliser dans l'estimateur par calage des variables auxiliaires à utiliser dans l'estimateur par calage Mohammed El Haj Tirari Institut National de Statistique et d'economie Appliquée - roc Laboratoire de Statistique d'enquêtes, CREST - Ensai

Plus en détail

Équations non linéaires

Équations non linéaires CHAPTER 1 Équations non linéaires On considère une partie U R d et une fonction f : U R d. On cherche à résoudre { x U 1..1) f x) = R d On distinguera les cas d = 1 et d > 1. 1.1. Dichotomie d = 1) 1.1.1.

Plus en détail

Cours d analyse numérique SMI-S4

Cours d analyse numérique SMI-S4 ours d analyse numérique SMI-S4 Introduction L objet de l analyse numérique est de concevoir et d étudier des méthodes de résolution de certains problèmes mathématiques, en général issus de problèmes réels,

Plus en détail

Ordonnancement. N: nains de jardin. X: peinture extérieure. E: électricité T: toit. M: murs. F: fondations CHAPTER 1

Ordonnancement. N: nains de jardin. X: peinture extérieure. E: électricité T: toit. M: murs. F: fondations CHAPTER 1 CHAPTER 1 Ordonnancement 1.1. Étude de cas Ordonnancement de tâches avec contraintes de précédences 1.1.1. Exemple : construction d'une maison. Exercice. On veut construire une maison, ce qui consiste

Plus en détail

Exo7. Calculs de déterminants. Fiche corrigée par Arnaud Bodin. Exercice 1 Calculer les déterminants des matrices suivantes : Exercice 2.

Exo7. Calculs de déterminants. Fiche corrigée par Arnaud Bodin. Exercice 1 Calculer les déterminants des matrices suivantes : Exercice 2. Eo7 Calculs de déterminants Fiche corrigée par Arnaud Bodin Eercice Calculer les déterminants des matrices suivantes : Correction Vidéo ( ) 0 6 7 3 4 5 8 4 5 6 0 3 4 5 5 6 7 0 3 5 4 3 0 3 0 0 3 0 0 0 3

Plus en détail

L'analyse des données à l usage des non mathématiciens

L'analyse des données à l usage des non mathématiciens Montpellier L'analyse des données à l usage des non mathématiciens 2 ème Partie: L'analyse en composantes principales AGRO.M - INRA - Formation Permanente Janvier 2006 André Bouchier Analyses multivariés.

Plus en détail

Ebauche Rapport finale

Ebauche Rapport finale Ebauche Rapport finale Sommaire : 1 - Introduction au C.D.N. 2 - Définition de la problématique 3 - Etat de l'art : Présentatio de 3 Topologies streaming p2p 1) INTRODUCTION au C.D.N. La croissance rapide

Plus en détail

Couples de variables aléatoires discrètes

Couples de variables aléatoires discrètes Couples de variables aléatoires discrètes ECE Lycée Carnot mai Dans ce dernier chapitre de probabilités de l'année, nous allons introduire l'étude de couples de variables aléatoires, c'est-à-dire l'étude

Plus en détail

Introduire un nouveau type de maille ou un nouvel élément de référence

Introduire un nouveau type de maille ou un nouvel élément de référence Titre : Introduire un nouveau type de maille ou un nouvel [...] Date : 05/10/2012 Page : 1/11 Introduire un nouveau type de maille ou un nouvel élément de référence Résumé : Ce document décrit ce qu il

Plus en détail

Travaux pratiques. Compression en codage de Huffman. 1.3. Organisation d un projet de programmation

Travaux pratiques. Compression en codage de Huffman. 1.3. Organisation d un projet de programmation Université de Savoie Module ETRS711 Travaux pratiques Compression en codage de Huffman 1. Organisation du projet 1.1. Objectifs Le but de ce projet est d'écrire un programme permettant de compresser des

Plus en détail

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer Pour commencer Exercice 1 - Ensembles de définition - Première année - 1. Le logarithme est défini si x + y > 0. On trouve donc le demi-plan supérieur délimité par la droite d équation x + y = 0.. 1 xy

Plus en détail

Complexité. Licence Informatique - Semestre 2 - Algorithmique et Programmation

Complexité. Licence Informatique - Semestre 2 - Algorithmique et Programmation Complexité Objectifs des calculs de complexité : - pouvoir prévoir le temps d'exécution d'un algorithme - pouvoir comparer deux algorithmes réalisant le même traitement Exemples : - si on lance le calcul

Plus en détail

I. Ensemble de définition d'une fonction

I. Ensemble de définition d'une fonction Chapitre 2 Généralités sur les fonctions Fonctions de références et fonctions associées Ce que dit le programme : Étude de fonctions Fonctions de référence x x et x x Connaître les variations de ces deux

Plus en détail

Chapitre 1 : Introduction aux bases de données

Chapitre 1 : Introduction aux bases de données Chapitre 1 : Introduction aux bases de données Les Bases de Données occupent aujourd'hui une place de plus en plus importante dans les systèmes informatiques. Les Systèmes de Gestion de Bases de Données

Plus en détail

Cours d Analyse. Fonctions de plusieurs variables

Cours d Analyse. Fonctions de plusieurs variables Cours d Analyse Fonctions de plusieurs variables Licence 1ère année 2007/2008 Nicolas Prioux Université de Marne-la-Vallée Table des matières 1 Notions de géométrie dans l espace et fonctions à deux variables........

Plus en détail

Cours 1 : Introduction Ordinateurs - Langages de haut niveau - Application

Cours 1 : Introduction Ordinateurs - Langages de haut niveau - Application Université de Provence Licence Math-Info Première Année V. Phan Luong Algorithmique et Programmation en Python Cours 1 : Introduction Ordinateurs - Langages de haut niveau - Application 1 Ordinateur Un

Plus en détail

Chapitre 3. Les distributions à deux variables

Chapitre 3. Les distributions à deux variables Chapitre 3. Les distributions à deux variables Jean-François Coeurjolly http://www-ljk.imag.fr/membres/jean-francois.coeurjolly/ Laboratoire Jean Kuntzmann (LJK), Grenoble University 1 Distributions conditionnelles

Plus en détail

1 Complément sur la projection du nuage des individus

1 Complément sur la projection du nuage des individus TP 0 : Analyse en composantes principales (II) Le but de ce TP est d approfondir nos connaissances concernant l analyse en composantes principales (ACP). Pour cela, on reprend les notations du précédent

Plus en détail

YAO : Un logiciel pour les modèles

YAO : Un logiciel pour les modèles YAO : Un logiciel pour les modèles numériques et l'assimilation de données Sylvie Thiria, Fouad Badran, Charles Sorror Rapport de recherche (22 juin 2006) 1 Table des matières 1 Introduction 3 2 Principes

Plus en détail

"ÉMISSIONS TRADING" ET CONTROLE DES REJETS DE POLLUANTS ATMOSPHERIQUES ISSUES DE CENTRALES THERMIQUES * SYNTHESE

ÉMISSIONS TRADING ET CONTROLE DES REJETS DE POLLUANTS ATMOSPHERIQUES ISSUES DE CENTRALES THERMIQUES * SYNTHESE "ÉMISSIONS TRADING" ET CONTROLE DES REJETS DE POLLUANTS ATMOSPHERIQUES ISSUES DE CENTRALES THERMIQUES * SYNTHESE Afin de faire face aux dégâts engendrés ces dernières années par les polluants "acides",

Plus en détail

Construction de l'intégrale de Lebesgue

Construction de l'intégrale de Lebesgue Université d'artois Faculté des ciences Jean Perrin Mesure et Intégration (Licence 3 Mathématiques-Informatique) Daniel Li Construction de l'intégrale de Lebesgue 10 février 2011 La construction de l'intégrale

Plus en détail

Mathématique et Automatique : de la boucle ouverte à la boucle fermée. Maïtine bergounioux Laboratoire MAPMO - UMR 6628 Université d'orléans

Mathématique et Automatique : de la boucle ouverte à la boucle fermée. Maïtine bergounioux Laboratoire MAPMO - UMR 6628 Université d'orléans Mathématique et Automatique : de la boucle ouverte à la boucle fermée Maïtine bergounioux Laboratoire MAPMO - UMR 6628 Université d'orléans [email protected] Plan 1. Un peu de

Plus en détail

Le chiffre est le signe, le nombre est la valeur.

Le chiffre est le signe, le nombre est la valeur. Extrait de cours de maths de 6e Chapitre 1 : Les nombres et les opérations I) Chiffre et nombre 1.1 La numération décimale En mathématique, un chiffre est un signe utilisé pour l'écriture des nombres.

Plus en détail

1 Définition de la non stationnarité

1 Définition de la non stationnarité Chapitre 2: La non stationnarité -Testsdedétection Quelques notes de cours (non exhaustives) 1 Définition de la non stationnarité La plupart des séries économiques sont non stationnaires, c est-à-direqueleprocessusquiles

Plus en détail

SweetyPix, mode d'emploi

SweetyPix, mode d'emploi Université de Nice Sophia-Antipolis Master 1 STIC Informatique SweetyPix, mode d'emploi Edouard Jan Mendher Merzoug Anne-Laure Radigois Amaury Tinard 2005-2006 Université de Nice Sophia-Antipolis Master

Plus en détail

3 Les premiers résultats des plans d'actions

3 Les premiers résultats des plans d'actions 3 Les premiers résultats des plans d'actions Les résultats que nous avons obtenus en ce qui concerne les plans d'action, résultent de l'analyse de 48 entreprises seulement. Revenons sur notre échantillon.

Plus en détail

Etude de fonctions: procédure et exemple

Etude de fonctions: procédure et exemple Etude de fonctions: procédure et exemple Yves Delhaye 8 juillet 2007 Résumé Dans ce court travail, nous présentons les différentes étapes d une étude de fonction à travers un exemple. Nous nous limitons

Plus en détail

Évaluation de la régression bornée

Évaluation de la régression bornée Thierry Foucart UMR 6086, Université de Poitiers, S P 2 M I, bd 3 téléport 2 BP 179, 86960 Futuroscope, Cedex FRANCE Résumé. le modèle linéaire est très fréquemment utilisé en statistique et particulièrement

Plus en détail

NON-LINEARITE ET RESEAUX NEURONAUX

NON-LINEARITE ET RESEAUX NEURONAUX NON-LINEARITE ET RESEAUX NEURONAUX Vêlayoudom MARIMOUTOU Laboratoire d Analyse et de Recherche Economiques Université de Bordeaux IV Avenue. Leon Duguit, 33608 PESSAC, France tel. 05 56 84 85 77 e-mail

Plus en détail

Température corporelle d un castor (une petite introduction aux séries temporelles)

Température corporelle d un castor (une petite introduction aux séries temporelles) Température corporelle d un castor (une petite introduction aux séries temporelles) GMMA 106 GMMA 106 2014 2015 1 / 32 Cas d étude Temperature (C) 37.0 37.5 38.0 0 20 40 60 80 100 Figure 1: Temperature

Plus en détail

Copropriété: 31, rue des Abondances 92100 Boulogne-Billancourt

Copropriété: 31, rue des Abondances 92100 Boulogne-Billancourt Eléments utilisés: Copropriété: 31, rue des Abondances 92100 Boulogne-Billancourt Notice explicative sur la ventilation de la facture EDF annuelle entre les différents postes de consommation à répartir

Plus en détail

Journal officiel de l'union européenne

Journal officiel de l'union européenne 20.5.2014 L 148/29 RÈGLEMENT DÉLÉGUÉ (UE) N o 528/2014 DE LA COMMISSION du 12 mars 2014 complétant le règlement (UE) n o 575/2013 du Parlement européen et du Conseil en ce qui concerne les normes techniques

Plus en détail

Date : 18.11.2013 Tangram en carré page

Date : 18.11.2013 Tangram en carré page Date : 18.11.2013 Tangram en carré page Titre : Tangram en carré Numéro de la dernière page : 14 Degrés : 1 e 4 e du Collège Durée : 90 minutes Résumé : Le jeu de Tangram (appelé en chinois les sept planches

Plus en détail

Exercice : la frontière des portefeuilles optimaux sans actif certain

Exercice : la frontière des portefeuilles optimaux sans actif certain Exercice : la frontière des portefeuilles optimaux sans actif certain Philippe Bernard Ingénierie Economique & Financière Université Paris-Dauphine Février 0 On considère un univers de titres constitué

Plus en détail

Chapitre 1 Régime transitoire dans les systèmes physiques

Chapitre 1 Régime transitoire dans les systèmes physiques Chapitre 1 Régime transitoire dans les systèmes physiques Savoir-faire théoriques (T) : Écrire l équation différentielle associée à un système physique ; Faire apparaître la constante de temps ; Tracer

Plus en détail

CHAPITRE IX : Les appareils de mesures électriques

CHAPITRE IX : Les appareils de mesures électriques CHAPITRE IX : Les appareils de mesures électriques IX. 1 L'appareil de mesure qui permet de mesurer la différence de potentiel entre deux points d'un circuit est un voltmètre, celui qui mesure le courant

Plus en détail

DONNEES MASSIVES POUR LA STATISTIQUE

DONNEES MASSIVES POUR LA STATISTIQUE DONNEES MASSIVES POUR LA STATISTIQUE PUBLIQUE : ENJEUX, METHODES ET PERSPECTIVES Résumé Pauline GIVORD(*), Stéphanie COMBES(*) (*)INSEE-DMCSI La prolifération exceptionnelle des données numériques ces

Plus en détail