Introduction à la régression PLS. Carole BINARD

Carole BINARD 16 novembre 2012

Sommaire 1 Présentation de méthodes de régression dans le cadre de données corrélées 5 1.1 Introduction................................. 5 1.2 MCO, méthodes pas à pas et RCP.................... 5 1.2.1 Moindres Carrés Ordinaires.................... 6 1.2.2 Les méthodes pas à pas....................... 6 a. Méthode ascendante en anglais forward selection ).... 6 b. Méthode descendante en anglais backward selection ).. 7 c. Méthode de régression pas à pas en anglais stepwise regression ).......................... 7 d. Remarques............................ 7 1.2.3 Regression sur Composantes Principales RCP)......... 8 1.3 Partial Least Squares............................ 8 1.3.1 Présentation............................. 8 1.3.2 L'algorithme............................. 9 a. Recherche de la première composante............. 9 b. Interprétations géométriques.................. 11 w 1)............................. 11 t 1)............................. 11 p 1)............................. 11 c 1.............................. 12 c. Ecriture de l'algorithme..................... 12 d. Interprétations géométriques.................. 12 Interprétation des coordonnées de w h)......... 12 Interprétation des coordonnées de t h).......... 12 Interprétation des coordonnées de p h).......... 13 Interprétation du scalaire c h............... 13 e. Remarques............................ 13 1.3.3 Propriétés mathématiques des composantes PLS......... 13 a. Preuve de 1.19.......................... 14 b. Preuve de 1.20.......................... 14 c. Preuve de 1.21.......................... 14 d. Preuve de 1.22.......................... 15 e. Preuve de 1.23.......................... 15 f. Preuve de 1.24.......................... 15 g. Preuve de 1.25.......................... 15 h. Preuve de 1.26.......................... 15 2

1.3.4 Autres propriétés relatives à la régression PLS.......... 16 a. Simplication de l'algorithme de régression PLS1 lorsqu'il n'y a pas de données manquantes.............. 16 b. Construction des paramètres de la PLS par orthogonalisation de Gram-Schmidt de suites de Krylov......... 18 c. Remarques............................ 20 1.3.5 Formules de décomposition..................... 20 a. X et y en fonction des nouvelles composantes......... 20 b. X [h] en fonction de X...................... 21 Preuve de 1.31...................... 21 c. t [h] en fonction de X....................... 22 d. Conclusion............................ 23 1.3.6 Equation de régression PLS et estimation............. 23 a. Equation de régression PLS................... 23 b. Estimation............................ 25 2 Etude d'un exemple 27 2.1 Les données................................. 27 2.2 Traitement des données........................... 28 2.2.1 Estimation des paramètres par MCO............... 28 2.2.2 Remarques.............................. 29 2.2.3 Mise en évidence de corrélations entre variables......... 29 a. Matrice des corrélations..................... 30 b. Déterminant de X X...................... 30 c. Remarque............................. 30 2.3 Régression dans le cadre de données corrélées.............. 30 2.3.1 Les méthodes pas à pas....................... 30 a. Application sur les données................... 30 b. Remarques............................ 32 2.3.2 La RCP appliquée à nos données................. 32 a. L'algorithme utilisé....................... 32 b. Nombre de composantes à retenir................ 32 c. Application sur les données................... 32 2.3.3 La PLS appliquée à nos données.................. 34 a. Nombre de composantes à retenir................ 34 b. Application sur nos données................... 35 2.3.4 Comparaison RCP vs régression PLS à partir des résidus.... 37 3 Conclusion et perspectives 38 3.1 Conclusion.................................. 38 3.2 Pour aller plus loin............................... 38 3.2.1 PLS : une famille de méthodes................... 38 3.2.2 PLS : une approche algorithmique de la régression........ 39 A Suites de Krylov 40 3

B Validation croisée 41 B.1 Test et validation.............................. 41 B.2 k-fold cross-validation............................ 41 B.3 leave-one-out cross-validation....................... 41 4 16 novembre 2012

Chapitre 1 Présentation de méthodes de régression dans le cadre de données corrélées 1.1 Introduction Dans certains problèmes de régression linéaire ou de prédiction d'un phénomène, les variables explicatives peuvent être corrélées voire fortement corrélées) entraînant parfois de la quasi colinéarité. Ce phénomène est souvent appelé multicolinéarité et produit de très mauvais résultats concernant les coecients de régression estimés par Moindres Carrés Ordinaires MCO) ou pour les prédictions basées sur ces estimations. Beaucoup de méthodes ont alors été développées pour pallier à ce problème telles que la Régression sur Composantes Principales RCP) et la régression PLS Partial Least Squares regression). 1.2 MCO, méthodes pas à pas et RCP Le modèle de régression utilisé pour les méthodes est déni par l'équation : y = β 0 + Xβ + ɛ 1.1) où, y est un vecteur à n observations, β 0 est une constante inconnue, X est une matrice n p contenant n observations et p variables, β est un vecteur à p coecients inconnus, ɛ est un vecteur à n coordonnées. C'est le vecteurs d'erreur i.i.d de moyenne nulle et de variance σ 2. Si les variables contenues dans X et le vecteur y sont centrées, l'équation 1.1 peut être simpliée comme suit : y = Xβ + ɛ 1.2) 5

1.2.1 Moindres Carrés Ordinaires Quand la matrice X est de rang p, l'estimateur par les MCO ˆβ MCO est obtenu par minimisation de la somme des carrés des résidus : ˆβ MCO = argmin ) y Xβ 2 1.3) β On cherche donc à minimiser la quantité : ˆɛ ˆɛ = y X ˆβ ) y X ˆβ ) 1.4) Ce qui donne : ˆβ MCO = X X) 1 X y 1.5) où ˆβ MCO est un vecteur p 1 de paramètres estimés. C'est un estimateur sans biais de β, de variance minimale. Quand les variables explicatives sont fortement corrélées entre elles, X X est dite mal conditionnée et la variance de l'estimateur des MCO devient grande.avec une multicolinéarité, les coecients estimés par MCO peuvent devenir statistiquement insigniant trop grand, trop petit voire de signe contraire) même si le coecient de détermination R 2 ) est grand. C'est pourquoi un certain nombre de méthodes ont été developpées an de proposer des estimations tout en combattant la multicolinéarité des variables du modèle. 1.2.2 Les méthodes pas à pas Lorsqu'un modèle de régression multiple contient un nombre important de variables explicatives fortement corrélées entre elles, il est intéressant d'examiner si un sousensemble de ces variables permettrait d'obtenir un modèle meilleur que le modèle global. a. Méthode ascendante en anglais forward selection ) La méthode de régression ascendante consiste à inclure une à une les variables explicatives du modèle global dans un nouveau modèle. Elle se décompose en plusieurs étapes. La première étape consiste à sélectionner la variable explicative présentant la corrélation la plus élevée de toutes avec la variables à expliquer. Une fois la variable sélectionnée, il est nécessaire d'étudier la signicativité de son coecient. S'il s'avère qu'il n'est pas signicativement diérent de 0, la variable ne sera pas retenue pour faire partie du nouveau modèle. Il s'agit ensuite de réitérer ce processus sans omettre de tester la signicativité du coecient relatif à la variable étudiée. Le problème est que l'on ne soucie pas de savoir si les variables incluses aux étapes précédentes sont toujours aussi pertinentes dans l'explication de y malgré l'ajout d'une nouvelle variable. 6 16 novembre 2012

b. Méthode descendante en anglais backward selection ) La procédure démarre en estimant les paramètres du modèle complet incluant toutes les variables explicatives. A chaque étape, on choisit la variable dont le test de Student H 0 :α j = 0) est le moins signicatif p-value la plus grande), on la supprime et on réestime le modèle. Lors du passage du modèle complet M p non contraint) au modèle contraint M q, on subit une perte. Il s'agit donc de tester si cette perte est signicative ou pas. Pour cela on utilise la statistique de Fisher construite à partir des E.A.V associées à chaque modèle : Modèle M p :SCT = SCE p + SCR p Modèle M q :SCT = SCE q + SCR q Le test associé : { H0 : SCE p SCE q = 0 H 1 : SCE p SCE q 0 On peut construire la statistique de test suivante : F = R 2 p R2 q p q) [1 R 2 p ] n p 1) avec : p :nombre de variables du modèle non contraint q :nombre de variables du contraint n :le nombre d'observations On rejette l'hypothèse H 0 au risque α si la statistique de test dépasse un certain seuil f α, tel que : f α = F 1 α [p q, n p 1] c. Méthode de régression pas à pas en anglais stepwise regression ) Il s'agit d'une amélioration de la méthode ascendante. A chaque étape de la procédure, on examine à la fois si une nouvelle variable doit être ajoutée selon un seuil d'entrée xé, et si une des variables déjà incluses doit être éliminée selon un seuil de sortie xé. Cette méthode permet de retirer du modèle d'éventuelles variables qui seraient devenues moins indispensables du fait de la présence de celles nouvellement introduites. La procédure s'arrête lorsqu'aucune variable ne peut être rajoutée ou retirée du modèle selon les critères choisis. d. Remarques Il est important de noter que ces méthodes peuvent ne pas conduire au même choix de variables explicatives à retenir dans le modèle nal. Nous verrons, dans le chapitre 2 Etude d'un exemple), que ces méthodes fournissent des résultats dicilement acceptables pour les praticiens. En eet, nous verrons que les variables les plus corrélées avec la variable réponse n'interviennent pas forcément dans le modèle issu de la sélection. 7 16 novembre 2012

Comment alors construire un modèle comportant toutes les variables indépendantes dans le cas de données corrélées? 1.2.3 Regression sur Composantes Principales RCP) La RCP est un moyen de traiter du problème de matrices mal conditionnées. L'objectif est d'obtenir un certain nombre de composantes captant le maximum de variation relative aux variables de la matrice X tout en assurant au modèle une certaine qualité de prédiction. La RCP peut en fait être considérée comme une méthode de régression linéaire dans laquelle la variable réponse est régressée sur de nouvelles composantes. On considère la matrice X centrée ou centrée-réduite), et X Xγ i) = λ i γ i), i = 1, 2,..., p 1.6) où les λ i sont les valeurs propres de la matrices des covariances ou des corrélations) X X et les γ i) sont les vecteurs propres associés. Le vecteur γ i) est utilisé pour construire la ième composante principale de la forme : C i) = γ i) 1 X 1) + γ i) 2 X 2) +... + γ i) p X p) 1.7) Les composantes C i) sont orthogonales 2 à 2 et combinaison linéaire des variables initiales elles sont appelées variables latentes). De la sorte, tous les prédicteurs sont gardés car ŷ est combinaison linéaire des composantes principales. Mais est-ce que ces composantes sont les meilleures pour établir la prédiction de y étant donné qu'elles ne font qu'extraire le maximum de variance des prédicteurs sans tenir compte de y? 1.3 Partial Least Squares La régression PLS est une méthode itérative développée par Herman Wold dans les années 60 et permet la construction de modèles prédictifs quand les variables sont nombreuses et fortement corrélées entre elles. Cette méthode peut également être utilisée quand le nombre de variables dépasse celui des observations. 1.3.1 Présentation Pour régresser une variable y centrée) sur p variables explicatives X 1), X 2),..., X p)) centrées), la méthode PLS propose de trouver de nouveaux facteurs qui joueront le même rôle que les variables explicatives initiales. Ces nouveaux facteurs sont appelés variables latentes ou composantes. Chaque composante est une combinaison linéaire des variables X 1), X 2),..., X p). Beaucoup de similarités sont donc à noter entre la régression PLS et la RCP. Dans les deux méthodes l'objectif est de construire de nouvelles variables qui soient combinaison linéaire des variables initiales sur lesquelles la variable réponse est régressée. Par contre, la principale diérence entre les deux méthodes réside dans le fait que 8 16 novembre 2012

la RCP utilise uniquement les corrélations entre les variables exogènes alors que la PLS utilise non seulement ces mêmes corrélations mais également celles entre X et y pour construire les nouveaux facteurs qui joueront le rôle de variables explicatives. La matrice X justiera alors d' une décomposition bilinéaire de la forme suivante : X = t 1) p 1) + t 2) p 2) +... + t p) p p) = p t j) p j) = T P 1.8) j=1 où : - les t j) sont des combinaisons linéaires des variables explicatives initiales, que nous écrirons Xw j), - les vecteurs p j) de taille p 1 sont appelés les poids dans la littérature on parle de loadings). 1 Notons que cette expression fournit une décomposition de X similaire à la décomposition obtenue en Composantes Principales 1.7). La diérence entre les deux est mieux comprise compte tenu des critères de maximisation que les deux méthodes doivent résoudre. En régression PLS, le critère d'optimisation est donné par : { )} argmax cov X[k 1] w k, y [k 1] q k w k,q k sous les contraintes :w k w k = q k q k = 1 et cov X [k 1] w k, X [k 1]w k ) = 0, k k. 2 1.3.2 L'algorithme On souhaite construire des composantes qui puissent à la fois se rapprocher des composantes issues de la RCP combinaison linéaire des variables explicatives dénissant un espace dans lequel le nuage des individus initial est le moins déformé possible) et s'en défaire an d'améliorer la prédiction de la variable réponse en prenant en considération le lien entre y et les X j) ). a. Recherche de la première composante A la n des années 80 Höskuldsson et Manne ont démontré que la première composante PLS, t 1) = Xw 1) est obtenue en maximisant le critère de Tucker de l'analyse factorielle inter-batterie : sous la contrainte : w 1) = 1 cov 2 y, Xw 1) ) = r 2 y; Xw 1) )V arxw 1) )V ary) 1.9) On essaie ainsi de maximiser simultanément la variance expliquée par t 1) et la corrélation entre t 1) et y. On cherche donc un vecteur w 1) normé maximisant : < t 1), y >=< Xw 1), y >= Xw 1). y.corxw 1), y) 1.10) 1. Plusieurs propriétés relatives aux composantes construites au cours de l'algorithme seront présentées en 1.3.3. 2. Alors que le criètre de maximisation de la RCP est : argmax {var Xw k )} sous les contraintes : w k w k w k = 1 et cov Xw k, Xw k ) = 0, k k 9 16 novembre 2012

Pour obtenir l'expression de w 1), on résoud le problème d'optimisation sous contrainte 1.10 en utilisant la méthode des multiplicateurs de Lagrange : Lw 1), λ) = covy, Xw 1) ) λw 1) w 1) 1) = w 1) X y λw 1) w 1) 1) 1.11) avec λ R +. On annule les dérivées partielles : L λ = w 1) w 1) 1) = 0 1.12) Soit encore : L w 1) = X y 2λw 1) = 0 1.13) w 1) w 1) = 1 1.14) X y = 2λw 1) 1.15) En multipliant 1.15 par w 1) on a : w 1) X y = 2λ 1.16) car w 1) 2λw 1) = 2λw 1) w 1) = 2λ) Soit θ R tel que : θ = 2λ = w 1) X y =< t 1), y >= y Xw 1) par symetrie 1.17) Comme X y = 2λw 1) = θw 1) on a par 1.17 : X y)y Xw 1) = θw 1) )θ = θ 2 w 1) 1.18) Par conséquent, w 1) est vecteur propre de la matrice X yy X associé à la valeur propre θ 2. Et la maximisation de < Xw 1), y > revient à considérer θ 2 comme étant la plus grande des valeurs propres de la matrice X yy X. 3 On peut donc en déduire une expression de w 1) et de la valeur propre associée. Par ce qui précède, on peut écrire : X yy Xw 1) = λ 1 w 1). Or λ 1 =< Xw 1), y > 2 = w 1) X y) w 1) X y) = y Xw 1) w 1) X y = y XX y 3. cela a été souligné dans [3] 10 16 novembre 2012

Ainsi : X yy Xw 1) = X y)y Xw 1) ) = λ 1 w 1) = y XX yw 1) = w 1) y XX y car y XX y R) = w 1) )y XX y) w 1) = X y Et comme w 1) doit être de norme 1 on a : w 1) = X y X y An de savoir si la première composante t 1) = Xw 1) explique susamment l'ensemble des variables explicatives et la variable endogène y, nous eectuons deux régressions : une de X sur t 1) puis une de y sur t 1). On a : où : p 1) = X [0] t1) t 1) t 1) X = X [0] = t 1) p 1) + X [1] y = y [0] = c 1 t 1) + y [1] coecient de régression linéaire multiple classique) et c 1 = y [0] t1) t 1) t 1) b. Interprétations géométriques w 1) est un vecteur de R p. Chacune de ses coordonnées s'écrit : w 1) cov X j), y ) j = p j=1 cov2 X j), y) De la sorte w 1) j représente la pente de la droite des moindres carrés, passant par l'origine, ) du nuage de points y i, X j) i. t 1) est un vecteur de R n. Chacune de ses coordonnées s'écrit : où w 1) j = w 1) j p j=1 w 1) j ) 2 t 1) i = p j=1 w1) j p j=1 w 1) j X j) i ) 2 De la sorte, t 1) i représente la pente ) de la droite des moindres carrés, passant par l'origine, du nuage de points w 1) j, X j) i. p 1) est un vecteur de R p. Chacune de ses coordonnées p 1) j représente le coecient de régression de t 1) dans la régression de la j ième colonne de X [0] sur la composante t 1). 11 16 novembre 2012

c 1 est un scalaire de R. Il représente le coecient de régression de t 1) dans la régression de la variable y [0] sur la variable t 1). On réitère les étapes précédentes mais sur les X et y déatés. Dénition 1. On appelle déation de X l'extraction des résidus suite à la régression de X sur t 1). On appelle déation de y l'extraction des résidus suite à la régression de y sur t 1). On construit donc les résidus X [1] et y [1] ) de chacune de nos régressions an de réitérer les étapes décrites précédemment : c. Ecriture de l'algorithme X [1] = X [0] t 1) p 1) y [1] = y [0] c 1 t 1) An de construire toutes les composantes via la méthode PLS, on passe par l'algorithme itératif suivant : Etape 0 : X [0] = X ; y [0] = y Etape 1 : Pour h = 1,..., p : Etape 1.1 : w h) = X [h 1] y [h 1] X [h 1] y [h 1] Etape 1.2 : on construit t h) : t h) = X [h 1]w h) Etape 1.3 : p h) = X [h 1] th) t h) t h) Etape 1.4 :c h = y [h 1] th) t h) t h) Etape 1.5 :X [h] = X [h 1] t h) p h) Etape 1.6 :y [h] = y [h 1] c h t h) w h) w h) où : y [h 1] : résidus issus de la régression de y [h 2] sur t h 1) X [h 1] : résidus issus de la régression de X [h 2] sur t h 1) d. Interprétations géométriques Interprétation des coordonnées de w h) pour h = 1,..., p w h) = X [h 1] y [h 1] X [h 1] y [h 1] où w h) j est la coordonnée j du vecteur w h) représentant le coecient de régression de y [h 1] dans la régression de la j ième colonne de la matrice x [h 1] sur la variable y [h 1] Interprétation des coordonnées de t h) pour h = 1,..., p t h) = X [h 1]w h) w h) w h) 12 16 novembre 2012

Interprétation du scalaire c h pour h = 1,..., p Groupe de travail PLS où t h) i est la coordonnée i du vecteur t h) représentant le coecient de régression de w h) dans la régression sans constante de la variable dénie par la i ième ligne de la matrice X [h 1] sur la variable w h). Interprétation des coordonnées de p h) pour h = 1,..., p p h) = X [h 1] th) t h) t h) où p h) j est la coordonnée j du vecteur p h) représentant le coecient de régression de t h) dans la régression de la j ième colonne de la matrice X [h 1] sur la composante t h) c h = y [h 1] th) t h) t h) C'est le coecient de régression de t h) dans la régression de la variable y [h 1] sur la variable t h) e. Remarques ) A chaque étape h, la régression PLS maximise la variance des prédicteurs X j) [h 1] et maximise la corrélation entre X [h 1] et la variable à expliquer y [h 1]. Donc, contrairement à la méthode des moindres carrés où la détermination de paramètres optimaux se ramène à la résolution d'un système d'équations linéaires, la régression PLS justie de problèmes d'optimisation dépendant d'itérations successives. L'algorithme est ici construit sous l'hypothèse qu'il n'y a pas de données manquantes. Il existe pourtant une version qui s'adapte au cas de données manquantes mais nous n'en ferons pas référence ici. 4 1.3.3 Propriétés mathématiques des composantes PLS Nous allons présenter dans cette section les propriétés des composantes PLS construites à partir de l'algorithme précédent. t h) X [h] = 0 1.19) t h) y [h] = 0 1.20) t h) t l) = 0, l > h 1.21) w h) p h) = 1 1.22) w h) X [l] = 0, l h 1.23) w h) p l) = 0, l > h 1.24) w h) w l) = 0, l > h 1.25) t h) X [l] = 0, l h 1.26) 4. on invite le lecteur à se référer à [20] p.76-77 pour de plus amples informations 13 16 novembre 2012

a. Preuve de 1.19 Par déition, X [h] est le résidu de la régression de X [h 1] sur t h). Ainsi X [h] est orthogonal à t h). b. Preuve de 1.20 Par dénition, y [h] est lé résidu de la régression de y [h 1] sur t h). Ainsi y [h] est orthogonal à t h). c. Preuve de 1.21 On procède par récurrence. cas initial : t 1) t 2) = t 1) X [1] w 1) ) = 0 par 1.19) hypothèse de récurrence : On suppose la propriété d'orthogonalité vraie jusqu'à l'itération h : t 1), t 2),..., t h) orthogonaux deux à deux. Montrons alors que cette propriété est vraie jusqu'à l'itération h+1 : t h) t h+1) = t h) X [h] w h+1) ) = 0 par 1.19) t h 1) t h+1) = t h 1) X [h] w h+1) ) = t h 1) X [h 1] t h) p h) )w h+1) = t h 1) X [h 1] t }{{}} h 1) {{ t h) } p h) )w h+1) = 0 =0 =0 par HR t h 2) t h+1) = t h 2) X [h] w h+1) ) = t h 2) X [h 1] t h) p h) )w h+1) = t h 2) X [h 2] t h 1) p h 1) t h) p h) )w h+1) = t h 2) X [h 2] t h 2) t h 1) p h 1) t h 2) t h) p h) )w h+1) = t h 2) X [h 2] t }{{}} h 2) {{ t h 1) } p h 1) t } h 2) {{ t h) } p h) )w h+1) = 0 =0 =0 par HR =0 par HR Et ainsi de suite, d'où le résultat. 14 16 novembre 2012

d. Preuve de 1.22 w h) p h) = w h) X [h 1] th) t h) t h) = w h) X [h 1] )th) t h) t h) = t h) )t h) t h) t h) = 1 e. Preuve de 1.23 Prouvons w h) X [l] = 0 pour l h. Pour l=h w h) X [h] = w h) X [h 1] t h) p h) ) = w h) X [h 1] w h) p h) t h) = t h) 1.t h) d après 1.22) = 0 Pour l>h Montrons que w h) X [l] = 0, pour un indice l h, implique w h) X [l+1] = 0 w h) X [l+1] = w h) X [l] t l+1) p l+1) ) f. Preuve de 1.24 = w h) X [l] w h) p l+1) t l+1) =0 {}}{ w h) X = w h) X [l] [l] t l+1) = 0 }{{} t l+1) t l+1) =0 w h) w l) = w h) X [l 1] y [l 1] = 0 si l 1 h l > h d'après 1.23) g. Preuve de 1.25 w h) p l) = w h) X [l 1] tl) t l) t l) ) = 0 si l 1 h l > h d'après 1.23) h. Preuve de 1.26 Prouvons t h) X [l] = 0, l h. Pour l=h 15 16 novembre 2012

t h) X [h] = t h) X [h 1] t h) p h)) = t h) X [h 1] t h) t h) p h) = t h) X [h 1] t h) t h) t h) X [h 1] t h) t h) = 0 Pour l>h t h) X [l] = t h) X [l 1] t l) p l)). = t h) X [l 1] t } h) {{ t l) } p l) =0 par 1.21 = t h) X [l 2] t l 1) p l 1)) = t h) X [l 2] } t h) {{ t l 1) } p l 1) =0 par 1.21 = t h) X [h] = 0 pour le cas l = h) 1.3.4 Autres propriétés relatives à la régression PLS a. Simplication de l'algorithme de régression PLS1 lorsqu'il n'y a pas de données manquantes On va montrer ici que le calcul de y [h] à chaque étape h n'est pas nécessaire. En eet, à l'étape 1.1 de l'algorithme PLS1 pour la calcul de w [h] ), intervient le terme X [h 1] y [h 1]. Or : X [h 1]y [h 1] = X [h 1] y[h 2] c h 1 t h 1)) = X [h 1] y[h 3] c h 2 t h 2) c h 1 t h 1)). = X [h 1] y c1 t 1)... c [h 1] t h 1)) = X [h 1]y X [h 1]c 1 t 1)... X [h 1]c [h 1] t h 1) }{{}}{{} =0 =0 = X [h 1]y Ainsi, à l'étape 1.1, w h) s'écrit : w h) = X [h 1] y X [h 1] y par 1.26) A l'étape 1.4, le calcul de y [h] est également inutile en absence de données manquantes 16 16 novembre 2012

car : y [h 1]t h) = y [h 2] c h 1 t h 1)) t h) = y [h 3] c h 2 t h 2) c h 1 t h 1)) t h). = y c 1 t 1)... c h 1 t h 1)) t h) = y t h) c 1 t } 1) {{ t h) }... c h 1 t } h 1) {{ t h) } =0 =0 = y t h) Et donc le calcul de c h devient :c h = y t h) t h) t h) par 1.21) Grâce à la même propriété d'orthogonalité entre les composantes 1.21), on peut simplier le calcul de p h) en absence de données manquantes. En eet : X [h 1]t h) = X [h 2] t h 1) p h 1)) t h) Et p h) s'écrit : p h) = X t h) t h) t h). = X [h 3] t h 2) p h 2) t h 1) p h 1)) t h) = X t 1) p 1)... t h 1) p h 1)) t h) = X t h) p 1) t } 1) {{ t h) }... p h 1) } t h 1) {{ t h) } =0 =0 = X t h) par 1.21) Etapes Algorithme PLS1 avant simplication Algorithme PLS1 après simplication Etape 0 X [0] = X X [0] = X y [0] = y Etape 1 pour h = 1,..., p pour h = 1,..., p Etape 1.1 Etape 1.2 Etape 1.3 w h) = X [h 1] y [h 1] X [h 1] y [h 1] t h) = X [h 1]w h) w h) w h) p h) = X [h 1] th) t h) t h) w h) = X [h 1] y X[h 1] y t h) = X [h 1]w h) w h) w h) p h) = X t h) t h) t h) Etape 1.4 c h = y [h 1] th) c t h) t h) h = y t h) t h) t h) Etape 1.5 X [h] = X [h 1] t h) p h) X [h] = X [h 1] t h) p h) y [h] = y [h 1] c h t h) Table 1.1 Mises en évidence des simplications apportées à l'algorithme PLS1 17 16 novembre 2012

b. Construction des paramètres de la PLS par orthogonalisation de Gram- Schmidt de suites de Krylov Soient les hypothèses suivantes : - w h) = X [h 1] y - w h) = wh) w h) - les w h) sont orthogonaux 2 à 2 - les w h) sont orthognaux 2 à 2 - { w 1), w 2),..., w h)} engendre le même espace que la suite de Krylov { s, Cs,..., C h 1 s } avec s = X y et C = X X) - { w 1), w 2),..., w h)} engendre le même espace que la suite de Krylov { s, Cs,..., C h 1 s } avec s = X y et C = X X) - { p 1), p 2),..., p h)} engendre le même espace que la suite de Krylov { Cs, C 2 s,..., C h s } avec s = X y et C = X X) - { t 1), t 2),..., t h)} engendre le même espace que la suite de Krylov { t, Dt,..., D h 1 t } avec t = Xs et D = XX ) Alors : La suite { w 1), w 2),..., w h)} est obtenue par orthogonalisation de Gram- Schmidt sur la suite de Krylov { s, Cs,..., C h 1 s } : Pour h=1 : w 1) = X [0] y = X y = s w 1) = w1) = X y = s w 1) X y s Pour h>1 : On sait que w h) appartient à l'espace engendré par { w 1), w 2),..., w h)} { s, Cs,..., C h 1 s } par hypothèse). On a donc une écriture de w h) en fonction des éléments de { s, Cs,..., C h 1 s } : h 2 w h) = α i C i s + α h 1 C h 1 s 1.27) i=0 Or par hypothèse w l) w h) = 0, l < h. Donc w h) est orthogonal aux éléments de { w 1), w 2),..., w h 1)} et aussi aux éléments de { s, Cs,..., C h 2 s }. Soit Π {s,cs,...,c h 2 s} la projection orthognale sur l'espace { s, Cs,..., C h 2 s }. Alors : Π {s,cs,...,c h 2 s} wh) = Π {s,cs,...,c h 2 s} i=0 h 2 ) α i C i s + α h 1 C h 1 s i=0 h 2 0 = α i C i s + Π {s,cs,...,c h 2 s} αh 1 C h 1 s ) h 2 α i C i s = Π {s,cs,...,c h 2 s} αh 1 C h 1 s ) i=0 18 16 novembre 2012

D'où : w h) = α h 1 C h 1 s Π {s,cs,...,c h 2 s} αh 1 C h 1 s ) Et donc : w h) = wh) w h) 1.28) correspond à l'orthogonalisation de Gram-Schmidt de l'élément C h 1 s de la suite { s, Cs,..., C h 1 s }. La suite { t 1), t 2),..., t h)},aux éléments normés à 1, est obtenue par orthogonalisation de Gram-Schmidt sur la suite de Krylov { t, Dt,..., D h 1 t }. Pour h=1 : t 1) = Xw 1) Par ce qui précède : t 1) = X w1) w 1) = X X y X y qui est proportionnel à t = XX y. Pour h>1 : On sait que t h) appartient à l'espace engendré par { t 1), t 2),..., t h)} qui, par hypothèse : { t 1), t 2),..., t h)} { t, Dt,..., D h 1 t }. On peut donc écrire t h) comme suit : h 2 t h) = β i D i t + β h 1 D h 1 t i=0 Par 1.21, on sait que t h) est orthogonal aux éléments de { t 1), t 2),..., t h 1)} et donc également orthogonal aux éléments de { t, Dt,..., D h 2 t }. Soit Π {t,dt,...,d h 2 t} la projection orthogonale sur l'espace { t, Dt,..., D h 2 t }. On a alors : Π ) {t,dt,...,d h 2 t} t h) = Π {t,dt,...,d h 2 t} i=0 h 2 ) β i D i t + β h 1 D h 1 t i=0 h 2 0 = β i D i t + Π {t,dt,...,d h 2 t} βh 1 D h 1 t ) h 2 β i D i t = Π {t,dt,...,d h 2 t} βh 1 D h 1 t ) i=0 D'où : Et donc : t h) = β h 1 D h 1 t Π {t,dt,...,d h 2 t} βh 1 D h 1 t ) t h) t h) = β h 1Dh 1 t Π {t,dt,...,dh 2t} βh 1 D h 1 t ) β h 1 D h 1 t Π {t,dt,...,d h 2 t} β h 1D h 1 t) qui correspond à l'orthogonalisation de Gram-Schmidt de l'élément D h 1 t de la suite de Krylov { t, Dt,..., D h 1 t } Proposition 1. Soient W h = [ w 1),..., w h)] et P h = [ p 1),..., p h)]. Alors P h W h est une matrice bidiagonale à droite. 19 16 novembre 2012

Preuve 1. On sait que w h) { s, Cs,..., C h 1 s }, w h) est orthogonal aux vecteurs de l'espace { s, CS,..., C h 2 s } et que p l) appartient à l'espace { Cs,..., C l s }. Donc pour l h 2 : p l) w h) = 0 Et d'après la propriété 1.24 on a : Et d'après 1.22, p h) w h) = 1. Donc en écrivant P h W h comme suit : p l) w h) = 0, pour l > h p 1) w 1) p 1) w 2)...... p 1) w h) p 2) w 1) p 2) w 2)...... p 2) w h) P hw h =.................. p h) w 1) p h) w 2)...... p h) w h) les relations entre p h) et w h) conduisent à la matrice : 1 p 1) w 2)...... 0 0 1...... 0 P hw h =......... 0 0...... p h 1) w h) 0 0...... 1 qui est une matrice bidiagonale à droite. c. Remarques Les hypothèses dressées dans cette partie sont prouvées dans [20]. D'autres propriétés existent et également démontrées dans [10] et dans [20]) mais ne sont pas explicitées dans ce chier propriétés sur les vecteurs issus de la PLS1, liaison entre l'acp appliquée sur X et la régression PLS de y sur X...). 1.3.5 Formules de décomposition a. X et y en fonction des nouvelles composantes Les matrice X et le vecteur y peuvent se décomposer par régression sur les composantes t 1), t 2),..., t k) où k est le nombre total de composantes : X [k] = X [k 1] t k) p k). = X [k 2] t k 1) p k 1) t k) p k) = X t 1) p 1) t 2) p 2)... t k) p k) 20 16 novembre 2012

D'où : Par le même raisonnement : X = t 1) p 1) + t 2) p 2) +... + t k) p k) + X [k] 1.29) y = c 1 t 1) + c 2 t 2) +... + c k t k) + y [k] 1.30) Comme les t h) sont orthogonaux entre eux, on retrouve bien les mêmes coecients de régression dans 1.29 et 1.30 que dans la méthode itérative décrite plus haut : ex : t 1) X = t 1) t 1) p 1) p 1) = X t 1) t 1) t 1) b. X [h] en fonction de X La matrice des résidus X [h] à l'étape h peut s'exprimer en fonction de X : X [h] = X I w 1) p 1)) I w 2) p 2))... I w h) p h)) 1.31) Preuve de 1.31 Prouvons X [h] = X h j=1 I wj) p j) ), pourh 1, pourh 1. Procédons par récurrence : Cas initial : pour h=1 X [1] résidus de la régression de X [0] sur t 1) : X [1] = X [0] t 1) p 1) Or X [0] = X et t 1) = X [0] w 1). D'où : X [1] = X Xw 1) p 1) = X I w 1) p 1)) Hypothèse de récurrence Supposons la propriété vraie pour un entier h. Montrons qu'elle est vraie au rang h+1. Pour h>1 X [h+1] = X [h] t h+1) p h+1) = X [h] X [h] w h+1) p h+1) = X [h] I w h+1) p h+1)) h = X I w j) p j)) I w h+1) p h+1)) par HR) j=1 h+1 = X I w j) p j)) j=1 21 16 novembre 2012

c. t [h] en fonction de X La composante t h) est combinaison linéaire des colonnes de X : h 1 t h) = X [h 1] w h) = X I w j) p j)) w h) = Xw h) 1.32) j=1 avec w h) = h 1 j=1 I w j) p j)) w h) Proposition 2. w h) = h 1 j=1 I w j) p j)) w h) vérie l'équation de récurrence : { w 1) = w 1) Preuve 2. w h+1) = = = w h) = w h) w h 1) p h 1) w h) h I w j) p j)) w h+1) j=1 h 1 I w j) p j))) I w h) p h)) w h+1) j=1 h 1 I w j) p j))) w h+1) w h) p h) w h+1)) j=1 h 1 = I w j) p j)) h 1 w h+1) I w j) p j)) w h) p h) w h+1)) j=1 j=1 } {{ } =w h+1) h 1 = w h+1) I w j) p j)) w h) p h) w h+1)) j=1 } {{ } w h) = w h+1) w h) p h) w h+1) En eet, h 1 j=1 I w j) p j)) w h+1) = w h+1) car p i) w h+1) = 0 pour i h 1 et P h W h est bidiagonale. Proposition 3. La matrice W h = [ w 1), w 2),..., w h)] vérie l'équation : W h = W h P hw h ) 1 avec W h = [ w 1), w 2),..., w h)] et P h = [ p 1), p 2),..., p h)] Preuve 3. On sait, par la proposition 1, que P h W h est bidiagonale à droite et, par la proposition 2, que w h) = w h) w h 1) p h 1) w h). 22 16 novembre 2012

Ainsi, w h) = w h) + w h 1) p h 1) w h) et donc W h = W h P h W h. En eet : w 1) 1 w 2) 1... w h 1) 1 w h) 1 p 1) w 2) 0... 0 1 WhP hw w 1) 2 w 2) 2... w h 1) 2 w h) 0 1 p 2) w 3)... 0 2 h =.............. wp 1) wp 2)... wp h) wp h).. 0 1 p h 1) w h) 0 0... 0 1 w 1) 1 w 1) 1 p 1) w 2) + w 2) 1... w h) 1 + w h 1) 1 p h 1) w h) w 1) 2 w 1) 2 p 1) w 2) + w 2) 2... w h) 2 + w h 1) 2 p h 1) w h) =...... wp 1) wp 1) p 1) w 2) + wp 2)... wp h) + wp h 1) p h 1) w h)...... = w 1) w 2)... w h) = W h..... Donc W h = W h P h W h) 1 d. Conclusion. Les composantes PLS t 1), t 2),..., t k) sont donc des combinaisons linéaires des colonnes de X matrice centrée-réduite des variables initiales), non corrélées entre elles, résumant au mieux X tout en expliquant autant que possible y vecteur centré-réduit de la variable réponse initiale). Ces composantes sont donc analogues à des composantes principales des X 1), X 2),..., X p) les p variables explicatives initiales) expliquant au mieux la variable réponse initiale. 1.3.6 Equation de régression PLS et estimation a. Equation de régression PLS Jusqu'à présent, les formules ont été établies à partir d'une matrice de variables explicatives centrées-réduites nommée X et d'un vecteur réponse centré-réduit nommé y. Pour alléger les notations des formules précédentes aucune distinction d'écriture n'a été établie entre les matrices/vecteur initiaux et les matrices/vecteur centrés-réduits. Dans cette partie nous allons faire une distinction entre les diérents éléments : - X : matrice de taille n p des variables explicatives initiales non centréesréduites - y : vecteur de taille n 1 de la variable à expliquer initiale non centréeréduite - E 0 : matrice de taille n p des variables explicatives initiales centréesréduites 23 16 novembre 2012

- f 0 : vecteur de taille n 1 de la variable à expliquer initiale centrée-réduite D'après la décomposition de f 0 sur t 1), t 2),..., t h) voir formule 1.30) on déduit la régression PLS de y sur X 1), X 2),..., X p) : f 0 = y y s y = c 1 t 1) + c 2 t 2) +... + c k t k) + f [k] = = = = = k c j t j) + f [k] j=1 k c j E 0 w j) + f [k] par 1.32) j=1 k j=1 p c j k J=1 j=1 p J=1 w j) J c j w j) J ) X J) X J) s X J) }{{} E J) 0 +f [k] ) X J) X J) + f [k] s X J) ) p X J) X J) β J + f [k] J=1 s X J) avec β J = k j=1 c jw j) J Ainsi : avec β 0 = y s y y y s y ) p X J) X J) β J J=1 y s y y s y y s y β 0 + ) p J=1 β X J) J s X J) s X J) p β J J=1 p J=1 X J) s X J) β J X J) s X J) ) ) + p J=1 ) X J) β J s X J) Et on a donc : pour β 0 = β 0 s y et β J = β J sy s X J) p y β 0 + β JX J) 1.33) J=1 L'équation 1.33 est donc la régression PLS de y sur les variables explicatives X 1), X 2),..., X p). 24 16 novembre 2012

Pouvons-nous alors estimer β tel que : b. Estimation ˆβ P LS = argmin y Xβ? β L'objectif est de résoudre un problème de la forme Ax = b en présence d'un grand nombre de données. Dans ce contexte, les méthodes directes sont impossibles mais pas les méthodes itératives. Parmi ces méthodes, nous allons considérer celles faisant intervenir des espaces de Krylov de la forme { v, Av,..., A k 1 v }. 5, où v est le résidu initial v = Ax 0 b). Ainsi projeter le problème linéaire sur ce sous-espace permet de se ramener à un problème de plus petite taille qui approche le problème initial. Cependant, cette approche devient dicile quand la matrice A n'est pas symétrique ce qui est notre cas :p >> n). Dans ce cas, une approche possible est de se ramener au cas symétrique défni positif en résolvant l'équation normale A T Ax = A T b et de considérer l'espace de Krylov de la forme : { v, A T Av,..., A T A) h 1 v }. En posant : A = X, x = β, b = y et v = X y à signe près) pourx 0 a : ˆβ P LS = argmin y Xβ β K h = 0 on où : K h = V ect { X T y, X T XX T y,..., X T X) h 1 X T y } = V ect { s, Cs,..., C h 1 s } avec s = X y et C = X X. 6 Proposition 4. Soient W h = [ w 1),..., w h)] et P h = [ p 1),..., p h)]. Alors on dénit T h = [ t 1),..., t h)] par : T h = XW h P hw h ) 1 Preuve 4. Par l'alogrithme de PLS1, on dénit t h) par : t h) = X [h 1] w h), h = 1,..., k avec k déni par validation-croisée. Et par 1.32 on a : t h) = Xw h) avec w 1) = w 1) et pour h > 1 w h) = h 1 i=1 I w i) p i)) w h). Ainsi on peut écrire : T h = XW h avec T h = [ t 1),..., t h)] et W h = [ w 1),..., w h)] Or par la proposition 2, W h = W h P h W h) 1. Donc on a bien : T h = XW h P h W h) 1. Proposition 5. Soient W h = [ w 1),..., w h)], P h = [ p 1),..., p h)] et C h = [c 1,..., c h ]. Alors on dénit ˆβ P LS par : ˆβ P LS = W h P hw h ) 1 C h avec h le nombre de composantes retenues après validation croisée. 5. voir annexe A 6. pour plus de détails voir [13] et [11] 25 16 novembre 2012

Preuve 5. A partir de l'algorithme PLS1, on peut avoir une estimation de y : ŷ = c 1 t 1) + c 2 t 2) +... + c h t h) avec h le nombre de composantes déni par validation croisée. c 1 c 2... En posant C h =. et T h = t 1) t 2)... t h) on a :... c h ŷ = T h C h = XW hc h = XW h P hw h ) 1 C h = X ˆβ P LS avec ˆβ P LS = W h P h W h) 1 C h Remarque 1. On sait que les composantes de la régression PLS t 1), t 2),..., t h)) sont orthogonales. On a donc : c h = t h) t h)) 1 t h) y [h 1] = t h) t h)) 1 t h) y et donc : C h = T ht h ) 1 T hy 26 16 novembre 2012

Chapitre 2 Etude d'un exemple An de mettre en lumière les avantages de la PLS, d'un point de vue pratique, nous allons traiter d'un exemple étudié dans [20]. 2.1 Les données L'objectif est de déterminer l'inuence de sept composants sur l'indice d'octane moteur de douze mélanges diérents. distillation directe 0 x 1 0.21 Réformat 0 x 2 0.62 Naphta de craquage thermique 0 x 3 0.12 Naphta de craquage catalytique 0 x 4 0.62 Polymère 0 x 5 0.12 Alkylat 0 x 6 0.74 Essence naturelle 0 x 7 0.08 Table 2.1 Présentation des 7 composants Les données représentant des proportions, les variables somment toutes à 1. 27

composantes mélange x 1 x 2 x 3 x 4 x 5 x 6 x 7 1 0.00 0.23 0.00 0.00 0.00 0.74 0.03 2 0.00 0.10 0.00 0.00 0.12 0.74 0.04 3 0.00 0.00 0.00 0.10 0.12 0.74 0.04 4 0.00 0.49 0.00 0.00 0.12 0.37 0.02 5 0.00 0.00 0.00 0.62 0.12 0.18 0.08 6 0.00 0.62 0.00 0.00 0.00 0.37 0.01 7 0.17 0.27 0.10 0.38 0.00 0.00 0.08 8 0.17 0.19 0.10 0.38 0.02 0.06 0.08 9 0.17 0.21 0.10 0.38 0.00 0.06 0.08 10 0.17 0.15 0.10 0.38 0.02 0.10 0.08 11 0.21 0.36 0.12 0.25 0.00 0.00 0.06 12 0.00 0.00 0.00 0.55 0.00 0.37 0.08 Table 2.2 Données de Cornell variables exogènes) Les 7 variables exogènes sont mises en relation ave une variable endogène notée y : indice d'octane moteur mélange 1 98.7 2 97.8 3 96.6 4 92.0 5 86.6 6 91.2 7 81.9 8 83.1 9 82.4 10 83.2 11 81.4 12 88.1 Table 2.3 Données de Cornell variable endogène) y 2.2 Traitement des données 2.2.1 Estimation des paramètres par MCO 28 16 novembre 2012

Figure 2.1 Estimation des coecients par MCO du modèle général utilisation du logiciel R) Figure 2.2 Statistiques des paramètres estimés sorties logiciel R) 2.2.2 Remarques Plusieurs points sont à souligner : - les variances des paramètres sont excessivement grandes - les paramètres estimés sont également grands en valeur absolue) - le coecient de la 7ème variable n'a pas été estimé Tout cela nous laisse penser que la matrice X X est mal conditionnée. Un fait d'ailleurs conrmé par la sortie logiciel précédente où la présence de singularités a été soulignée. 2.2.3 Mise en évidence de corrélations entre variables Plusieurs moyens existent pour prouver la présence de corrélations entre les variables. Ici, nous allons nous contenter de 2 tests simples que sont la construction de la matrice X X et le calcul de son déterminant. 29 16 novembre 2012

a. Matrice des corrélations Figure 2.3 Corrélations entre variables exogènes et endogène sorties logiciel R) b. Déterminant de X X Figure 2.4 déterminant de la matrice X X sorties logiciel R) c. Remarque La présence de corrélations conrmées par det X X) 0 et les forts coecients de corrélation entre les variables) explique les résultats aberrants de l'estimation par MCO. 2.3 Régression dans le cadre de données corrélées 2.3.1 Les méthodes pas à pas Nous avons vu que lorsqu'un modèle de régression multiple contient un nombre important de variables explicatives fortement corrélées entre elles, il est intéressant d'examiner si un sous-ensemble de ces variables permettrait d'obtenir un modèle meilleur que le modèle global. Plusieurs méthodes existent méthode ascendant forward), méthode descendante backward), méthode mixte stepwise)) et nous avons choisi d'utiliser la méthode mixte qui nous semble être la plus objective des trois grâce à une mise en concurrence des variables explicatives). a. Application sur les données Ici, les données sont centrées-réduites et on applique la méthode mixte stepwise) : 1 1. voir [7] pour comprendre les choix de sélection du logiciel même si le document utilise un autre logiciel le logiciel SAS), les interprétations statistiques restent identiques) 30 16 novembre 2012

b. Remarques Les variables x 1, x 2, x 4, x 5 sont retenues. 2 Cependant, ce modèle est dicilement acceptable par le praticien qui ne comprendra pas pourquoi la variable x 6, alors la plus corrélée à y, n'est pas prise en compte. Le problème avec ce genre de modèles issus de sélections) est qu'il est dicile de proposer à l'utilisateur une formule qui ne tienne pas compte de variables pourtant inuentes et ne permette pas de quantier l'eet de leurs variations sur la réponse y. C'est pourquoi on va considérer des méthodes présentées théoriquement au chapite précédent) prenant en compte toutes les variables dans le modèle. 2.3.2 La RCP appliquée à nos données a. L'algorithme utilisé Etapes Procédures Code Etape 0 initialisation de la matrice d'itération X [0] = X Etape 1 Construction itérative des k composantes principales pour h = 1,..., k Etape 1.1 initialisation de la h ième composante principale t h) = X [h 1] [, 1] Etape 1.2 à répéter jusqu'à convergence de p h) ou de 1 n 1 t t h) Etape 1.2.1 construction du h ième vecteur propre p h) = X [h 1] th) t h) t h) Etape 1.2.2 construction de la h ième composante principale t h) = X [h 1]p h) p h) p h) Etape 1.3 Extraction des résidus de la régression de X [h 1] sur t h) X [h] = X [h 1] t h) p h) b. Nombre de composantes à retenir Table 2.4 Algorithme NIPALS En pratique, on utilise le plus souvent des critères empiriques comme celui de Kaiser ou le diagramme des valeurs propres an de mettre en évidence la présence d'un coude voir [19]). Comme ce dernier n'est pas toujours évident à identier, on va considérer le critère de Kaiser. D'après ce critère, quand on travaille avec des données centréesréduites, les composantes principales correspondant à des valeurs propres supérieures à 1 doivent etre retenues. En eet, les composantes principales t étant des combianisons linéaires des z j) i = xj) i x j) de variance maximale V art) = λ, seules présentent un s x j) intérêt des composantes de variance supérieure à celle des variables initiales centréesréduites) et donc supérieure à 1. c. Application sur les données On calcule les vecteurs et valeurs propres associées de la matrice X X matrice des corrélations) : 2. cela rejoint les résultats obtenus dans [20] 32 16 novembre 2012

Figure 2.5 Calculs des valeurs propres et vecteurs propres de la matrice des corrélations par l'algorithme des puissances itérées sorties logiciel R) Le nombre de composantes à retenir est de 4. On applique l'algorithme NIPALS sur la matrice centrée-réduite des variables explicatives initiales an de déterminer les composantes principales. On se donne ɛ = 0.000001 le seuil qui nous permet de tester la convergence de p h) dans l'algorithme et on a : Figure 2.6 Composantes principales issues de l'acp sorties logiciel R) Pour estimer la variable réponse, on régresse celle-ci sur les 4 composantes construites : 33 16 novembre 2012

y centré-réduit y non centré-réduit y ŷ y ŷ 1.551 1.365 98.7 97.483 1.413 1.393 97.8 97.667 1.229 1.374 96.6 97.544 0.524 0.502 92.0 91.857-0.304-0.397 86.6 85.992 0.401 0.474 91.2 91.673-1.025-1.089 81.9 81.482-0.841-0.917 83.1 82.603-0.948-0.929 82.4 82.522-0.826-0.811 83.2 83.297-1.102-1.010 81.4 81.994-0.074 0.046 88.1 88.885 Table 2.5 Tableau des y observés centrés-réduits et non centrés-réduits) et des prévisions ŷ associées à partir de la RCP à 4 composantes 2.3.3 La PLS appliquée à nos données a. Nombre de composantes à retenir Toujours d'après [20], la validation croisée ou cross-validation) est le moyen le plus utilisé pour déterminer le nombre de composantes à inclure dans la régression PLS. 3 Au regard du peu de données disponibles, on applique la leave-one-out cross-validation. On dénit 2 critères : n ) 2 RSS h = yi ŷ [h],i P RESS h = i=1 n ) 2 yi ŷ [h] i). 4 i=1 où : y i = ŷ [h 1],i + c h t h) i + y [h],i ŷ [h], i) est l'estimation pour l'individu i de y lorsque l'individu i a été retiré dans la construction de l'estimateur PLS. Remarque Le P RESS de l'étape h sera forcément inférieur ou égal à ce qu'il été à l'étape h 1. Il sera également supérieur ou égal au RSS de l'étape h. Par contre, s'il est inférieur au RSS de l'étape h 1 cela signierait que la qualité d'estimation du modèle se serait considérablement améliorée. En eet, on pourrait, dans ce cas, estimer avec plus 3. voir annexe B pour plus de détails sur la Validation-croisée 4. où : - ŷ [h],i est la prédiction de y i à l'aide du modèle 1.30) obtenu en utilisant toutes les observations - ŷ [h] 1) est la prédiction de y i via le modèle 1.30) obtenu sans utiliser l'observation i. 34 16 novembre 2012

de précision les valeurs y i des individus sans les connaitre au préalable) qu'avec le modèle, de l'étape précédente, construit à partir de toutes les observations. Donc le fait que la composante h ait une importance signicative dans la régression pourrait se traduire par le fait que P RESS h soit inférieur à RSS h 1. Soit le critère suivant à calculer à chaque étape h) : Q 2 h = 1 P RESS h RSS h 1 D'après [20]), une nouvelle composante est signicative donc conservée) si Q 2 h 0.0975 ou si P RESS h 0.95 RSS h 1. 5 Cette équation signie que pour conserver la composante h il faut que les résidus, tels qu'ils sont calculés dans le P RESS h pris en valeur absolue), n'excèdent pas 95% des résidus tels qu'ils sont calculés dans le critère RSS h 1. b. Application sur nos données On calcule tout d'abord toutes les composantes possibles au total p=nombre de colonnes de la matrice X centrée-réduite)) : Figure 2.7 Composantes de la régression PLS de y sur X et coecients associés sorties logiciel R) On sélectionne les composantes à retenir par validation croisée. 5. Le fait que l'équation soit sous forme de racine est simplement la conséquence du fait qu'on cherche à se replacer à l'échelle des résidus et non à l'échelle des résidus au carré. 35 16 novembre 2012

Figure 2.8 Résultats de la cross-validation sorties logiciel R) Les composantes à retenir sont les 3 premières. Elles permettent d'avoir une estimation de la variable réponse. y centré-réduit y non centré-réduit y ŷ y ŷ 1.551 1.376 98.7 97.559 1.413 1.381 97.8 97.592 1.229 1.359 96.6 97.445 0.524 0.494 92.0 91.808-0.304-0.397 86.6 85.995 0.401 0.489 91.2 91.775-1.025-1.087 81.9 81.497-0.841-0.921 83.1 82.575-0.948-0.929 82.4 82.524-0.826-0.816 83.2 83.260-1.102-1.020 81.4 81.929-0.074 0.070 88.1 89.041 Table 2.6 Tableau des y observés centrés-réduits et non centrés-réduits) et des prévisions ŷ associées à partir de la régression PLS à 3 composantes. 36 16 novembre 2012

2.3.4 Comparaison RCP vs régression PLS à partir des résidus résidus issus de la RCP résidus issus de la PLS 1.217 1.141 0.133 0.208-0.944-0.845 0.143 0.192 0.608 0.605-0.473-0.575 0.418 0.403 0.497 0.525-0.122-0.124-0.097-0.060-0.594-0.529-0.785-0.941 Table 2.7 Comparaison des résidus des régressions sur CP et PLS RMSE RCP RMSE PLS 0.6068552 0.606773 Table 2.8 comparaison des qualités prédictives des modèles issus des régressions sur CP et PLS 37 16 novembre 2012

Chapitre 3 Conclusion et perspectives 3.1 Conclusion La régression PLS1 réalise donc un compromis entre la régression multiple de y sur X et l'analyse en composantes principales de X. Le nombre de composantes k est déterminé par validation croisée. L'algorithme utilisé s'inspirant de l'algorithme NI- PALS) est itératif et permet d'exprimer les composantes, alors nouvellement construites t 1),t 2),...,t k), en fonction des variables initiales X j) pour obtenir le modèle de régression PLS à k composantes : y = c 1 t 1) + c 2 t 2) +... + c k t k) + res = c 1 w 1) 1 x 1) +... + c 1 w 1) p x p) + c 2 w 2) 1 x 1) p 1) 1 t 1) ) +... + c 2 w 2) p x p) p 1) p t 1) ) +... + c k w k) 1 x 1) p k 1) 1 t k 1) ) +... + c k w k) p x p) p k 1) p t k 1) ) + res Ce modèle assure des qualités de prédiction du phénomène meilleures que la RCP même quand cette dernière justie de plus de composantes. Cela s'explique par le fait que les composantes PLS captent l'information portée par les variables explicatives tout en se souciant du lien entre les variables exogènes et endogène. Enn, il est important de noter que l'algorithme tel qu'il a été présenté n'est pas celui qui s'applique avec des données manquantes. Pour rentrer dans ce cadre quelques conditions doivent être vériées pour le calcul des composantes. 3.2 Pour aller plus loin... Ce qui a été présenté dans ce chier concerne la régression PLS et en particulier la PLS1. Pour cela, la PLS fait appel à diérents thèmes et notions mathématiques. 3.2.1 PLS : une famille de méthodes - régression PLS : P LS1 cas univarié) P LS2 cas multivarié) - GLM-PLS [4]) 38

- PLS-Cox [1], [2]) - Kernel PLS [8], [12], [16], [17]) - Sparse-PLS [6], [14], [15]) 3.2.2 PLS : une approche algorithmique de la régression - algorithme NIPALS [20]) - SIMPLS [3], [9], [20]) - PLS et méthodes de Lanczos [3]) - PLS et gradients conjugués - algorithme PLS-Cox [3] + références de [3]) 39 16 novembre 2012

Annexe A Suites de Krylov Les méthodes de Krylov sont des méthodes de résolution itératives du système linéaire de dimension n : Ax = b où A est une matrice carrée inversible, utilisant des projections dans des sous-espaces particuliers, les espaces de Krylov. Les espaces de Krylov permettent de construire, par des opérations de type produit matrice-vecteur, produit scalaire ou combinaison linéaire de vecteurs, des sous-espaces anes pour chercher des approximations de la solution du système linéaire précédent. On appelle sous-espace de Krylov d'ordre k, associé à M R k et v R le sous-espace : K k M, v) = V ect v, Mv,..., M k 1 v ) où v, Mv,..., M k 1 v ) est la suite de Krylov associée. On peut dénir quelques propriétés : 1. K k σv, τm) = K k v, M), pour σ, τ 0 2. K k v, M τi)) = K k v, M) 3. K k Av, AMA ) = AK k v, M), pour A = A 1 40

Annexe B Validation croisée La validation croisée est une méthode qui permet de tester la abilité d'un modèle. Il existe au moins trois techniques de validation croisée : 1 1. test et validation 2. k-fold cross-validation 3. leave-one-out cross validation B.1 Test et validation On divise l'échantillon de taille n en un échantillon d'apprentissage et en un échantillon test. Le modèle est alors construit sur l'échantillon d'apprentissage et validé sur l'échantillon test. L'erreur est estimée en calculant l'erreur quadratique moyenne. Cependant, cette méthode statistique suggère un grand nombre d'observations pour établir 2 sous-échantillons de taille satisfaisante. Ceci est dicile d'obtenir dans la réalité. D'autres méthodes sont alors utilisées. B.2 k-fold cross-validation On divise k fois l'échantillon puis on sélectionne un des k échantillons comme ensemble de validation et les k 1) autres échantillons constitueront l'ensemble d'apprentissage. On calcule l'erreur quadratique moyenne puis on répète l'opération en sélectionnant un autre éhantillon de validation parmi les k 1) échantillons qui n'ont pas encore été utilisés pour la validation du modèle. L'opération se répète ainsi k fois pour que chaque sous-échantillon ait été utilisé une fois comme ensemble de validation. La moyenne des k erreur quadratiques moyennes est calculée pour estimer l'erreur de prédiction. B.3 leave-one-out cross-validation Cette méthode est un cas particulier de la méthode précédente où k = n. Ici, on apprend sur n 1) observations puis on valide le modèle sur l'observation restante. On répète l'opération n fois. 1. tout ceci est davantage détaillé dans [18] 41

Bibliographie [1] Philippe Bastien. Pls-cox model : Application to gene expression data. In : Proceedings COMPSTAT'04, Springer : Physica-Verlag, pages 655662, 2004. [2] Philippe Bastien. Deviance residuals based pls regression for censored data in high dimensional setting. Chemometrics and intelligent laboratory systems, 2008. [3] Philippe Bastien. Régression PLS et données censurées. PhD thesis, Conservatoire national des arts et métiers de Paris, mars 2008. [4] Philippe Bastien, Vincenzo Esposito Vinzi, and Michel Tenenhaus. Pls generalised linear regression. Computational statistics and data analysis, 2004. [5] Marie Chavent and Brigitte Patouille. Calcul des coecients de régression et du press en régression pls1. Revue MODULAD, 30) :19, Juin 2003. [6] Hyonho Chun and Sündüz Keles. Sparse partial least squares regression for simultaneous dimension reduction and variable selection. Journal of the Royal Statistical Society, avril 2009. [7] Josiane Confais and Monique Le Guen. Premiers pas en régression linéaire avec sas. Revue MODULAD, 35) :330332, 2006. [8] B.S. Dayal and J.F. MacGregor. Improved pls algorithms. Journal of Chemometrics, 11) :7385, 1997. [9] S. de Jong. Simpls : An alternative approach to partial least squares regression. Chemometrics and Intelligent Laboratory Systems, 18), 1993. [10] Inge S. Helland. On the structure of partial least squares regression. Department of Mathematical Sciences - Agricultural University of Norway, 1988. [11] INRIA. Projet aladin : Algorithmes adaptés au calcul numérique intensif. Technical report, 2001. [12] De Jong and C. ter Braak. Comments on the pls kernel algorithm. Journal of Chemometrics, 8) :169174, 1994. [13] Athanassios Kondylis. PLS methods in regression - Model assessment and inference. PhD thesis, Insitut de statistique - Faculté des sciences économiques - Université de Neuchâtel, septembre 2006. [14] Kim-Anh Lê Cao, Pascal G.P. Martin, Christèle Robert-Granié, and Philippe Besse. Sparse canonical methods for biological data integration : application to a cross-platform study. septembre 2008. [15] Kim-Anh Lê Cao, Debra Rossouw, Christèle Robert-Granié, and Philippe Besse. A sparse pls for variable selection when integrating omics data. 42

[16] F. Lingren, P. Geladi, and S. Wold. The kernel algorithm for pls. Journal of Chemometrics, 7) :4559, 1993. [17] S. Rännar, F. Lindgren, P. Geladi, and S. Wold. A pls kernel algorithm for data sets with many variables and fewer objects. part i : Theory and algorithm. Journal of Chemometrics, 8) :111125, 1994. [18] Payam Refaeilzadeh, Lei Tang, and Huan Liu. Cross-validation. Technical report, Arizona State University, novembre 2008. [19] Gilles Saporta. Probabilités, analyse des données et statistique. Technip, 1990. [20] Michel Tenenhaus. La régression PLS - Théorie et Pratique. Technip, 1998. 43 16 novembre 2012