Les Méthodes PLS Pierre-Louis Gonzalez Michel Tenenhaus 1
Les méthodes PLS initiées par Herman et Svante Wold I. NIPALS (Nonlinear Iterative Partial Least Squares) II. Régression PLS (Partial Least Squares Regression) II.1 PLS1 II.2 PLS2 III Analyse discriminante PLS IV. Régression logistique PLS 2
I. La méthode NIPALS Analyse en composantes principales Possibilité de données manquantes. Validation croisée pour choisir le nombre de composantes. Identification des outliers avec - une carte de contrôle des observations, - des tests sur les écarts au modèle de l ACP. 3
Utilisation de NIPALS :Exemple voitures Modèle Cylindrée Puissance Vitesse Poids Longueur Largeur Honda Civic. 90 174 850 369 166 Renault 19 1721. 180 965 415 169 Fiat Tipo 1580 83. 970 395 170 Citroën AX Sport 1294 95 184 730 350. Il y a une observation manquante par véhicule! Le principe de NIPALS: Comment projeter un point avec données manquantes? 4
Projection sur un axe x i * * * 0 * * * * * t i u x i o o o o o o t des x i ' u u ' u moindres i = = pente carrés de 0 la droite sans constante u de x i sur u 5
Projection d un point avec données manquantes sur un axe x i * * * 0 * * * * * t i u x i o Valeur manquante o o o o o S'il y a des données 0 manquantes u xi ' u ti = est calculé u' u disponibles sur les données 6
L algorithme NIPALS Recherche des composantes principales Données : X = {x ij } tableau n k, x j = variable j x i = observation i Modèle de l ACP : X = t 1 p 1 + + t k p k avec (1) p 1,, p k orthonormés ( axes ) et (2) t 1,, t k orthogonaux ( composantes principales ) 7
L algorithme NIPALS Recherche de la première composante principale Modèle : X = t 1 p 1 + résidu, avec p 1 normé Algorithme : les équations de base (1) Si t 1 connu, calcul de p 1j par régression : x j = p 1j t 1 + résidu (2) Normalisation de p 1 = (p 11,,p 1k ) (3) Si p 1 connu, calcul de t 1i par régression : x i = t 1i p 1 + résidu Algorithme : fonctionnement - Prendre t 1 = x 1, puis itérer sur (1), (2), (3). - Si données manquantes, faire les calculs sur toutes les données disponibles. 8
Commentaires: Les relations cycliques découlant des équations de base de l algorithme montrent que λ 1 est la plus grande valeur propre vérifiant les équations suivantes: 1 n 1 1 n 1 X ' Xp = λ p 1 1 1 X X ' t = λ t 1 1 1 Nous avons divisé par n-1 pour retrouver les résultats de SIMCA. Ce calcul est une application de la méthode de la puissance itérée pour le calcul du vecteur propre d une matrice associé à la plus grande valeur propre ( Hotelling-1936; Anderson-1958) 9
Projection sur l axe 1 x i * * * 0 * * * * * t 1i p 1 x i o o o o o o x 'p i 1 t 1i = = p 1'p1 i 1 0 pente de la droite des moindres carrés sans constante de x sur p 10 p 1
L algorithme NIPALS Recherche des autres composantes principales La première étape donne : X = t 1 p 1 + X 1 On répète les opérations précédentes sur la matrice des résidus X 1 de la régression de X sur t 1. On obtient : X 1 = t 2 p 2 + X 2 et X = t 1 p 1 + t 2 p 2 + X 2 On obtient de même les autres composantes. 11
RESS h et PRESS h A chaque étape on étudie la reconstitution du tableau X : ' ' ' 1p1 + t 2p2 +... t hph Xˆ = t + Residual Sum of Squares : RESS 2 h (xij xˆ ij) i, j = Les cases de X sont partagées en G groupes, et on réalise G factorisations en enlevant à chaque fois un seul des groupes. Predicted Residual Sum of Squares : xˆ PRESS 2 h (xij xˆ ( ij) ) i,j = où ( ij) est calculé dans l analyse réalisée sans le groupe contenant la case (i,j). 12
L algorithme NIPALS Choix du nombre de composantes On choisit le nombre de composantes principales par validation croisée. La composante t h est retenue si Q 2 = 1 PRESS RESS h h 1 limite 13
Q 2 (cum) et R 2 (validation croisée) [ Q 2 cum ] h = 1 h PRESS RESS a a= 1 a 1 peu différent de R 2 validation croisée = 1 PRESS j h s 2 j / n 1 La composante h est retenue si : 2 2 [ Q cum ] h est nettement supérieur à [ Qcum] h 1 CONSEIL : Modèle à h composantes acceptable si [Q 2 cum] h > 0.5 14
Utilisation de NIPALS : Exemple voitures autobis.m1 (PC), Untitled, Work set Model Overview (cum) R2X(cum) Q2(cum) 1.00 0.80 R2X(cum) & Q2(cum) 0.60 0.40 0.20 0.00 Comp[1] Comp[2] Comp[3] Comp[4] Simca-P 8.0 by Umetrics AB 2000-05-30 18:38 La validation croisée conduit à deux composantes. 15
NIPALS : Exemple Voitures Carte des variables ("les vecteurs propres") 0.6 VITESSE 0.4 PUISSANCE 0.2 p[2] 0.0-0.2-0.4 0.0 0.1 0.2 0.3 0.4 p[1] CYLINDRÉE LONGUEUR POIDS LARGEUR Simca-P 3.01 by Umetri AB 1998-11-21 14:26 16
NIPALS : Exemple Voitures Carte des voitures (les 2 premières "composantes principales") t[2] 2 1 0-1 -2 fiat uno ford fie citroen peugeot peugeot seat ibi bmw 325i audi 90 honda ci peugeot renault citroen fiat tip peugeot renault ford sie renault opel ome nissan v vw carav -4-2 0 2 4 t[1] Ellipse: Hotelling T2 (0.05) rover bmw 82 530i renault ford sco Simca-P 3.01 by Umetri AB 1998-11-21 14:29 17
NIPALS : Identification des outliers Carte de contrôle des distances au modèle normalisées 2.00 DCrit (0.05) 1.80 nissan vanet 1.60 bmw 325ix 1.40 ford scorpio DModX[2] 1.20 1.00 0.80 honda civic renault 21 peugeot 405 fiat tipo renault 19 citroen bx bmw 530i renault 25 opel omega peugeot 205 renault espa vw caravelle audi 90 quat fiat uno 0.60 peugeot 405b ford sierra 0.40 0.20 rover 827i ford fiesta peugeot 205r seat ibiza s citroen a 0.00 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 Dcrit [2] = 2.00746, Normalized distances, Non weighted residuals Simca-P 8.0 by Umetrics AB 2000-05-30 19:00 18
Calcul de la limite de contrôle x i * Propriété : DModX * * * 2 d (xi, yi) F(k,k ) 1 n 1 2 y 2 i * * * d (xi, yi) n i= 1 * = Limite de contrôle : F0.95(k1,k2) 19
Probabilité d appartenir au modèle Test : H 0 : l observation i appartient au modèle de l ACP H 1 : l observation i n appartient pas au modèle Décision : On rejette H 0 au risque α de se tromper si DModX F1 α ( k1, k2) Niveau de signification ou «probabilité d appartenir au modèle» : Plus petit α conduisant au rejet de H 0 = Prob (F(k 1,k 2 ) DModX 2 ) L individu i est exactement sur la limite de contrôle DCrit(α min ) 20
NIPALS : Exemple Voitures "Probabilité" d'appartenir au modèle ACP (2 composantes) 1.00 0.90 rover 827i ford fiesta citroen a seat ibiza s peugeot 205r M1.PModX[2] 0.80 0.70 0.60 0.50 0.40 0.30 bmw 530i citroen bx renault 19 fiat tipo peugeot 405 renault 21 honda civic renault 25 opel omega ford sierra peugeot 405b audi 90 quat fiat uno vw caravelle renault espa peugeot 205 0.20 0.10 bmw 325ix ford scorpio nissan vanet 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 M1.Num Simca-P 8.0 by Umetrics AB 2000-05-22 11:34 PModX(Nissan Vanette) = 0.08 21
II. La régression PLS Relier un bloc de variables à expliquer Y à un bloc de variables explicatives X. Possibilité de données manquantes. Il peut y avoir beaucoup plus de variables X que d observations. Il peut y avoir beaucoup plus de variables Y que d observations. Meilleure réponse au problème de la multicolinéarité. 22
La régression PLS : vocabulaire Régression PLS1 : un seul Y Régression PLS2 : plusieurs Y Analyse discriminante PLS : Y qualitatif transformé en variables indicatrices des modalités 23
II.1. La régression PLS1 :une idée de l algorithme Etape 1 : Recherche de m composantes orthogonales t h =Xa h bien explicatives de leur propre groupe et bien corrélées à y. Le nombre m est obtenu par validation croisée. Etape 2 : Régression de Y sur les composantes PLS t h. Etape 3 : Expression de la régression en fonction de X. 24
Objectif de l étape 1 de la régression PLS1 X 2 * * * * t 1 * * CPX 1 y * * * * * * * X 1 CPX 1 y * * * * * * t 1 25
La régression PLS1 : une idée de l étape 1 lorsqu il n y a pas de données manquantes Pour chaque h = 1 à m, on recherche des composantes t h =Xa h maximisant le critère Cov (Xa h, y) sous des contraintes de norme ( = 1 ) et d orthogonalité entre t h et les composantes précédentes t 1,, t h-1. a h 26
Propriétés de la régression PLS1 De Cov 2 (Xa h, y) = Cor 2 (Xa h, y)*var(xa h )*Var(y) on déduit que la régression PLS1 réalise un compromis entre la régression multiple de y sur X et l analyse en composantes principales de X. 27
Régression PLS1: Étape 1 1. Calcul de la première composante PLS t 1 : t = Xa = cor( y, x j ) x j 1 1 j Lors de cette étape les covariances sont égales aux corrélations, puisque toutes les données sont centrées réduites 2. Normalisation du vecteur a 1 = (a 11,,a 1k ) 3. Régression de y sur t 1 =Xa 1 exprimée en fonction des x 4. Calcul des résidus y 1 et X 1 des régressions de y et X sur t 1 : - y = c 1 t 1 + y 1 - X = t 1 p 1 + X 1 28
Régression PLS1: Étape 2 1. Calcul de la deuxième composante PLS t 2 : t = = 2 X1b2 cov( y1, x1 j ) x1 2. Normalisation du vecteur b 2 = (b 21,,b 2k ) j 3. Calcul de a 2 tel que : t 2 = X 1 b 2 = Xa 2 4. Régression de y 1 sur t 2 = Xa 2 exprimée en fonction des x 5. Calcul des résidus y 2 et X 2 des régressions de y et X 1 sur t 2 : - y 1 = c 2 t 2 + y 2 - X 1 = t 2 p 2 + X 2 j 29
Régression PLS1: Étapes suivantes On procède de la même manière pour les autres composantes. D où le modèle de régression PLS à m composantes : y = c 1 t 1 + c 2 t 2 + + c m t m + Résidu = c 1 Xa 1 + c 2 Xa 2 + + c m Xa m + Résidu = X(c 1 a 1 + c 2 a 2 + + c m a m ) + Résidu = b 1 x 1 + b 2 x 2 + + b k x k + Résidu ŷ 30
Calcul de RESS h et PRESS h à l étape h Residual Sum of Squares : où ŷ = c ( h 1),i ht hi RESS 2 h (y(h 1),i ŷ(h 1),i ) i = est la prévision de y (h-1),i Les observations sont partagées en G groupes, et on réalise G fois l étape courante de l algorithme sur y h-1 et X h-1 en enlevant à chaque fois un groupe. Predicted Residual Sum of Squares : ŷ PRESS 2 h (y(h 1),i ŷ(h 1), i) i = où est calculé dans l analyse réalisée sans le groupe (h 1), i contenant l observation (i). 31
Choix du nombre de composantes On choisit le nombre de composantes par validation croisée. La composante h est retenue si [PRESS h ] 0.95 [RESS h-1 ] Soit : Q 2 = 1 PRESS RESS h h 1 0.05 32
Q 2 (cum) et R 2 (validation croisée) [ Q 2 cum ] h = 1 h PRESS RESS a a= 1 a 1 peu différent de 2 PRESSh Rvalidation croisée = 1 2 ( y y) La composante h est retenue si : 2 2 [ Q cum ] h est nettement supérieur à [ Qcum] h 1 i i Modèle à h composantes acceptable si [Q 2 cum ] h > 0.5 33
Variable Importance in the Prediction (VIP) Composantes PLS : t h =X h-1 b h, avec b h = 1 Importance de la variable x j (j=1,, p) pour la prédiction de y dans un modèle à m composantes : VIP mj = m h= 1 R 2 p ( y, t h ) m h= 1 R 2 ( y, t h ) b 2 hj Moyenne des carrés des VIP = 1 Variable importante pour la prédiction si VIP > 0.8 34
Régression PLS1 : Exemple Voitures Problèmes : multicolinéarité, données manquantes Données complètes Modèle Prix Cylindrée Puissance Vitesse Poids Longueur Largeur Honda Civic 83700 1396 90 174 850 369 166 Renault 19 83800 1721 92 180 965 415 169 Fiat Tipo 70100 1580 83 170 970 395 170 Citroën AX Sport 66800 1294 95 184 730 350 160 Données incomplètes Modèle Prix Cylindrée Puissance Vitesse Poids Longueur Largeur Honda Civic 83700. 90 174 850 369 166 Renault 19 83800 1721. 180 965 415 169 Fiat Tipo 70100 1580 83. 970 395 170 Citroën AX Sport 66800 1294 95 184 730 350. 35
Régression multiple sur les données complètes R 2 = 0.847, F = 15.730 Sig. = 0.0001 Unstandardized Coefficients Coefficients a Standardized Coefficients Model B Std. Error Beta t Sig. (Constant) 12070.406 194786.6.062.951 CYLINDRE -1.936 33.616 -.018 -.058.955 PUISSANC 1315.906 613.510.888 2.145.047 VITESSE -472.507 740.319 -.207 -.638.532 POIDS 45.923 100.047.184.459.652 LONGUEUR 209.653 504.152.151.416.683 LARGEUR -505.429 1501.589 -.067 -.337.741 a. Dependent Variable: PRIX 36
Corrélations entre les variables Correlation Matrix PRIX CYLINDRE PUISSANC VITESSE POIDS LONGUEUR LARGEUR Correlation PRIX CYLINDRE PUISSANC VITESSE POIDS LONGUEUR LARGEUR 1.000.852.891.720.813.747.611.852 1.000.861.693.905.864.709.891.861 1.000.894.746.689.552.720.693.894 1.000.491.532.363.813.905.746.491 1.000.917.791.747.864.689.532.917 1.000.864.611.709.552.363.791.864 1.000 37
Régression PLS sur les données incomplètes Choix du nombre de composantes autopbis.m1 (PLS), Untitled, Work set Model Overview (cum) R2Y(cum) Q2(cum) 1.00 0.80 R2Y(cum) & Q2(cum) 0.60 0.40 0.20 0.00 Comp[1] Comp[2] Comp[3] Simca-P 8.0 by Umetrics AB 2000-05-30 18:11 On retient une composante PLS 38
Régression PLS sur les données incomplètes R 2 = 0.761 Équation sur les données centrées-réduites (CoeffCS) Prix σ (Prix) = 2.18 + 0.183Cylindrée* + 0.206Puissance* + 0.146Vitesse* + 0.165Poids* + 0.153Longueur* + 0.129Largeur* Équation sur les données d origine (Coeff) Prix = -316 462 + 23Cylindrée + 328Puissance + 339Vitesse + 40Poids + 205Longueur + 1007Largeur Équation sur les données d origine pour Y et centrées pour X (CoeffC) Prix = 125513 + 23(Cylindrée - 1888) + 328(Puissance - 112) + 339(Vitesse - 182) + 40(Poids - 1113) + 205(Longueur - 422) + 1007(Largeur - 168) 39
Résultats de la validation croisée sur les coefficients de régression PLS 0.24 0.22 Audi 90 Quattro 0.20 0.18 0.16 0.14 0.12 0.10 LARGEUR LONGUEUR POIDS VITESSE PUISSANC CYLINDRE PRIX 40
Résultats de la validation croisée sur les coefficients de régression PLS Cylindrée Puissance Vitesse Poids Longueur Largeur B SE Student T p-value 0.1827 0.0371 4.925 0.0001 0.2060 0.0570 3.614 0.0005 0.1465 0.0430 3.407 0.0002 0.1653 0.0181 9.133 0.0001 0.1525 0.0175 8.714 0.0001 0.1286 0.0299 4.301 0.0001 41
Carte des variables X Y 0.60 PUISSANCE 0.40 w*c[2] 0.20 0.00 PRIX VITESSE POIDS CYLINDRÉE -0.20-0.40 LONGUEUR -0.60 LARGEUR -0.80-0.70-0.60-0.50-0.40-0.30-0.20-0.10 0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 w*c[1] 42
Validation globale Autoprib.M1 (PLS): Validate Model PRIX Intercepts: R2=(0.0, -0.0144), Q2=(0.0, -0.192) R2 Q2 0.80 0.70 0.60 0.50 0.40 0.30 0.20 0.10 0.00-0.10-0.20 0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00 200 permutations 1 components - Abscisse : Corrélation entre Y et Y permuté - Ordonnée : R2 et Q2 de la régression PLS de Y permuté sur X - Les droites noire et rouge sont les droites des moindres carrés 43
Exemple Voitures Variable Importance in the Projection (1 composante) 1.20 1.10 1.00 0.90 0.80 VIP[1] 0.70 0.60 0.50 0.40 0.30 0.20 0.10 0.00 PUISSANC CYLINDRE POIDS LONGUEUR VITESSE LARGEUR Simca-P 8.0 by Umetrics AB 2000-05-22 12:05 44
Régression PLS sur les données incomplètes AUTOPRIB.M1 (PLS), Modèle 1, Work set PRIX, Comp 1(Cum) 250000 200000 renault audi 90 bmw 325i bmw 530i renault ford sco rover 82 Y 150000 100000 50000 ford fie fiat uno honda ci peugeot citroen peugeot seat fiat ibi tip peugeot citroen nissan renault v renault vw carav peugeot ford sie opel ome 40000 60000 80000 100000 120000 140000 160000 180000 200000 220000 240000 Predicted RMSEE=28979 Simca-P 7.01 by Umetri AB 1998-11-23 09:40 45
Intervalle de confiance à 95% du prix moyen (fourni par SIMCA) 300000 200000 100000 PRIX 0 0 100000 200000 300000 prévision 46
Intervalle de prévision à 95% du prix (à calculer) 300000 audi 90 quattro 200000 100000 PRIX 0 0 100000 200000 300000 prévision 47
Prédiction du prix de la HONDA CIVIC (Problème : certains X sont manquants) Prix de vente : 83 700 FF Cylindrée Puissance Vitesse Poids Longueur Largeur Caractéristiques de la Honda Civic? 90 174 850 369 166 Caractéristiques centrées-réduites? -.61009 -.32011-1.10172-1.23196 -.32679 48
Prédiction du Prix de la HONDA CIVIC Régression du Prix sur t 1 : Prix -125 512 57 503 0.4045789 t Calcul de tps 1 pour la HONDA CIVIC : - Régression : X j = p 1j t 1 + erreur, j = 1,, p p 1 = (p 11,, p 1p ) - Régression : x i = tps 1i p 1 + erreur 1 sur les données disponibles; d où le calcul de tps 1i tps 1 (Honda Civic) = -1.84262 est l estimation de t 1i Prédiction du prix de la HONDA CIVIC - On utilise tps1 à la place de t 1 Prédiction du Prix = 82 644.5 FF 49
Prédiction du Prix de la HONDA CIVIC : calcul de tps 1 (Honda Civic) Cylindrée Puissance Vitesse Poids Longueur Largeur P 1 0.48 0.45 0.37 0.39 0.39 0.36? 0.48.61 0.45.32 0.37 x Honda = tps 1 ( Honda) tps 1 (Honda) = -1.84262 1.10 0.39 1.23 0.39.33 0.36 50
Régression PLS1 : Cas UOP Guided Wave Problème : 226 variables X et 26 observations Les données : Y = indice d octane X 1, X 2,, X 226 : valeurs d absorbance à différentes longueurs d onde Données de calibration : 26 échantillons d essence (dont 2 avec alcool) Données de validation : 13 échantillons d essence (dont 4 avec alcool) 51
Cas UOP Guided Wave Visualisation des X -4.469e-03 0.113 0.231 0.349 0.467 0.585 a m p H17 l H36 e 1500 S.016 1400 1300 1200 1100 s X - V a r i a b l e s Octane - Matrix Plot, Sam.Set: All Samples, Var.Set: Selected Variables 52
Cas UOP Guided Wave Visualisation des X : Données de calibration.7.6.5.4.3.2 M52 H59.1 0.0 -.1 1 25 49 73 97 121 145 169 193 217 13 37 61 85 109 133 157 181 205 Sequence number Les échantillons M52 et H59 contiennent de l alcool 53
Cas UOP Guided Wave Visualisation des X : Données de validation.7.6.5.4.3.2.1 0.0 -.1 1 25 49 73 97 121 145 169 193 217 13 37 61 85 109 133 157 181 205 Numéro de la longueur d'onde Les échantillons avec alcool sont en rouge 54
Régression PLS1 : les résultats Données de spectroscopie Les données sont centrées, mais non réduites Validation croisée : 3 composantes PLS 55
UOP Guided Wave : Les composantes PLS OCTANE.M4 (PLS), Untitled, Work set Scores: t[1]/t[2] t[2] 0.40 0.20 0.00-0.20-0.40 H39 H11 H20 H24 H27 H12 H38 H17 H36 L13 M01 M18 L21 M02 M05 H32 L37 L14 L29 L40 L06 L35 L15 L31 M52 H59-0.40-0.30-0.20-0.10 0.00 0.10 0.20 0.30 0.40 0.50 0.60 t[1] Ellipse: Hotelling T2 (0.05) Simca-P 7.01 by Umetri AB 1998-11-23 12:14 - Indice d octane : L = Low, M = Medium, H = High - Les échantillons M52 et H59 contiennent de l alcool 56
UOP Guided Wave : les composantes PLS OCTANE.M4 (PLS), Untitled, Work set Scores: t[2]/t[3] 0.100 0.050 H32 H36 H38 H17 t[3] 0.000 M52 H59 L31 L40 L15 L14 L06 L29 L35 M02 M05 M18 M01 H11 H20 H27 H24-0.050 L21 L37 L13 H12 H39-0.100-0.50-0.40-0.30-0.20-0.10 0.00 0.10 0.20 0.30 0.40 0.50 t[2] Ellipse: Hotelling T2 (0.05) Simca-P 7.01 by Umetri AB 1998-11-23 12:41 Indice d octane : L = Low, M = Medium, H = High 57
Cas UOP Guided Wave : Prévision Données de calibration OCTANE.M4 (PLS), Untitled, Work set OCTANE, Comp 3(Cum) 92 91 H38 H24H20 H27 H39 H17 H12 H36 H11 H32 H59 Y 90 89 88 87 L15 L14 L29 L31 L35 L06 L37 L40 L21 L13 M02 M52 M01 M05 M18 87 88 89 90 91 92 Predicted RMSEE=0.290788 Simca-P 7.01 by Umetri AB 1998-11-23 12:53 58
Cas UOP Guided Wave : Prévision Données de validation OCTANE.M5 (PLS), Untitled, PS-OCTANE OCTANE, Comp 3 (Cum) 92 91 S.022S.026 S.010 S.057 S.058 S.016 S.055 Observed 90 89 S.004 S.025 S.003 S.019 S.056 88 87 S.034 87 88 89 90 91 92 Predicted RMSEP=0.256792 Simca-P 7.01 by Umetri AB 1998-11-23 13:11 Présence d alcool : OUI / NON 59
II.2 La régression PLS2 Relier un bloc de variables à expliquer Y à un bloc de variables explicatives X. Possibilité de données manquantes. Il peut y avoir beaucoup plus de variables X que d observations. Il peut y avoir beaucoup plus de variables Y que d observations. 60
La régression PLS2 : une idée de l algorithme Etape 1 : Recherche de m composantes orthogonales t h =Xa h et m composantes u h =Yb h bien corrélées entre elles et explicatives de leur propre groupe. Le nombre m est obtenu par validation croisée. Etape 2 : Régression de Y sur les composantes t h. Etape 3 : Expression de la régression en fonction de X. 61
Objectif de l étape 1 de la régression PLS2 X 2 * * * * t 1 * * CPX 1 Y 2 * * * * * * * CPY 1 u 1 X 1 Y 1 u 1 * * * * * * t 1 62
La régression PLS2 : une idée de l étape 1 lorsqu il n y a pas de données manquantes Pour chaque h = 1 à m, on recherche des composantes t h =Xa h et u h = Yb h maximisant le critère Cov (Xa h, Yb h ) sous des contraintes de norme et d orthogonalité entre t h et les composantes précédentes t 1,, t h-1. 63
Interprétation du critère de Tucker De Cov 2 (Xa h,yb h ) = Cor 2 (Xa h,yb h )* Var(Xa h )*Var(Yb h ) on déduit que la régression PLS réalise un compromis entre l analyse canonique de X et Y, une ACP de X, et une ACP «oblique» de Y. 64
Variable Importance in the Prediction (VIP) Composantes PLS : t h =X h-1 b h, avec b h = 1 Importance de la variable x j (j=1, p) pour la prédiction des y k (k=1, q) dans un modèle à m composantes : VIP mj = m q h= 1 k= 1 R p 2 ( y k ; t h ) m q [ h= 1 k= 1 R 2 ( y k, t h )] b 2 hj Moyenne des carrés des VIP = 1 Variable importante pour la prévision si VIP > 0.8 65
Régression PLS2 Exemple 1: Dégustation de thé Les données Obs Température Sucré Force Citron Sujet 1 Sujet 6 1 1 1 1 1 4 5 2 1 2 2 1 2 8 3 1 3 3 2 6 6 11 1 2 1 1 1 14 18 3 3 1 2 12 15 Température Sucré Force Citron 1 = Chaud 2 = Tiède 3 = Glacé 1 = Pas de sucre 2 = 1 sucre 3 = 2 sucres 1 = Fort 2 = Moyen 3 = Faible 1 = Avec 2 = Sans 66
Cas Dégustation de thé Bloc X Variables indicatrices des modalités de Température, Sucré, Force et Citron Bloc Y Les classements des sujets 67
Cas Dégustation de thé Résultats de la régression PLS Validation croisée : 3 composantes : t h =Xw h * et u h =Yc h Équation de régression de Y k sur t 1,, t h : Y k = c 1k t 1 + c 2k t 2 + c 3k t 3 + c 4k t 4 + résidu Les variables X et Y sont représentées à l aide des vecteurs w h * et c h. 68
Cas Dégustation de thé Carte des variables THE.M1 (PLS), régression PLS, Workset Loadings: w*c[1]/w*c[2] 0.6 Y5 Y3 w*c[2] 0.4 0.2 0.0-0.2-0.4-0.6 SUCRE2 TIEDE CHAUD CITRON0 FORT Y1 MOYEN Y2 SUCRE1 GLACÉ Y4 SUCRE0 Y6 CITRON1 LEGER -0.6-0.4-0.2 0.0 0.2 0.4 0.6 0.8 w*c[1] Simca-P 3.01 by Umetri AB 1998-11-23 18:11 69
Cas dégustation de thé Visualisation de la régression PLS de Y 1 sur X THE.M1 (PLS), régression PLS, Workset Loadings: w*c[1]/w*c[2] THE régression PLS M1.Y1 (CoeffCS) [4] w*c[2] 0.6 0.4 0.2 0.0 Y5 SUCRE2 CITRON0 FORT MOYEN SUCRE1 Y3 CHAUD FROID Y4 SUCRE0 Y1 Y2 CoeffCS5[4] 0.4 0.2 0.0-0.2-0.2-0.4-0.6 Y6 TIEDE CITRON1 LEGER -0.6-0.4-0.2 0.0 0.2 0.4 0.6 0.8 w*c[1] Simca-P 3.01 by Umetri AB 1998-11-23 18:11-0.4-0.6 CHAUD TIEDE FROID SUCRE0 SUCRE1 SUCRE2 FORT MOYEN LEGER CITRON1 CITRON0 Simca-P 3.01 by Umetri AB 1998-11-23 19:14 Règle d interprétation: Les projections des variables X sur les variables Y reflètent le signe et l ordre de grandeur des coefficients de régression PLS des Y sur X. Le juge 1 aime son thé chaud et rejette le thé tiède 70
Validation du modèle pour le juge 1 0.60 0.40 0.20 0.00-0.20-0.40-0.60 71 CoeffCS[4](Y1) CHAUD TIEDE FROID SUCRE0 SUCRE1 SUCRE2 FORT MOYEN LEGER CITRON1 CITRON0 Var ID (Primary)
Cas dégustation de thé Visualisation de la régression PLS de Y 5 sur X THE.M1 (PLS), régression PLS, Workset Loadings: w*c[1]/w*c[2] THE régression PLS M1.Y5 (CoeffCS) [4] 0.6 Y5 Y3 0.4 w*c[2] 0.4 0.2 0.0 SUCRE2 CITRON0 FORT MOYEN SUCRE1 CHAUD FROID Y4 SUCRE0 Y1 Y2 CoeffCS9[4] 0.2 0.0-0.2-0.4-0.6 Y6 TIEDE CITRON1 LEGER -0.6-0.4-0.2 0.0 0.2 0.4 0.6 0.8 w*c[1] Simca-P 3.01 by Umetri AB 1998-11-23 18:11-0.2-0.4 CHAUD TIEDE FROID SUCRE0 SUCRE1 SUCRE2 FORT MOYEN LEGER CITRON1 CITRON0 Simca-P 3.01 by Umetri AB 1998-11-23 19:26 Le juge 5 préfère son thé sans citron, fort; il est indifférent au thé tiède; il rejette le thé léger, avec du citron. 72
0.40 0.20 0.00-0.20-0.40 Validation du modèle pour le juge 5 73 CoeffCS[4](Y5) CHAUD TIEDE FROID SUCRE0 SUCRE1 SUCRE2 FORT MOYEN LEGER CITRON1 CITRON0 Var ID (Primary)
Carte des produits dans l espace des juges Dégustation de thés Scores: u[1]/u[2] 2 8 11 18 12 2 1 u [ 2 ] 0 6 14 4 3 9 10 1 16-1 13 17 7-2 15 5-2 -1 0 1 2 u[1] Simca-P 8.0 by Umetrics AB 2000-11-27 10:19 74
Variable Importance in the Projection (VIP) THE.M1 (PLS), Untitled, Work set VIP, Comp 4(Cum) 1.60 1.40 1.20 1.00 VIP[4] 0.80 0.60 0.40 0.20 0.00 TIEDE CHAUD SUCRE0 SUCRE2 LEGER CITRON1 CITRON0 Simca-P 8.0 by Umetrics AB 2000-03-08 08:01 FORT FROID MOYEN SUCRE1 75
III. Analyse discriminante PLS Bloc Y La variable qualitative Y est remplacée par l ensemble des variables indicatrices de ses modalités. Bloc X Variables numériques ou indicatrices des modalités des variables qualitatives. Régression PLS de Y sur X 76
Analyse discriminante PLS : exemple Les données 16 biopsies de tumeurs de cerveau humain. Chaque tumeur est classée par un médecin anatomopathologiste comme bénigne ou maligne. Chaque biopsie est analysée par chromatographie en phase gazeuse : on obtient un profil métabolique de la biopsie formé de 156 pics. Quelques données manquantes Article: Jellum E., Bjørnson I., Nesbakken R., Johanson E., Wold S. Classification of human cancer cells by means of capillary gas chromatography and pattern recognition analysis. ( Journal of Chromatography, 1981) 77
Analyse discriminante PLS Profils métaboliques des biopsies 1400 1200 1000 1200 1000 800 T2 T3 T6 T7 800 600 400 N1 N4 N5 N13 600 400 T8 T9 T10 T11 200 N14 200 T12 0 1 9 17 25 33 41 49 57 65 73 81 89 97 113 129 145 105 121 137 153 N15 0 1 9 17 25 33 41 49 57 65 73 81 89 97 113 129 145 105 121 137 153 T16 Sequence number Tumeurs bénignes Sequence number Tumeurs malignes 78
Analyse en composantes principales des 16 biopsies Composantes principales 1 et 2 EGI1.M4 (PC), Untitled, Work set Scores: t[1]/t[2] 10 N15 N13 t[2] 5 0-5 T8 T12 T7 T6 T3T11 T16 N14 T9 T10 T2 N1 N4-10 N5-10 0 10 t[1] Ellipse: Hotelling T2 (0.05) Simca-P 7.01 by Umetri AB 1998-11-24 15:17 79
Analyse en composantes principales des 16 biopsies Composantes principales 1 et 3 EGI1.M4 (PC), Untitled, Work set Scores: t[1]/t[3] 10 N14 5 N5 t[3] 0-5 T8T12 T6 T7 T16 T9 T3 T11 T10 T2 N15 N1 N13 N4-10 -10 0 10 t[1] Ellipse: Hotelling T2 (0.05) Simca-P 7.01 by Umetri AB 1998-11-24 15:19 80
Analyse discriminante PLS Composantes PLS 1 et 2 EGI1.M5 (PLS), Untitled, Work set Scores: t[1]/t[2] 10 N14 t[2] 5 0-5 T8 T12 T7 T6 T3 T11 T16 T9 T10 T2 N15 N5 N1 N13 N4-10 -10 0 10 t[1] Ellipse: Hotelling T2 (0.05) Simca-P 7.01 by Umetri AB 1998-11-24 15:22 81
IV. Régression logistique PLS Bonne solution au problème de la multicolinéarité. Il peut y avoir beaucoup plus de variables que d observations. Il peut y avoir des données manquantes. Présentation de trois algorithmes 82
Qualité des vins de Bordeaux Variables observées sur 34 années (1924-1957) TEMPERATURE : Somme des températures moyennes journalières SOLEIL : Durée d insolation CHALEUR : Nombre de jours de grande chaleur PLUIE : Hauteur des pluies QUALITE DU VIN : Bon, Moyen, Médiocre 83
Régression logistique ordinale Y = Qualité : Bon (1), Moyen (2), Médiocre (3) PROB(Y i) = e αi+β1température+β2soleil+β3chaleur+β4pluie 1 + e αi+β1température+β2soleil+β3chaleur+β4pluie 84
Régression logistique ordinale Résultats SAS Score Test for the Proportional Odds Assumption Chi-Square = 2.9159 with 4 DF (p=0.5720) Analysis of Maximum Likelihood Estimates Parameter Standard Wald Pr > Variable DF Estimate Error Chi-Square Chi-Square INTERCP1 1-2.6638 0.9266 8.2641 0.0040 INTERCP2 1 2.2941 0.9782 5.4998 0.0190 TEMPERA 1 3.4268 1.8029 3.6125 0.0573 SOLEIL 1 1.7462 1.0760 2.6335 0.1046 CHALEUR 1-0.8891 1.1949 0.5536 0.4568 PLUIE 1-2.3668 1.1292 4.3931 0.0361 85
Régression logistique ordinale Qualité de prévision du modèle QUALITE PREVISION OBSERVEE Effectif 1 2 3 Total ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ 1 8 3 0 11 ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ 2 2 8 1 11 ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ 3 0 1 11 12 ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ Total 10 12 12 34 Résultat : 7 années mal classées 86
Régression logistique ordinale Commentaires Le modèle à pentes égales est acceptable (p = 0.572). La chaleur a une influence positive sur la qualité du vin de Bordeaux, alors qu elle apparaît comme non significative et avec un coefficient négatif dans le modèle. C est un problème de multicolinéarité. Il y a 7 années mal classées. 87
Algorithme 1 : La régression logistique PLS Etape 1 : Recherche de m composantes orthogonales T h =Xa h explicatives de leur propre groupe et bien prédictives de y. Le nombre m est obtenu par validation croisée. Etape 2 : Régression logistique de Y sur les composantes T h. Etape 3 : Expression de la régression logistique en fonction de X. 88
Régression logistique PLS Étape 1 1. Régression logistique de y sur chaque x j : les coefficients de régression a 1j 2. Normalisation du vecteur a 1 = (a 11,,a 1k ) 3. Régression logistique de y sur T 1 =Xa 1 exprimée en fonction des X 4. Calcul du résidu X 1 de la régression de X sur T 1 89
Régression logistique PLS Étape 2 1. Régression logistique de y sur T 1 et chaque résidu x 1j : les coefficients de régression b 2j 2. Normalisation du vecteur b 2 = (b 21,,b 2k ) 3. Calcul de a 2 tel que : T 2 = X 1 b 2 = Xa 2 4. Régression logistique de y sur T 1 = Xa 1 et T 2 = Xa 2 exprimée en fonction des X 5. Calcul du résidu X 2 de la régression de X sur T 1, T 2 90
Régression logistique PLS Choix du nombre de composantes On procède de la même manière pour les autres étapes. On choisit le nombre de composantes par validation croisée : la composante h est retenue si 2 [ χ Pearson 0.95 Soit : (validation croisée, Q 2 = 2 étape h)] [ χ Pearson (substitution, 2 χ validation croisée, étape 1 2 χ substituti on, étape h -1 1/ 2 étape h h -1)] 0.0975 1/ 2 91
Régression logistique PLS Résultats de l algorithme La température de 1924 est supposée inconnue. La régression logistique PLS de Y sur X a conduit à deux composantes PLS T 1 et T 2 : T 1 = 0.57 Température + 0.63 Soleil + 0.41 Chaleur - 0.34 Pluie T 2 = - 0.14 Température + 0.45 Soleil - 0.69 Chaleur - 0.52 Pluie 92
Régression logistique ordinale sur T 1, T 2 Résultats SAS Analysis of Maximum Likelihood Estimates Parameter Standard Wald Pr > Variable DF Estimate Error Chi-Square Chi-Square INTERCP1 1-2.5490 0.8768 8.4507 0.0036 INTERCP2 1 2.1349 0.8955 5.6837 0.0171 T1 1 3.0797 0.8350 13.6032 0.0002 T2 1 1.4148 0.8849 2.5563 0.1099 TABLEAU CROISANT QUALITÉ OBSERVÉE ET PRÉDITE QUALITÉ PRÉDICTION Effectif 1 2 3 Total ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ 1 9 2 0 11 ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ 2 1 9 1 11 ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ 3 0 1 11 12 ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ Total 10 12 12 34 Résultat : 5 années mal classées 93
94 Régression logistique PLS Le modèle Prob (Y i) T 2 1.42 T 1 3.08 2.14 2.55 T2 1.42 T1 3.08 2.14 2.55 e 1 e + + + + + + + = Moyen Bon Moyen Bon Pluie Chaleur Soleil Temp. Moyen Bon Pluie Chaleur Soleil Temp. Moyen Bon + + + + + + + + + = 77 1. 0.26 2.73 1.57 2.14 2.55 1.77 0.26 2.73 1.57 2.14 2.55 e 1 e
Algorithme 2 Régression logistique sur composantes PLS (1) Régression PLS des indicatrices de Y sur les X. (2) Régression logistique de Y sur les composantes PLS des X. 95
Régression logistique sur les composantes PLS Résultats La température de 1924 est supposée inconnue. La régression PLS des indicatrices de Y sur X a conduit à une seule composante PLS t 1 (résultat de la validation croisée). t 1 = 0.55 Température + 0.55 Soleil +0.48 Chaleur 0.40 Pluie Pour l année 1924 : t 1 = (0.55 Soleil +0.48 Chaleur 0.40 Pluie)/0.69 96
Utilisation de la régression PLS pour la prévision de la qualité du vin de Bordeaux The PLS Procedure Cross Validation for the Number of Latent Variables TABLE OF QUALITE BY PREV Test for larger residuals than minimum Number of Root Latent Mean Prob > Variables PRESS PRESS ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ 0 1.0313 0 1 0.8304 1.0000 2 0.8313 0.4990 3 0.8375 0.4450 4 0.8472 0.3500 Minimum Root Mean PRESS = 0.830422 for 1 latent variable Smallest model with p-value > 0.1: 1 latent Choix d une composante PLS QUALITE PREV Frequency 1 3 Total ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ 1 11 0 11 ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ 2 4 7 11 ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ 3 1 11 12 ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ Total 16 18 34 Résultat : 12 années mal classées 97
Résultats de la régression logistique de Y sur la composante PLS t 1 Analysis of Maximum Likelihood Estimates Parameter Standard Wald Pr > Variable DF Estimate Error Chi-Square Chi-Square INTERCP1 1-2.1492 0.8279 6.7391 0.0094 INTERCP2 1 2.2845 0.8351 7.4841 0.0062 t1 1 2.6592 0.7028 14.3182 0.0002 TABLEAU CROISANT QUALITÉ OBSERVÉE ET PRÉDITE QUALITÉ PRÉDICTION Effectif 1 2 3 Total ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ 1 9 2 0 11 ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ 2 2 8 1 11 ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ 3 0 1 11 12 ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ Total 11 11 12 34 Résultat : 6 années mal classées 98
Régression logistique sur composantes PLS Le modèle Prob (Y i) 2.15 Bon+ 2.28 Moyen+ 2.66 e t1 = 2.15 Bon+ 2.28 Moyen+ 2.66 t 1 1+ e = e 1+ 2.15 Bon+ 2.28 Moyen+ 1.47 Temp. + 1.46 Soleil+ 1.28 Chaleur 1.07 Pluie e 2.15 Bon+ 2.28 Moyen+ 1.47 Temp. + 1.46 Soleil+ 1.28 Chaleur 1.07 Pluie 99
Conclusion 1: Régression logistique PLS vs régression logistique sur composantes PLS Les deux algorithmes présentés devraient avoir des qualités comparables. L algorithme 2 est beaucoup plus simple : Deux étapes : (1) Régression PLS des indicatrices de Y sur X (2) Régression logistique de Y sur les composantes PLS 100
Conclusion 2: Le modèle linéaire généralisé PLS Le modèle linéaire généralisé PLS peut être construit selon les mêmes procédures. Approche beaucoup plus simple que la méthode de Brian Marx : «Iteratively Reweighted Partial Least Square Estimation for Generalized Linear Regression», Technometrics, 1996. 101
Algorithme 3 (données groupées) Régression PLS du logit de la variable de réponse sur les prédicteurs Exemple : Job satisfaction (Zelterman, 1999) 9949 employees in the craft job within a company Response : Satisfied/Dissatisfied Factors : Sex, Race (White/Nonwhite), Age (<35, 35-44, >44) Region (Northeast, Mid-Atlantic, Southern, Midwest, Northwest, Southwest, Pacific) Explain Job satisfaction with all the main effects and the interactions. 102
Une approche exploratoire (1) Régression PLS de Y 1 = Logit(proportion of satisfied people) Y 2 = Logit(proportion of non satisfied people) sur les 4 facteurs et toutes les interactions. (2) Élimination itérative des termes à petits VIP, en vérifiant l augmentation du Q 2 (cum) (3) Carte des variables finalement retenues 103
Résultat de la Régression PLS sur les logits MEN 0.30 YOUNG in NORTHEAST WOMEN in MIDWEST 0.20 NON SATISFIED NONWHITE WOMEN NORTHEAST w*c[2] 0.10 0.00-0.10-0.20 YOUNG YOUNG in MIDWEST WOMEN in NORTHEAST YOUNG WHITE MID-ATLANTIC WHITE in MID-ATLANTIC OLD WHITE OLD in MID-ATLANTIC SOUTHERN SATISFIED -0.30 YOUNG WOMEN NONWHITE MEN -0.40 WOMEN -0.50-0.30-0.20-0.10 0.00 0.10 0.20 0.30 w*c[1] OLD in SOUTHERN Y 1 = Logit (Proportion of Satisfied) Y 2 = Logit (Proportion of Non Satisfied) X = Explanatory variables kept after elimination of small VIP terms 104
Quelques références sur les méthodes PLS Régression PLS - L. Eriksson, E. Johansson, N. Kettaneh-Wold & S. Wold : Multi- and Megavariate Data Analysis using Projection Methods (PCA & PLS), Umetrics, 1999. - H. Martens & M. Martens : Multivariate Analysis of Quality, Wiley, 2000 - H. Martens & T. Næs : Multivariate calibration, Wiley, 1989 - SIMCA 12.0 : PLS Software, S. WOLD, UMETRI (Sweden), distribué par SIGMA PLUS - M. Tenenhaus : La régression PLS, Editions Technip, 1998 Approche PLS (PLS Path modelling) - J.-B. Lohmöller : Latent variable path modeling with partial least squares, Physica-Verlag, 1989 - LVPLS 1.8 : Software for Latent variables path analysis with partial least-squares estimation, J.-B. Lohmöller, 1989 - M. Tenenhaus : L approche PLS, R.S.A., 47 (2), 5-40, 1999 105