Les Méthodes PLS. Pierre-Louis Gonzalez. Michel Tenenhaus



Documents pareils
Exemple PLS avec SAS

ACP Voitures 1- Méthode

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position

Lire ; Compter ; Tester... avec R

Modèles pour données répétées

Huiles moteurs pour véhicules légers

Exemples d application

Exercices M1 SES Ana Fermin ( fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

Consommation de flotte ( )

MODELE A CORRECTION D ERREUR ET APPLICATIONS

Analyse de variance à deux facteurs (plan inter-sujets à deux facteurs) TP9

Étude de cas Assurance (d après une étude de Philippe Périé, CISIA)

Données longitudinales et modèles de survie

LOW COST TOUT INCLUS FIAT PANDA. Moteur: Essence A/C Radio CD Assurance tous risques sans franchise Réservoir plein PRIX / SEMAINE

Un exemple de régression logistique sous

Honda se place en tête de la satisfaction des propriétaires français de nouveaux véhicules pour la troisième année consécutive

2 nd semestre. Synthèse de l étude D3 Parcours Analyse de la fidélité des clients par marque. En partenariat avec

Nouveau : Une technologie avant-gardiste d huile moteur

BOÎTES DE VITESSES MANUELLES AUTOMATIQUES FRANCE PARIS

BERU Eyquem SAS 101, Avenue François Arago F Nanterre Cédex / France Téléphone: Fax:

"Étude TOPÉO" Le Concept de la voiture low cost en France => Cas concret : la NANO de TATA

Utilisation du Logiciel de statistique SPSS 8.0

Une introduction. Lionel RIOU FRANÇA. Septembre 2008

Programmation Linéaire - Cours 1

1 Complément sur la projection du nuage des individus

Introduction aux Statistiques et à l utilisation du logiciel R

Évaluation de la régression bornée

Problème d ordonnancement de véhicules en variables booléennes

Introduction à la statistique non paramétrique

Brochure ALD ELECTRIC PART OF ALD NEWMOBILITY

Méthode : On raisonnera tjs graphiquement avec 2 biens.

I - PUISSANCE D UN POINT PAR RAPPORT A UN CERCLE CERCLES ORTHOGONAUX POLES ET POLAIRES

1 Modélisation d être mauvais payeur

Analyse de la variance Comparaison de plusieurs moyennes

Adaptez-vous aux nouvelles tendances de la distribution automobile

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

La classification automatique de données quantitatives

NOUVELLE série KTS pour un diagnostic confortable, rapide et fiable

Séquence 9. Étudiez le chapitre 11 de physique des «Notions fondamentales» : Physique : Dispersion de la lumière

PRIX AUTO ENVIRONNEMENT MAAF 2014

Marché de l'automobile - Automobile - Type de carrosserie - Modèle d'automobile

Chapitre 02. La lumière des étoiles. Exercices :

REFERENCEMENT NATUREL

Séquence 2. Repérage dans le plan Équations de droites. Sommaire

TEMPÉRATURE DE SURFACE D'UNE ÉTOILE

PLAN. Ricco Rakotomalala Tutoriels Tanagra - 2

INF6304 Interfaces Intelligentes

Finanzführerschäin. Maison des jeunes Am Quartier

TRANSPORT ET LOGISTIQUE :

ATELIER SOLUTION. Acheter ou louer? Réforme 2006 de la fiscalité applicable aux véhicules. Avec la collaboration de P.1

Des solutions complètes Diagnostic des calculateurs et analyse des composants des systèmes moteur par Bosch

Le baromètre BforBank - Vague 5 - Présentation globale des résultats Thème abordé : L automobile

Toutes les unités de moyeu de rechange ne se valent pas. L ignorer peut vous coûter cher en temps, argent et clients perdus.

Forfait montage 1 PNEU... 3,00. Forfait montage 1 PNEU + ÉQUILIBRAGE 4X4...20,40. Forfait GONFLAGE À L'AZOTE 4 PNEUMATIQUES + ROUE DE SECOURS...

Pompes à huile et à eau Pierburg. Maintenant également disponibles sur le marché de la rechange

REMBOURSÉS* REMBOURSÉS * SUR VOS PNEUS TTC TTC. Mer : 24 Température : 30 Remise : 80 E. Jusqu à. Jusqu à

Imputation du salaire d ego dans TeO

Statistiques. Rappels de cours et travaux dirigés. Master 1 Biologie et technologie du végétal. Année

Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner

PETITES FAMILIALES ET CABRIOLETS

ESIEA PARIS

ISFA 2 année Les questions sont en grande partie indépendantes. Merci d utiliser l espace imparti pour vos réponses.

SAS de base : gestion des données et procédures élémentaires

Formation Multimédia

Contactez-nous pour une étude personnalisée ILS ONT CHOISI I CAR DMS. Reconnaissance des constructeurs : Interface avec les réseaux :

SEMINAIRE SAS VISUAL ANALYTICS LAUSANNE, MARCH 18 : JÉRÔME BERTHIER VALERIE AMEEL

Comment tracer une droite représentative d'une fonction et méthode de calcul de l'équation d'une droite.

La Nissan Leaf 2.0 est élue Grand Prix Auto Environnement

Du bon usage de gnuplot

Aide - mémoire gnuplot 4.0

L AIDE AUX ATELIERS D ARTISTES :

LE PARC VEHICULES LEGERS DU CERN. A. Dagan. Résumé

The new consumables catalogue from Medisoft is now updated. Please discover this full overview of all our consumables available to you.

Validation probabiliste d un Système de Prévision d Ensemble

Langage SQL : créer et interroger une base

Econométrie et applications

Didacticiel - Études de cas. Description de quelques fonctions du logiciel PSPP, comparaison des résultats avec ceux de Tanagra, R et OpenStat.

Module HVAC - fonctionnalités

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Chapitre 3. Les distributions à deux variables

Le 1 er média professionnel automobile* * Sur la base de visiteurs uniques sur le site autobiz.fr. Source : doubleclick.com, janvier 2011.

Nouvelle approche de validation Novo Nordisk

PHOTO PLAISIRS. La Lumière Température de couleur & Balance des blancs. Mars 2011 Textes et Photos de Bruno TARDY 1

Approche par groupe de gènes pour les données longitudinales d expression génique avec une application dans un essai vaccinal contre le VIH

FONCTIONS DE PLUSIEURS VARIABLES (Outils Mathématiques 4)

La Recherche du Point Optimum de Fonctionnement d un Générateur Photovoltaïque en Utilisant les Réseaux NEURO-FLOUS

Exo7. Calculs de déterminants. Fiche corrigée par Arnaud Bodin. Exercice 1 Calculer les déterminants des matrices suivantes : Exercice 2.

SAV ET RÉPARATION. Savoir-faire.

Cryptographie RSA. Introduction Opérations Attaques. Cryptographie RSA NGUYEN Tuong Lan - LIU Yi 1

Akka Technologies au service de la voiture électrique - Cartech.fr

w w w. a u t o m o b i l e - e n t r e p r i s e. c o m

Ricco.Rakotomalala

Grégoire de Lassence. Copyright 2006, SAS Institute Inc. All rights reserved.

Démonstration de la conjecture de Dumont

Comprendre l impact de l utilisation des réseaux sociaux en entreprise SYNTHESE DES RESULTATS : EUROPE ET FRANCE

TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION

Corrigé du baccalauréat S Asie 21 juin 2010

Programmation linéaire

Statistique Descriptive Multidimensionnelle. (pour les nuls)

Transcription:

Les Méthodes PLS Pierre-Louis Gonzalez Michel Tenenhaus 1

Les méthodes PLS initiées par Herman et Svante Wold I. NIPALS (Nonlinear Iterative Partial Least Squares) II. Régression PLS (Partial Least Squares Regression) II.1 PLS1 II.2 PLS2 III Analyse discriminante PLS IV. Régression logistique PLS 2

I. La méthode NIPALS Analyse en composantes principales Possibilité de données manquantes. Validation croisée pour choisir le nombre de composantes. Identification des outliers avec - une carte de contrôle des observations, - des tests sur les écarts au modèle de l ACP. 3

Utilisation de NIPALS :Exemple voitures Modèle Cylindrée Puissance Vitesse Poids Longueur Largeur Honda Civic. 90 174 850 369 166 Renault 19 1721. 180 965 415 169 Fiat Tipo 1580 83. 970 395 170 Citroën AX Sport 1294 95 184 730 350. Il y a une observation manquante par véhicule! Le principe de NIPALS: Comment projeter un point avec données manquantes? 4

Projection sur un axe x i * * * 0 * * * * * t i u x i o o o o o o t des x i ' u u ' u moindres i = = pente carrés de 0 la droite sans constante u de x i sur u 5

Projection d un point avec données manquantes sur un axe x i * * * 0 * * * * * t i u x i o Valeur manquante o o o o o S'il y a des données 0 manquantes u xi ' u ti = est calculé u' u disponibles sur les données 6

L algorithme NIPALS Recherche des composantes principales Données : X = {x ij } tableau n k, x j = variable j x i = observation i Modèle de l ACP : X = t 1 p 1 + + t k p k avec (1) p 1,, p k orthonormés ( axes ) et (2) t 1,, t k orthogonaux ( composantes principales ) 7

L algorithme NIPALS Recherche de la première composante principale Modèle : X = t 1 p 1 + résidu, avec p 1 normé Algorithme : les équations de base (1) Si t 1 connu, calcul de p 1j par régression : x j = p 1j t 1 + résidu (2) Normalisation de p 1 = (p 11,,p 1k ) (3) Si p 1 connu, calcul de t 1i par régression : x i = t 1i p 1 + résidu Algorithme : fonctionnement - Prendre t 1 = x 1, puis itérer sur (1), (2), (3). - Si données manquantes, faire les calculs sur toutes les données disponibles. 8

Commentaires: Les relations cycliques découlant des équations de base de l algorithme montrent que λ 1 est la plus grande valeur propre vérifiant les équations suivantes: 1 n 1 1 n 1 X ' Xp = λ p 1 1 1 X X ' t = λ t 1 1 1 Nous avons divisé par n-1 pour retrouver les résultats de SIMCA. Ce calcul est une application de la méthode de la puissance itérée pour le calcul du vecteur propre d une matrice associé à la plus grande valeur propre ( Hotelling-1936; Anderson-1958) 9

Projection sur l axe 1 x i * * * 0 * * * * * t 1i p 1 x i o o o o o o x 'p i 1 t 1i = = p 1'p1 i 1 0 pente de la droite des moindres carrés sans constante de x sur p 10 p 1

L algorithme NIPALS Recherche des autres composantes principales La première étape donne : X = t 1 p 1 + X 1 On répète les opérations précédentes sur la matrice des résidus X 1 de la régression de X sur t 1. On obtient : X 1 = t 2 p 2 + X 2 et X = t 1 p 1 + t 2 p 2 + X 2 On obtient de même les autres composantes. 11

RESS h et PRESS h A chaque étape on étudie la reconstitution du tableau X : ' ' ' 1p1 + t 2p2 +... t hph Xˆ = t + Residual Sum of Squares : RESS 2 h (xij xˆ ij) i, j = Les cases de X sont partagées en G groupes, et on réalise G factorisations en enlevant à chaque fois un seul des groupes. Predicted Residual Sum of Squares : xˆ PRESS 2 h (xij xˆ ( ij) ) i,j = où ( ij) est calculé dans l analyse réalisée sans le groupe contenant la case (i,j). 12

L algorithme NIPALS Choix du nombre de composantes On choisit le nombre de composantes principales par validation croisée. La composante t h est retenue si Q 2 = 1 PRESS RESS h h 1 limite 13

Q 2 (cum) et R 2 (validation croisée) [ Q 2 cum ] h = 1 h PRESS RESS a a= 1 a 1 peu différent de R 2 validation croisée = 1 PRESS j h s 2 j / n 1 La composante h est retenue si : 2 2 [ Q cum ] h est nettement supérieur à [ Qcum] h 1 CONSEIL : Modèle à h composantes acceptable si [Q 2 cum] h > 0.5 14

Utilisation de NIPALS : Exemple voitures autobis.m1 (PC), Untitled, Work set Model Overview (cum) R2X(cum) Q2(cum) 1.00 0.80 R2X(cum) & Q2(cum) 0.60 0.40 0.20 0.00 Comp[1] Comp[2] Comp[3] Comp[4] Simca-P 8.0 by Umetrics AB 2000-05-30 18:38 La validation croisée conduit à deux composantes. 15

NIPALS : Exemple Voitures Carte des variables ("les vecteurs propres") 0.6 VITESSE 0.4 PUISSANCE 0.2 p[2] 0.0-0.2-0.4 0.0 0.1 0.2 0.3 0.4 p[1] CYLINDRÉE LONGUEUR POIDS LARGEUR Simca-P 3.01 by Umetri AB 1998-11-21 14:26 16

NIPALS : Exemple Voitures Carte des voitures (les 2 premières "composantes principales") t[2] 2 1 0-1 -2 fiat uno ford fie citroen peugeot peugeot seat ibi bmw 325i audi 90 honda ci peugeot renault citroen fiat tip peugeot renault ford sie renault opel ome nissan v vw carav -4-2 0 2 4 t[1] Ellipse: Hotelling T2 (0.05) rover bmw 82 530i renault ford sco Simca-P 3.01 by Umetri AB 1998-11-21 14:29 17

NIPALS : Identification des outliers Carte de contrôle des distances au modèle normalisées 2.00 DCrit (0.05) 1.80 nissan vanet 1.60 bmw 325ix 1.40 ford scorpio DModX[2] 1.20 1.00 0.80 honda civic renault 21 peugeot 405 fiat tipo renault 19 citroen bx bmw 530i renault 25 opel omega peugeot 205 renault espa vw caravelle audi 90 quat fiat uno 0.60 peugeot 405b ford sierra 0.40 0.20 rover 827i ford fiesta peugeot 205r seat ibiza s citroen a 0.00 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 Dcrit [2] = 2.00746, Normalized distances, Non weighted residuals Simca-P 8.0 by Umetrics AB 2000-05-30 19:00 18

Calcul de la limite de contrôle x i * Propriété : DModX * * * 2 d (xi, yi) F(k,k ) 1 n 1 2 y 2 i * * * d (xi, yi) n i= 1 * = Limite de contrôle : F0.95(k1,k2) 19

Probabilité d appartenir au modèle Test : H 0 : l observation i appartient au modèle de l ACP H 1 : l observation i n appartient pas au modèle Décision : On rejette H 0 au risque α de se tromper si DModX F1 α ( k1, k2) Niveau de signification ou «probabilité d appartenir au modèle» : Plus petit α conduisant au rejet de H 0 = Prob (F(k 1,k 2 ) DModX 2 ) L individu i est exactement sur la limite de contrôle DCrit(α min ) 20

NIPALS : Exemple Voitures "Probabilité" d'appartenir au modèle ACP (2 composantes) 1.00 0.90 rover 827i ford fiesta citroen a seat ibiza s peugeot 205r M1.PModX[2] 0.80 0.70 0.60 0.50 0.40 0.30 bmw 530i citroen bx renault 19 fiat tipo peugeot 405 renault 21 honda civic renault 25 opel omega ford sierra peugeot 405b audi 90 quat fiat uno vw caravelle renault espa peugeot 205 0.20 0.10 bmw 325ix ford scorpio nissan vanet 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 M1.Num Simca-P 8.0 by Umetrics AB 2000-05-22 11:34 PModX(Nissan Vanette) = 0.08 21

II. La régression PLS Relier un bloc de variables à expliquer Y à un bloc de variables explicatives X. Possibilité de données manquantes. Il peut y avoir beaucoup plus de variables X que d observations. Il peut y avoir beaucoup plus de variables Y que d observations. Meilleure réponse au problème de la multicolinéarité. 22

La régression PLS : vocabulaire Régression PLS1 : un seul Y Régression PLS2 : plusieurs Y Analyse discriminante PLS : Y qualitatif transformé en variables indicatrices des modalités 23

II.1. La régression PLS1 :une idée de l algorithme Etape 1 : Recherche de m composantes orthogonales t h =Xa h bien explicatives de leur propre groupe et bien corrélées à y. Le nombre m est obtenu par validation croisée. Etape 2 : Régression de Y sur les composantes PLS t h. Etape 3 : Expression de la régression en fonction de X. 24

Objectif de l étape 1 de la régression PLS1 X 2 * * * * t 1 * * CPX 1 y * * * * * * * X 1 CPX 1 y * * * * * * t 1 25

La régression PLS1 : une idée de l étape 1 lorsqu il n y a pas de données manquantes Pour chaque h = 1 à m, on recherche des composantes t h =Xa h maximisant le critère Cov (Xa h, y) sous des contraintes de norme ( = 1 ) et d orthogonalité entre t h et les composantes précédentes t 1,, t h-1. a h 26

Propriétés de la régression PLS1 De Cov 2 (Xa h, y) = Cor 2 (Xa h, y)*var(xa h )*Var(y) on déduit que la régression PLS1 réalise un compromis entre la régression multiple de y sur X et l analyse en composantes principales de X. 27

Régression PLS1: Étape 1 1. Calcul de la première composante PLS t 1 : t = Xa = cor( y, x j ) x j 1 1 j Lors de cette étape les covariances sont égales aux corrélations, puisque toutes les données sont centrées réduites 2. Normalisation du vecteur a 1 = (a 11,,a 1k ) 3. Régression de y sur t 1 =Xa 1 exprimée en fonction des x 4. Calcul des résidus y 1 et X 1 des régressions de y et X sur t 1 : - y = c 1 t 1 + y 1 - X = t 1 p 1 + X 1 28

Régression PLS1: Étape 2 1. Calcul de la deuxième composante PLS t 2 : t = = 2 X1b2 cov( y1, x1 j ) x1 2. Normalisation du vecteur b 2 = (b 21,,b 2k ) j 3. Calcul de a 2 tel que : t 2 = X 1 b 2 = Xa 2 4. Régression de y 1 sur t 2 = Xa 2 exprimée en fonction des x 5. Calcul des résidus y 2 et X 2 des régressions de y et X 1 sur t 2 : - y 1 = c 2 t 2 + y 2 - X 1 = t 2 p 2 + X 2 j 29

Régression PLS1: Étapes suivantes On procède de la même manière pour les autres composantes. D où le modèle de régression PLS à m composantes : y = c 1 t 1 + c 2 t 2 + + c m t m + Résidu = c 1 Xa 1 + c 2 Xa 2 + + c m Xa m + Résidu = X(c 1 a 1 + c 2 a 2 + + c m a m ) + Résidu = b 1 x 1 + b 2 x 2 + + b k x k + Résidu ŷ 30

Calcul de RESS h et PRESS h à l étape h Residual Sum of Squares : où ŷ = c ( h 1),i ht hi RESS 2 h (y(h 1),i ŷ(h 1),i ) i = est la prévision de y (h-1),i Les observations sont partagées en G groupes, et on réalise G fois l étape courante de l algorithme sur y h-1 et X h-1 en enlevant à chaque fois un groupe. Predicted Residual Sum of Squares : ŷ PRESS 2 h (y(h 1),i ŷ(h 1), i) i = où est calculé dans l analyse réalisée sans le groupe (h 1), i contenant l observation (i). 31

Choix du nombre de composantes On choisit le nombre de composantes par validation croisée. La composante h est retenue si [PRESS h ] 0.95 [RESS h-1 ] Soit : Q 2 = 1 PRESS RESS h h 1 0.05 32

Q 2 (cum) et R 2 (validation croisée) [ Q 2 cum ] h = 1 h PRESS RESS a a= 1 a 1 peu différent de 2 PRESSh Rvalidation croisée = 1 2 ( y y) La composante h est retenue si : 2 2 [ Q cum ] h est nettement supérieur à [ Qcum] h 1 i i Modèle à h composantes acceptable si [Q 2 cum ] h > 0.5 33

Variable Importance in the Prediction (VIP) Composantes PLS : t h =X h-1 b h, avec b h = 1 Importance de la variable x j (j=1,, p) pour la prédiction de y dans un modèle à m composantes : VIP mj = m h= 1 R 2 p ( y, t h ) m h= 1 R 2 ( y, t h ) b 2 hj Moyenne des carrés des VIP = 1 Variable importante pour la prédiction si VIP > 0.8 34

Régression PLS1 : Exemple Voitures Problèmes : multicolinéarité, données manquantes Données complètes Modèle Prix Cylindrée Puissance Vitesse Poids Longueur Largeur Honda Civic 83700 1396 90 174 850 369 166 Renault 19 83800 1721 92 180 965 415 169 Fiat Tipo 70100 1580 83 170 970 395 170 Citroën AX Sport 66800 1294 95 184 730 350 160 Données incomplètes Modèle Prix Cylindrée Puissance Vitesse Poids Longueur Largeur Honda Civic 83700. 90 174 850 369 166 Renault 19 83800 1721. 180 965 415 169 Fiat Tipo 70100 1580 83. 970 395 170 Citroën AX Sport 66800 1294 95 184 730 350. 35

Régression multiple sur les données complètes R 2 = 0.847, F = 15.730 Sig. = 0.0001 Unstandardized Coefficients Coefficients a Standardized Coefficients Model B Std. Error Beta t Sig. (Constant) 12070.406 194786.6.062.951 CYLINDRE -1.936 33.616 -.018 -.058.955 PUISSANC 1315.906 613.510.888 2.145.047 VITESSE -472.507 740.319 -.207 -.638.532 POIDS 45.923 100.047.184.459.652 LONGUEUR 209.653 504.152.151.416.683 LARGEUR -505.429 1501.589 -.067 -.337.741 a. Dependent Variable: PRIX 36

Corrélations entre les variables Correlation Matrix PRIX CYLINDRE PUISSANC VITESSE POIDS LONGUEUR LARGEUR Correlation PRIX CYLINDRE PUISSANC VITESSE POIDS LONGUEUR LARGEUR 1.000.852.891.720.813.747.611.852 1.000.861.693.905.864.709.891.861 1.000.894.746.689.552.720.693.894 1.000.491.532.363.813.905.746.491 1.000.917.791.747.864.689.532.917 1.000.864.611.709.552.363.791.864 1.000 37

Régression PLS sur les données incomplètes Choix du nombre de composantes autopbis.m1 (PLS), Untitled, Work set Model Overview (cum) R2Y(cum) Q2(cum) 1.00 0.80 R2Y(cum) & Q2(cum) 0.60 0.40 0.20 0.00 Comp[1] Comp[2] Comp[3] Simca-P 8.0 by Umetrics AB 2000-05-30 18:11 On retient une composante PLS 38

Régression PLS sur les données incomplètes R 2 = 0.761 Équation sur les données centrées-réduites (CoeffCS) Prix σ (Prix) = 2.18 + 0.183Cylindrée* + 0.206Puissance* + 0.146Vitesse* + 0.165Poids* + 0.153Longueur* + 0.129Largeur* Équation sur les données d origine (Coeff) Prix = -316 462 + 23Cylindrée + 328Puissance + 339Vitesse + 40Poids + 205Longueur + 1007Largeur Équation sur les données d origine pour Y et centrées pour X (CoeffC) Prix = 125513 + 23(Cylindrée - 1888) + 328(Puissance - 112) + 339(Vitesse - 182) + 40(Poids - 1113) + 205(Longueur - 422) + 1007(Largeur - 168) 39

Résultats de la validation croisée sur les coefficients de régression PLS 0.24 0.22 Audi 90 Quattro 0.20 0.18 0.16 0.14 0.12 0.10 LARGEUR LONGUEUR POIDS VITESSE PUISSANC CYLINDRE PRIX 40

Résultats de la validation croisée sur les coefficients de régression PLS Cylindrée Puissance Vitesse Poids Longueur Largeur B SE Student T p-value 0.1827 0.0371 4.925 0.0001 0.2060 0.0570 3.614 0.0005 0.1465 0.0430 3.407 0.0002 0.1653 0.0181 9.133 0.0001 0.1525 0.0175 8.714 0.0001 0.1286 0.0299 4.301 0.0001 41

Carte des variables X Y 0.60 PUISSANCE 0.40 w*c[2] 0.20 0.00 PRIX VITESSE POIDS CYLINDRÉE -0.20-0.40 LONGUEUR -0.60 LARGEUR -0.80-0.70-0.60-0.50-0.40-0.30-0.20-0.10 0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 w*c[1] 42

Validation globale Autoprib.M1 (PLS): Validate Model PRIX Intercepts: R2=(0.0, -0.0144), Q2=(0.0, -0.192) R2 Q2 0.80 0.70 0.60 0.50 0.40 0.30 0.20 0.10 0.00-0.10-0.20 0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00 200 permutations 1 components - Abscisse : Corrélation entre Y et Y permuté - Ordonnée : R2 et Q2 de la régression PLS de Y permuté sur X - Les droites noire et rouge sont les droites des moindres carrés 43

Exemple Voitures Variable Importance in the Projection (1 composante) 1.20 1.10 1.00 0.90 0.80 VIP[1] 0.70 0.60 0.50 0.40 0.30 0.20 0.10 0.00 PUISSANC CYLINDRE POIDS LONGUEUR VITESSE LARGEUR Simca-P 8.0 by Umetrics AB 2000-05-22 12:05 44

Régression PLS sur les données incomplètes AUTOPRIB.M1 (PLS), Modèle 1, Work set PRIX, Comp 1(Cum) 250000 200000 renault audi 90 bmw 325i bmw 530i renault ford sco rover 82 Y 150000 100000 50000 ford fie fiat uno honda ci peugeot citroen peugeot seat fiat ibi tip peugeot citroen nissan renault v renault vw carav peugeot ford sie opel ome 40000 60000 80000 100000 120000 140000 160000 180000 200000 220000 240000 Predicted RMSEE=28979 Simca-P 7.01 by Umetri AB 1998-11-23 09:40 45

Intervalle de confiance à 95% du prix moyen (fourni par SIMCA) 300000 200000 100000 PRIX 0 0 100000 200000 300000 prévision 46

Intervalle de prévision à 95% du prix (à calculer) 300000 audi 90 quattro 200000 100000 PRIX 0 0 100000 200000 300000 prévision 47

Prédiction du prix de la HONDA CIVIC (Problème : certains X sont manquants) Prix de vente : 83 700 FF Cylindrée Puissance Vitesse Poids Longueur Largeur Caractéristiques de la Honda Civic? 90 174 850 369 166 Caractéristiques centrées-réduites? -.61009 -.32011-1.10172-1.23196 -.32679 48

Prédiction du Prix de la HONDA CIVIC Régression du Prix sur t 1 : Prix -125 512 57 503 0.4045789 t Calcul de tps 1 pour la HONDA CIVIC : - Régression : X j = p 1j t 1 + erreur, j = 1,, p p 1 = (p 11,, p 1p ) - Régression : x i = tps 1i p 1 + erreur 1 sur les données disponibles; d où le calcul de tps 1i tps 1 (Honda Civic) = -1.84262 est l estimation de t 1i Prédiction du prix de la HONDA CIVIC - On utilise tps1 à la place de t 1 Prédiction du Prix = 82 644.5 FF 49

Prédiction du Prix de la HONDA CIVIC : calcul de tps 1 (Honda Civic) Cylindrée Puissance Vitesse Poids Longueur Largeur P 1 0.48 0.45 0.37 0.39 0.39 0.36? 0.48.61 0.45.32 0.37 x Honda = tps 1 ( Honda) tps 1 (Honda) = -1.84262 1.10 0.39 1.23 0.39.33 0.36 50

Régression PLS1 : Cas UOP Guided Wave Problème : 226 variables X et 26 observations Les données : Y = indice d octane X 1, X 2,, X 226 : valeurs d absorbance à différentes longueurs d onde Données de calibration : 26 échantillons d essence (dont 2 avec alcool) Données de validation : 13 échantillons d essence (dont 4 avec alcool) 51

Cas UOP Guided Wave Visualisation des X -4.469e-03 0.113 0.231 0.349 0.467 0.585 a m p H17 l H36 e 1500 S.016 1400 1300 1200 1100 s X - V a r i a b l e s Octane - Matrix Plot, Sam.Set: All Samples, Var.Set: Selected Variables 52

Cas UOP Guided Wave Visualisation des X : Données de calibration.7.6.5.4.3.2 M52 H59.1 0.0 -.1 1 25 49 73 97 121 145 169 193 217 13 37 61 85 109 133 157 181 205 Sequence number Les échantillons M52 et H59 contiennent de l alcool 53

Cas UOP Guided Wave Visualisation des X : Données de validation.7.6.5.4.3.2.1 0.0 -.1 1 25 49 73 97 121 145 169 193 217 13 37 61 85 109 133 157 181 205 Numéro de la longueur d'onde Les échantillons avec alcool sont en rouge 54

Régression PLS1 : les résultats Données de spectroscopie Les données sont centrées, mais non réduites Validation croisée : 3 composantes PLS 55

UOP Guided Wave : Les composantes PLS OCTANE.M4 (PLS), Untitled, Work set Scores: t[1]/t[2] t[2] 0.40 0.20 0.00-0.20-0.40 H39 H11 H20 H24 H27 H12 H38 H17 H36 L13 M01 M18 L21 M02 M05 H32 L37 L14 L29 L40 L06 L35 L15 L31 M52 H59-0.40-0.30-0.20-0.10 0.00 0.10 0.20 0.30 0.40 0.50 0.60 t[1] Ellipse: Hotelling T2 (0.05) Simca-P 7.01 by Umetri AB 1998-11-23 12:14 - Indice d octane : L = Low, M = Medium, H = High - Les échantillons M52 et H59 contiennent de l alcool 56

UOP Guided Wave : les composantes PLS OCTANE.M4 (PLS), Untitled, Work set Scores: t[2]/t[3] 0.100 0.050 H32 H36 H38 H17 t[3] 0.000 M52 H59 L31 L40 L15 L14 L06 L29 L35 M02 M05 M18 M01 H11 H20 H27 H24-0.050 L21 L37 L13 H12 H39-0.100-0.50-0.40-0.30-0.20-0.10 0.00 0.10 0.20 0.30 0.40 0.50 t[2] Ellipse: Hotelling T2 (0.05) Simca-P 7.01 by Umetri AB 1998-11-23 12:41 Indice d octane : L = Low, M = Medium, H = High 57

Cas UOP Guided Wave : Prévision Données de calibration OCTANE.M4 (PLS), Untitled, Work set OCTANE, Comp 3(Cum) 92 91 H38 H24H20 H27 H39 H17 H12 H36 H11 H32 H59 Y 90 89 88 87 L15 L14 L29 L31 L35 L06 L37 L40 L21 L13 M02 M52 M01 M05 M18 87 88 89 90 91 92 Predicted RMSEE=0.290788 Simca-P 7.01 by Umetri AB 1998-11-23 12:53 58

Cas UOP Guided Wave : Prévision Données de validation OCTANE.M5 (PLS), Untitled, PS-OCTANE OCTANE, Comp 3 (Cum) 92 91 S.022S.026 S.010 S.057 S.058 S.016 S.055 Observed 90 89 S.004 S.025 S.003 S.019 S.056 88 87 S.034 87 88 89 90 91 92 Predicted RMSEP=0.256792 Simca-P 7.01 by Umetri AB 1998-11-23 13:11 Présence d alcool : OUI / NON 59

II.2 La régression PLS2 Relier un bloc de variables à expliquer Y à un bloc de variables explicatives X. Possibilité de données manquantes. Il peut y avoir beaucoup plus de variables X que d observations. Il peut y avoir beaucoup plus de variables Y que d observations. 60

La régression PLS2 : une idée de l algorithme Etape 1 : Recherche de m composantes orthogonales t h =Xa h et m composantes u h =Yb h bien corrélées entre elles et explicatives de leur propre groupe. Le nombre m est obtenu par validation croisée. Etape 2 : Régression de Y sur les composantes t h. Etape 3 : Expression de la régression en fonction de X. 61

Objectif de l étape 1 de la régression PLS2 X 2 * * * * t 1 * * CPX 1 Y 2 * * * * * * * CPY 1 u 1 X 1 Y 1 u 1 * * * * * * t 1 62

La régression PLS2 : une idée de l étape 1 lorsqu il n y a pas de données manquantes Pour chaque h = 1 à m, on recherche des composantes t h =Xa h et u h = Yb h maximisant le critère Cov (Xa h, Yb h ) sous des contraintes de norme et d orthogonalité entre t h et les composantes précédentes t 1,, t h-1. 63

Interprétation du critère de Tucker De Cov 2 (Xa h,yb h ) = Cor 2 (Xa h,yb h )* Var(Xa h )*Var(Yb h ) on déduit que la régression PLS réalise un compromis entre l analyse canonique de X et Y, une ACP de X, et une ACP «oblique» de Y. 64

Variable Importance in the Prediction (VIP) Composantes PLS : t h =X h-1 b h, avec b h = 1 Importance de la variable x j (j=1, p) pour la prédiction des y k (k=1, q) dans un modèle à m composantes : VIP mj = m q h= 1 k= 1 R p 2 ( y k ; t h ) m q [ h= 1 k= 1 R 2 ( y k, t h )] b 2 hj Moyenne des carrés des VIP = 1 Variable importante pour la prévision si VIP > 0.8 65

Régression PLS2 Exemple 1: Dégustation de thé Les données Obs Température Sucré Force Citron Sujet 1 Sujet 6 1 1 1 1 1 4 5 2 1 2 2 1 2 8 3 1 3 3 2 6 6 11 1 2 1 1 1 14 18 3 3 1 2 12 15 Température Sucré Force Citron 1 = Chaud 2 = Tiède 3 = Glacé 1 = Pas de sucre 2 = 1 sucre 3 = 2 sucres 1 = Fort 2 = Moyen 3 = Faible 1 = Avec 2 = Sans 66

Cas Dégustation de thé Bloc X Variables indicatrices des modalités de Température, Sucré, Force et Citron Bloc Y Les classements des sujets 67

Cas Dégustation de thé Résultats de la régression PLS Validation croisée : 3 composantes : t h =Xw h * et u h =Yc h Équation de régression de Y k sur t 1,, t h : Y k = c 1k t 1 + c 2k t 2 + c 3k t 3 + c 4k t 4 + résidu Les variables X et Y sont représentées à l aide des vecteurs w h * et c h. 68

Cas Dégustation de thé Carte des variables THE.M1 (PLS), régression PLS, Workset Loadings: w*c[1]/w*c[2] 0.6 Y5 Y3 w*c[2] 0.4 0.2 0.0-0.2-0.4-0.6 SUCRE2 TIEDE CHAUD CITRON0 FORT Y1 MOYEN Y2 SUCRE1 GLACÉ Y4 SUCRE0 Y6 CITRON1 LEGER -0.6-0.4-0.2 0.0 0.2 0.4 0.6 0.8 w*c[1] Simca-P 3.01 by Umetri AB 1998-11-23 18:11 69

Cas dégustation de thé Visualisation de la régression PLS de Y 1 sur X THE.M1 (PLS), régression PLS, Workset Loadings: w*c[1]/w*c[2] THE régression PLS M1.Y1 (CoeffCS) [4] w*c[2] 0.6 0.4 0.2 0.0 Y5 SUCRE2 CITRON0 FORT MOYEN SUCRE1 Y3 CHAUD FROID Y4 SUCRE0 Y1 Y2 CoeffCS5[4] 0.4 0.2 0.0-0.2-0.2-0.4-0.6 Y6 TIEDE CITRON1 LEGER -0.6-0.4-0.2 0.0 0.2 0.4 0.6 0.8 w*c[1] Simca-P 3.01 by Umetri AB 1998-11-23 18:11-0.4-0.6 CHAUD TIEDE FROID SUCRE0 SUCRE1 SUCRE2 FORT MOYEN LEGER CITRON1 CITRON0 Simca-P 3.01 by Umetri AB 1998-11-23 19:14 Règle d interprétation: Les projections des variables X sur les variables Y reflètent le signe et l ordre de grandeur des coefficients de régression PLS des Y sur X. Le juge 1 aime son thé chaud et rejette le thé tiède 70

Validation du modèle pour le juge 1 0.60 0.40 0.20 0.00-0.20-0.40-0.60 71 CoeffCS[4](Y1) CHAUD TIEDE FROID SUCRE0 SUCRE1 SUCRE2 FORT MOYEN LEGER CITRON1 CITRON0 Var ID (Primary)

Cas dégustation de thé Visualisation de la régression PLS de Y 5 sur X THE.M1 (PLS), régression PLS, Workset Loadings: w*c[1]/w*c[2] THE régression PLS M1.Y5 (CoeffCS) [4] 0.6 Y5 Y3 0.4 w*c[2] 0.4 0.2 0.0 SUCRE2 CITRON0 FORT MOYEN SUCRE1 CHAUD FROID Y4 SUCRE0 Y1 Y2 CoeffCS9[4] 0.2 0.0-0.2-0.4-0.6 Y6 TIEDE CITRON1 LEGER -0.6-0.4-0.2 0.0 0.2 0.4 0.6 0.8 w*c[1] Simca-P 3.01 by Umetri AB 1998-11-23 18:11-0.2-0.4 CHAUD TIEDE FROID SUCRE0 SUCRE1 SUCRE2 FORT MOYEN LEGER CITRON1 CITRON0 Simca-P 3.01 by Umetri AB 1998-11-23 19:26 Le juge 5 préfère son thé sans citron, fort; il est indifférent au thé tiède; il rejette le thé léger, avec du citron. 72

0.40 0.20 0.00-0.20-0.40 Validation du modèle pour le juge 5 73 CoeffCS[4](Y5) CHAUD TIEDE FROID SUCRE0 SUCRE1 SUCRE2 FORT MOYEN LEGER CITRON1 CITRON0 Var ID (Primary)

Carte des produits dans l espace des juges Dégustation de thés Scores: u[1]/u[2] 2 8 11 18 12 2 1 u [ 2 ] 0 6 14 4 3 9 10 1 16-1 13 17 7-2 15 5-2 -1 0 1 2 u[1] Simca-P 8.0 by Umetrics AB 2000-11-27 10:19 74

Variable Importance in the Projection (VIP) THE.M1 (PLS), Untitled, Work set VIP, Comp 4(Cum) 1.60 1.40 1.20 1.00 VIP[4] 0.80 0.60 0.40 0.20 0.00 TIEDE CHAUD SUCRE0 SUCRE2 LEGER CITRON1 CITRON0 Simca-P 8.0 by Umetrics AB 2000-03-08 08:01 FORT FROID MOYEN SUCRE1 75

III. Analyse discriminante PLS Bloc Y La variable qualitative Y est remplacée par l ensemble des variables indicatrices de ses modalités. Bloc X Variables numériques ou indicatrices des modalités des variables qualitatives. Régression PLS de Y sur X 76

Analyse discriminante PLS : exemple Les données 16 biopsies de tumeurs de cerveau humain. Chaque tumeur est classée par un médecin anatomopathologiste comme bénigne ou maligne. Chaque biopsie est analysée par chromatographie en phase gazeuse : on obtient un profil métabolique de la biopsie formé de 156 pics. Quelques données manquantes Article: Jellum E., Bjørnson I., Nesbakken R., Johanson E., Wold S. Classification of human cancer cells by means of capillary gas chromatography and pattern recognition analysis. ( Journal of Chromatography, 1981) 77

Analyse discriminante PLS Profils métaboliques des biopsies 1400 1200 1000 1200 1000 800 T2 T3 T6 T7 800 600 400 N1 N4 N5 N13 600 400 T8 T9 T10 T11 200 N14 200 T12 0 1 9 17 25 33 41 49 57 65 73 81 89 97 113 129 145 105 121 137 153 N15 0 1 9 17 25 33 41 49 57 65 73 81 89 97 113 129 145 105 121 137 153 T16 Sequence number Tumeurs bénignes Sequence number Tumeurs malignes 78

Analyse en composantes principales des 16 biopsies Composantes principales 1 et 2 EGI1.M4 (PC), Untitled, Work set Scores: t[1]/t[2] 10 N15 N13 t[2] 5 0-5 T8 T12 T7 T6 T3T11 T16 N14 T9 T10 T2 N1 N4-10 N5-10 0 10 t[1] Ellipse: Hotelling T2 (0.05) Simca-P 7.01 by Umetri AB 1998-11-24 15:17 79

Analyse en composantes principales des 16 biopsies Composantes principales 1 et 3 EGI1.M4 (PC), Untitled, Work set Scores: t[1]/t[3] 10 N14 5 N5 t[3] 0-5 T8T12 T6 T7 T16 T9 T3 T11 T10 T2 N15 N1 N13 N4-10 -10 0 10 t[1] Ellipse: Hotelling T2 (0.05) Simca-P 7.01 by Umetri AB 1998-11-24 15:19 80

Analyse discriminante PLS Composantes PLS 1 et 2 EGI1.M5 (PLS), Untitled, Work set Scores: t[1]/t[2] 10 N14 t[2] 5 0-5 T8 T12 T7 T6 T3 T11 T16 T9 T10 T2 N15 N5 N1 N13 N4-10 -10 0 10 t[1] Ellipse: Hotelling T2 (0.05) Simca-P 7.01 by Umetri AB 1998-11-24 15:22 81

IV. Régression logistique PLS Bonne solution au problème de la multicolinéarité. Il peut y avoir beaucoup plus de variables que d observations. Il peut y avoir des données manquantes. Présentation de trois algorithmes 82

Qualité des vins de Bordeaux Variables observées sur 34 années (1924-1957) TEMPERATURE : Somme des températures moyennes journalières SOLEIL : Durée d insolation CHALEUR : Nombre de jours de grande chaleur PLUIE : Hauteur des pluies QUALITE DU VIN : Bon, Moyen, Médiocre 83

Régression logistique ordinale Y = Qualité : Bon (1), Moyen (2), Médiocre (3) PROB(Y i) = e αi+β1température+β2soleil+β3chaleur+β4pluie 1 + e αi+β1température+β2soleil+β3chaleur+β4pluie 84

Régression logistique ordinale Résultats SAS Score Test for the Proportional Odds Assumption Chi-Square = 2.9159 with 4 DF (p=0.5720) Analysis of Maximum Likelihood Estimates Parameter Standard Wald Pr > Variable DF Estimate Error Chi-Square Chi-Square INTERCP1 1-2.6638 0.9266 8.2641 0.0040 INTERCP2 1 2.2941 0.9782 5.4998 0.0190 TEMPERA 1 3.4268 1.8029 3.6125 0.0573 SOLEIL 1 1.7462 1.0760 2.6335 0.1046 CHALEUR 1-0.8891 1.1949 0.5536 0.4568 PLUIE 1-2.3668 1.1292 4.3931 0.0361 85

Régression logistique ordinale Qualité de prévision du modèle QUALITE PREVISION OBSERVEE Effectif 1 2 3 Total ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ 1 8 3 0 11 ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ 2 2 8 1 11 ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ 3 0 1 11 12 ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ Total 10 12 12 34 Résultat : 7 années mal classées 86

Régression logistique ordinale Commentaires Le modèle à pentes égales est acceptable (p = 0.572). La chaleur a une influence positive sur la qualité du vin de Bordeaux, alors qu elle apparaît comme non significative et avec un coefficient négatif dans le modèle. C est un problème de multicolinéarité. Il y a 7 années mal classées. 87

Algorithme 1 : La régression logistique PLS Etape 1 : Recherche de m composantes orthogonales T h =Xa h explicatives de leur propre groupe et bien prédictives de y. Le nombre m est obtenu par validation croisée. Etape 2 : Régression logistique de Y sur les composantes T h. Etape 3 : Expression de la régression logistique en fonction de X. 88

Régression logistique PLS Étape 1 1. Régression logistique de y sur chaque x j : les coefficients de régression a 1j 2. Normalisation du vecteur a 1 = (a 11,,a 1k ) 3. Régression logistique de y sur T 1 =Xa 1 exprimée en fonction des X 4. Calcul du résidu X 1 de la régression de X sur T 1 89

Régression logistique PLS Étape 2 1. Régression logistique de y sur T 1 et chaque résidu x 1j : les coefficients de régression b 2j 2. Normalisation du vecteur b 2 = (b 21,,b 2k ) 3. Calcul de a 2 tel que : T 2 = X 1 b 2 = Xa 2 4. Régression logistique de y sur T 1 = Xa 1 et T 2 = Xa 2 exprimée en fonction des X 5. Calcul du résidu X 2 de la régression de X sur T 1, T 2 90

Régression logistique PLS Choix du nombre de composantes On procède de la même manière pour les autres étapes. On choisit le nombre de composantes par validation croisée : la composante h est retenue si 2 [ χ Pearson 0.95 Soit : (validation croisée, Q 2 = 2 étape h)] [ χ Pearson (substitution, 2 χ validation croisée, étape 1 2 χ substituti on, étape h -1 1/ 2 étape h h -1)] 0.0975 1/ 2 91

Régression logistique PLS Résultats de l algorithme La température de 1924 est supposée inconnue. La régression logistique PLS de Y sur X a conduit à deux composantes PLS T 1 et T 2 : T 1 = 0.57 Température + 0.63 Soleil + 0.41 Chaleur - 0.34 Pluie T 2 = - 0.14 Température + 0.45 Soleil - 0.69 Chaleur - 0.52 Pluie 92

Régression logistique ordinale sur T 1, T 2 Résultats SAS Analysis of Maximum Likelihood Estimates Parameter Standard Wald Pr > Variable DF Estimate Error Chi-Square Chi-Square INTERCP1 1-2.5490 0.8768 8.4507 0.0036 INTERCP2 1 2.1349 0.8955 5.6837 0.0171 T1 1 3.0797 0.8350 13.6032 0.0002 T2 1 1.4148 0.8849 2.5563 0.1099 TABLEAU CROISANT QUALITÉ OBSERVÉE ET PRÉDITE QUALITÉ PRÉDICTION Effectif 1 2 3 Total ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ 1 9 2 0 11 ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ 2 1 9 1 11 ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ 3 0 1 11 12 ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ Total 10 12 12 34 Résultat : 5 années mal classées 93

94 Régression logistique PLS Le modèle Prob (Y i) T 2 1.42 T 1 3.08 2.14 2.55 T2 1.42 T1 3.08 2.14 2.55 e 1 e + + + + + + + = Moyen Bon Moyen Bon Pluie Chaleur Soleil Temp. Moyen Bon Pluie Chaleur Soleil Temp. Moyen Bon + + + + + + + + + = 77 1. 0.26 2.73 1.57 2.14 2.55 1.77 0.26 2.73 1.57 2.14 2.55 e 1 e

Algorithme 2 Régression logistique sur composantes PLS (1) Régression PLS des indicatrices de Y sur les X. (2) Régression logistique de Y sur les composantes PLS des X. 95

Régression logistique sur les composantes PLS Résultats La température de 1924 est supposée inconnue. La régression PLS des indicatrices de Y sur X a conduit à une seule composante PLS t 1 (résultat de la validation croisée). t 1 = 0.55 Température + 0.55 Soleil +0.48 Chaleur 0.40 Pluie Pour l année 1924 : t 1 = (0.55 Soleil +0.48 Chaleur 0.40 Pluie)/0.69 96

Utilisation de la régression PLS pour la prévision de la qualité du vin de Bordeaux The PLS Procedure Cross Validation for the Number of Latent Variables TABLE OF QUALITE BY PREV Test for larger residuals than minimum Number of Root Latent Mean Prob > Variables PRESS PRESS ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ 0 1.0313 0 1 0.8304 1.0000 2 0.8313 0.4990 3 0.8375 0.4450 4 0.8472 0.3500 Minimum Root Mean PRESS = 0.830422 for 1 latent variable Smallest model with p-value > 0.1: 1 latent Choix d une composante PLS QUALITE PREV Frequency 1 3 Total ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ 1 11 0 11 ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ 2 4 7 11 ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ 3 1 11 12 ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ Total 16 18 34 Résultat : 12 années mal classées 97

Résultats de la régression logistique de Y sur la composante PLS t 1 Analysis of Maximum Likelihood Estimates Parameter Standard Wald Pr > Variable DF Estimate Error Chi-Square Chi-Square INTERCP1 1-2.1492 0.8279 6.7391 0.0094 INTERCP2 1 2.2845 0.8351 7.4841 0.0062 t1 1 2.6592 0.7028 14.3182 0.0002 TABLEAU CROISANT QUALITÉ OBSERVÉE ET PRÉDITE QUALITÉ PRÉDICTION Effectif 1 2 3 Total ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ 1 9 2 0 11 ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ 2 2 8 1 11 ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ 3 0 1 11 12 ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ Total 11 11 12 34 Résultat : 6 années mal classées 98

Régression logistique sur composantes PLS Le modèle Prob (Y i) 2.15 Bon+ 2.28 Moyen+ 2.66 e t1 = 2.15 Bon+ 2.28 Moyen+ 2.66 t 1 1+ e = e 1+ 2.15 Bon+ 2.28 Moyen+ 1.47 Temp. + 1.46 Soleil+ 1.28 Chaleur 1.07 Pluie e 2.15 Bon+ 2.28 Moyen+ 1.47 Temp. + 1.46 Soleil+ 1.28 Chaleur 1.07 Pluie 99

Conclusion 1: Régression logistique PLS vs régression logistique sur composantes PLS Les deux algorithmes présentés devraient avoir des qualités comparables. L algorithme 2 est beaucoup plus simple : Deux étapes : (1) Régression PLS des indicatrices de Y sur X (2) Régression logistique de Y sur les composantes PLS 100

Conclusion 2: Le modèle linéaire généralisé PLS Le modèle linéaire généralisé PLS peut être construit selon les mêmes procédures. Approche beaucoup plus simple que la méthode de Brian Marx : «Iteratively Reweighted Partial Least Square Estimation for Generalized Linear Regression», Technometrics, 1996. 101

Algorithme 3 (données groupées) Régression PLS du logit de la variable de réponse sur les prédicteurs Exemple : Job satisfaction (Zelterman, 1999) 9949 employees in the craft job within a company Response : Satisfied/Dissatisfied Factors : Sex, Race (White/Nonwhite), Age (<35, 35-44, >44) Region (Northeast, Mid-Atlantic, Southern, Midwest, Northwest, Southwest, Pacific) Explain Job satisfaction with all the main effects and the interactions. 102

Une approche exploratoire (1) Régression PLS de Y 1 = Logit(proportion of satisfied people) Y 2 = Logit(proportion of non satisfied people) sur les 4 facteurs et toutes les interactions. (2) Élimination itérative des termes à petits VIP, en vérifiant l augmentation du Q 2 (cum) (3) Carte des variables finalement retenues 103

Résultat de la Régression PLS sur les logits MEN 0.30 YOUNG in NORTHEAST WOMEN in MIDWEST 0.20 NON SATISFIED NONWHITE WOMEN NORTHEAST w*c[2] 0.10 0.00-0.10-0.20 YOUNG YOUNG in MIDWEST WOMEN in NORTHEAST YOUNG WHITE MID-ATLANTIC WHITE in MID-ATLANTIC OLD WHITE OLD in MID-ATLANTIC SOUTHERN SATISFIED -0.30 YOUNG WOMEN NONWHITE MEN -0.40 WOMEN -0.50-0.30-0.20-0.10 0.00 0.10 0.20 0.30 w*c[1] OLD in SOUTHERN Y 1 = Logit (Proportion of Satisfied) Y 2 = Logit (Proportion of Non Satisfied) X = Explanatory variables kept after elimination of small VIP terms 104

Quelques références sur les méthodes PLS Régression PLS - L. Eriksson, E. Johansson, N. Kettaneh-Wold & S. Wold : Multi- and Megavariate Data Analysis using Projection Methods (PCA & PLS), Umetrics, 1999. - H. Martens & M. Martens : Multivariate Analysis of Quality, Wiley, 2000 - H. Martens & T. Næs : Multivariate calibration, Wiley, 1989 - SIMCA 12.0 : PLS Software, S. WOLD, UMETRI (Sweden), distribué par SIGMA PLUS - M. Tenenhaus : La régression PLS, Editions Technip, 1998 Approche PLS (PLS Path modelling) - J.-B. Lohmöller : Latent variable path modeling with partial least squares, Physica-Verlag, 1989 - LVPLS 1.8 : Software for Latent variables path analysis with partial least-squares estimation, J.-B. Lohmöller, 1989 - M. Tenenhaus : L approche PLS, R.S.A., 47 (2), 5-40, 1999 105