STATISTIQUE MASTER 2 : MATHÉMATIQUES POUR L ENTREPRISE. Arnak S. DALALYAN



Documents pareils
SÉRIES STATISTIQUES À DEUX VARIABLES

Chapitre 3 : Fonctions d une variable réelle (1)

Statistique descriptive bidimensionnelle

Séquence 5. La fonction logarithme népérien. Sommaire

Limites des Suites numériques

Exo7. Déterminants. = 4(b + c)(c + a)(a + b). c + a c + b 2c Correction. b + a 2b b + c. Exercice 2 ** X a b c a X c b b c X a c b a X

1 Mesure et intégrale

Statistique Numérique et Analyse des Données

Groupe orthogonal d'un espace vectoriel euclidien de dimension 2, de dimension 3

[ édité le 10 juillet 2014 Enoncés 1. Exercice 6 [ ] [correction] Si n est un entier 2, le rationnel H n =

. (b) Si (u n ) est une suite géométrique de raison q, q 1, on obtient : N N, S N = 1 qn+1. n+1 1 S N = 1 1

STATISTIQUE AVANCÉE : MÉTHODES

CHAPITRE 2 SÉRIES ENTIÈRES

Comportement d'une suite

Exercice I ( non spé ) 1/ u 1 = u / Soit P la propriété : u n + 4. > 0 pour n 1. P est vraie au rang 1 car u 1

II LES PROPRIETES DES ESTIMATEURS MCO 1. Rappel : M1 LA REGRESSION : HYPOTHESES ET TESTS Avril 2009

Dénombrement. Introduction. 1 Cardinaux d'ensembles nis. ECE3 Lycée Carnot. 12 novembre Quelques dénitions

FEUILLE D EXERCICES 17 - PROBABILITÉS SUR UN UNIVERS FINI

Séries réelles ou complexes

Université de Bordeaux - Master MIMSE - 2ème année. Scoring. Marie Chavent machaven/

Les Nombres Parfaits.

x +1 + ln. Donner la valeur exacte affichée par cet algorithme lorsque l utilisateur entre la valeur n =3.

STATISTIQUE : TESTS D HYPOTHESES

20. Algorithmique & Mathématiques

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable

LES ÉCLIPSES. Éclipser signifie «cacher». Vus depuis la Terre, deux corps célestes peuvent être éclipsés : la Lune et le Soleil.

Dénombrement. Chapitre Enoncés des exercices

Statistiques appliquées à la gestion Cours d analyse de donnés Master 1

14 Chapitre 14. Théorème du point fixe

4 Approximation des fonctions

Etude de la fonction ζ de Riemann

Deuxième partie : LES CONTRATS D ASSURANCE VIE CLASSIQUES

EXERCICES : DÉNOMBREMENT

Cours de Statistiques inférentielles

Cours 5 : ESTIMATION PONCTUELLE

Intégration et probabilités ENS Paris, TD (20)13 Lois des grands nombres, théorème central limite. Corrigé :

Processus et martingales en temps continu

UNIVERSITE MONTESQUIEU BORDEAUX IV. Année universitaire Semestre 2. Prévisions Financières. Travaux Dirigés - Séances n 4

Suites et séries de fonctions

Initiation à l analyse factorielle des correspondances

2 ième partie : MATHÉMATIQUES FINANCIÈRES

Consolidation. C r é e r un nouveau classeur. Créer un groupe de travail. Saisir des données dans un groupe

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable

Principes et Méthodes Statistiques

Convergences 2/2 - le théorème du point fixe - Page 1 sur 9

55 - EXEMPLES D UTILISATION DU TABLEUR.

Polynésie Septembre Exercice On peut traiter la question 4 sans avoir traité les questions précédentes.

Probabilités et statistique pour le CAPES

Chap. 5 : Les intérêts (Les calculs financiers)

Université Victor Segalen Bordeaux 2 Institut de Santé Publique, d Épidémiologie et de Développement (ISPED) Campus Numérique SEME

capital en fin d'année 1 C 0 + T C 0 = C 0 (1 + T) = C 0 r en posant r = 1 + T 2 C 0 r + C 0 r T = C 0 r (1 + T) = C 0 r 2 3 C 0 r 3...

Chapitre 2 SONDAGE ALEATOIRE SIMPLE OU A PROBABILITES EGALES. 2.1 DEFINITIONS 2.2 SONDAGE ALEATOIRE SIMPLE SANS REMISE (PESR) 2.2.

UNIVERSITÉ DE SFAX École Supérieure de Commerce

Université Pierre et Marie Curie. Biostatistique PACES - UE

c. Calcul pour une évolution d une proportion entre deux années non consécutives

DETERMINANTS. a b et a'

Baccalauréat S Asie 19 juin 2014 Corrigé

Module 3 : Inversion de matrices

TRANSFERT DE CHARGE DANS UN RÉSEAU DE PROCESSEURS TOTALEMENT CONNECTÉS (*) par Maryse BÉGUIN ( 1 )

Chap. 6 : Les principaux crédits de trésorerie et leur comptabilisation

Des résultats d irrationalité pour deux fonctions particulières

Processus géométrique généralisé et applications en fiabilité

Chap. 6 : Les principaux crédits de trésorerie et leur comptabilisation

Chapitre 3 : Transistor bipolaire à jonction

PROMENADE ALÉATOIRE : Chaînes de Markov et martingales

Examen final pour Conseiller financier / conseillère financière avec brevet fédéral. Recueil de formules. Auteur: Iwan Brot

3.1 Différences entre ESX 3.5 et ESXi 3.5 au niveau du réseau. Solution Cette section récapitule les différences entre les deux versions.

UV SQ 20. Automne Responsable d Rémy Garandel ( m.-el. remy.garandel@utbm.fr ) page 1

Gérer les applications

Compte Sélect Banque Manuvie Guide du débutant

Exercices de mathématiques

La France, à l écoute des entreprises innovantes, propose le meilleur crédit d impôt recherche d Europe

One Office Voice Pack Vos appels fixes et mobiles en un seul pack

Chaînes de Markov. Arthur Charpentier

Tempêtes : Etude des dépendances entre les branches Automobile et Incendie à l aide de la théorie des copulas Topic 1 Risk evaluation

Introduction : Mesures et espaces de probabilités

Mobile Business. Communiquez efficacement avec vos relations commerciales 09/2012

Réseaux d ondelettes et réseaux de neurones pour la modélisation statique et dynamique de processus

RECHERCHE DE CLIENTS simplifiée

POLITIQUE ECONOMIQUE ET DEVELOPPEMENT

Etude Spéciale SCORING : UN GRAND PAS EN AVANT POUR LE MICROCRÉDIT?

Formation d un ester à partir d un acide et d un alcool

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Un nouvel opérateur de fusion adaptatif. A new adaptive operator of fusion. 1. introduction

Renseignements et monitoring. Renseignements commerciaux et de solvabilité sur les entreprises et les particuliers.

Les algorithmes de tri

La tarification hospitalière : de l enveloppe globale à la concurrence par comparaison

Neolane Leads. Neolane v6.0

MESURE DE L'INFORMATION

Solutions particulières d une équation différentielle...

Neolane Message Center. Neolane v6.0

La fibre optique arrive chez vous Devenez acteur de la révolution numérique

Régulation analogique industrielle ESTF- G.Thermique

Simulations interactives de convertisseurs en électronique de puissance

Télé OPTIK. Plus spectaculaire que jamais.

Donnez de la liberté à vos données. BiBOARD.

Sommaire Chapitre 1 - L interface de Windows 7 9

Logiciel de synchronisation de flotte de baladeurs MP3 / MP4 ou tablettes Androïd

Guide des logiciels de l ordinateur HP Media Center

Échantillonnage et estimation

Transcription:

STATISTIQUE MASTER 2 : MATHÉMATIQUES POUR L ENTREPRISE Arak S. DALALYAN

Table des matières 1 SAS et Statistique Descriptive 5 1.1 Itroductio au logiciel SAS........................... 5 1.2 Statistique descriptive uidimesioelle................... 7 2 Aalyse e composates pricipales 9 2.1 Doées multivariées............................... 9 2.2 L idée de l Aalyse e composates pricipales (ACP)............ 10 2.3 ACP : cadre théorique.............................. 12 2.4 ACP : cadre empirique.............................. 14 2.5 Etude des corrélatios : cadre théorique.................... 16 2.6 Etude des corrélatios : cadre empirique.................... 19 2.7 Représetatio graphique des résultats de l ACP............... 20 2.8 Limites d utilisatio de l ACP.......................... 22 3 Régressio liéaire multivariée 23 3.1 Le problème d estimatio de régressio multivariée............. 23 3.2 Méthode des moidres carrés.......................... 25 3.3 Propriétés statistiques.............................. 28 3.4 Régressio liéaire ormale........................... 29 3.5 Applicatio au problème de prévisio..................... 30 3.6 Applicatio au tests sur le paramètre ϑ.................... 32 3.7 Propriétés empiriques de l EMC........................ 35 3.8 Sélectio de modèle : critère de Mallow.................... 37 3.9 Aalyse de variace à u facteur (Oe way ANOVA)............ 39

4 Table des matières Chapitre 0 4 Eercices corrigés 43 4.1 Aalyse e Composates Pricipales...................... 43 4.2 Régressio multiliéaire............................. 48

1 SAS et Statistique Descriptive 1.1 Itroductio au logiciel SAS Le but de cette sectio est de décrire les bases de l utilisatio du logiciel SAS destié à effectuer u traitemet statistique des doées. SAS = STATISTICAL ANALYSIS SYSTEM Le logiciel SAS cotiet u laguage de programmatio qu o va décrire ci-dessous. Les fichiers coteat le code d u programme SAS ot pour termiaiso.sas. Pour eécuter le programme SAS, il faut soumettre (submit) le fichier coteat le code à la compilatio. Le résultat sera affiché et u fichier ayat pour termiaiso.log et coteat u rapport sur les erreurs évetuelles sera créé. Pour traiter des doées, il faut les eregistrer das u fichier ayat la termiaiso.dat. O coviedra que das ue table de doées les coloes sot les variables et les liges sot les valeurs observées de chaque variable. Tout programme SAS cotiet deu étapes : l étape (dite étape DATA) qui déclare et décrit les doées et l étape PROC qui déclare les procédures utilisées pour traiter les doées. U programme SAS peut avoir plusieurs déclaratios DATA et PROC. Chaque déclaratio DATA ou PROC doit se termier par la déclaratio RUN. U programme SAS, peut coteir égalemet des istructios spécifiat les optios de l affichage et de l impressio des résultats. Ces istructios peuvet être icluses das u edroit quelcoque du code. Toute istructio est suivie d u poit-virgule ;.

6 SAS et Statistique Descriptive Chapitre 1 L eemple le plus simple et le plus utile de déclaratio DATA est le suivat : 1. DATA EXEMPLE1 ; 2. INFILE /home/p6es/dupot/tpsa.dat ; 3. INPUT Taille Poids See $ Age ; 4. LABEL Taille= Taille (e cm) Poids= Poids (e kg) ; 5. RUN ; 6. OPTIONS LINESIZE=70 PAGESIZE=66 NODATE ; 7. TITLE ; 8. FOOTNOTE Mo Premier Programme ; Das cet eemple, o commece par créer la table ommée EXEMPLE1. O déclare esuite que les doées de cette table se trouvet das le fichier tpsa.dat du repertoire /home/p6es/dupot/. La troisième lige idique que la première coloe du fichier cotiet les valeurs de la variable Taille, la deuième les valeurs de la variable Poids, etc. Le fait que la variable See est suivie de $ désige le caractère qualitatif de cette variable. La quatrième lige permet de décrire clairemet les variables. Elle est très utile lorsque la descriptio d ue variable est logue. Par eemple, si la variable d itérêt est la durée du travail, o peut la déclarer das l istructio INPUT comme variable duree et ajouter l istructio LABEL duree= Duree du travail. Aisi, à chaque impressio de table de doées o aura Duree du travail au lieu de duree e etête de coloe correspodate, à coditio que la procédure PRINT soit appelée avec l optio LABEL. O termie cette istructio DATA par la commade RUN. Les trois derières liges cotieet les optios d affichage : afficher 70 caractères par lige, afficher 66 liges par page, e pas afficher la date, e pas afficher de titre, afficher Mo Premier Programme e bas de chaque page. O termie cette sectio par doer u eemple d étape PROC. 1. PROC PRINT LABEL DATA=EXEMPLE1 NOOBS ; 2. VAR See Poids ; 3. RUN ; La première lige appelle la procédure PRINT, dot le but est d afficher les doées, avec les optios LABEL, DATA et NOOBS. O a déjà epliqué la foctio de l optio LABEL. L optio DATA idique la table de doées à afficher. Si cette optio est pas spécifiée, la derière table déclarée sera affichée. L optio NOOBS (proveat de NO OBServatios) permet de e pas afficher la coloe coteat les uméros des observatios. La deuième lige idique que seules les variables See et Poids doivet être affichées.

Sectio 1.2 Statistique descriptive uidimesioelle 7 1.2 Statistique descriptive uidimesioelle Das cette sectio, o se place das le cadre suivat : o dispose observatios 1,..., d ue variable quatitative X. Le but est de doer la défiitio des quatités statistiques et de décrire leur champs d utilisatio. O se cocetre surtout sur les quatités statistiques calculables à l aide de la procédure UNIVARIATE de SAS (avec l optio VARDEF=N, idiquat que le déomiateur das le calcul de l écart-type est ). O appelle souvet la suite 1,..., échatillo ; est alors la taille de cet échatillo. PARAMÈTRES DE POSITION la moyee (mea) : = ( 1... )/, la médiae (media) : la valeur qui découpe l échatillo e deu parties comportat le même ombre d élémets, le mode (mode) : la valeur observée la plus fréquete. PARAMÈTRES DE VARIABILITÉ OU DE DISPERSION l écart-type (std deviatio) : ˆσ = ( 1 ( i ) 2) 1/2, la variace (variace) : ˆσ 2, l étedue (rage) : la différece etre les valeurs etrêmes, l écart iterquartile (iterquartile rage) : la différece etre le 1 er et le 3ème quartiles, le coefficiet de la variatio (coeff variatio) : = 100 ˆσ/. PARAMÈTRES DE FORME le coefficiet d asymétrie (skewess) : α = 1 ˆσ 3 ( i ) 3. Si la distributio est symétrique, α = 0. Si α < 0, o dit qu il y a ue asymétrie à gauche et cela sigifie que la moyee est plus petite que la médiae (c està-dire, le ombre d observatios supérieures à la moyee est plus grad que le ombre d observatios iférieures à la moyee). le coefficiet d aplatissemet (kurtosis) : β = 1 ˆσ 4 ( i ) 4 3. C est ue quatité mesurat l épaisseur des queues de la distributio. Si β = 0, la distributio a des queues gaussiees. Pour β > 0, les queues sot plus épaisses que celles de la loi ormale. Pour β < 0, les queues sot plus mices (ou plus légères) que celles de la loi ormale. STATISTIQUES DE TEST ET p-values Lorsqu o effectue la procédure UNIVARIATE de SAS, les deu hypothèses suivates sot automatiquemet testées : m = µ 0 et Med = µ 0. La valeur de µ 0 par défaut est 0, mais o peut la chager e spécifiat l optio MU0=.

8 SAS et Statistique Descriptive Chapitre 1 Afi de tester l hypothèse m = µ 0, où m est la moyee, la procédure UNIVARIATE utilise la statistique de Studet : t = ( µ 0 )/ˆσ. Cette statistique est calculée que das le cas où le déomiateur de l écart-type est 1 (ce qui est la valeur par défaut). Pour accepter l hypothèse m = µ 0, il faut que la p-value e soit pas trop petite. Par covetio, o accepte l hypothèse si la p-value dépasse 0.05. La procédure UNIVARIATE utilise deu tests afi de tester l hypothèse Med = µ 0 : le test de siges et le tests des rags sigés. O e doera pas ici les défiitios eactes de ces tests.

2 Aalyse e composates pricipales 2.1 Doées multivariées Soit R p u vecteur aléatoire : = (ξ 1,..., ξ p ) T, où v T désige le trasposé du vecteur v. U échatillo multidimesioel est ue suite 1,..., de réalisatios aléatoires du vecteur, c est-à-dire que chaque i est de même loi que pour tout i = 1,...,. Das ce chapitre, X ij désige la j ème composate du vecteur i, c est-à-dire la i ème réalisatio de la variable aléatoire ξ j. Les X ij formet la matrice aléatoire X 11 X 1p X =..... X 1 X p = que l o appelle matrice des doées ou tableau des doées. A partir de la matrice des doées X, o peut calculer les statistiques suivates : a) Les moyees empiriques X k = 1 T 1. T X ik, k = 1,..., p,

10 Aalyse e composates pricipales Chapitre 2 qui formet le vecteur X 1 =. X b) Les covariaces empiriques = 1 i = 1 XT 1 avec 1 = 1. R. 1 s jk = 1 X ij X ik X j X k, k, j = 1,..., p qui formet la matrice S = (s jk ) k,j=1,...,p que l o appelle matrice de covariace empirique. c) Les corrélatios empiriques r jk = s jk skk s jj, k, j = 1,..., p qui formet la matrice R = (r jk ) k,j=1,...,p que l o appelle matrice de corrélatio empirique. Il est facile de voir que S = 1 XT X T = 1 XT X 1 2 XT 11 T X = 1 XT HX où la matrice H = I 1 11 T est appelée matrice cetrig. Eercice 2.1. Motrer que H est u projecteur, i. e. H = H 2 et H T = H. Sur quel sous-espace vectoriel de R projette-t-il? Notos que la matrice de covariace empirique S est positive, e effet pour tout vecteur a R p o a a T Sa = 1 at X T HXa = 1 at X T HHXa = 1 yt y 0, où y = H T Xa. De plus, si l o ote par D la matrice diagoale diag{ s 11,..., s pp }, o obtiet S = DRD, doc la matrice de corrélatio empirique R est aussi positive. 2.2 L idée de l Aalyse e composates pricipales (ACP) L Aalyse e composates pricipales (ACP) est ue méthode de traitemet des doées multidimesioelles qui poursuit les deu objectifs suivats :

Sectio 2.2 L idée de l Aalyse e composates pricipales (ACP) 11 visualiser les doées, réduire la dimesio effective des doées. Géométriquemet, les doées multidimesioelles formet u uage des poits das R p (u poit de ce uage correspod à u i ). Si la dimesio p est supérieure à 3, ce qui est le plus souvet le cas, o e peut pas visualiser ce uage. Le seul moye de visualiser les doées est alors de cosidérer leurs projectios sur des droites, sur des plas ou évetuellemet sur des espaces de dimesio 3. Aisi, si a = (a 1,..., a p ) R p est ue directio de projectio (c est-à-dire u vecteur de orme u : a 2 = a 2 1 a 2 p = 1), les doées projetées (a T 1,..., a T ) formet u échatillo de dimesio 1 que l o peut visualiser et qui est doc plus facile à iterpréter que l échatillo de départ ( 1,..., ). Si la dimesio p est grade, elle est d habitude redodate. E réalité la vraie dimesio des doées p est souvet beaucoup plus petite que p. L ACP a pour objectif de trouver u sous-espace liéaire de R p de dimesio p p tel que la projectio sur ce sous-espace capte presque toute la structure des doées. Fig. 2.1. Boe et mauvaise directios de projectio. Das l eemple de la Figure 2.1, o voit clairemet que si l o projette les doées i (représetées par des poits oirs) sur la directio a (1), certaies projectios coïciderot. Par cotre, la projectio de ces doées sur la directio a (2) doe des valeurs deu à deu distictes. O voit que la projectio sur cette derière directio est plus iformative que sur la première, doc plus itéressate. L idée de base de l ACP est de chercher la directio a R p la plus itéressate, pour laquelle les doées projetées serot le plus dispersées possibles, c est-à-dire la directio qui maimise e a la variace empirique de l échatillo uidimesioel (a T 1,..., a T ) (cf. défiitio de la variace empirique au Chapitre 4) : s 2 a déf = 1 ( 1 (a T i ) 2 = 1 at ( i T i ) 2 (a T i ) ) a 1 ( 2 at i i T ) a = a T Sa,

12 Aalyse e composates pricipales Chapitre 2 où S désige la matrice de covariace empirique itroduite au paragraphe précédet. Il e résulte que la directio la plus itéressate â est ue solutio de ma a T Sa = â T Sâ, a R p : a =1 où est la orme euclidiee de R p. O peut écrire cette égalité sous la forme équivalete â = arg ma a T Sa. (2.1) a R p : a =1 Le vecteur â aisi défii maimise la variace empirique uidimesioelle s 2 a e a tels que a = 1. De la même maière, o peut défiir la directio idéale pour projeter les doées, comme le vecteur a qui maimise la variace théorique : a = arg ma a R p : a =1 Var[a T ]. (2.2) Pour que cette variace soit bie fiie, o suppose que E[ 2 ] <. Das ce qui suit, o utilisera les otatios suivates pour la moyee et la matrice de covariace de : E() = µ, V() = Σ. (ici µ est u vecteur de R p et Σ est ue matrice symétrique et positive de dimesio p p). 2.3 ACP : cadre théorique Nous ous itéresseros ici à la solutio du problème de maimisatio (2.2). Soit Σ = ΓΛΓ T ue décompositio spectrale de la matrice de covariace, où Γ est ue matrice p p orthogoale et Λ est ue matrice p p diagoale. O otera λ 1 0 0 0 λ 2 0 Λ =........, Γ = ( ) γ (1),..., γ (p), 0 0 λ p où les λ i sot les valeurs propres de Σ et les γ (i) sot les vecteurs propres orthoormés de Σ correspodats, γ (i) = 1, γ T (j) γ (k) = 0, j = k. Défiitio 2.1. La variable aléatoire η j = γ T (j) ( µ) est dite jème composate pricipale du vecteur aléatoire R p.

Sectio 2.3 ACP : cadre théorique 13 EXEMPLE 2.1. Soit u vecteur aléatoire de R 2 de moyee ulle et de matrice de covariace ( ) 1 ρ Σ =, 0 ρ 1. ρ 1 Cosidéros les vecteurs propres orthoormés de cette matrice γ (1) = 1 ( ) 1, γ 2 1 (2) = 1 ( ) 1. 2 1 Doc si les coordoées de sot ξ 1 et ξ 2, les composates pricipales de valet η 1 = ξ 1 ξ 2, η 2 = ξ 1 ξ 2. 2 2 D ue part, o peut facilemet vérifier que la variable aléatoire η j est cetrée, c està-dire E[η j ] = 0. D autre part, e utilisat le fait que les γ (j) sot les vecteurs propres de la matrice de covariace Σ du vecteur aléatoire, o obtiet Var[η j ] = E[γ T (j) ( µ)( µ)t γ (j) ] = γ T (j) Σγ (j) = γt (j) λ jγ (j) = λ j, où λ j désige la valeur propre correspodat au vecteur propre γ (j). De même, pour j = k, Cov(η j, η k ) = E[γ T (j) ( µ)( µ)t γ (k) ] = γ T (j) Σγ (k) = γt (j) λ kγ (k) = 0, car les vecteurs γ (j) sot orthoormés. Théorème 2.1. Soit R p u vecteur aléatoire tel que E( 2 ) <. Alors â = γ (1) est ue solutio du problème (2.2), c est-à-dire : Var[â T ] = ma Var[a T ] = ma Var[a T ( µ)]. a R p : a =1 a R p : a =1 Démostratio. La décompositio spectrale de la matrice Σ est de la forme O a doc Var[a T ] = Σ = ΓΛΓ T = p j=1 p λ j γ (j) γ(j) T. j=1 p λ j (a T γ (j) )(γ(j) T a) = λ j c 2 j, j=1 où c j = a T γ (j) est la projectio du vecteur a sur la directio γ (j). Puisque les vecteurs γ (j) formet ue base orthoormée de R p, o a c 2 1 c2 p = a 2. Comme λ j λ 1, o e déduit que Var[a T ] = p p λ j c 2 j λ 1 c 2 j = λ 1 a 2 = λ 1. j=1 j=1

14 Aalyse e composates pricipales Chapitre 2 Par ailleurs, si a = â = γ (1), les coefficiets c j sot tous uls sauf le premier c 1 = 1. O a doc Var[â T ] = λ 1. Par coséquet, â est ue solutio du problème de maimisatio (2.2) et Var[â T ] = λ 1 = Var[η 1 ]. Deuième composate pricipale. De la même faço, o peut prouver que γ (2) est l u des vecteurs qui maimise la variace Var[a T ] sur l esemble A 1 = {a R p : a = 1 et a γ (1) }. E effet, comme a est orthogoal à γ (1) = â, sa projectio c 1 sur γ (1) est ulle. Par coséquet, pour tout vecteur de A 1, o a Var[a T ] = O voit doc que Var[γ T (2) ] = λ 2 = Var(η 2 ). p p λ j c 2 j λ 2 c 2 j = λ 2 a 2 = λ 2. j=2 j=2 k-ème composate pricipale. O démotre de la même maière que γ (k) est l u des vecteurs a R p qui maimise Var[a T ] sur l esemble A k 1 de tous les vecteurs de orme 1 orthogoau au γ (1),..., γ (k 1). O trouve das ce cas ma a Ak 1 Var[a T ] = Var[η k ]. O voit doc que, du poit de vue mathématique, l ACP se réduit à la diagoalisatio de la matrice de covariace de. 2.4 ACP : cadre empirique Cosidéros maiteat le problème de maimisatio (2.1). Nous pouvos obteir ue solutio de ce problème par la même méthode qu au paragraphe précédet, e remplaçat la matrice de covariace Σ par la matrice de covariace empirique S (il suffit de oter que das (2.2) Var[a T ] = a T Σa et de comparer (2.1) et (2.2)). Comme S est ue matrice symétrique, il eiste ue matrice orthogoale G et ue matrice diagoale L telles que S = GLG T. Bie évidemmet, ces matrices dépedet de l échatillo ( 1,..., ). Les élémets diagoau l 1,..., l p, de la matrice L sot alors les valeurs propres de S. De plus, les l j sot positifs, car S est ue matrice positive. O suppose que les l j sot umérotés par ordre décroissat : l 1 l 2... l p 0. O ote g (j) le vecteur propre de orme 1 associé à la valeur propre l j. Défiitio 2.2. O appelle la jème composate pricipale empirique associée à l échatillo ( 1,..., ) la foctio y j : R p R défiie par y j (z) = g T (j) (z ) pour z Rp.

Sectio 2.4 ACP : cadre empirique 15 Soit y ij = y j ( i ). Cosidéros la matrice Y = (y ij ),...,,j=1,...,p, de dimesio p. Elle remplace la matrice des doées X iitiale. Les vecteurs-liges y 1,..., y de la matrice Y peuvet être cosidérés comme u ouveau échatillo de doées trasformées (il s agit d ue trasformatio affie de l échatillo iitial 1,..., ). Das la pratique, l applicatio de l ACP est itéressate s il s avère que les y i résidet essetiellemet das u sous-espace de R p de dimesio beaucoup plus petite que p. REMARQUES. 1. Si les variables ξ i sot de ature différete (par eemple, ξ 1 est le pri d u produit e dollars et ξ 2 est so poids e kilogrammes), das la pratique o utilise l ACP sur la matrice de corrélatio R plutôt que l ACP sur la matrice de covariace S, i.e. o cherche à maimiser a T Ra au lieu de maimiser a T Sa. Ceci est motivé par le fait que les élémets de R ot pas d uité de mesure. 2. Si tous les élémets de la matrice S sot strictemet positifs, comme c est le cas das l eemple umérique aalysé à la fi de ce chapitre, toutes les coordoées de g (1) ot le même sige (cf. Théorème de Perro Frobeius démotrée ciaprès). Das ce cas, la première composate pricipale empirique y 1 ( ) s appelle facteur de taille. La valeur y 1 ( i ) est alors iterprétée comme ue caractéristique de taille ou d importace de l idividu i. Aisi, das l eemple umérique qui sera eamié à la fi de ce chapitre, y 1 ( i ) peut être cosidérée comme ue caractéristique du iveau gééral de l étudiat uméro i calculée à partir de ses otes. Propositio 2.1. (Théorème de Perro Frobeius.) Soit A = (a ij ) i,j=1,...,p ue matrice p p symétrique dot tous les élémets sot strictemet positifs. Alors toutes les coordoées du premier vecteur propre de A ot le même sige. Démostratio. Soit g = (g 1,..., g p ) u vecteur propre orthoormé de A correspodat à sa plus grade valeur propre. Notos g = ( g 1,..., g p ) le vecteur dot les coordoées sot les valeurs absolues des coordoées respectives de g. D ue part, il est évidet que g = g = 1 et g T Ag = ma ḡ T Aḡ, ḡ =1 ce qui implique que g T Ag g T A g. D autre part, comme tous les élémets a ij de A sot positifs, o obtiet g T Ag = p p a ij g i g j a ij g i g j = g T A g. i,j=1 i,j=1 O a alors g T Ag = g T A g. De plus, g T Ag = g T A g, car la matrice A est symétrique. Ces deu égalités impliquet que (g g) T A(g g) = 0. (2.3)

16 Aalyse e composates pricipales Chapitre 2 Soit maiteat w = A(g g). Comme tous les élémets de A sot strictemet positifs et g i g i 0, toutes les coordoées du vecteur w sot positives. O peut avoir les deu cas suivats. Cas 1 : toutes les coordoées w 1,..., w p de w sot strictemet positives. Das ce cas, les relatios (g g)w = 0 et g i g i impliquet que g i = g i pour tout i = 1,..., p. Par coséquet, tous les g i sot positifs. Cas 2 : il eiste j 0 tel que w j0 = 0. Comme w = A(g g), la coordoée w j0 vaut w j0 = a ij0 ( g i g i ). i D après l hypothèse de la propositio, tous les coefficiets a ij0 sot strictemet positifs. Il e résulte que g i g i = 0 pour tout i. O e déduit que toutes les coordoées de g sot égatives. 2.5 Etude des corrélatios : cadre théorique Soit R p u vecteur aléatoire de moyee µ et de matrice de covariace Σ. O défiit la variace totale de par E( µ 2 ) = E ( ( µ) T ( µ) ) = E ( ( µ) T ΓΓ T ( µ) ). où, d après les défiitios itroduites au Paragraphe 2.3, Γ T ( µ) = γ T (1) γ T (p) ( µ) η 1. =. déf = y. ( µ) Compte teu de ces otatios et de l égalité E(η 2 i ) = λ i, où λ i est la ième valeur propre de Σ, o obtiet l epressio suivate pour la variace totale : E( µ 2 ) = E(η 2 1 η2 p) = λ 1 λ p = Tr(Σ). Rappelos que la trace Tr(Σ) est la somme de ses élémets diagoau de la matrice Σ. η p 2.5.1 La part de variace epliquée Défiitio 2.3. O appelle part de la variace totale de epliquée par les k premières composates pricipales (η 1,..., η k ) la quatité λ 1 λ k = λ 1 λ k λ 1 λ p Tr(Σ).

Sectio 2.5 Etude des corrélatios : cadre théorique 17 O appelle part de la variace totale de epliquée par la jème composate pricipale η j la quatité λ j λ 1 λ p. Si pour u k < p, la part de la variace totale epliquée par les k premières composates pricipales est égale à 1, alors o dit que la variace totale est etièremet epliquée par les composates η 1,..., η k. Cela sigifie que seules les k premières composates pricipales cotribuet à la variace totale du vecteur, les (p k) composates restates état des valeurs détermiistes. Aalysos maiteat l ifluece de la composate pricipale η j sur la variable ξ i, la ième coordoée du vecteur aléatoire. Nous allos caractériser cette ifluece par la valeur du coefficiet de corrélatio Corr(η j, ξ i ). Plus la valeur absolue de Corr(η j, ξ i ) est proche de 1, mieu la composate pricipale η j eplique la variable ξ i. Calculos d abord la matrice de covariace des vecteurs aléatoires et y. O a C(, y) = E[( µ)y T ] = E[( µ)( µ) T Γ] = ΣΓ = ΓΛΓ T γ = ΓΛ. Comme Cov(ξ i, η j ) est le (i, j)ème élémet de cette matrice, o obtiet Cov(ξ i, η j ) = γ ij λ j. La corrélatio ρ ij = Corr(η j, ξ i ) etre ξ i et η j vaut ρ ij = Cov(ξ i, η j ) Var(ξ i )Var(η j ) = γ ij λ j σ ii. Propositio 2.2. Soit R p u vecteur aléatoire, tel que E( 2 ) < et σ ii > 0 pour tout i = 1,..., p. Alors, p = 1 pour i = 1,..., p. j=1 ρ 2 ij Démostratio. Soit P la matrice carrée dot les élémets sot les corrélatios ρ ij, i = 1,..., p, j = 1,..., p. Soit ecore ue matrice diagoale dot les élémets diagoau sot σ ii : = diag(σ 11,..., σ pp ). Il est facile alors de vérifier que P = 1/2 ΓΛ 1/2. Par coséquet, P P T = 1/2 ΓΛ 1/2 Λ 1/2 Γ T 1/2 = 1/2 Σ 1/2 = P, (2.4) où P est la matrice formée par les corrélatios ρ ij = Corr(ξ, ξ j ) etre les coordoées ξ i et ξ j de. Pour coclure, il suffit de remarquer que d ue part ρ ii = 1 et d autre part, d après (2.4), ρ ii = p j=1 ρ2 ij.

18 Aalyse e composates pricipales Chapitre 2 Défiitio 2.4. O appelle ρ 2 ij part de variace de la variable ξ i epliquée par la jème composate pricipale η j. Propositio 2.3. Supposos que les hypothèses de la Propositio 2.2 soiet vérifiées. Alors, pour tout sous-esemble J de {1,..., p}, où ρ 2 ij = j J ρ2 ij. Démostratio. p σ ii ρ 2 ij = p p λ j = σ ii ρ 2 ij, j J σ ii γij 2 j J λ j σ ii = j J λ j p γij 2. Le résultat de la propositio découle du fait que la derière somme vaut 1, car γ (j) 2 = p γ2 ij = 1. 2.5.2 Disque des corrélatios D après la Propositio 2.2, la somme des carrés des deu corrélatios ρ 2 i1 ρ2 i2 est iférieure ou égale à 1, doc tous les poits de R 2 ayat les coordoées ( ρ i1, ρ i2 ) appartieet au disque de rayo 1 cetré e 0, que l o appelle das le cotete de l ACP disque des corrélatios. Sa frotière est appelée cercle des corrélatios. Plus le poit ( ρ i1, ρ i2 ) est proche du cercle des corrélatios, mieu la variable ξ i est epliquée par les deu premières composates pricipales. Cosidéros maiteat la situatio idéale quad les poits ( ρ i1, ρ i2 ) et ( ρ k1, ρ k2 ) se trouvet eactemet sur le cercle, ce qui correspod au fait que les variables ξ i et ξ k sot etièremet epliquées par les deu premières composates pricipales. Propositio 2.4. Soiet ξ i et ξ k deu variables etièremet epliquées par les deu premières composates pricipales, i.e. ρ 2 i1 ρ2 i2 = 1 et ρ2 k1 ρ2 k2 = 1. Alors, la corrélatio de ξ i et ξ k est doée par la formule ρ ik = ρ i1 ρ k1 ρ i2 ρ k2 = cos(ϕ), où ϕ est l agle formé par les vecteurs ( ρ i1, ρ i2 ) et ( ρ k1, ρ k2 ). Démostratio. Vu que la variable ξ i est etièremet epliquée par η 1 et η 2, o a ρ im = 0, quel que soit m 3. De même, pour ξ k, o a ρ km = 0 pour tout m 3. Comme P = P P T, cela implique que ρ ik = ρ i1 ρ k1 ρ i2 ρ k2.

Sectio 2.6 Etude des corrélatios : cadre empirique 19 Soit ϕ 1 l agle formé par les vecteurs ( ρ i1, ρ i2 ) et (1, 0), et ϕ 2 l agle formé par les vecteurs ( ρ k1, ρ k2 ) et (1, 0). Il est évidet que ϕ = ϕ 1 ϕ 2 et ρ i1 ρ k1 ρ i2 ρ k2 = cos(ϕ 1 ) cos(ϕ 2 ) si(ϕ 1 ) si(ϕ 2 ) = cos(ϕ 1 ϕ 2 ) = cos(ϕ). D après cette propositio, si les variables ξ i et ξ k sot etièremet epliquées par les deu premières composates pricipales, l agle formé par les vecteurs ( ρ i1, ρ i2 ) et ( ρ k1, ρ k2 ) décrit la dépedace mutuelle de ces variables. E effet, si l agle ϕ est zéro, alors ρ ik = 1, ce qui sigifie qu il y a u lie liéaire détermiiste etre ces variables : a > 0, b R tels que ξ i = aξ k b. Si les deu poits ( ρ i1, ρ i2 ) et ( ρ k1, ρ k2 ) de R 2 sot diamétralemet opposés, alors cos ϕ = ρ ik = 1 et a > 0, b R tels que ξ i = aξ k b. Das le cotete de l ACP, o dit das ce cas que les variables ξ i et ξ k sot opposées. Fialemet, si l agle ϕ est de 90, alors ρ ik = 0, doc les variables ξ i et ξ k sot o-corrélées. 2.6 Etude des corrélatios : cadre empirique Das ce paragraphe, o se place das le cadre, habituel pour ue étude statistique, où la moyee µ et de la matrice de covariace Σ e sot pas coues. Comme cela a déjà été fait précédemmet, o remplace das toutes les défiitios du Paragraphe 2.5 les paramètres icous par leurs estimateurs empiriques. Aisi, µ est remplacé par, Σ par S, γ (j) par g (j), λ j par l j et η j par y j. O doe maiteat les versios empiriques des défiitios pricipales du paragraphe précédet. Défiitio 2.5. O appelle part de la variace empirique epliquée par les k premières composates pricipales (y 1,..., y k ) la quatité suivate : l 1 l k = l 1 l k. l 1 l p Tr(S) O appelle la quatité l i /Tr(S) part de la variace empirique epliquée par la ième composate pricipale y i. Pour itroduire la défiitio suivate, rappelos que les s ii désiget les élémets diagoau de la matrice de covariace empirique S et l j est la jème valeur propre de S. Notos g ij la ième coordoée du vecteur propre g (j). Défiitio 2.6. O appelle r 2 ij = g 2 ij l j/s ii part de la variace empirique de la ième variable epliquée par la jème composate pricipale.

20 Aalyse e composates pricipales Chapitre 2 E utilisat le même raisoemet qu au paragraphe précédet (cf. Propositios 2.2 et 2.3), o trouve que p r ij 2 j=1 l j = j J = 1 pour tout i = 1,..., p, p s ii r ij 2 avec r ij 2 = r ij 2. j J O itroduit égalemet le disque des corrélatios coteat les poits ( r i1, r i2 ) pour i = 1,..., p. Les résultats de l ACP sot facilemet iterpétables si ces poits sot proches du cercle des corrélatios. L iterprétatio est basée sur la comparaiso du graphique obteu avec l ue des trois cofiguratios idéales : 1. L agle ϕ formé par les vecteurs ( r i1, r i2 ) et ( r k1, r k2 ) est zéro : la ième et la kème variables sot liées par ue relatio liéaire détermiiste avec la pete strictemet positive. 2. L agle ϕ est de 180 : la ième et la kème variables sot liées par ue relatio liéaire détermiiste avec la pete strictemet égative. 3. L agle ϕ est de 90 : la ième et la kème variables sot o-corrélées. Il est clair que, das la pratique, ces trois possibilités peuvet se réaliser seulemet de faço approimative, car il s agit ici de corrélatios empiriques r ij qui approchet les corrélatios théoriques ρ ij seulemet quad la taille d échatillo est assez grade. 2.7 Représetatio graphique des résultats de l ACP 1. Scree graph. Il s agit de représeter das u repère orthogoal l iterpolatio liéaire des parts de la variace empirique epliquées par la première, deuième,..., pème composates pricipales. Par eemple, si p = 5 et l 1 5 j=1 l j = 62%, l 2 5 j=1 l j = 18%, l 3 5 j=1 l j = 9%, (2.5) l 4 5 j=1 l j = 8%, l 5 5 j=1 l j = 3%, le scree graph est la courbe présetée das la Figure 2.3. O utilise le scree graph pour choisir le ombre des composates pricipales qu il faut reteir. Plus précisémet, o se doe u seuil α (par eemple, α = 0, 05) et o retiet toutes les composates pricipales pour lesquelles la part de la variace epliquée est supérieure à ce seuil.

Sectio 2.7 Représetatio graphique des résultats de l ACP 21 2. Projectio des idividus. Das le cotete de l ACP, o appelle idividus les porteurs des doées 1,...,. Le vecteur i représete l esemble des caractéristiques observées de l idividu uméro i. Si les i sot de dimesio supérieure à deu, o e peut pas représeter ces doées de faço graphique sur le pla. Afi de visualiser les doées statistiques multidimesioelles, o les projette sur le pla egedré par les deu premiers vecteurs propres g (1) et g (2) de la matrice de covariace empirique S. O obtiet aisi la projectio bidimesioelle de l échatillo iitial : ( y1 ( 1 ), y 2 ( 1 ) ), ( y 1 ( 2 ), y 2 ( 2 ) ),..., ( y 1 ( ), y 2 ( ) ), (2.6) qui peut être visualisée à l aide d u uage des poits sur le pla. Ici y 1 ( ) et y 2 ( ) sot les deu premières composates pricipales empiriques. Le graphique du uage des poits (2.6) sur R 2 s appelle projectio des idividus. Pour l eemple umérique du paragraphe précédet, la projectio des idividus est : Projectio des idividus 2ème composate pricipale 20 0 20 40 60 40 20 0 20 40 60 1ère composate pricipale Fig. 2.2. Projectio des idividus. 3. Projectio des variables. Les deu premières composates pricipales sot souvet les plus importates, e ce ses qu elles epliquet la part domiate de la variace empirique. Das ce cas, les corrélatios empiriques r i1, r i2, i = 1,..., p, etre les p variables et les deu premières composates pricipales sot beaucoup plus iformatives que les corrélatios restates r ij pour j 3. Cette remarque justifie l utilisatio de l outil graphique appelé projectio des variables sur le disque des corrélatios (ou, e abrégé, projectio des variables). C est u graphique sur lequel o trace le cercle des

22 Aalyse e composates pricipales Chapitre 2 corrélatios et les p poits ( r i1, r i2 ), i = 1,..., p, qui se trouvet das le disque des corrélatios. Si ces poits sot proches du cercle, le graphique ous permet de juger de la dépedace liéaire ou de l absece de corrélatio etre la ième et la kème variables e utilisat les remarques faites à la fi du Paragraphe 2.5 (cf. Propositio 2.4) et du Paragraphe 2.6. Variaces 100 200 300 400 500 600 700 Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 1.0 0.5 0.0 0.5 1.0 1.0 0.5 0.0 0.5 1.0 5 4 3 2 1 Fig. 2.3. Scree graph. Fig. 2.4. Projectio des variables. 2.8 Limites d utilisatio de l ACP Comme il a été epliqué au Chapitre 2, les coefficiets de corrélatio sot essetiellemet adaptés pour décrire u lie liéaire etre des variables aléatoires, si u tel lie eiste. L ACP est aussi u outil liéaire, e ce ses qu elle est basée sur l iformatio coteue das les corrélatios. C est pourquoi l ACP est souvet sas itérêt si les doées présetet des lies o-liéaires, tels que, par eemple, des lies quadratiques. De maière schématique, o peut cosidérer que l ACP fourit u bo résultat lorsque les doées i formet u uage des poits das R p de structure ellipsoïdale, alors qu elle doe u résultat peu satisfaisat si les doées ot ue structure très différete de l ellipsoïdale, par eemple, celle de baae qui correspod plutôt à u lie quadratique (cf. Figure 2.5). 2 3 4 5 6 7 2 1 0 1 2 1.0 0.5 0.0 0.5 1.0 2 1 0 1 2 Fig. 2.5. Deu uages des poits : structure de baae et structure ellipsoïdale.

3 Régressio liéaire multivariée 3.1 Le problème d estimatio de régressio multivariée Soiet u vecteur aléatoire p-dimesioel et Y ue variable aléatoire réelle, tels que E( 2 ) < et E(Y 2 ) <, où désige la orme Euclidiee. La foctio de régressio de Y sur est ue foctio g : R p R défiie par : g(z) = E(Y = z), z R p. Cette foctio, comme das le cas uidimesioel, jouit de la propriété de meilleure prévisio, i.e. E [( Y g() ) 2] = mi h( ) E[( Y h() ) 2], où le miimum est cherché das l esemble de toutes les foctios boréliees h( ). O peut alors écrire Y = g() ξ, où E(ξ ) = 0. Das ce chapitre, o suppose que l o dispose d u échatillo ( 1, Y 1 ),..., (, Y ) tel que Y i = g( i ) ξ i, i = 1,...,, où les ξ i sot des variables aléatoires cetrées et mutuellemet idépedates. Nous cosidéreros le problème statistique de l estimatio de la foctio de régressio g à partir de cet échatillo. Plus particulièremet, ous ous itéresseros à la situatio quad la régressio est liéaire : g() = ϑ T,

24 Régressio liéaire multivariée Chapitre 3 où ϑ R p est u paramètre vectoriel : ϑ = (ϑ 1,..., ϑ p ) T. Les observatios Y i sot alors de la forme Y i = ϑ T i ξ i, i = 1,...,, (3.1) et l estimatio de la foctio g se réduit à l estimatio du paramètre icou ϑ. Le modèle statistique défii par (3.1) s appelle modèle de régressio liéaire multidimesioelle (ou multivariée). L importace de ce modèle pour les applicatios statistiques s eplique d ue part par sa relative simplicité et d autre part par le fait qu il permet d iclure comme des cas particuliers u certai ombre de modèles qui semblet, à la première vue, o-liéaires. EXEMPLE 3.1. Régressio liéaire simple. Posos ϑ = (a, b) T et = (1, Z) T avec a, b R, où Z ue variable aléatoire réelle. Notos que das ce cas la première composate du vecteur aléatoire est détermiiste (o aléatoire). Les observatios Y i sot alors de la forme Y i = a bz i ξ i, i = 1,...,, où les Z i sot des réalisatios de la variable Z. EXEMPLE 3.2. Régressio polyômiale. Soit Z ue variable aléatoire réelle. Puisque toute foctio suffisammet régulière peut être décomposée selo la formule de Taylor, il est aturel de chercher la dépedace etre Y et Z sous ue forme polyômiale : g(z) = ϑ 1 ϑ 2 Z ϑ p Z p 1, où p 1 est u etier et ϑ 1,..., ϑ p sot des coefficiets icous. Si l o défiit les vecteurs = (1, Z,..., Z p 1 ) T et ϑ = (ϑ 1,..., ϑ p ) T, o obtiet g() = ϑ T. O voit que la régressio polyômiale est u cas particulier de la régressio liéaire multidimesioelle. Das ce cas aussi, comme pour la régressio liéaire simple, la première composate du vecteur aléatoire est détermiiste. EXEMPLE 3.3. Régressio o-liéaire trasformée. Ils eistet des modèles o-liéaires de régressio qui peuvet être réduits au modèles liéaires par ue trasformatio. Par eemple, supposos que la foctio de régressio g( ) est de la forme g() = A e vt avec, v R k, où v est u vecteur des paramètres icous et A > 0 est ue costate icoue. Des foctios de régressio de ce type sot utilisés, par eemple, das les applicatios e écoomie, pour modéliser la productivité des etreprises. E preat les logarithmes, o obtiet l g() = l A v T.

Sectio 3.2 Méthode des moidres carrés 25 Afi de se rameer à ue régressio liéaire, o pose ϑ = (l A, v T ) T, = (1, T ) T et o obtiet Y i = l Y i = ϑ T i ξ i, i = 1,...,. (3.2) C est u modèle de régressio liéaire par rapport à l échatillo trasformé ( 1, Y 1 ),..., (, Y ). Notos que formellemet o arrive à (3.2) à partir du modèle Y i = g( i )ξ i de régressio où les erreurs ξ i itervieet de faço multiplicative et o pas additive (o a alors ξ i = l ξ i). Néamois, souvet la trasformatio logarithmique est utilisée sas metioer cette uace de maière eplicite. 3.2 Méthode des moidres carrés Ue méthode usuelle et très répadue pour estimer le paramètre ϑ R p est celle des moidres carrés. Elle cosiste à chercher ue valeur ϑ = ˆϑ qui miimise la somme des carrés des déviatios : (Y i T i ˆϑ) 2 = mi ϑ R p (Y i T i ϑ)2. Il est facile de voir qu il eiste toujours ue solutio ˆϑ de ce problème de miimisatio que l o appelle estimateur des moidres carrés de ϑ. O écrit alors ˆϑ = arg mi ϑ R p (Y i T i ϑ)2. L estimateur des moidres carrés est pas toujours uique. La coditio de l uicité est doée das la propositio suivate. Propositio 3.1. Supposos que la matrice B = i i T R p p soit strictemet positive. Alors, l estimateur des moidres carrés est uique et il s écrit sous la forme ˆϑ = B 1 i Y i.

26 Régressio liéaire multivariée Chapitre 3 Démostratio. La coditio écessaire pour que ˆϑ soit u poit de miimum pour h(ϑ) = (Y i i Tϑ)2 est ( h/ ϑ i )( ˆϑ) = 0 pour tout i = 1,..., p. Cette coditio équivaut à ou ecore 2 i (Y i T i B ˆϑ = ˆϑ) = 0 i Y i. (3.3) C est u système de p équatios liéaires qui admet ue solutio uique car la matrice B est iversible. Cette solutio vaut ˆϑ = B 1 i Y i. Comme la foctio h(ϑ) est covee et positive, ce vecteur ˆϑ fourit le miimum global de h. Il est coveable d écrire le modèle de régressio liéaire sous la forme matricielle : y = X ϑ ξ, où y = (Y 1,..., Y ) T, ϑ = (ϑ 1,..., ϑ p ) T, ξ = (ξ 1,..., ξ p ) T et X = ( 1,..., ) T. Avec ces otatios, o a B = X T X, et o peut écrire l estimateur des moidres carrés sous la forme ˆϑ = (X T X) 1 X T y. Le système des équatios liéaires (3.3) s appelle système des équatios ormales pour la méthode des moidres carrés. O peut l écrire sous la forme Propositio 3.2. La matrice B = Bϑ = X T y. i i T = X T X est toujours positive. Afi qu elle soit strictemet positive, il est écessaire et suffisat que le rag de la matrice X soit égal à p. Démostratio. Notos d abord que la matrice B est positive, car tout v R p \ {0} vérifie l iégalité p v T Bv = v T X T Xv = w T w = wi 2 0,

Sectio 3.2 Méthode des moidres carrés 27 où w = Xv = (w 1,..., w p ). Il est évidet que l iégalité précédete deviet égalité si et seulemet si w = Xv = 0. Or, Xv = 0 pour u vecteur v différet de 0 implique que le rag de X est strictemet iférieur à p. O a doc motré que si B est pas strictemet positive, alors Rag(X) < p. La preuve de la réciproque est similaire. Si Rag < p, alors il eiste u vecteur v R p \ {0} tel que Xv = 0. Il e résulte que v T Bv = v T X T Xv = 0. Par coséquet, B est pas strictemet positive. Ue coséquece immédiate de cette propositio est la suivate : si la taille de l échatillo e questio est strictemet iférieure à la dimesio p des observatios, la matrice B est dégéérée. E effet, < p implique que Rag(X) < p, car le rag d ue matrice M est le ombre maimal des liges de M qui formet ue famille de vecteurs libre. Ue autre formulatio de cette propriété est : B > 0 = p. 3.2.1 Iterprétatio géométrique de la méthode des moidres carrés Le problème de miimisatio de la somme des carrés des déviatios peut s écrire sous la forme suivate : où D désige le sous-espace liéaire de R défii par mi y ϑ R Xϑ 2 = mi y p v D v 2 (3.4) D = { v R : v = Xϑ, ϑ R p}. E mots, D est le sous-espace liéaire de R egedré par les p coloes de la matrice X. Si X est ue matrice de rag p, ce qui est vrai lorsque B > 0, alors D est u sous-espace liéaire de dimesio p : Rag(X) = p B > 0 dim(d) = p. Si B > 0, la solutio du problème (3.4) est ˆv = X ˆϑ = X(X T X) 1 X T y déf = Ay. Défiitio 3.1. Soit B > 0. La matrice est dite matrice chapeau ( hat matrice). A = X(X T X) 1 X T R Propositio 3.3. Supposos que B > 0. Alors la matrice A est symétrique, idempotete et de rag p. Plus précisémet, A est le projecteur das R sur le sous-espace vectoriel (s.e.v.) D.

28 Régressio liéaire multivariée Chapitre 3 Démostratio. Il viet et A T = X[(X T X) 1 ] T X T = X[(X T X) T ] 1 X T = X(X T X) 1 X T = A A 2 = X(X T X) 1 X T X(X T X) 1 X T = X(X T X) 1 X T = A. Doc A est symétrique et idempotete, ce qui sigifie que A est u projecteur. E outre, pour tout y R, o a Ay = X ˆϑ = ˆv D. Doc A projette sur u sous-esemble de D. Mais ce sous-esemble coïcide avec D, car pour tout vecteur v D il eiste ϑ R p tel que v = Xϑ et, par coséquet, Av = X(X T X) 1 X T v = X(X T X) 1 X T Xϑ = Xϑ = v. Cela sigifie que A est le projecteur sur D. Comme D est u sous-espace de R de dimesio p, le rag de A est égal à p. 3.3 Propriétés statistiques Supposos que l hypothèse suivate soit vérifiée. Hypothèse (R). (R1) Les vecteurs 1,..., apparteat à R p sot détermiistes et > p. (R2) La matrice B est strictemet positive. (R3) Le vecteur aléatoire ξ est de moyee E(ξ) = 0 et de matrice de covariace V(ξ) = σ 2 I, où σ 2 > 0 et I est la matrice uité de dimesio. Théorème 3.1. Sous l Hypothèse (R), l estimateur des moidres carrés est sas biais : et sa matrice de covariace V( ˆϑ) = E [ ( ˆϑ ϑ)( ˆϑ ϑ) T] vaut Démostratio. Il viet E( ˆϑ) = ϑ (3.5) V( ˆϑ) = σ 2 B 1. ˆϑ = B 1 X T y = B 1 X T (Xϑ ξ) = ϑ B 1 X T ξ, (3.6) d où découle (3.5). E utilisat (3.6) o obtiet aussi V( ˆϑ) = E [ ( ˆϑ ϑ)( ˆϑ ϑ) T] = E[(B 1 X T ξ)(ξ T XB 1 )] = B 1 X T E[ξξ T ]XB 1.

Sectio 3.4 Régressio liéaire ormale 29 Comme V(ξ) = E[ξξ T ] = σ 2 I, o a B 1 X T E[ξξ T ]XB 1 = σ 2 B 1 X T XB 1 = σ 2 B 1. Théorème 3.2. Sous l Hypothèse (R), la statistique ˆσ 2 déf = y X ˆϑ 2 p est u estimateur sas biais de la variace σ 2 : = 1 p E(ˆσ 2 ) = σ 2. (Y i T i ˆϑ) 2 Démostratio. Notos d abord que les observatios y provieet du modèle y = Xϑ ξ, ce qui implique que y X ˆϑ = X(ϑ ˆϑ) ξ. Vu (3.6), il e résulte que Par coséquet, y X ˆϑ = XB 1 X T ξ ξ = (I XB 1 X T )ξ = (I A)ξ. (3.7) E[ y X ˆϑ 2 ] = E[ξ T (I A) T (I A)ξ] = E[ξ T (I A) 2 ξ] = E[ξ T (I A)ξ], où o a utilisé le fait que A est ue matrice idempotete. Désigos par a ij les élémets de A. O a alors E[ξ T (I A)ξ] = (δ ij a ij ) E[ξ i ξ j ] = σ 2 (δ ij a ij ) δ ij i,j=1 i,j=1 = σ 2 (1 a ii ) = σ 2 ( Tr(A)), où δ ij est le symbole de Kroecker. Comme A est u projecteur, ses valeurs propres valet 0 ou 1. D après la Propositio 3.3, Rag(A) = p, doc il y a eactemet p valeurs propres égales à 1. O e déduit que Tr(A) = p, d où le résultat. 3.4 Régressio liéaire ormale Supposos maiteat que les variables aléatoires ξ i suivet la loi ormale N (0, σ 2 ). Das ce cas la coditio (R3) etraîe l idépedace des variables aléatoires ξ i. Hypothèse (NR). L Hypothèse (R) est vérifiée et ξ est u vecteur gaussie. Sous l Hypothèse (NR), ˆϑ est l estimateur du maimum de vraisemblace de ϑ. Le théorème suivat permet de déduire la loi joite de ( ˆϑ, ˆσ 2 ) sous l Hypothèse (NR).

30 Régressio liéaire multivariée Chapitre 3 Théorème 3.3. Si l Hypothèse (NR) est vérifiée, alors (i) ˆϑ N p (ϑ, σ 2 B 1 ), (ii) ˆϑ y X ˆϑ et y X ˆϑ X( ˆϑ ϑ), (iii) σ 2 y X ˆϑ 2 χ 2 p et σ 2 X( ˆϑ ϑ) 2 χ 2 p. Démostratio. D après (3.6) et (3.7), ˆϑ ϑ = B 1 X T ξ, y X ˆϑ = (I A) ξ. (3.8) La première égalité, compte teu du fait que B et X sot détermiistes, implique que ˆϑ est u vecteur gaussie. D après le Théorème 3.1, la moyee de ce vecteur est ϑ et sa matrice de covariace vaut σ 2 B 1, d où le résultat (i). Vu (3.8), le vecteur aléatoire ( y X ˆϑ, ˆϑ) R p est gaussie comme trasformatio affie du vecteur gaussie ξ. De plus, la matrice de covariace etre ˆϑ et y X ˆϑ est C( ˆϑ, y X ˆϑ) = E[( ˆϑ ϑ)(y X ˆϑ) T ] = E[B 1 X T ξξ T (I A)] = σ 2 (B 1 X T B 1 X T A) = 0. E utilisat la propriété (N6) de la loi ormale multidimesioelle démotrée au Chapitre 3, o obtiet la première partie du résultat (ii). Sa deuième partie e découle vu la préservatio de l idépedace par trasformatios mesurables. Pour prouver le résultat (iii) du théorème, itroduisos le vecteur aléatoire ξ = ξ/σ et appliquos le Théorème de Cochra (cf. Chapitre 3). D après (3.8), y X ˆϑ = σ(i A)ξ et X( ˆϑ ϑ) = σxb 1 X T ξ = σaξ. Par ailleurs, la Propositio 3.3 implique que les matrices A et I A sot symétriques et idempotetes, (I A)A = 0, Rag(A) = p et Rag(I A) = p. D après le Théorème de Cochra, ceci etraîe (iii). 3.5 Applicatio au problème de prévisio Cosidéros d abord u eemple de problème de prévisio qui motive ce qui va suivre. EXEMPLE 3.4. Prévisio das le modèle de régressio sur le temps. Supposos que l o dispose des doées statistiques (Y i, i ), i = 1,...,, où i = i et > 0 est u ombre fié, telles que Y i = ϑ i ξ i, i = 1,...,, avec ϑ R. O peut peser à Y i comme à la valeur à l istat i d ue variable Y évoluat das le temps de maière aléatoire (eemples : la température, le iveau de l eau das u fleuve, le cours d ue optio fiacière, etc). Le problème de prévisio cosiste à doer u estimateur Ŷ 0 qui approche bie la valeur de la foctio de régressio g( 0 ) = ϑ 0 à l istat doé 0 tel que 0 > =. Ue méthode très répadue est de chercher ue prévisio liéaire de la forme Ŷ 0 = ϑ 0, où ϑ est u estimateur coveable de ϑ. Le plus souvet o utilise ϑ = ˆϑ, l estimateur des moidres carrés de ϑ.

Sectio 3.5 Applicatio au problème de prévisio 31 Cosidéros maiteat le cas gééral quad les i sot multidimesioels. Soit 0 R p u vecteur doé. Le problème est formulé de maière similaire : trouver ue prévisio Ŷ 0 de g( 0 ) = ϑ T 0, état doé u échatillo ( 1, Y 1 ),..., (, Y ) proveat du modèle de régressio liéaire Y i = ϑ T i ξ i, i = 1,...,. La recherche d ue prévisio liéaire de la forme Ŷ 0 = ϑ T 0 reviet à la recherche d u estimateur ϑ du paramètre ϑ. U choi possible est ϑ = ˆϑ, l estimateur des moidres carrés de ϑ. La valeur Ŷ 0 = ˆϑ T 0 est doc ue prévisio de g( 0 ). Les propriétés de cette prévisio sot doées das le théorème suivat. Théorème 3.4. (i) Si l Hypothèse (R) est vérifiée, (ii) Si l Hypothèse (NR) est vérifiée, E(Ŷ 0 ) = ϑ T 0 et Var(Ŷ 0 ) = σ 2 T 0 B 1 0. Ŷ 0 N (ϑ T 0, σ 2 T 0 B 1 0 ) et Ŷ 0 ϑ T 0 y X ˆϑ. Démostratio. Elle est immédiate d après les Théorèmes 3.1 et 3.3. La secode partie de ce théorème permet de costruire u itervalle de cofiace pour g( 0 ) = ϑ T 0. E effet, d après la partie (ii) du Théorème 3.4, si l Hypothèse (NR) est satisfaite, η déf = Ŷ0 ϑ T 0 N (0, 1). σ 2 T0 B 1 0 Cette relatio implique, e particulier, que P(g( 0 ) [g, g]) = 1 α, où g = Ŷ 0 σ 2 0 TB 1 0 q1 α/2 N, g = Ŷ 0 σ 2 0 TB 1 0 q1 α/2 N. Doc, das le cas où la variace σ est coue, l itervalle [g, g] est u itervalle de cofiace de taille eacte 1 α pour g( 0 ). Lorsque la variace σ 2 est icoue, il est aturel de la remplacer par so estimateur sas biais ˆσ 2 défii das le Théorème 3.2. Pour pouvoir costruire u itervalle de cofiace eacte, il ous faut coaître la loi de la v. a. t déf = Ŷ0 ϑ T 0 ˆσ 2 T0 B 1 0.

32 Régressio liéaire multivariée Chapitre 3 D après le Théorème 3.4, les variables aléatoires η et χ déf =( p)ˆσ 2 /σ 2 = y X ˆϑ 2 /σ 2 sot idépedates. Par coséquet, la variable aléatoire t peut être représetée sous la forme η t =, χ/( p) où η N (0, 1), χ χ 2 p et η χ. Il e résulte que t suit la loi de Studet t p avec p degrés de liberté. O e déduit que [g, g ] est u itervalle de cofiace de taille eacte 1 α pour g( 0 ) si g = Ŷ 0 ˆσ 2 0 TB 1 0 q 1 α/2 (t p ), g = Ŷ 0 ˆσ 2 0 TB 1 0 q 1 α/2 (t p ). Souligos que l hypothèse de ormalité des erreurs ξ i est cruciale pour que [g, g ] soit u itervalle de cofiace de taille eacte 1 α. 3.6 Applicatio au tests sur le paramètre ϑ Das ce paragraphe, o supposera que les erreurs ξ i du modèle de régressio sot ormales et que l Hypothèse (NR) est vérifiée. Notre premier objectif est de tester l hypothèse : ϑ j = a cotre l hypothèse alterative H 0 H 1 : ϑ j = a, où a R est ue valeur doée et ϑ j est la jème coordoée du vecteur ϑ. Désigos par ˆϑ j la jème coordoée de l estimateur des moidres carrés ˆϑ et par b j le jème élémet diagoal de la matrice B 1. L Hypothèse (R2) implique que b j > 0 pour j = 1,..., p. Corollaire 3.1. Si l Hypothèse (NR) est vérifiée, ˆϑ j ϑ j σ b j N (0, 1). Démostratio. D après le Théorème 3.3, ˆϑ ϑ N (0, σ 2 B 1 ). Soit v j le vecteur de R p dot toutes les coordoées sot ulles sauf la jème qui vaut 1. La v. a. ( ˆϑ j ϑ j ) est doc égale à ( ˆϑ ϑ) T v j, ce qui etraîe qu elle suit ue loi gaussiee. Afi d idetifier cette loi, il suffit de calculer sa moyee et sa variace : E( ˆϑ j ϑ j ) = E[( ˆϑ ϑ) T v j ] = 0, Var( ˆϑ j ϑ j ) = E [( ( ˆϑ ϑ) T v j ) 2 ] = v T j E[( ˆϑ ϑ)( ˆϑ ϑ) T ]v j = σ 2 v T j B 1 v j = σ 2 b j.

Sectio 3.6 Applicatio au tests sur le paramètre ϑ 33 O a alors ˆϑ j ϑ N (0, σ 2 b j ) ou ecore (σ 2 b j ) 1/2 ( ˆϑ j ϑ) N (0, 1). Si le paramètre σ est icou, la statistique (σ 2 b j ) 1/2 ( ˆϑ j ϑ) est iutilisable. Das ce cas, il faut la modifier e remplaçat σ par so estimateur ˆσ défii au Paragraphe 3.3. Corollaire 3.2. Si l Hypothèse (NR) est vérifiée, ˆϑ j ϑ j ˆσ b j t p. Démostratio. Soit η déf =(σ 2 b j ) 1/2 ( ˆϑ j ϑ) et χ déf =( p)ˆσ 2 /σ 2 = y X ˆϑ 2 /σ 2. E vertu du Théorème 3.3 et du Corollaire 3.1, η N (0, 1), χ χ 2 p et η χ. Par ailleurs, ˆϑ j ϑ j ˆσ η =, b j χ/( p) d où le résultat. Ce corollaire implique que sous l hypothèse H 0 : ϑ j = a, la loi de la v. a. t = ˆϑ j ϑ j ˆσ b j est t p (loi de Studet avec p degrés de liberté). Par coséquet, si l o défiit la régio critique du test par { } ˆϑ j a R = ˆσ b > c α j avec ue costate c α > 0 coveablemet choisie, alors le risque de première espèce est ( ) ˆϑ j a sup P ϑ (R) = sup P ϑ ϑ Θ 0 ϑ Θ 0 ˆσ b > c α, j où Θ 0 = { ϑ R p : ϑ j = a } (souligos que H 0 est ue hypothèse composite, car o peut la réécrire comme H 0 : ϑ Θ 0 ). Sur l esemble Θ 0 le paramètre ϑ j vaut a, doc la variable t suit la loi de Studet t p. O a alors ( ) ˆϑ j a sup P ϑ ϑ Θ 0 ˆσ b > c α = P ( ) ( ) t p > c α = P t p > c α. j Pour avoir le risque de première espèce égal à α, il faut choisir la valeur critique c α = q 1 α/2 (t p ). Aisi, o obtiet la régio critique du test de iveau (et de taille) α : { } ˆϑ j a R = ˆσ b > q 1 α/2(t p ). (3.9) j

34 Régressio liéaire multivariée Chapitre 3 O rejette doc l hypothèse H 0 si et o e la rejette pas das le cas cotraire. ˆϑ j a ˆσ b > q 1 α/2(t p ) j Das les applicatios pratiques, o est souvet cofroté au tests des hypothèses plus géérales, e particulier, de l hypothèse H 0 : ϑ j1 = a 1,..., ϑ jm = a m cotre l alterative H 1 : k {1,..., m} tel que ϑ jk = a k, où {j 1,..., j m } est u sous-esemble de {1,..., p}. Notos que H 1 est le complémetaire de H 0. EXEMPLE 3.5. Test de sélectio des variables das la régressio polyômiale : Y i = g( i ) ξ i = ϑ 1 ϑ 2 Z i ϑ p Z p 1 i ξ i, i = 1,...,. O veut tester l hypothèse H 0 : ϑ jl = 0, l = 1,..., p j. cotre l alterative H 1 : il eiste l 1 tel que ϑ jl = 0. 3.6.1 Hypothèse liéaire géérale. F-test Supposos que l o souhaite tester l hypothèse H 0 : Gϑ = b cotre l alterative H 1 : Gϑ = b, où G est ue matrice m p et b est u vecteur de R m. Propositio 3.4. Si l Hypothèse (NR) est vérifiée, G ˆϑ N m (Gϑ, σ 2 GB 1 G T ). Démostratio. Elle est immédiate d après le Théorème 3.3. D après cette propositio, sous l hypothèse H 0 : Gϑ = b o a : G ˆϑ N m (b, D) avec D = σ 2 GB 1 G T.

Sectio 3.7 Propriétés empiriques de l EMC 35 Soit D > 0. Défiissos la variable aléatoire D après le Théorème de Cochra, η déf =(G ˆϑ b) T D 1 (G ˆϑ b). η χ 2 m. Si σ 2 est icou, o e peut pas se servir de η pour défiir la régio critique du test. C est pourquoi o replace σ 2 par so estimateur ˆσ 2. O obtiet aisi l estimateur de la matrice de covariace D suivat : Itroduisos maiteat la variable aléatoire ˆD = ˆσ 2 GB 1 G T avec ˆσ 2 = y X ˆϑ 2. p F déf = (G ˆϑ b) T ˆD 1 (G ˆϑ b) m que l o appelle F-statistique et défiissos la régio critique du test basé sur cette statistique : R = {F > c α }. Ici c α > 0 est à choisir de faço que le test soit de iveau α. O peut remarquer que F est ue sorte de distace etre G ˆϑ et b. O décidera doc de rejeter H 0 si cette distace F est assez grade (> c α ). E utilisat le Théorème 3.3, o peut facilemet vérifier que sous H 0 la v. a. F suit la loi de Fisher-Sedecor à degrés de liberté m et p, ce qui ous coduit au choi suivat de la valeur critique : c α = q 1 α (m, p), où q 1 α (m, p) désige le quatile d ordre 1 α de la loi de Fisher-Sedecor F m, p à degrés de liberté m et p. O obtiet fialemet la régio critique R = { } F > q 1 α (m, p). (3.10) Le test basé sur la régio critique (3.10) est appelé F-test. 3.7 Propriétés empiriques de l EMC Das cette sectio, o suppose que la matrice X cotiet ue coloe costate α1 = (α,..., α) T R \ {0}. Ceci correspod à la recherche d ue approimatio de la variable à epliquer par ue foctio affie des variables eplicatives. Cette coditio peut être légèremet affaiblie : Hypothèse (I). Le sous-espace vectoriel D de R egedré par les coloes de X cotiet la droite {α1 : α R}.