Statistique Mathématique 2 (MATH-F-309, Chapitre #6)

Statistique Mathématique 2 (MATH-F-309, Chapitre #6) Thomas Verdebout Université Libre de Bruxelles 2015/2016

Plan du cours 1. Vecteurs aléatoires. 2. Loi normale multivariée. 3. Inférence dans les modèles gaussiens. 4. Méthodes classiques de l analyse multivariée. 5. Données directionelles. 6. Modèle linéaire

6. Modèles linéaires. 6.1. Hypothèse de linéarité. 6.2. MLE. 6.3. Une approche par projection. 6.4. Théorie distributionnelle. 6.5. Inférence. 6.6. Analyse des residus.

L hypothèse linéaire Définition Soit Y un n-vecteur aléatoire avec EY = µ. Un modèle linéaire de dimension k est une hypothèse pour µ de la forme H 0 : µ L, où L est un sous-espace linéaire de R n avec dim(l) = k. Pour une base donnée X = (x 1,..., x k ) de L, ceci veut donc dire que sous H 0 il existe un vecteur de coefficients β = (β 1,..., β k ) tel que Autrement exprimé, µ = k β ix i = Xβ. i=1 Y = Xβ + ε, où Eε = 0 (et assez souvent on suppose que Var(ε) = σ 2 I n).

L hypothèse linéaire Il est à remarquer que d après la manière dont ce modèle est défini, on ne l attribue en général pas au domaine de l analyse multivariée. La raison en est que Y = (Y 1,..., Y n) constitue notre échantillon (univarié). Il existe aussi une version multivariée du modèle linéaire général. Alors les Y i des p-vecteurs aléatoires et nous avons une hypothèse de la forme où M R n p, X R n q et B R q p. EY = M = XB, sont

L hypothèse linéaire Exemples. Les Y i sont i.i.d. de moyenne µ. Alors X = (1,..., 1) et β = µ. L estimation et l inférence se réduisent à des procédures bien connues. La moyenne de Y i dépend de plusieurs variables (connues) (variables indépendantes, régresseurs) x 1,..., x k de façon linéaire: Y i = x 1iβ 1 + x 2iβ 2 + + x ki β k + ε i.

L hypothèse linéaire Principaux objectifs: Estimer les paramètres inconnus β (ou µ respectivement) et σ 2 si Var(ε) = σ 2 I n. Etablir la distribution des paramètres quand Y est un vecteur multinormal. Tester différentes hypothèses pour β (ou µ respectivement). P.ex. β l = 0 v.s. β l 0 ou β 1 = β 2 = = β k v.s. ils ne sont pas tous égaux ou µ L 2 v.s. µ L 1\L 2... Verifier si le modèle est approprié.

MLE Supposons que Y N n(µ, σ 2 I n). Alors la fonction de vraisemblance est donnée par ( ) n ( 1 l(µ, σ Y ) = exp 1 ) 2πσ 2 2σ (Y 2 µ) (Y µ) ( ) n ( 1 = exp 1 ) 2πσ 2 2σ Y 2 µ 2. Si le modèle linéaire tient pour Y N n(xβ, σ 2 I n) alors le MLE pour (β, σ 2 ) équivaut à ( ) n ( ( ˆβ, ˆσ 2 1 ) = argmax β,σ 2 exp 1 ) 2πσ 2 2σ Y 2 Xβ 2.

MLE Notons que ( ˆβ, ˆσ 2 ) = argmax β,σ 2 = argmin β,σ 2 ( ) n ( 1 exp 1 2πσ 2 2σ 2 Y Xβ 2 ) ( n 2 log(σ2 ) + 1 2σ 2 Y Xβ 2 ). Si nous fixons σ 2 pour le moment, alors nous devons trouver ˆβ = argmin β Y Xβ 2. En posant Y Xβ 2 / β = 0, on obtient facilement (exercice) que ˆβ = (X X) 1 X Y.

MLE Afin d obtenir ˆσ 2 nous déterminons argmin s>0 ( n log(s) 2 Des calculs directs (exercice) montrent que + 1 2s Y X ˆβ 2 ) ˆσ 2 = 1 n Y X ˆβ 2..

MLE Théorème Supposons qu on a un modèle linéaire de la forme Y N n(xβ, σ 2 I n). Alors le MLE est donné par ˆβ = (X X) 1 X Y et ˆσ 2 = 1 n Y X ˆβ 2. Le maximum de la vraisemblance est donné par ( ) 1 n/2 (ˆσ ) 2 n/2. 2πe

MLE Remarque. Les estimateurs ˆβ = (X X) 1 X Y et ˆσ 2 = 1 n Y X ˆβ 2 ne sont pas sans intérêt quand Y n est pas normalement distribué. L estimateur ˆβ est aussi appelé estimateur des moindres carrés. Le vecteur ˆε := Y X ˆβ est appelé vecteur des résidus. Nous notons la somme des carrés des résidus. SSR = Y X ˆβ 2

Une approche par projection Une autre manière d obtenir le MLE pour β consiste à écrire ˆµ = X ˆβ = argmin µ L Y µ, où L est l espace linéaire engendré par les vecteurs (x 1,..., x k ). Par définition ˆµ = p L (Y ), la projection de Y sur L. Notons que la projection p L (Y ) est caractérisée comme l unique élément dans L tel que Y p L (Y ), x = 0 pour tout x L Y p L (Y ), x j = 0 pour tout j {1,..., k} X (Y p L (Y )) = 0.

Une approche par projection Il est limpide que X(X X) 1 X Y L et on voit facilement que X (Y X(X X) 1 X Y ) = 0. D où nous avons que ˆµ = p L (Y ) = X(X X) 1 X Y = X ˆβ. La matrice H = X(X X) 1 X est appelée matrice de projection ou matrice chapeau. Elle est (exercice) symétrique: H = H, et idempotente: H 2 = H.

Théorie distributionnelle La proposition suivante tient sans hypothèse de normalité. Proposition Supposons que Y est un modèle linéaire de dimension k de la forme Y = µ + ε = Xβ + ε ε (0, σ 2 I n). Soient ˆµ, ˆβ et ˆσ 2 définis comme avant. Alors E ˆβ = β et E ˆµ = µ; Var( ˆβ) = σ 2 (X X) 1 et Var(ˆµ) = σ 2 H; E ˆσ 2 = n k σ 2. n

Théorie distributionnelle Preuve. La moyenne et la variance de ˆβ et ˆµ sont simples. Nous allons calculer l espérance de ˆσ 2. En ayant recours à H = H et H 2 = H, nous obtenons que la même chose est vraie pour I n H. Notez aussi que Hµ = µ et donc (I n H)µ = 0. Par conséquent E ˆσ 2 = 1 n E (In H)Y 2 = 1 E (In H)ε 2 n = 1 n Etr(ε (I n H) (I n H)ε) = 1 n tr(eεε (I n H)) = σ2 tr(in H). n La preuve suit alors du fait que tr(h) = tr(x(x X) 1 X ) = tr(x X(X X) 1 ) = k.

Théorie distributionnelle Proposition Supposons que Y est un modèle linéaire de dimension k de la forme Y = µ + ε = Xβ + ε ε N n(0, σ 2 I n). Soient ˆµ, ˆβ et ˆσ 2 définis comme avant. Alors (i) ˆβ N p(β, σ 2 (X X) 1 ); (ii) (iii) (iv) ˆµ N n(µ, σ 2 H); ˆσ 2 σ2 n χ2 n k; ˆσ 2 et ˆβ (ou ˆµ, respectivement) sont indépendants.

Théorie distributionnelle Preuve de (i) et (ii). Les vecteurs ˆβ et ˆµ sont des transformations linéaires du vecteur normal Y. Donc par les résultats du Chapitre 2, ˆβ et ˆµ sont de nouveau normalement distribués. Par la proposition ci-dessus, nous connaissons leur moyenne et variance appropriées. Nous obtenons (i) et (ii). Les relations (iii) et (iv) suivront des considérations ci-dessous.

Théorie distributionnelle Sous-espaces orthogonaux. Deux sous-espaces linéaires L 1 et L 2 de R n sont appelés orthogonaux si x y pour tout x L 1 et y L 2. Alors nous définissons L 1 L 2 = {x + y x L 1 et y L 2}. L 1 L 2 = {x L 1 x L 2} (en supposant que L 2 L 1). Lemme Supposons que L 2 L 1 sont des sous-espaces linéaires de R n. Alors (i) L 1 L 2 est une sous-espace linéaire; (ii) L 1 L 2 L 2; (iii) (L 1 L 2) L 2 = L 1 (= L L = R n ); (iv) p L (v) = v p L (v).

Théorie distributionnelle Proposition Soient L 1, L 2,..., L r des sous-espaces orthogonaux de R n avec dim(l i) = k i et L 1 L 2 L r = R n et soit ε N n(0, σ 2 I n). Alors (a) p L1 (ε),..., p Lr (ε) sont indépendants. (b) p Li (ε) 2 σ 2 χ 2 k i 1 i r.

Théorie distributionnelle Preuve de (a). Comme L 1, L 2,..., L r sont des sous-espaces orthogonaux de R n avec dim(l i) = k i et L 1 L 2 L r = R n, nous avons une base orthonormale (BON) {e ij, 1 j k i, 1 i r} de R n tel que E i = {e ij, 1 j k i} est une BON de L i. Il s ensuit de E i E i = I ki p Li (ε) = E i(e i E i) 1 E i ε = E ie i ε. Donc, comme E i E j = 0 pour i j, nous obtenons Cov(p Li (ε), p Lj (ε)) = E ie i Cov(ε, ε)e je j = 0. que

Théorie distributionnelle Preuve de (b). Nous déduisons par le théorème de Pythagore que k i p Li (ε) 2 = e ij, ε e ij 2 j=1 k i = e ij, ε 2. j=1 Puisque les e ij sont orthonormaux, il suit que les variables e ij, ε sont des variables aléatoires indépendantes de loi normale. Leur moyenne est 0 et la variance σ 2.

Théorie distributionnelle Preuve de (iii) et (iv) de la proposition précédente. Rappelons que ˆσ 2 = 1 n Y ˆµ 2. Nous rappelons que Y ˆµ 2 = (I n H)ε 2. Par le point (iv) du lemme précédent il découle que (I n H)v = p L (v), la projection de v sur l espace L = {x R n x L = span(x 1,..., x k )}. Comme dim(l ) = n k, la preuve de (iii) suit du point (b) de la proposition précédente.

Théorie distributionnelle Comme et ˆµ = HY = Xβ + Hε = Xβ + p L (ε) ˆσ 2 = 1 n (In H)ε 2 = 1 n p L (ε) 2, nous concluons du point (a) de la proposition précédente que ˆµ et ˆσ 2 sont indépendants. L indṕendance de ˆβ et ˆσ 2 decoule de ˆβ = (X X) 1 X ˆµ.

Inférence Pour un modèle linéaire Y N n(µ, σ 2 I n), nous allons tester des hypothèses de la forme suivante: k H 0 : µ = x iβ i, contre H 1 : µ = Ou de manière plus générale i=1 l x iβ i, k < l n. H 0 : µ L 2 contre H 1 : µ L 1\L 2 (L 2 L 1). Nous supposons dans la suite que dim(l 1) = k 1 et dim(l 2) = k 2 k 1. i=1

Inférence Le rapport de vraisemblance est donné par Λ(Y ) = sup µ 2 L 2,σ 2 >0 l(µ, σ Y ) sup µ1 L 1,σ 1 >0 l(µ, σ Y ). Rappelons que le maximum de la vraisemblance pour le modèle L est proportionnel à Y p L (Y ) n ; la statistique du test de rapport de vraisemblance est donnée par ( ) Y pl1 (Y ) 2 n/2 Λ(Y ) =, Y p L2 (Y ) 2 et rejette l hypothèse nulle si Λ(Y ) est trop petit.

Inférence Maintenant comme Y p L2 (Y ) 2 = Y p L1 (Y ) + p L1 (Y ) p L2 (Y ) }{{} L 1 nous obtenons par le théorème de projection et le théorème de Pythagore que Y p L2 (Y ) 2 = Y p L1 (Y ) 2 + p L1 (Y ) p L2 (Y ) 2. Donc le test de rapport de vraisemblance est équivalent au test qui rejette l hypothèse nulle si est trop grand. F (Y ) = p L 1 (Y ) p L2 (Y ) 2 /(k 1 k 2) Y p L1 (Y ) 2 /(n k 1) 2

Inférence Maintenant sous H 0 : µ L 2 nous avons F (Y ) = p L 1 (Y ) p L2 (Y ) 2 /(k 1 k 2) Y p L1 (Y ) 2 /(n k 1) = p L 1 (ε) p L2 (ε)/(k 1 k 2) 2 ε p L1 (ε) 2 /(n k 1) = p L 1 L 2 (ε) 2 /(k 1 k 2). p L (ε) 2 /(n k 1 1) Comme R n = L 1 (L 1 L 2) L 2 nous concluons que p L1 L 2 (ε) 2 χ 2 k 1 k 2 p L 1 (ε) 2 χ 2 n k 1.

Inférence Théorème Supposons qu on a un modèle linéaire de la forme Y N n(µ, σ 2 I n). Le test de rapport de vraisemblance pour H 0 : µ L 2 contre H 1 : µ L 1 est équivalent à un test F. La statistique de test F (Y ) = p L 1 (Y ) p L2 (Y ) 2 /(k 1 k 2) Y p L1 (Y ) 2 /(n k 1) suit une distribution F de k 1 k 2 et n k 1 degrés de liberté. Pour un test de niveau α, nous rejetons H 0 si F (Y ) F k1 k 2,n k 1 ;1 α.

Inférence Remarque. Définissons σ 2 1 = 1 n k 1 Y p L1 (Y ) 2. Remarquons que ceci est un estimateur sans biais pour σ 2 pour le modèle L 1, et que sous H 0 aussi bien que sous H 1 il converge vers σ 2. Alors nous pouvons écrire 1 ˆµ 1 ˆµ 2 2 F (Y ) =, k 1 k 2 où les ˆµ i sont les MLE sous le modèle L i. σ 2 1 Asymptotiquement nous voyons que ˆµ 1 ˆµ 2 2 σ 2 χ 2 k 1 k 2.

Analyse des résidus L idée générale de l analyse des résidus réside dans l étude de divers plots de résidus afin d évaluer à quel point un modèle donné est proche des/fitte les données. Nous sommes donc amenés à d abord étudier la distribution des résidus afin de savoir comment ils sont censés se comporter. Supposons avoir un modèle linéaire Y N n(µ, σ 2 I n), avec µ L sous H 0. Le vecteur de résidus est Donc montrant que R = Y ˆµ = Y HY = (I n H)Y = (I n H)(µ + ε) H 0 = (I n H)ε. ER = 0 et Var(R) = σ 2 (I n H), R N n(0, σ 2 (I n H)). Remarquons que ˆµ et R sont indépendants.

Analyse des résidus Remarquons que R est dans un certain sens un estimateur pour l erreur statistique non-observée ε. Comme ε R = Hε, nous avons (nous utilisons encore une fois le fait que H est idempotent) que Var(ε R) = σ 2 H.

Analyse des résidus Exemple. Considérons le modèle de régression linéaire simple Y i = β 0 + β 1x i + ε i, ε i iid N(0, σ 2 ), où 1 i n. Nous pouvons réécrire ceci comme Y i = α 0 + β 1t i + ε i, où α 0 = β 0 + β 1 x et t i = x i x. Alors t = 0. Notons t + = t 2 i. En forme vectorielle notre modèle correspond à Y = Xβ + ε, avec X = (1 n, t) et β = (α 0, β 1), où 1 n = (1,..., 1) R n. Notons que 1 nt = n t = 0.

Analyse des résidus Exemple, suite. ( ) n 0 Dans cet exemple X X =. Ceci montre (pourquoi?) que ˆα 0 et 0 t ˆβ 1 sont + indépendants. De plus nous avons (( )) H = X(X X) 1 X 1 n = n + titj. t + i,j=1 Si nous supposons que les x i sont des nombres aléatoires iid, de moyenne m x et de variance σ 2 x, alors par la loi des grands nombres H ij = O P ( n 1 ) pour tout 1 i j n. En particulier les éléments diagonaux de H, ε i R i, seront très proches de zéro si n est grand, montrant que les résidus devraient se comporter similairement que ε.

Analyse des résidus Exemple, suite. De plus, comme nous voyons que Var(R) = σ 2 (I n H), cov(r i, R j) { σ 2 si i = j 0 autrement quand n est grand. Ceci est en accord avec Var(ε) = σ 2 I n.