Chapitre 7 Statistique des échantillons gaussiens Le théorème central limite met en évidence le rôle majeur tenu par la loi gaussienne en modélisation stochastique. De ce fait, les modèles statistiques gaussiens, dont l étude fait l objet de ce chapitre, constituent un volet incontournable de la statistique. 7.1 Projection de vecteurs gaussiens Toutes les variables aléatoires de cette section sont implicitement définies sur un espace probabilisé (Ω,A,P). A l instar des échantillons, X signifie que la variable aléatoire X suit la loi. Dans le monde des vecteurs gaussiens, orthogonalité et indépendance se confondent. Ce lien entre la géométrie et les probabilités a pour conséquence le théorème ci-dessous, qui constitue la pierre angulaire de toute la statistique des échantillons gaussiens. Dans la suite, les vecteurs considérés sont implicitement des vecteurs colonnes. Théorème 7.1.1. [COCHRAN] Soient σ > 0, X N n (0,σ 2 Id) et V 1 V p une décomposition de R n en sous-espaces vectoriels orthogonaux de dimensions r 1,,r p. Alors les projections orthogonales π 1,,π p de X sur 85
86 CHAPITRE 7. STATISTIQUE DES ÉCHANTILLONS GAUSSIENS V 1,,V p sont des vecteurs gaussiens indépendants, et pour chaque i = 1,, p: 1 σ 2 π i 2 χ 2 r i. Preuve. Soit (e i j ) i, j une base orthonormée de R n telle que pour chaque i = 1,, p, (e i j ) j=1,,r i est une base orthonormée de V i. Si i = 1,, p, π i = M i X où M i est la matrice symétrique de format n n définie par M i =(e i 1 ei r i )(e i 1 ei r i ). Noter que puisque les vecteurs (e i j ) i, j sont normés et orthogonaux, M i est idempotente et de plus M i M k = 0 pour tout i = k. Montrons tout d abord la première assertion du théorème. Tout d abord, X étant gaussien, toute combinaison linéaire de ses composantes est gaussienne, donc (π 1,,π p ) est gaussien. De plus, la covariance entre les vecteurs aléatoires π i et π k est nulle pour tout i = k. En effet, ces vecteurs aléatoires étant centrés, C(π i,π k )=E(π i Eπ i )(π k Eπ k ) = Eπ i π k, C et E désignant respectivement la matrice de covariance et l espérance sous la probabilité P. Il vient, C(π i,π k )=EM i X(M k X) = M i EXX M k = σ 2 M i M k = 0. Par suite, π 1,,π p sont des vecteurs gaussiens indépendants, d où le premier point. Pour montrer la deuxième assertion du théorème, fixons i = 1,, p et remarquons que comme M i est symétrique et idempotente : π i N n 0,σ 2 M i IdM i = Nn (0,σ 2 M i ). En notant E i la matrice de format n r i définie par E i =(e i 1 ei r i ), on a donc π i σe i N ri (0,Id). Or, si Z est un vecteur aléatoire de loi N ri (0,Id), E i Z 2 = Z 2 χ 2 r i car E i E i = Id, d où le théorème.
7.1. PROJECTION DE VECTEURS GAUSSIENS 87 A l instar des échantillons, notons pour une suite X =(X 1,,X n ) de variables aléatoires réelles : X n = 1 n n i=1 X i et S 2 n(x)= 1 n 1 n i=1 (X i X n ) 2. Rappelons (cf section 2.3) que lorsque X =(X 1,,X n ) est un échantillon d une loi produit, X n et S 2 n(x) sont des estimateurs sans biais de la moyenne et de la variance de X 1. Le théorème ci-dessous met en évidence le rôle tenu par la loi de Student T n dans le cadre des modèles gaussiens. Théorème 7.1.2. [FISHER] Soient σ > 0, m R et X 1,,X n des variables aléatoires indépendantes et de même loi N (m,σ 2 ). Alors, si X =(X 1,,X n ) : (i) X n et S n (X) sont indépendantes ; (ii) (n 1)S 2 n(x)/σ 2 χ 2 n 1 ; (iii) n( X n m)/s n (X) T n 1. Remarques. Dans ce théorème, noter que (iii) est à comparer à la propriété classique n( X n m)/σ N(0,1) d un échantillon gaussien. De plus, comme S 2 n(x)= 1 n 1 n i=1 X 2 i n 2, X n n 1 S n (X) converge en probabilité vers σ d après la loi des grands nombres. Par suite, le lemme de Slutsky et (iii) montrent que la loi de Student T n converge vers la loi N (0,1) lorsque n. Preuve. Pour simplifier les écritures, considèrons le cas m = 0 et σ = 1. Soit V le sous-espace vectoriel de R n engendré par e =(1 1) et, par abus, X =(X 1 X n ). Le projecteur orthogonal P sur V est la matrice n n dont tous les coefficients valent 1/n. De ce fait, PX = X n e et (Id P)X = X 1 X n. X n X n.
88 CHAPITRE 7. STATISTIQUE DES ÉCHANTILLONS GAUSSIENS Comme (Id P)X est la projection orthogonale de X sur l orthogonal de V et X suit la loi N n (0,Id), on déduit du théorème de Cochran (Théorème 7.1.1) que PX est indépendant de (Id P)X, et donc en particulier que X n est indépendant de S 2 n(x), d où (i). De plus, comme V est de dimension 1, (n 1)S 2 n(x)=(id P)X 2 χ 2 n 1 d après le théorème de Cochran, d où (ii). Enfin, (iii) se déduit des résultats précédents, car n X n et (n 1)S 2 n(x) sont indépendantes, et de lois respectives N (0,1) et χ 2 n 1. 7.2 Tests sur les paramètres d un échantillon Soit (x 1,,x n ) une observation provenant de répétitions indépendantes d une même expérience modélisée par une loi gaussienne sur R. Le modèle statistique qui lui est associé est R n,{n (m,σ 2 ) n } m R,σ>0. L objectif est de construire des tests sur la valeur des paramètres de la loi dont l observation (x 1,,x n ) est issue. Dans la suite de cette section, on note P m,σ = N (m,σ 2 ) n pour m R et σ > 0, et X =(X 1,,X n ) P m,σ. Test de Student On veut construire un test pur de niveau α ]0,1[ dans le problème de test unilatère : H 0 : m m 1 contre H 1 : m < m 1, avec m 1 un réel fixé. En notant comme d habitude, pour une suite de réels u =(u 1,,u n ) : ū n = 1 n n i=1 une région de rejet naturelle pour ce problème de test est de la forme {u R n :ū n s} avec s un seuil à préciser, car H 0 est rejetée lorsque la moyenne u i,
7.2. TESTS SUR LES PARAMÈTRES D UN ÉCHANTILLON 89 des observations prend une valeur anormalement petite. Cependant, une telle région de rejet n est pas utilisable car la loi de la statistique X n, en l occurence N (m/n,σ 2 /n), fait intervenir les paramètres inconnus m et σ. On adapte la construction du test à cette contrainte : si t est le quantile d ordre α de la loi T n 1, alors sous H 0 i.e. m m 1 : P m,σ X n m 1 +t S n(x) P m,σ X n m +t S n(x), n n et donc d après le théorème de Fisher (Théorème 7.1.2), P m,σ X n m 1 +t S n(x) n X n m P m,σ n S n (X) t = α, avec égalité lorsque m = m 1. Ainsi, si s n (u) 2 = 1 n 1 n i=1 (u i ū n ) 2, pour la suite de réels u =(u 1,,u n ), le test pur de région de rejet R Student = u R n :ū n m 1 +t s n(u) n, appelé test de Student, est de niveau α. La procédure de décision consiste donc à rejeter H 0 au niveau α lorsque (x 1,,x n ) R Student. Test de Fisher On veut construire un test pur de niveau α ]0,1[ dans le problème de test unilatère de H 0 : σ σ 1 contre H 1 : σ < σ 1, avec σ 1 > 0 fixé. Une région de rejet naturelle pour ce problème de test est de la forme {u R n : s n (u) s} avec s un seuil à préciser, car H 0 est rejetée lorsque la variance empirique prend une valeur anormalement faible. Soit χ le quantile d ordre α de la loi χ 2 n 1. Sous H 0 i.e. σ σ 1 : P m,σ S 2 n(x) χ n 1 σ 1 2 P m,σ Sn(X) 2 χ n 1 σ 2.
90 CHAPITRE 7. STATISTIQUE DES ÉCHANTILLONS GAUSSIENS D après le théorème de Fisher (Théorème 7.1.2), P m,σ Sn(X) 2 χ n 1 σ 1 2 P m,σ (n 1) S2 n(x) σ 2 χ = α, avec égalité lorsque σ = σ 1. Le test de Fisher est le test pur de région de rejet R Fisher = u R n : s 2 n(u) < χ n 1 σ 1 2. Ce test est de niveau α, et la procédure de décision consiste à rejeter H 0 au niveau α lorsque (x 1,,x n ) R Fisher. 7.3 Test d égalité des moyennes Soient k jeux indépendants x (1),,x (k) d observations réelles et indépendantes, chaque jeu d observation x (i) étant issu de la répétition n i fois d une même loi gaussienne sur R. Supposons que le modèle associé à ces observations vérifie l hypothèse d homoscédasticité, i.e. les variances des k jeux d observations sont les mêmes. L objectif de cette section est de construire un test portant sur l égalité des moyennes dans ces jeux d observations. Dans la suite, chaque vecteur sera implicitement représenté sous la forme d un vecteur colonne ; en particulier, un échantillon de taille n sera un vecteur colonne de R n. Modèle statistique Le modèle statistique décrivant l expérience ci-dessus est un exemple de modèle linéaire gaussien : R n, N (m 1,σ 2 ) n 1 N(m k,σ 2 ) n k m 1,,m k R,σ>0,. Le modèle linéaire gaussien représente une expérience dont l observation de R n est la somme d un effet moyen et d un bruit gaussien. Il s écrit sous la forme : R n,{n n (µ,σ 2 Id)} µ F,σ>0, avec F un sous-espace vectoriel de R n. En général, ce modèle est écrit sous la forme équivalente X = µ + ε, avec µ F, σ > 0 et ε N n (0,σ 2 Id).
7.3. TEST D ÉGALITÉ DES MOYENNES 91 si n = n 1 + + n k. Nous allons en donner une formulation probabiliste plus habituelle. Soient n 0 = 0 et, pour tout i = 1,,k, I i = n 1 + +n i e j, j=n 1 + +n i 1 +1 où e j est le j-ème vecteur de la base canonique de R n. Si m 1,,m k R, notons alors µ = k i=1 m i I i, et X (1),,X (k) des échantillons gaussiens indépendants, de lois respectives N (m 1,σ 2 ) n 1,,N (m k,σ 2 ) n k, avec σ > 0. Chaque échantillon X (i) étant par convention identifié à un vecteur colonne de R n i, le vecteur aléatoire X de R n défini par X = X (1). X (k) suit donc une loi N n (µ,σ 2 Id). Si E est l espace vectoriel engendré par les vecteurs I 1,,I k, on trouve la représentation probabiliste suivante du modèle statistique considéré : X = µ + ε, avec ε N n (0,σ 2 Id), pour µ E et σ > 0. Problème de test Le problème de test portant sur l égalité des moyennes des jeux d observations x (1),,x (k) se formule ainsi : H 0 : m 1 = = m k contre H 1 : il existe i = j tel que m i = m j. Notons V l espace vectoriel de dimension 1 engendré par le vecteur (1 1) de R n. Avec cette écriture, le problème de test ci-dessus s écrit de manière équivalente : H 0 : µ V contre H 1 : µ E \V. La construction du test s appuie sur cette formulation vectorielle du problème de test.
92 CHAPITRE 7. STATISTIQUE DES ÉCHANTILLONS GAUSSIENS Test d égalité des moyennes Dans la suite, u F désigne la projection orthogonale de u R n sur le sousespace vectoriel F de R n. Pour le problème de test de H 0 contre H 1, une région de rejet naturelle est de la forme {u R n : u E u V s} avec s un seuil à préciser, car H 0 est rejetée lorsque les projections orthogonales de x = x (1). x (k) sur E et V sont significativement différentes, chaque observation x (i) étant par convention identifiée à un vecteur colonne de R n i. Le calcul du seuil s est basé sur la loi de la statistique X E X V sous H 0. Par linéarité de la projection orthogonale, X E = µ + ε E car µ E. De plus, sous H 0, X V = µ + ε V car µ V d où X E X V = ε E ε V. Le théorème de Cochran (Théorème 7.1.1) appliqué au vecteur gaussien ε donne, sous H 0 : X E X V 2 σ 2 χ 2 k 1. Il n est donc pas possible d utiliser directement ce test car la loi sous H 0 de la statistique X E X V dépend de la quantité inconnue σ. Adaptons la construction du test défini ci-dessus à cette contrainte. Comme X X E = ε ε E, le théorème de Cochran appliqué au vecteur gaussien ε montre que X X E 2 σ 2 χ 2 n k. Sous H 0, le théorème de Cochran appliqué au vecteur gaussien ε montre de plus que X X E = ε ε E est indépendant de X E X V = ε E ε V. Notons alors, pour u R n : F(u)= u E u H 2 /(k 1) u u E 2 (n k). Sous H 0, la statistique F(X) suit donc une loi de Fisher : F(X) F(k 1,n k).
7.4. RÉGRESSION LINÉAIRE MULTIPLE 93 Reprenant l idée de la région de rejet définie plus haut, on note R moy = u R n : F(u) f, avec f le quantile d ordre (1 α) de la loi F(k 1,n k). Si P µ,σ désigne la loi de X, sous H 0, P µ,σ Rmoy = Pµ,σ F(X) f = α. Par suite, R moy définit un test pur de niveau α dans le problème de test de H 0 contre H 1. La procédure de décision consiste à rejeter H 0 au niveau α si x R moy. 7.4 Régression linéaire multiple Pour motiver le modèle de régression linéaire multiple, considérons le cas d une observation (x 1,,x n ), chaque x i représentant la consommation de l individu i = 1,,n. En première approximation, cette quantité est influencée par de nombreuses causes comme par exemple, l âge de l individu, sa catégorie socio-professionnelle, le cours du pétrole... et, pourquoi pas, la température sur la planète Krypton. Dans ce contexte, chaque x i est la somme d une combinaison linéaire de paramètres influents connus, appelés régresseurs, et de perturbations non observables que l on résume par des variables aléatoires réelles gausiennes. Modèle statistique De manière générale, il s agit de modéliser une expérience dont chaque observation est influencée par des régresseurs, représentés par k vecteurs de R n connus notés R 1,,R k. On impose l hypothèse d homoscédasticité du modèle selon laquelle la matrice de variance de la loi dont l observation est issue est proportionnelle à la matrice identité. En désignant par R =(R 1 R k ) la matrice des régresseurs de format n k, le modèle statistique admet la formulation suivante : X = Rθ + ε,. La convention de la section précédente est adoptée : tout vecteur est implicitement représenté comme un vecteur colonne ; en particulier, un échantillon ou une observation de taille n est un vecteur colonne de R n.
94 CHAPITRE 7. STATISTIQUE DES ÉCHANTILLONS GAUSSIENS avec ε N n (0,σ 2 Id), θ R k et σ > 0. Il s agit à nouveau (cf section 7.3) d un cas particulier de modèle linéaire gaussien. En réduisant au besoin leur nombre, on peut toujours considérer que les régresseurs sont linéairement indépendants et que, par conséquent, la matrice des régresseurs R est de rang k. Estimation des paramètres Dans ce qui suit, E désigne l espace vectoriel engendré par les vecteurs R 1,,R k. Puisque X E est dans E, il s écrit X E = R ˆθ avec ˆθ un estimateur de θ. On peut décrire explicitement ˆθ en remarquant que, comme X R ˆθ est dans l orthogonal de E, pour tout u R k : Ru,X R ˆθ = 0. Par suite, u,r X R R ˆθ = 0 pour tout u R k et donc R X = R R ˆθ. Puisque R est de rang plein, la matrice R R est inversible, d où ˆθ =(R R) 1 R X. L estimateur ˆθ est sans biais car, si E θ,σ désigne l espérance sous la loi de X : E θ,σ ˆθ = (R R) 1 R E θ,σ X = (R R) 1 R Rθ = θ. Construisons maintenant un estimateur de σ 2. Comme X E = Rθ + ε E, X X E = ε ε E d où X X E 2 σ 2 χn k 2 d après le théorème de Cochran (Théorème 7.1.1). La moyenne de la loi χn k 2 valant n k, l estimateur de σ 2 est donc sans biais. Test de l utilité des régresseurs σˆ 2 = X X E 2 n k
7.4. RÉGRESSION LINÉAIRE MULTIPLE 95 Reprenons le problème de modélisation du début de la section : x i, qui représente alors la consommation de l individu i = 1,,n, est influencé par son âge, sa catégorie socio-professionnelle, le cours du pétrole,... et la température sur la planète Krypton. En fait, l influence de la planète Krypton sur la consommation peut l égitimement être contestée... Dans le cadre d une modélisation trop complète, tous les régresseurs n ont pas la même influence, et certains n ont qu une contribution mineure. Nous allons construire un test dans le but de supprimer ces régresseurs à l influence réduite. Pour q = 0,,k 1, on veut tester l utilité des (k q) derniers régresseurs. Cela nous mène au problème de test suivant : H 0 : i = q + 1,,k : θ i = 0 contre H 1 : i = q + 1,,k : θ i = 0. Sous H 0, la matrice des régresseurs utiles R =(R 1 R q ) est la restriction de R à ses q premiers régresseurs. L effet moyen Rθ se trouve alors dans l espace vectoriel V engendré par R 1,,R q, dont la dimension est q car R 1,,R q sont linéairement indépendants par hypothèse. Avec ces notations, le problème de test se réécrit de la manière suivante : H 0 : Rθ V contre H 1 : Rθ E \V. Le principe de construction d un tel test est de rejeter H 0 lorsque les projections orthogonales de l observation sur E et sur V sont significativement différentes. Selon ce principe, une région de rejet naturelle est de la forme {u R n : u E u V s} avec s un seuil à préciser. Mais la loi de X E X V dépend du paramètre inconnu σ. En effet, sous H 0, X V = Rθ + ε V car Rθ V et donc, d après le théorème de Cochran (Théorème 7.1.1) appliqué au vecteur gaussien ε, X E X V 2 = ε E ε V 2 σ 2 χ 2 k q. Or, le théorème de Cochran montre aussi que sous H 0, le vecteur aléatoire ε E ε V = X E X V est indépendant de ε ε E = X X E. Enfin, X X E 2 σ 2 χ 2 n k. En réunissant ces observations, et en notant pour u Rn : F(u)= u E u V 2 /(k q) u u E 2 /(n k), on trouve F(X) F(k q,n k) sous H 0. Si f désigne le quantile d ordre (1 α) de la loi de Fisher F(k q,n k) alors, sous H 0 : P θ,σ F(X) f = α
96 CHAPITRE 7. STATISTIQUE DES ÉCHANTILLONS GAUSSIENS avec P θ,σ la loi de X. La région de rejet R regress = u R n : F(u) f nous donne donc un test pur de niveau α pour le problème de test de H 0 contre H 1. Pour l observation x R n, la procédure de décision consiste à rejeter H 0 au niveau α si x R regress.