Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens



Documents pareils
1 Complément sur la projection du nuage des individus

Le Modèle Linéaire par l exemple :

Exo7. Matrice d une application linéaire. Corrections d Arnaud Bodin.

Programmes des classes préparatoires aux Grandes Ecoles

Le modèle de régression linéaire

3. Conditionnement P (B)

Simulation de variables aléatoires

Tests du χ 2. on accepte H 0 bonne décision erreur de seconde espèce on rejette H 0 erreur de première espèce bonne décision

Principe de symétrisation pour la construction d un test adaptatif

Exercices Corrigés Premières notions sur les espaces vectoriels

Formes quadratiques. 1 Formes quadratiques et formes polaires associées. Imen BHOURI. 1.1 Définitions

Calcul fonctionnel holomorphe dans les algèbres de Banach

PROBABILITES ET STATISTIQUE I&II

TABLE DES MATIERES. C Exercices complémentaires 42

Programmation linéaire et Optimisation. Didier Smets

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Introduction à la statistique non paramétrique

Le produit semi-direct

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

STATISTIQUES. UE Modélisation pour la biologie

Moments des variables aléatoires réelles

Mesures gaussiennes et espaces de Fock

I. Polynômes de Tchebychev

Un K-espace vectoriel est un ensemble non vide E muni : d une loi de composition interne, c est-à-dire d une application de E E dans E : E E E

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

NON-LINEARITE ET RESEAUX NEURONAUX

Chapitre 3. Mesures stationnaires. et théorèmes de convergence

aux différences est appelé équation aux différences d ordre n en forme normale.

Introduction à la Statistique Inférentielle

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer

Cours de méthodes de scoring

Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

Exemple 4.4. Continuons l exemple précédent. Maintenant on travaille sur les quaternions et on a alors les décompositions

Introduction à l approche bootstrap

Economie de l incertain et de l information Partie 1 : Décision en incertain probabilisé Chapitre 1 : Introduction à l incertitude et théorie de

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

Cours de Tests paramétriques

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Modélisation et simulation

TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION

I. Introduction. 1. Objectifs. 2. Les options. a. Présentation du problème.

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, LES STATISTIQUES INFERENTIELLES

Le modèle de Black et Scholes

Table des matières. I Mise à niveau 11. Préface

Théorème du point fixe - Théorème de l inversion locale

Capes Première épreuve

Filtrage stochastique non linéaire par la théorie de représentation des martingales

3 Approximation de solutions d équations

Calcul différentiel sur R n Première partie

Première partie. Préliminaires : noyaux itérés. MPSI B 6 juin 2015

TP1 Méthodes de Monte Carlo et techniques de réduction de variance, application au pricing d options

1 Définition de la non stationnarité

Espérance conditionnelle

Chaînes de Markov au lycée

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

Calcul différentiel. Chapitre Différentiabilité

4. Martingales à temps discret

Fonctions de plusieurs variables

Méthodes de Simulation

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Introduction à l étude des Corps Finis

Résolution d équations non linéaires

Exercices - Polynômes : corrigé. Opérations sur les polynômes

Évaluation de la régression bornée

Probabilités III Introduction à l évaluation d options

Séminaire TEST. 1 Présentation du sujet. October 18th, 2013

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

M2 IAD UE MODE Notes de cours (3)

Cours d Analyse. Fonctions de plusieurs variables

Correction de l examen de la première session

Cours d analyse numérique SMI-S4

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes.

CHAPITRE 5. Stratégies Mixtes

ÉTUDE ASYMPTOTIQUE D UNE MARCHE ALÉATOIRE CENTRIFUGE

Corrigé Problème. Partie I. I-A : Le sens direct et le cas n= 2

PEUT-ON «VOIR» DANS L ESPACE À N DIMENSIONS?

La programmation linéaire : une introduction. Qu est-ce qu un programme linéaire? Terminologie. Écriture mathématique

Texte Agrégation limitée par diffusion interne

Contexte. Pour cela, elles doivent être très compliquées, c est-à-dire elles doivent être très différentes des fonctions simples,

Etude des propriétés empiriques du lasso par simulations

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

Cours 02 : Problème général de la programmation linéaire

Amphi 3: Espaces complets - Applications linéaires continues

Chapitre 2 Le problème de l unicité des solutions

Différentiabilité ; Fonctions de plusieurs variables réelles

Chapitre VI - Méthodes de factorisation

Intégration et probabilités TD1 Espaces mesurés Corrigé

Le théorème des deux fonds et la gestion indicielle

Sur certaines séries entières particulières

Développement décimal d un réel

Optimisation, traitement d image et éclipse de Soleil

Programmation linéaire

UNIVERSITÉ DU QUÉBEC À MONTRÉAL TESTS EN ÉCHANTILLONS FINIS DU MEDAF SANS LA NORMALITÉ ET SANS LA CONVERGENCE

Température corporelle d un castor (une petite introduction aux séries temporelles)

Analyse de la variance Comparaison de plusieurs moyennes

Correction du Baccalauréat S Amérique du Nord mai 2007

FORMULAIRE DE STATISTIQUES

Transcription:

Chapitre 7 Statistique des échantillons gaussiens Le théorème central limite met en évidence le rôle majeur tenu par la loi gaussienne en modélisation stochastique. De ce fait, les modèles statistiques gaussiens, dont l étude fait l objet de ce chapitre, constituent un volet incontournable de la statistique. 7.1 Projection de vecteurs gaussiens Toutes les variables aléatoires de cette section sont implicitement définies sur un espace probabilisé (Ω,A,P). A l instar des échantillons, X signifie que la variable aléatoire X suit la loi. Dans le monde des vecteurs gaussiens, orthogonalité et indépendance se confondent. Ce lien entre la géométrie et les probabilités a pour conséquence le théorème ci-dessous, qui constitue la pierre angulaire de toute la statistique des échantillons gaussiens. Dans la suite, les vecteurs considérés sont implicitement des vecteurs colonnes. Théorème 7.1.1. [COCHRAN] Soient σ > 0, X N n (0,σ 2 Id) et V 1 V p une décomposition de R n en sous-espaces vectoriels orthogonaux de dimensions r 1,,r p. Alors les projections orthogonales π 1,,π p de X sur 85

86 CHAPITRE 7. STATISTIQUE DES ÉCHANTILLONS GAUSSIENS V 1,,V p sont des vecteurs gaussiens indépendants, et pour chaque i = 1,, p: 1 σ 2 π i 2 χ 2 r i. Preuve. Soit (e i j ) i, j une base orthonormée de R n telle que pour chaque i = 1,, p, (e i j ) j=1,,r i est une base orthonormée de V i. Si i = 1,, p, π i = M i X où M i est la matrice symétrique de format n n définie par M i =(e i 1 ei r i )(e i 1 ei r i ). Noter que puisque les vecteurs (e i j ) i, j sont normés et orthogonaux, M i est idempotente et de plus M i M k = 0 pour tout i = k. Montrons tout d abord la première assertion du théorème. Tout d abord, X étant gaussien, toute combinaison linéaire de ses composantes est gaussienne, donc (π 1,,π p ) est gaussien. De plus, la covariance entre les vecteurs aléatoires π i et π k est nulle pour tout i = k. En effet, ces vecteurs aléatoires étant centrés, C(π i,π k )=E(π i Eπ i )(π k Eπ k ) = Eπ i π k, C et E désignant respectivement la matrice de covariance et l espérance sous la probabilité P. Il vient, C(π i,π k )=EM i X(M k X) = M i EXX M k = σ 2 M i M k = 0. Par suite, π 1,,π p sont des vecteurs gaussiens indépendants, d où le premier point. Pour montrer la deuxième assertion du théorème, fixons i = 1,, p et remarquons que comme M i est symétrique et idempotente : π i N n 0,σ 2 M i IdM i = Nn (0,σ 2 M i ). En notant E i la matrice de format n r i définie par E i =(e i 1 ei r i ), on a donc π i σe i N ri (0,Id). Or, si Z est un vecteur aléatoire de loi N ri (0,Id), E i Z 2 = Z 2 χ 2 r i car E i E i = Id, d où le théorème.

7.1. PROJECTION DE VECTEURS GAUSSIENS 87 A l instar des échantillons, notons pour une suite X =(X 1,,X n ) de variables aléatoires réelles : X n = 1 n n i=1 X i et S 2 n(x)= 1 n 1 n i=1 (X i X n ) 2. Rappelons (cf section 2.3) que lorsque X =(X 1,,X n ) est un échantillon d une loi produit, X n et S 2 n(x) sont des estimateurs sans biais de la moyenne et de la variance de X 1. Le théorème ci-dessous met en évidence le rôle tenu par la loi de Student T n dans le cadre des modèles gaussiens. Théorème 7.1.2. [FISHER] Soient σ > 0, m R et X 1,,X n des variables aléatoires indépendantes et de même loi N (m,σ 2 ). Alors, si X =(X 1,,X n ) : (i) X n et S n (X) sont indépendantes ; (ii) (n 1)S 2 n(x)/σ 2 χ 2 n 1 ; (iii) n( X n m)/s n (X) T n 1. Remarques. Dans ce théorème, noter que (iii) est à comparer à la propriété classique n( X n m)/σ N(0,1) d un échantillon gaussien. De plus, comme S 2 n(x)= 1 n 1 n i=1 X 2 i n 2, X n n 1 S n (X) converge en probabilité vers σ d après la loi des grands nombres. Par suite, le lemme de Slutsky et (iii) montrent que la loi de Student T n converge vers la loi N (0,1) lorsque n. Preuve. Pour simplifier les écritures, considèrons le cas m = 0 et σ = 1. Soit V le sous-espace vectoriel de R n engendré par e =(1 1) et, par abus, X =(X 1 X n ). Le projecteur orthogonal P sur V est la matrice n n dont tous les coefficients valent 1/n. De ce fait, PX = X n e et (Id P)X = X 1 X n. X n X n.

88 CHAPITRE 7. STATISTIQUE DES ÉCHANTILLONS GAUSSIENS Comme (Id P)X est la projection orthogonale de X sur l orthogonal de V et X suit la loi N n (0,Id), on déduit du théorème de Cochran (Théorème 7.1.1) que PX est indépendant de (Id P)X, et donc en particulier que X n est indépendant de S 2 n(x), d où (i). De plus, comme V est de dimension 1, (n 1)S 2 n(x)=(id P)X 2 χ 2 n 1 d après le théorème de Cochran, d où (ii). Enfin, (iii) se déduit des résultats précédents, car n X n et (n 1)S 2 n(x) sont indépendantes, et de lois respectives N (0,1) et χ 2 n 1. 7.2 Tests sur les paramètres d un échantillon Soit (x 1,,x n ) une observation provenant de répétitions indépendantes d une même expérience modélisée par une loi gaussienne sur R. Le modèle statistique qui lui est associé est R n,{n (m,σ 2 ) n } m R,σ>0. L objectif est de construire des tests sur la valeur des paramètres de la loi dont l observation (x 1,,x n ) est issue. Dans la suite de cette section, on note P m,σ = N (m,σ 2 ) n pour m R et σ > 0, et X =(X 1,,X n ) P m,σ. Test de Student On veut construire un test pur de niveau α ]0,1[ dans le problème de test unilatère : H 0 : m m 1 contre H 1 : m < m 1, avec m 1 un réel fixé. En notant comme d habitude, pour une suite de réels u =(u 1,,u n ) : ū n = 1 n n i=1 une région de rejet naturelle pour ce problème de test est de la forme {u R n :ū n s} avec s un seuil à préciser, car H 0 est rejetée lorsque la moyenne u i,

7.2. TESTS SUR LES PARAMÈTRES D UN ÉCHANTILLON 89 des observations prend une valeur anormalement petite. Cependant, une telle région de rejet n est pas utilisable car la loi de la statistique X n, en l occurence N (m/n,σ 2 /n), fait intervenir les paramètres inconnus m et σ. On adapte la construction du test à cette contrainte : si t est le quantile d ordre α de la loi T n 1, alors sous H 0 i.e. m m 1 : P m,σ X n m 1 +t S n(x) P m,σ X n m +t S n(x), n n et donc d après le théorème de Fisher (Théorème 7.1.2), P m,σ X n m 1 +t S n(x) n X n m P m,σ n S n (X) t = α, avec égalité lorsque m = m 1. Ainsi, si s n (u) 2 = 1 n 1 n i=1 (u i ū n ) 2, pour la suite de réels u =(u 1,,u n ), le test pur de région de rejet R Student = u R n :ū n m 1 +t s n(u) n, appelé test de Student, est de niveau α. La procédure de décision consiste donc à rejeter H 0 au niveau α lorsque (x 1,,x n ) R Student. Test de Fisher On veut construire un test pur de niveau α ]0,1[ dans le problème de test unilatère de H 0 : σ σ 1 contre H 1 : σ < σ 1, avec σ 1 > 0 fixé. Une région de rejet naturelle pour ce problème de test est de la forme {u R n : s n (u) s} avec s un seuil à préciser, car H 0 est rejetée lorsque la variance empirique prend une valeur anormalement faible. Soit χ le quantile d ordre α de la loi χ 2 n 1. Sous H 0 i.e. σ σ 1 : P m,σ S 2 n(x) χ n 1 σ 1 2 P m,σ Sn(X) 2 χ n 1 σ 2.

90 CHAPITRE 7. STATISTIQUE DES ÉCHANTILLONS GAUSSIENS D après le théorème de Fisher (Théorème 7.1.2), P m,σ Sn(X) 2 χ n 1 σ 1 2 P m,σ (n 1) S2 n(x) σ 2 χ = α, avec égalité lorsque σ = σ 1. Le test de Fisher est le test pur de région de rejet R Fisher = u R n : s 2 n(u) < χ n 1 σ 1 2. Ce test est de niveau α, et la procédure de décision consiste à rejeter H 0 au niveau α lorsque (x 1,,x n ) R Fisher. 7.3 Test d égalité des moyennes Soient k jeux indépendants x (1),,x (k) d observations réelles et indépendantes, chaque jeu d observation x (i) étant issu de la répétition n i fois d une même loi gaussienne sur R. Supposons que le modèle associé à ces observations vérifie l hypothèse d homoscédasticité, i.e. les variances des k jeux d observations sont les mêmes. L objectif de cette section est de construire un test portant sur l égalité des moyennes dans ces jeux d observations. Dans la suite, chaque vecteur sera implicitement représenté sous la forme d un vecteur colonne ; en particulier, un échantillon de taille n sera un vecteur colonne de R n. Modèle statistique Le modèle statistique décrivant l expérience ci-dessus est un exemple de modèle linéaire gaussien : R n, N (m 1,σ 2 ) n 1 N(m k,σ 2 ) n k m 1,,m k R,σ>0,. Le modèle linéaire gaussien représente une expérience dont l observation de R n est la somme d un effet moyen et d un bruit gaussien. Il s écrit sous la forme : R n,{n n (µ,σ 2 Id)} µ F,σ>0, avec F un sous-espace vectoriel de R n. En général, ce modèle est écrit sous la forme équivalente X = µ + ε, avec µ F, σ > 0 et ε N n (0,σ 2 Id).

7.3. TEST D ÉGALITÉ DES MOYENNES 91 si n = n 1 + + n k. Nous allons en donner une formulation probabiliste plus habituelle. Soient n 0 = 0 et, pour tout i = 1,,k, I i = n 1 + +n i e j, j=n 1 + +n i 1 +1 où e j est le j-ème vecteur de la base canonique de R n. Si m 1,,m k R, notons alors µ = k i=1 m i I i, et X (1),,X (k) des échantillons gaussiens indépendants, de lois respectives N (m 1,σ 2 ) n 1,,N (m k,σ 2 ) n k, avec σ > 0. Chaque échantillon X (i) étant par convention identifié à un vecteur colonne de R n i, le vecteur aléatoire X de R n défini par X = X (1). X (k) suit donc une loi N n (µ,σ 2 Id). Si E est l espace vectoriel engendré par les vecteurs I 1,,I k, on trouve la représentation probabiliste suivante du modèle statistique considéré : X = µ + ε, avec ε N n (0,σ 2 Id), pour µ E et σ > 0. Problème de test Le problème de test portant sur l égalité des moyennes des jeux d observations x (1),,x (k) se formule ainsi : H 0 : m 1 = = m k contre H 1 : il existe i = j tel que m i = m j. Notons V l espace vectoriel de dimension 1 engendré par le vecteur (1 1) de R n. Avec cette écriture, le problème de test ci-dessus s écrit de manière équivalente : H 0 : µ V contre H 1 : µ E \V. La construction du test s appuie sur cette formulation vectorielle du problème de test.

92 CHAPITRE 7. STATISTIQUE DES ÉCHANTILLONS GAUSSIENS Test d égalité des moyennes Dans la suite, u F désigne la projection orthogonale de u R n sur le sousespace vectoriel F de R n. Pour le problème de test de H 0 contre H 1, une région de rejet naturelle est de la forme {u R n : u E u V s} avec s un seuil à préciser, car H 0 est rejetée lorsque les projections orthogonales de x = x (1). x (k) sur E et V sont significativement différentes, chaque observation x (i) étant par convention identifiée à un vecteur colonne de R n i. Le calcul du seuil s est basé sur la loi de la statistique X E X V sous H 0. Par linéarité de la projection orthogonale, X E = µ + ε E car µ E. De plus, sous H 0, X V = µ + ε V car µ V d où X E X V = ε E ε V. Le théorème de Cochran (Théorème 7.1.1) appliqué au vecteur gaussien ε donne, sous H 0 : X E X V 2 σ 2 χ 2 k 1. Il n est donc pas possible d utiliser directement ce test car la loi sous H 0 de la statistique X E X V dépend de la quantité inconnue σ. Adaptons la construction du test défini ci-dessus à cette contrainte. Comme X X E = ε ε E, le théorème de Cochran appliqué au vecteur gaussien ε montre que X X E 2 σ 2 χ 2 n k. Sous H 0, le théorème de Cochran appliqué au vecteur gaussien ε montre de plus que X X E = ε ε E est indépendant de X E X V = ε E ε V. Notons alors, pour u R n : F(u)= u E u H 2 /(k 1) u u E 2 (n k). Sous H 0, la statistique F(X) suit donc une loi de Fisher : F(X) F(k 1,n k).

7.4. RÉGRESSION LINÉAIRE MULTIPLE 93 Reprenant l idée de la région de rejet définie plus haut, on note R moy = u R n : F(u) f, avec f le quantile d ordre (1 α) de la loi F(k 1,n k). Si P µ,σ désigne la loi de X, sous H 0, P µ,σ Rmoy = Pµ,σ F(X) f = α. Par suite, R moy définit un test pur de niveau α dans le problème de test de H 0 contre H 1. La procédure de décision consiste à rejeter H 0 au niveau α si x R moy. 7.4 Régression linéaire multiple Pour motiver le modèle de régression linéaire multiple, considérons le cas d une observation (x 1,,x n ), chaque x i représentant la consommation de l individu i = 1,,n. En première approximation, cette quantité est influencée par de nombreuses causes comme par exemple, l âge de l individu, sa catégorie socio-professionnelle, le cours du pétrole... et, pourquoi pas, la température sur la planète Krypton. Dans ce contexte, chaque x i est la somme d une combinaison linéaire de paramètres influents connus, appelés régresseurs, et de perturbations non observables que l on résume par des variables aléatoires réelles gausiennes. Modèle statistique De manière générale, il s agit de modéliser une expérience dont chaque observation est influencée par des régresseurs, représentés par k vecteurs de R n connus notés R 1,,R k. On impose l hypothèse d homoscédasticité du modèle selon laquelle la matrice de variance de la loi dont l observation est issue est proportionnelle à la matrice identité. En désignant par R =(R 1 R k ) la matrice des régresseurs de format n k, le modèle statistique admet la formulation suivante : X = Rθ + ε,. La convention de la section précédente est adoptée : tout vecteur est implicitement représenté comme un vecteur colonne ; en particulier, un échantillon ou une observation de taille n est un vecteur colonne de R n.

94 CHAPITRE 7. STATISTIQUE DES ÉCHANTILLONS GAUSSIENS avec ε N n (0,σ 2 Id), θ R k et σ > 0. Il s agit à nouveau (cf section 7.3) d un cas particulier de modèle linéaire gaussien. En réduisant au besoin leur nombre, on peut toujours considérer que les régresseurs sont linéairement indépendants et que, par conséquent, la matrice des régresseurs R est de rang k. Estimation des paramètres Dans ce qui suit, E désigne l espace vectoriel engendré par les vecteurs R 1,,R k. Puisque X E est dans E, il s écrit X E = R ˆθ avec ˆθ un estimateur de θ. On peut décrire explicitement ˆθ en remarquant que, comme X R ˆθ est dans l orthogonal de E, pour tout u R k : Ru,X R ˆθ = 0. Par suite, u,r X R R ˆθ = 0 pour tout u R k et donc R X = R R ˆθ. Puisque R est de rang plein, la matrice R R est inversible, d où ˆθ =(R R) 1 R X. L estimateur ˆθ est sans biais car, si E θ,σ désigne l espérance sous la loi de X : E θ,σ ˆθ = (R R) 1 R E θ,σ X = (R R) 1 R Rθ = θ. Construisons maintenant un estimateur de σ 2. Comme X E = Rθ + ε E, X X E = ε ε E d où X X E 2 σ 2 χn k 2 d après le théorème de Cochran (Théorème 7.1.1). La moyenne de la loi χn k 2 valant n k, l estimateur de σ 2 est donc sans biais. Test de l utilité des régresseurs σˆ 2 = X X E 2 n k

7.4. RÉGRESSION LINÉAIRE MULTIPLE 95 Reprenons le problème de modélisation du début de la section : x i, qui représente alors la consommation de l individu i = 1,,n, est influencé par son âge, sa catégorie socio-professionnelle, le cours du pétrole,... et la température sur la planète Krypton. En fait, l influence de la planète Krypton sur la consommation peut l égitimement être contestée... Dans le cadre d une modélisation trop complète, tous les régresseurs n ont pas la même influence, et certains n ont qu une contribution mineure. Nous allons construire un test dans le but de supprimer ces régresseurs à l influence réduite. Pour q = 0,,k 1, on veut tester l utilité des (k q) derniers régresseurs. Cela nous mène au problème de test suivant : H 0 : i = q + 1,,k : θ i = 0 contre H 1 : i = q + 1,,k : θ i = 0. Sous H 0, la matrice des régresseurs utiles R =(R 1 R q ) est la restriction de R à ses q premiers régresseurs. L effet moyen Rθ se trouve alors dans l espace vectoriel V engendré par R 1,,R q, dont la dimension est q car R 1,,R q sont linéairement indépendants par hypothèse. Avec ces notations, le problème de test se réécrit de la manière suivante : H 0 : Rθ V contre H 1 : Rθ E \V. Le principe de construction d un tel test est de rejeter H 0 lorsque les projections orthogonales de l observation sur E et sur V sont significativement différentes. Selon ce principe, une région de rejet naturelle est de la forme {u R n : u E u V s} avec s un seuil à préciser. Mais la loi de X E X V dépend du paramètre inconnu σ. En effet, sous H 0, X V = Rθ + ε V car Rθ V et donc, d après le théorème de Cochran (Théorème 7.1.1) appliqué au vecteur gaussien ε, X E X V 2 = ε E ε V 2 σ 2 χ 2 k q. Or, le théorème de Cochran montre aussi que sous H 0, le vecteur aléatoire ε E ε V = X E X V est indépendant de ε ε E = X X E. Enfin, X X E 2 σ 2 χ 2 n k. En réunissant ces observations, et en notant pour u Rn : F(u)= u E u V 2 /(k q) u u E 2 /(n k), on trouve F(X) F(k q,n k) sous H 0. Si f désigne le quantile d ordre (1 α) de la loi de Fisher F(k q,n k) alors, sous H 0 : P θ,σ F(X) f = α

96 CHAPITRE 7. STATISTIQUE DES ÉCHANTILLONS GAUSSIENS avec P θ,σ la loi de X. La région de rejet R regress = u R n : F(u) f nous donne donc un test pur de niveau α pour le problème de test de H 0 contre H 1. Pour l observation x R n, la procédure de décision consiste à rejeter H 0 au niveau α si x R regress.