Vecteurs gaussiens On considère Ω, A, P un espace probabilisé. Introduction. Dénitions Rappelons la dénition des variables aléatoires gaussiennes réelles. Dénition Une variable aléatoire réelle Z est dite gaussienne centrée réduite si elle admet pour densité par rapport à la mesure de Lebesgue sur R la fonction : On note Z N 0,. fx = π exp x Une variable aléatoire réelle X est dite gaussienne s'il existe µ, σ R R + et Z N 0, tels que X = µ + σz. La densité de X est alors fx = πσ exp x µ σ On note X N µ, σ. Quand σ = 0, on dit que X est une variable gaussienne dégénérée. Une variable gaussienne est caractérisée par sa fonction caractéristique, donnée par la proposition suivante : Théorème La fonction caractéristique de X N µ, σ est donnée par t R, ϕ X t = exp itµ σ t Preuve : ϕ X se calculer à l'aide de ϕ Z où Z N 0, et on montre que t R, ϕ Z t = tϕ Zt Dénition Un vecteur aléatoire X à valeurs dans R d est dit gaussien si toute combinaison linéaire de ses composantes est une variable aléatoire gaussienne. Si X = t X,..., X d est un vecteur gaussien, on dénit son vecteur moyenne EX par EX = t EX,..., EX d et sa matrice de variance-covariance V arx par V arx = E X EX t X EX
Notons que V arx est symétrique et i, j =... d, V arx i,j = covx i, X j Remarque : Si X,..., X n est un n-échantillon de n gaussienne, alors on a évidemment que X = t X,..., X n est un vecteur gaussien dont la matrice de variance-covariance est proportionnelle à I d.. Propriétés des vecteurs gaussiens Donnons la fonction caractéristique d'un vecteur gaussien et les conséquences importantes qui en découlent. Théorème Soit X = t X,..., X d un vecteur gaussien. On note m = EX et Σ = V arx. On a que X admet pour fonction caractéristique la fonction u R d, ϕ X u = E [ expi t ux ] = expi t um t uσu La de X est donc entièrement déterminée par m et Σ. On note X N m, Σ. Preuve : Il sut de remarquer que u R d, t ux N t um, t uσu. Corollaire Propriété de linéarité Soit X = t X,..., X d un vecteur gaussien. On note m = EX et Σ = V arx. On a pour toute matrice A possédant d colonnes et pour tout vecteur b R d, AX + b N Am + b, AΣ t A Corollaire Propriété pour l'indépendance Soit X = t X,..., X d un vecteur gaussien. Pour tout i, j {,..., d} tel que i j, X i et X j sont indépendantes si et seulement si covx i, X j = 0. Remarque : Les composantes d'un vecteur gaussien sont des variables aléatoires gaussiennes mais la réciproque est fausse. En eet, on considère X N 0, et ε B0.5 indépendante de X. Alors X = X et X = ε X sont des variables gaussiennes mais t X, X n'est pas un vecteur gaussien. Notons que dans cet exemple, covx, X = 0 mais que X et X ne sont pas indépendantes. Proposition 3 Propriété pour l'espérance conditionnelle Soit Y, X,..., X d un vecteur gaussien. Alors EY X,..., X d est une fonction ane de X,..., X d. Preuve : : Soit p F Y la projection de Y sur F = V ect, X,..., X d pour le produit scalaire associé à l'espérance. Donc E [Y p F Y Z] = 0 pour toute variable Z F. Avec Z =, on déduit que E[Y p F Y ] = 0. Puis, pour toute variable Z {X,..., X d }, le vecteur Y p F Y, X,..., X d étant gaussien, 0 = E [Y p F Y Z] = covy p F Y, Z montre que Y p F Y et Z sont indépendantes. Donc Y p F Y est indépendante de toute fonction de X,..., X d et p F Y = EY X,..., X d. A l'aide de la fonction caractéristique, on démontre le Théorème Centrale Limite Vectoriel.
Théorème 4 Théorème Central Limite Vectoriel Soient X,..., X n des vecteurs aléatoires de R d i.i.d. admettant un moment d'ordre. On note m leur espérance et Γ leur matrice de variance-covariance. Alors, n Xn m n + N 0, Γ Preuve : On calcule pour tout n la fonction caractéristique de Z n = nx n m : u R d, ϕ Zn u = E [ expi t uz n ] On a par le Théorème Central Limite que t uz n u R d, N 0, t uγu. Donc n + ϕ Zn u n + exp t uγu Théorème 5 Soit X = t X,..., X d un vecteur gaussien. On note m = EX et Σ = V arx. X admet une densité f par rapport à la mesure de Lebesgue sur R d si et seulement si detσ 0. Si detσ = 0, la de X m est presque sûrement portée par un espace vectoriel engendré par les vecteurs propres associés aux valeurs propres non nulles de Σ. Si detσ 0, x R d, fx = d exp π detσ t x mσ x m Preuve : La matrice Σ est symétrique. Donc il existe U une matrice orthogonale composée des vecteurs propres de Σ notés u, u,..., u d et il existe λ λ... λ r > 0 si r = rgσ d tels que λ... Σ = UΓ t λ U avec Γ = r 0... Si detσ = 0, on a r < d. Pour i {r +,..., d}, E [ t u i X m ] = t u i Σu i = 0. Donc t u i X m = 0 p.s. et X m prend ses valeurs dans V ectu,..., u r qui est de mesure de Lebesgue nulle dans R d. Si detσ 0, U Γ est inversible. On pose Y N 0, I d. Alors U ΓY + m X. Pour toute fonction g continue bornée, EgX = EgU ΓY + m = gu d Γy + m exp y dy R d π d t x mσ x m = gx exp dx R d π detσ 3 0
4 Théorème de Cochran, s du χ et de Student Dans tout ce paragraphe, nous nous placerons dans R d muni du produit scalaire euclidien et on notera. la norme euclidienne dans R d. Proposition-Dénition 6 Soit X un vecteur gaussien de R d tel que EX = m et V arx = I d. La de X ne dépend que de d et m. On note X χ d, m et on dit que X suit une du χ qui est décentrée si m = 0. L'entier d est le nombre de degrés de liberté, m est le paramètre de décentrage. Lorsque m = 0, on note plus simplement X χ d. Preuve : Soit Y R d tel que Y N m, I d avec m = m. Il existe U matrice orthogonale telle que m = Um. Donc UY N m, I d X et Y = UY X Proposition 7 Si Z d χ d, on montre que la densité de Z d est la fonction f telle que x R, fx = exp x d Γ d x d R +x avec On a : Voici le résultat principal : a > 0, Γa = EZ d = d, + 0 e x x a dx V arz d = d Théorème 8 de Cochran Soit E... E r une décomposition de R d en sous-espaces deux à deux orthogonaux de dimensions respectives d,..., d r. Si X N m, I d, les vecteurs aléatoires X E,..., X Er, projections orthogonales de X sur E,..., E r sont indépendants, les variables aléatoires X E,..., X Er sont indépendantes et t X E,..., X Er t χ d, m E,..., χ d r, m Er où m E,..., m Er sont les projections de m sur E,..., E r.
5 Preuve : Soit e j,..., e jdj une base orthonormée de E j. On a j =... d, X Ej = e t jk e jk X Les variables t e jk X sont indépendantes de la N t e jk m, donc les vecteurs aléatoires X E,..., X E,d sont indépendants. Pour achever la preuve, il sut alors de remarquer que d j k= j =... d, X Ej = t e jk X d j k= Voici une application importante du théorème de Cochran : Proposition 9 Soit X = X,..., X n un n-échantillon de N µ, σ. Prenons les estimateurs suivants pour l'estimation de µ et σ : Alors, on a : X n = n X i, S n = n X i X n X n et Sn sont des variables aléatoires indépendantes. Les s de ces variables sont explicites : X n N µ, σ n, ns n σ χ n Preuve : On pose pour tout i =... n, Y i = X i m. On a alors que Y,..., Y n est un n- σ échantillon de N 0,. On pose ensuite e = t,..., et E = V ecte. On a alors R n = E E Les projections de Y = t Y,..., Y n sur E et E, Y E et Y E On a Y E = n Y n Y i e, Y E =. Y n n σ X n µ e = Y E, sont indépendantes et valent Y i Y i ns n σ = Y E Ce résultat nous permet de construire des intervalles de conance pour l'estimation de µ et σ à l'aide de la dénition suivante.
Dénition 3 Si X et Y sont deux variables aléatoires indépendantes telles que X N µ,, Y χ d, Alors, la de la variable Z = X Y d est appelée de Student décentrée si µ 0 à d degrés de liberté. On note Z td, µ Si le paramètre de décentrage µ est nul, on note plus simplement Z td Proposition 0 Si Z d td, on montre que la densité de Z d est la fonction f telle que avec Pour d >, on a Pour d >, on a On a également x R, fx = a > 0, Γa = d + Γ d dπγ + 0 EZ d = 0 V arz d = d d d+ + x d e x x a dx Z d Z avec Z N 0, n + Comme la de Normale, la de Student est symétrique mais ses queues sont plus épaisses que celles de la normale. On déduit de la dénition précédente que σ nx n µ σ nsn n = X n µ Sn n tn En notant t le quantile d'ordre n, α α pour la tn et c n, α le quantile d'ordre α pour la χ n, un intervalle de conance de niveau de conance exactement égal à α pour µ est I n,α = [ X n t n, α Sn n, X n + t n, α Sn n et un intervalle de conance de niveau de conance exactement égal à α pour σ est : J n,σ = [ [ nsn, + n n, α On déduit de ces intervalles de conance les tests de taille α de µ = µ 0 conte µ µ 0 et de σ = σ 0 contre σ < σ 0. Remarquons que l'on obtient une région de conance de niveau de conance α pour l'estimation de θ = µ, σ en considérant I n,σ J n,σ. 6 ]
7 3 Test d'ajustement du χ Dans cette partie, on considère une variable aléatoire discrète X à valeurs dans {a,..., a d }. On se donne d réels strictement positifs p,..., p d tels que p +... + p d = et on désire tester H 0 : i {,..., d}, PX = a i = p i contre H : i {,..., d}, PX = a i p i Pour cela, on dispose d'un n-échantillon X,..., X n de même que X. On utilise la méthode des moments pour estimer p i et on note i {,..., d}, N ni = j= Xj =a i, p i = N ni n Sous H 0, pour tout i {,... d}, p i est un estimateur fortement consistant et sans biais de p i. Donc si H 0 est vraie, il y a tout lieu de penser que p = t p,..., p d sera "proche" de p = t p,..., p d. Comment mesurer la distance entre p et p? On introduit la pseudo-distance du χ entre p et p : D n p, p = n d p i p i Lorsque n est grand, sa limite est connue et surtout indépendante de p, ce qui va nous permettre de résoudre notre problème de test. On a en eet le théorème suivant : Théorème Sous H 0, Sous H, D n p, p D n p, p p i n + χ d p.s. n + + Preuve : On pose j {,... n}, Z j = t Xj =a i p,..., p Par le Théorème Central Limite Vectoriel, on a avec p = t p,..., p d. Donc Z j n j= n + N 0, I d p t p pd Xj =a i p d. n t p p,..., p d p d N 0, I d p t p p pd n + En utilisant la fonction continue f dénie par x = t x,..., x d, fx = x = d j= x j, on obtient D n p, p n + fv
8 où V est une variable aléatoire telle que V N 0, I d p t p et qui a donc même que la projection de W N 0, I d sur V ect p. Donc fv χ d Pour tester H 0 contre H, on considère donc le test asymptotique de taille α ϕx,..., X n = D n p,p>c d, α où c d, α est le quantile d'ordre α de la χ d. Remarquons que la puissance du test tend vers quand n +. Remarque : L'approximation par la limite est correcte si pour tout i {,..., d}, np i 5. Si ce n'est pas le cas, il faut eectuer un regroupement par classes. Remarque : On peut utiliser ce test lorsque la de X est continue. SI X est à valeurs dans Ω, on construit une partition nie de Ω et on applique ce qui précède. Tout le problème porte sur le choix de cette partition. Un exemple : Pour tester sa théorie génétique, Mendel croisa des pois tous jaunes et lisses et obtint à la première génération des pois jaunes ou verts et lisses ou ridés. Plus précisément, il obtint 35 pois jaunes et lisses, 08 pois verts et lisses, 0 pois jaunes et ridés et 3 pois verts et ridés. Est-ce que ces observations conrment ou inrment la théorie mendélienne? Sous cette approche, la proportion p de chacune des 4 classes précédentes est 9 p = t 6, 3 On teste donc 9 H 0 : p = t 6, 3 6, 3 6, 6 contre 9 H : p t 6, 3 6, 3 6, 6 On a c 3,0.95 = 7.85. Comme sous H 0, D556 p, p = 0.47, on accepte H 0. 6, 3 6, 6.