STATISTIQUE : TESTS D HYPOTHESES

STATISTIQUE : TESTS D HYPOTHESES Préparatio à l Agrégatio Bordeaux Aée 0-03 Jea-Jacques Ruch

Table des Matières Chapitre I. Gééralités sur les tests 5. Itroductio 5. Pricipe des tests 6.a. Méthodologie 6.b. Hypothèse ulle - hypothèse alterative 6.c. Statistique et iveau de sigificatio 6 3. Risques d erreur 7 4. Puissace d u test 8 Chapitre II. Test paramétriques 9. Test de la moyee 9.a. Variace coue 9.b. Variace icoue 9. Test de la variace 0.a. Moyee coue 0.b. Moyee icoue 0 3. Test de la fréquece 4. Test de comparaiso de deux moyees 4.a. Variace coue 4.b. Variace icoue 5. Test de comparaiso de deux variaces 3 6. Test de comparaiso de deux proportios 3 Chapitre III. Test du χ 5. Costructio du test 5. Première applicatio : test d ajustemet (loi discrète) 7 3. Deuxième applicatio : test d ajustemet (loi cotiue) 8 4. Troisième applicatio : test d ajustemet (famille de lois) 8 5. Quatrième applicatio : test d idépedace 8 Chapitre IV. Foctio de répartitio empirique 9. Itroductio 9. Théorème de Gliveko-Catelli 0 3. Test de Kolmogorov 4. Test de Kolmogorov-Smirov

CHAPITRE I Gééralités sur les tests. Itroductio U test d hypothèse est u procédé d iférece permettat de cotrôler (accepter ou rejeter) à partir de l étude d u ou plusieurs échatillos aléatoires, la validité d hypothèses relatives à ue ou plusieurs populatios. Les méthodes de l iférece statistique ous permettet de détermier, avec ue probabilité doée, si les différeces costatées au iveau des échatillos peuvet être imputables au hasard ou si elles sot suffisammet importates pour sigifier que les échatillos provieet de populatios vraisemblablemet différetes. O distiguera deux classes de tests : - Les tests paramétriques requieret u modèle à fortes cotraites (ormalité des distributios ou approximatio ormale pour des grads échatillos). Ces hypothèses sot d autat plus difficiles à vérifier que les effectifs étudiés sot plus réduits. - Les tests o paramétriques sot des tests dot le modèle e précise pas les coditios que doivet remplir les paramètres de la populatio dot a été extrait l échatillo. Il y a pas d hypothèse de ormalité au préalable. Les tests paramétriques, quad leurs coditios sot remplies, sot les plus puissats que les tests o paramétriques. Les tests o paramétriques s emploiet lorsque les coditios d applicatios des autres méthodes e sot pas satisfaites, même après d évetuelles trasformatio de variables. Ils peuvet s utiliser même pour des échatillos de taille très faible. O ditigue les tests suivat : - Le test de coformité cosiste à cofroter u paramètre calculé sur l échatillo à ue valeur pré-établie. Les plus cous sot certaiemet les tests portat sur la moyee, la variace ou sur les proportios. O coaît la loi théorique e gééral la loi ormale. Par exemple, das u jeu de dés à 6 faces, o sait que la face 3 a ue probabilité de /6 d apparaître. O demade à u joueur de lacer (sas précautios particulières) 00 fois le dé, o teste alors si la fréquece d apparitio de la face 3 est compatible avec la probabilité /6. Si ce est pas le cas, o peut se poser des questios sur l itégrité du dé. - Le test d ajustemet ou d adéquatio cosiste à vérifier la compatibilité des doées avec ue distributio choisie a priori. Le test le plus utilisé das cette optique est le test d ajustemet à la loi ormale, qui permet esuite d appliquer u test paramétrique. - Le test d homogééité ou de comparaiso cosiste à vérifier que K(K ) échatillos (groupes) provieet de la même populatio ou, cela reviet à la même chose, que la distributio de la variable d itérêt est la même das les K échatillos. Y a-t-il ue différece etre le taux de glucose moye mesuré pour deux échatillos d idividus ayat reçu des traitemets différets? - Le test d idépedace ou d associatio cosiste à éprouver l existece d ue liaiso etre variables. Les techiques utilisées diffèret selo que les variables sot qualitatives omiales, ordiales ou quatitatives. Est-ce que la distributio de la couleur des yeux observée das la populatio fraçaise fréqueces est idépedate du sexe des idividus?

6 Chapitre I. Gééralités sur les tests.a. Méthodologie.. Pricipe des tests Le pricipe des tests d hypothèse est de poser ue hypothèse de travail et de prédire les coséqueces de cette hypothèse pour la populatio ou l échatillo. O compare ces prédictios avec les observatios et l o coclut e acceptat ou e rejetat l hypothèse de travail à partir de règles de décisios objectives. Défiir les hypothèses de travail, costitue u élémet essetiel des tests d hypothèses de même que vérifier les coditios d applicatio de ces derières. Différetes étapes doivet être suivies pour tester ue hypothèse : () défiir l hypothèse ulle, otée H 0, à cotrôler ; () choisir ue statistique pour cotrôler H 0 ; (3) défiir la distributio de la statistique sous l hypothèse «H 0 est réalisée» ; (4) défiir le iveau de sigificatio du test α et la régio critique associée ; (5) calculer, à partir des doées fouries par l échatillo, la valeur de la statistique ; (6) predre ue décisio cocerat l hypothèse posée..b. Hypothèse ulle - hypothèse alterative. L hypothèse ulle otée H 0 est l hypothèse que l o désire cotrôler : elle cosiste à dire qu il existe pas de différece etre les paramètres comparés ou que la différece observée est pas sigificative et est due aux fluctuatios d échatilloage. Cette hypothèse est formulée das le but d être rejetée. L hypothèse alterative otée H est la "égatio" de H 0, elle est équivalete à dire «H 0 est fausse». La décisio de rejeter H 0 sigifie que H est réalisée ou H est vraie. Remarque : Il existe ue dissymétrie importate das les coclusios des tests. E effet, la décisio d accepter H 0 est pas équivalete à «H 0 est vraie et H est fausse». Cela traduit seulemet l opiio selo laquelle, il y a pas d évidece ette pour que H 0 soit fausse. U test coduit à rejeter ou à e pas rejeter ue hypothèse ulle jamais à l accepter d emblée. La ature de H 0 détermie la faço de formuler H et par coséquet la ature uilatérale ou bilatérale du test. O parle de test bilatéral lorsque l hypothèse alterative se "décompose e deux parties". Par exemple si H 0 cosiste à dire que la populatio estudiatie avec ue fréquece de fumeurs p est représetative de la populatio globale avec ue fréquece de fumeurs p 0, o pose alors : H 0 : p = p 0 et H : p p 0. Le test sera bilatéral car o cosidère que la fréquece p peut être supérieure ou iférieure à la fréquece p 0. O parle de test uilatéral lorsque l hypothèse alterative se "compose d ue seule partie". Par exemple si l o fait l hypothèse que la fréquece de fumeurs das la populatio estudiatie p est supérieure à la fréquece de fumeurs das la populatio p 0, o pose alors H 0 : p = p 0 et H : p > p 0. Le test sera uilatéral car o cosidère que la fréquece p e peut être que supérieure à la fréquece p 0. Il aurait été possible égalemet d avoir : H 0 : p = p 0 et H : p < p 0.c. Statistique et iveau de sigificatio. Ue statistique est ue foctio des variables aléatoires représetat l échatillo. Le choix de la statistique déped de la ature des doées, du type d hypothèse que l o désire cotrôler, des affirmatios que l o peut admettre cocerat la ature des populatios étudiées.... La valeur umérique de la statistique obteue pour l échatillo cosidéré permet de distiguer etre H 0 vraie et H 0 fausse. Coaissat la loi de probabilité suivie par la statistique S sous l hypothèse H 0, il est possible d établir ue valeur seuil, S seuil de la statistique pour ue probabilité doée appelée le iveau de sigificatio α du test. La régio critique R c = f(s seuil ) correspod à l esemble des valeurs telles que : P(S R c ) = α. Selo la ature uilatérale ou bilatérale du test, la défiitio de la régio critique varie. Test Uilatéral Bilatéral H 0 : t = t 0 H 0 : t = t 0 Hypothèse alterative H : t > t 0 H : t < t 0 H : t t 0 Niveau de sigificatio P(S > S seuil ) = α P(S < S seuil ) = α P( S > S seuil ) = α

3. Risques d erreur 7 Il existe deux stratégies pour predre ue décisio e ce qui cocere u test d hypothèse : la première stratégie fixe à priori la valeur du seuil de sigificatio α et la secode établit la valeur de la probabilité critique α obs à posteriori. Règle de décisio : Sous l hypothèse «H 0 est vraie» et pour u seuil de sigificatio α fixé - si la valeur de la statistique S obs calculée appartiet à la régio critique alors l hypothèse H 0 est rejetée au risque d erreur α et l hypothèse H est acceptée ; - si la valeur de la statistique S obs appartiet pas à la régio critique alors l hypothèse H 0 e peut être rejetée. Remarque : Le choix du iveau de sigificatio ou risque α est lié aux coséqueces pratiques de la décisio ; e gééral o choisira α = 0, 05, 0, 0 ou 0, 00. Règle de décisio : La probabilité critique α telle que P (S S obs ) = α obs est évaluée - si α obs α l hypothèse H 0 est acceptée car le risque d erreur de rejeter H 0 alors qu elle est vrai est trop importat ; - si α obs < α l hypothèse H 0 est rejetée car le risque d erreur de rejeter H 0 alors qu elle est vrai est très faible. 3. Risques d erreur Défiitio. O appelle risque d erreur de première espèce la probabilité de rejeter H 0 et d accepter H alors que H 0 est vraie. Ceci se produit si la valeur de la statistique de test tombe das la régio de rejet alors que l hypothèse H 0 est vraie. La probabilité de cet évèemet est le iveau de sigifiatio α. O dit aussi que le iveau de sigificatio est la probabilité de rejeter l hypothèse ulle à tort. Remarque : La valeur du risque α doit être fixée a priori par l expérimetateur et jamais e foctio des doées. C est u compromis etre le risque de coclure à tort et la faculté de coclure. La régio critique dimiue lorsque α décroît (voir itervalle de cofiace) et doc o rejette mois fréquemmet H 0. A vouloir commettre mois d erreurs, o coclut plus raremet. Exemple : Si l o cherche à tester l hypothèse qu ue pièce de moaie est pas «truquée», ous allos adopter la règle de décisio suivate : H 0 : la pièce est pas truquée est acceptée si X [40, 60] rejetée si X [40, 60] doc soit X < 40 ou X > 60 avec X «ombre de faces» obteus e laçat 00 fois la pièce. Le risque d erreur de première espèce est α = P(B(00, /) [40, 60]). Défiitio. O appelle risque d erreur de secode espèce, otée β la probabilité de rejeter H et d accepter H 0 alors que H est vraie. Ceci se produit si la valeur de la statistique de test e tombe pas das la régio de rejet alors que l hypothèse H est vraie. Remarque : : Pour quatifier le risque β, il faut coaître la loi de probabilité de la statistique sous l hypothèse H. Exemple : Si l o repred l exemple précédet de la pièce de moaie, et que l o suppose la probabilité d obteir face est de 0, 6 pour ue pièce truquée. E adoptat toujours la même règle de décisio : H 0 : la pièce est pas truquée

8 Chapitre I. Gééralités sur les tests est acceptée si X [40, 60] rejetée si X [40, 60] doc soit X < 40 ou X > 60 avec X «ombre de faces» obteues e laçat 00 fois la pièce. Le risque de secode espèce est β = P(B(00, 0, 6) [40, 60]). 4. Puissace d u test Rappelos que les tests e sot pas faits pour «démotrer» H 0 mais pour «rejeter» H 0. L aptitude d u test à rejeter H 0 alors qu elle est fausse costitue la puissace du test. Défiitio 3. O appelle puissace d u test, la probabilité de rejeter H 0 et d accepter H alors que H est vraie. Sa valeur est β La puissace d u test est foctio de la ature de H, u test uilatéral est plus puissat qu u test bilatéral. Elle augmete avec taille de l échatillo N étudié, et dimiue lorsque α dimiue. La robustesse d ue techique statistique représete sa sesibilité à des écarts aux hypothèses faites. Les différetes situatios que l o peut recotrer das le cadre des tests d hypothèse sot résumées das le tableau suivat : Décisio Réalité H 0 vraie H vraie H 0 acceptée correct maque de puissace risque de secode espèce β H acceptée rejet à tort puissace du test risque de premières espèce α β O peut aussi voir cela sur le graphique suivat :

CHAPITRE II Test paramétriques O suppose das ce chapitre que les échatillos sot issus d ue loi ormale ou peuvet être approximés par ue loi ormale.. Test de la moyee.a. Variace coue. O suppose que l o a u échatillo qui suit ue loi ormale N (µ, σ ) ou la variace est coue. O veut tester H 0 : µ = µ 0 cotre H : µ µ 0, c est le cas bilatéral. Sous l hypothèse H 0 la variable aléatoire X = k= X k suit ue loi N (µ 0, σ /) et par coséquet la statistique suit ue loi ormale cetrée réduite. Pour u risque d erreur α fixé o a doc Z = X µ 0 σ / P( Z q α/ ) = α avec q α/ le quatile d ordre α/ de la loi N (0, ) ; et doc la régio de rejet est ], q α/ [ ]q α/, + [ O calcule alors pour les valeurs de l échatillo Z et o accepte ou o rejette H 0 suivat la valeur trouvée, au risque α Si o cosidère u test uilatéral et ue hypothèse alterative H : µ > µ 0 par exemple, o obtiet pour u risque d erreur α P(Z q α ) = α avec q α le quatile d ordre α de la loi N (0, ) ; et doc la régio de rejet est ]q α, + [.b. Variace icoue. O suppose que l o a u échatillo qui suit ue loi ormale N (µ, σ ) ou la variace est maiteat icoue. O veut tester H 0 : µ = µ 0 cotre H : µ µ 0, das le cas bilatéral. Sous l hypothèse H 0 la variable aléatoire X = k= X k suit ue loi N (µ 0, σ /). Comme la variace est icoue, o l estime par la variace empirique : S = (X k X ). O a déjà vu qu alors la variable k= T = X µ 0 S / suit ue de Studet à degrés de liberté. Pour u risque d erreur α fixé o a doc P( T t α/ ) = α

0 Chapitre II. Test paramétriques avec t α/ le quatile d ordre α/ de la loi de Studet à degrés de liberté ; et doc la régio de rejet est ], t α/ [ ]t α/, + [ O calcule alors pour les valeurs de l échatillo T et o accepte ou o rejette H 0 suivat la valeur trouvée, au risque α.a. Moyee coue.. Test de la variace O suppose que l o a u échatillo qui suit ue loi ormale N (µ, σ ) où la moyee est coue. O veut tester H 0 : σ = σ0 cotre H : σ σ0. Sous l hypothèse H 0 la statistique V = S ( ) Xk µ σ0 = σ 0 suit ue loi du χ à degrés de libertés. Pour u risque d erreur α fixé o a doc (e choisissat u itervalle symétrique) : ( P χ α/ () S σ 0 k= χ α/ () ) = α avec χ α/ () et χ α/ () les quatiles d ordre α/ et α/ de la loi χ (). Doc la régio de rejet est [0, χ α/ ()[ ]χ α/ (), + [ O calcule alors pour les valeurs de l échatillo, V, et o accepte ou o rejette au risque α H 0 suivat la valeur trouvée. Si o a ue hypothèse alterative H : σ > σ0 o fera u test uilatéral, et obtiet au risque α ) (S P σ χ α() = α avec χ α() le quatile d ordre α de la loi χ (). Doc la régio de rejet est ]χ α(), + [.b. Moyee icoue. O suppose que l o a u échatillo qui suit ue loi ormale N (µ, σ ) où la moyee est icoue. O veut tester H 0 : σ = σ0 cotre H : σ σ0. Sous l hypothèse H 0 la statistique V = S ( ) Xk X σ0 = σ 0 suit ue loi du χ à degrés de libertés. Pour u risque d erreur α fixé o a doc (e choisissat u itervalle symétrique) : ( P χ α/ ( ) S σ 0 k= χ α/ ( ) ) = α avec χ α/ ( ) et χ α/ ( ) les quatiles d ordre α/ et α/ de la loi χ ( ). Doc la régio de rejet est [0, χ α/ ( )[ ]χ α/ ( ), + [ O calcule alors pour les valeurs de l échatillo, V, et o accepte ou o rejette au risque α H 0 suivat la valeur trouvée.

4. Test de comparaiso de deux moyees 3. Test de la fréquece Le modèle mathématique est le suivat. O dispose d ue populatio das laquelle chaque idividu présete ou o u certai caractère, la proportio d idividus présetat le caracère état otée p, et u échatillo aléatoire de taille extrait de cette populatio. La proportio f calculée à partir de l échatillo est cosidérée comme ue réalisatio d ue v.a. de loi biomiale B(, p) qu o peut assimiler, si est assez grad, à ue loi ormale N (p, p( p)/ ). O veut tester H 0 : p = p 0 cotre H : p p 0, das le cas bilatéral. O obtiet la régio de rejet pour u risque α ] [ ] [ p0 ( p 0 ) p0 ( p 0 ), p 0 q α/ p 0 + q α/, + avec q α/ le quatile d ordre α/ de la loi N (0, ). 4. Test de comparaiso de deux moyees Si les deux échatillos o la même taille = =. Le test se ramèe à ue test à ue moyee ulle de l échatillo (Z,..., Z ), avec Z i = X i Y i. 4.a. Variace coue. O suppose que l o a deux échatillos (X,..., X ) et (Y,..., Y )qui suivet ue loi ormale N (µ, σ ) et N (µ, σ ) où les variaces sot coues. O veut tester H 0 : µ = µ cotre H : µ µ, c est la cas bilatéral. Sous l hypothèse H 0 la variable aléatoire X = k= X k suit ue loi N (µ, σ/ ) et la variable aléatoire Y = k= Y k suit ue loi N (µ, σ/ ), par coséquet la statistique suit ue loi ormale cetrée réduite. Pour u risque d erreur α fixé o a doc U = X Y σ / + σ / P( U q α/ ) = α avec q α/ le quatile d ordre α/ de la loi N (0, ) ; et doc la régio de rejet est ], q α/ [ ]q α/, + [ O calcule alors pour les valeurs de l échatillo U et o accepte ou o rejette H 0 suivat la valeur trouvée, au risque α Si o cosidère u test uilatéral et ue hypothèse alterative H : µ > µ par exemple, o obtiet pour u risque d erreur α P(Z q α ) = α avec q α le quatile d ordre α de la loi N (0, ) ; et doc la régio de rejet est ]q α, + [ 4.b. Variace icoue. O suppose que l o a que l o a deux échatillos (X,..., X ) et (Y,..., Y )qui suivet ue loi ormale N (µ, σ ) et N (µ, σ ) où les variaces sot icoues. Cas : et supérieurs à 30. O veut tester H 0 : µ = µ cotre H : µ µ, das le cas bilatéral. Sous l hypothèse H 0 la variable aléatoire X Y suit ue loi N (0, σ/ + σ/ ). Comme la variace est icoue, o l estime par la variace empirique corrigée S + S = k= (X k X ) + (Y k Y ). k=

Chapitre II. Test paramétriques Alors la variable aléatoire X Y N = S / + S / peut être approximé par ue loi ormale cetrée réduite. Pour u risque d erreur α fixé o a doc P( N t α/ ) = α avec t α/ le quatile d ordre α/ de la loi ormale cetrée réduite ; et doc la régio de rejet est ], t α/ [ ]t α/, + [ O calcule alors pour les valeurs de l échatillo N et o accepte ou o rejette H 0 suivat la valeur trouvée, au risque α. Cas : ou iférieur à 30 et σ = σ O veut tester H 0 : µ = µ cotre H : µ µ, das le cas bilatéral. Sous l hypothèse H 0 la variable aléatoire X Y suit ue loi N (0, σ/ + σ/ ). Comme la variace est icoue, o l estime par la variace empirique corrigée ( ) S, = (X k X ) + (Y k Y ). + Alors la variable aléatoire k= suit ue de Studet à + degrés de liberté. Pour u risque d erreur α fixé o a doc k= X Y T = S, (/ + / ) P( T t α/ ) = α avec t α/ le quatile d ordre α/ de la loi de Studet à + degrés de liberté ; et doc la régio de rejet est ], t α/ [ ]t α/, + [ O calcule alors pour les valeurs de l échatillo T et o accepte ou o rejette H 0 suivat la valeur trouvée, au risque α Cas 3 : ou iférieur à 30 et σ σ O veut tester H 0 : µ = µ cotre H : µ µ, das le cas bilatéral. Sous l hypothèse H 0 la variable aléatoire X Y suit ue loi N (0, σ/ + σ/ ). Comme la variace est icoue, o l estime par la variace empirique corrigée S + S = (X k X ) + (Y k Y ). Alors la variable aléatoire k= X Y T = S / + S / suit ue de Studet à ν degrés de liberté, où ν est l etier le plus proche de Pour u risque d erreur α fixé o a doc (S / + S / ) ( )S 4 / 4 + ( )S 4 / 4 P( T t α/ ) = α k=

6. Test de comparaiso de deux proportios 3 avec t α/ le quatile d ordre α/ de la loi de Studet précédete ; et doc la régio de rejet est ], t α/ [ ]t α/, + [ O calcule alors pour les valeurs de l échatillo T et o accepte ou o rejette H 0 suivat la valeur trouvée, au risque α 5. Test de comparaiso de deux variaces Avec les mêmes otatios que précédemmet o teste O cosidère aisi que la statistique S = H 0 : σ = σ cotre H : σ σ k= (X k X ) et S = (Y k Y ). Z = S S Sous l hypothèse H 0 la statistique Z suit ue loi de Fisher-Sedecor F(, ) à et degrés de liberté. Pour u risque d erreur α fixé o a ue régio de rejet [0, F α/ ()[ ]F α/ (), + [ où les quatiles sot détermiées à l aide de la loi précédete. k= 6. Test de comparaiso de deux proportios O veut comparer deux proportios p et p à partir de deux échatillos. Le modèle mathématique est le suivat. O cosidère les proportios f et f associés aux deux échatillos. O veut tester H 0 : p = p cotre H : p p. O pred la statistique Z = f f F ( F )(/ + / ) O obtiet la régio de rejet pour u risque α ], q α/ [ ]q α/, + [ avec q α/ le quatile d ordre α/ de la loi N (0, ). avec F = f + f +

CHAPITRE III Test du χ. Costructio du test O cosidère des variables aléatoires (X k ) k idépedates idetiquemet distribuées, à valeurs das {,..., m} et o ote P(X k = i) = π i. O défiit N i () = k= {Xk =i} c est-à-dire le ombre fois que la valeur i apparaît das l échatillo (X, X,..., X ). O s itéresse à la répartitio de N() = (N (), N (),..., N m ()). O a pour tout (i, i,..., i m ) tels que 0 i, i,..., i m et i + + i m = P(N () = i,, N m () = i m ) = C i C i i C i3 i i.π i...! πim m = i! i m! πi... πim m o obtiet ue répartitio multiomiale. Nous allos appliquer la covergece e loi au vecteur N(). Doos d abord ue versio vectorielle du théorème cetral limite. Théorème. Soit (X l ) l ue suite de vecteurs de aléatoires de R k, idépedats idetiquemet distribués tels que E(X ) = µ R k et Γ = E [(X µ) t (X µ) t ] matrice de covariace k k. Alors o a j= X j µ L N (0, Γ) + Remarquos que X R k suit ue loi N k (0, Γ) si sa foctio caractéristique est et sa desité, lorsque Γ est alors f(x) = E appliquat ce résultat o obtiet : Théorème. E(e i<t,x> ) = exp ( / < t, Γt >) { (π) k/ det(γ) exp } < x, Γ x > Avec les otatios du début du paragraphe, et e posat π t = (π,..., π m ) o obtiet : π... 0 N() π t L N (0, π π t π) où π =... + 0... π m

6 Chapitre III. Test du χ Démostratio. O a E(N i ()) = E( {Xk =i}) = E( {Xk =i}) = π i k= et doc E(N()) = π t. D autre part, o peut remarquer que : Cov( {Xk =i} {Xk =j}) = E[( {Xk =i} π i )( {Xk =j} π j )] = E[δ i,j {Xk =i}] π i π j. Par coséquet e posat Y k = {Xk =}. {Xk =m} o e déduit que : E(Y k ) = π et Cov(Y k, Y k ) = π ππ t O coclut alors a appliquat le TCL à la suite (Y k ) k et e remarquat que N() = k= Y k O obtiet alors le résultat qui suit, qui ous doe ue covergece vers ue loi du χ. Théorème 3. Avec les otatios précédetes o a D (π) = m (N i () π i ) i= π i L + χ (m ) Démostratio. O défiit : Avec cette otatio o a D (π) = f f : R m R x f(x) = m x i i= π i ( N() π ). Pour toute foctio F cotiue et borée o a [ ( )] N() π E F f E [ F f ( N (0, π ππ t ) )] + par défiitio de la covergece e loi car F f est cotiue borée et d après le TCL appliqué à N() π. Il faut doc détermier l image de la loi N (0, π ππ t ) par f. Soit Z = Z. Z m u vecteur aléatoire de loi N (0, π ππ t ). O a f(z) = m i= Zi = U où U = π i U.. U m, U i = Z i πi Le vecteur aléatoire U suit la loi N (0, Id π π t ). Soit A ue matrice orthogoal, alors le vecteur V = AU est u vecteur de loi ormale N (0, Id A π π t A t ) tel que V = U. Comme π =,

. Première applicatio : test d ajustemet (loi discrète) 7 0 o peut predre A telle que A π =. et aisi la matrice de covariace sera 0 0 0... 0 0... 0 Id. (0,..., 0, ) = Id.... = 0...... 0 0.... 0 0...... 0 Par coséquet, o a f(z) = U = V = m o obtiet le résultat. i= V i, où les V i N (0, ) sot idépedates, et doc. Première applicatio : test d ajustemet (loi discrète) Soit (X,..., X ) u -échatillo de la variable X à valeurs das {,..., m} et de loi icoue π, où P(X = i) = π i. O teste H 0 : π = p cotre H : π p (p loi de probabilité discrète sur {,..., m}). Supposos que H soit vraie, alors : N() p.s. + p p d après la loi forte des grads ombres. Par coséquet o obtiet D (p) = car sous p p et doc il existe i tel que m ( ) Ni () p i p i= i p.s. + + ( ) Ni () p i + (p i p i ) > 0 Doc si H 0 est fausse o a D (p) +, o peut doc utiliser ue régio de rejet de type D (p) > C (uilatérale). Si o choisit u risque de première espèce iférieur à α, c est-à-dire que l o veut à la limite P(χ (m ) > χ α(m )) α car d après la covergece e loi : P(D (p) > χ α(m )) P(χ (m ) > χ α(m )) α Le test est doc asymptotiquemet de iveau α, de plus sa puissace est car sous H, D (p) + et doc P(D (p) > χ α(m )) Exemple. O lace 00 fois ue pièce et o obtiet 0 piles. Le ombre de piles obteu est ue variable aléatoire B(00, p). O veut tester : H 0 : p = / cotre H : p /. Effectifs observés N i () Effectifs théoriques p i Ecarts N i () p i (N i () p i ) /p i pile 0 00 0 face 90 00-0 total 00 00 0 O a D (p) = et pour α = 0.05 o trouve χ 0.05( ) = χ 0.05() = 3, 84. O trouve doc D (p) < χ α(m ) et o accepte l hypothèse H 0.

8 Chapitre III. Test du χ 3. Deuxième applicatio : test d ajustemet (loi cotiue) Soit (X,..., X ) u -échatillo de la variable X qui suit ue loi absolumet cotiue F icoue. O remplace la loi des X i par ue loi discrète. Pour ce faire o procède de la maière suivate : o cosidère des itervalles I j tels que R = m j=i j avec I j I l = si j l Si o veut alors tester H 0 : F = F 0 cotre H 0 : F F 0 o se ramèe au cas précédet e posat π j = P F (X I j ) p j = P F0 (X I j ). 4. Troisième applicatio : test d ajustemet (famille de lois) Soit (X,..., X ) u -échatillo de la variable X à valeurs das {,..., m}, qui suit ue loi (P θ ) θ Θ, avec θ icoue. O a m (N i () p i (θ)) D (p(θ)) = p i (θ) i= O remplace θ par u estimateur, par exemple l estimateur du maximum de vraisemblace ˆθ, puis o procède comme das la première applicatio e remarquat que si Θ R k D (p(ˆθ)) χ (m k ) Exemple. O a 00 séries de 400 pièces chacue. Pour k =,..., 00, o ote X k le ombre de pièces défectueuses das la k-ième série. O veut tester l hypothèse H 0 : π i = p i = e λ λ i i!, i 0. Le tableau ci-dessous ous permet de détermier ˆλ 00 = 00 in i (00) = 4. 00 i 3 4 5 6 7 8 N i (00) 7 3 37 4 30 3 8 8 p i (ˆλ 00 ) 8.4 9.3 39. 39. 3.3 0.8.9 0. i= O obtiet (7 8.4) (3 9.3) (8 0.) D 00 (ˆλ 00 ) = + + + =.83 8.4 9.3 0. O a m = 8 et k = d où il faut regarder χ (6). Pour α = 0.05 le quatile est χ 0.95(6) =.69. O accepte doc H 0. 5. Quatrième applicatio : test d idépedace O observe u échatillo ((X, Y ),..., (X, Y )) à valeur das et {(x(i), y(j)), i r, j s}. O veut tester H 0 : X et Y sot idépedats. Soit N i,j le ombre de couples observés (x(i), y(j)) parmi observatios. O pose N i. = s j= N ij et N.j = r i= N ij O peut alors motrer que sous ces hypothèses ξ = r i= j= s (N ij N i. N.j /) N i. N.j O procède esuite comme das les paragraphes précédets. L + χ (r )(s )

CHAPITRE IV Foctio de répartitio empirique Das ce chapitre, o s itéresse à l estimatio de la loi d ue variable aléatoire aisi qu aux problèmes de tests associés. Pour traiter ces questios, ous allos chercher à estimer la foctio de répartitio de cette variable. Nous sommes doc cofrotés à u problème de statistique o-paramétrique. Pour traiter ce problème, o utilisera la otio de foctio de répartitio empirique.. Itroductio O cosidère u échatillo (X,..., X ) d ue variable aléatoire X. O ote F la foctio de répartitio de X, c est-à-dire : t R, F (t) = P(X t) = P(X i t) C est cette foctio F que ous allos chercher à estimer e itroduisat la foctio de répartitio empirique. Défiitio. La foctio de répartitio empirique associée à cet échatillo est la foctio : R [0, ] t F (t) = i= {X i t} Remarque Pour tout t R, la variable aléatoire F (t) suit la loi biomiale B(, F (t)). Pour représeter la foctio F, o itroduit la statistique d ordre (X (),..., X () ) associée à l échatillo (X,..., X ) défiie par O a alors : O e déduit le résultat suivat. {X (),..., X () } = {X,..., X } et X () X (). t R, F (t) = i= {X(i) t} Propositio. La foctio F est ue foctio e escalier, croissate, cotiue à droite et admettat ue limite à gauche. Elle est discotiue aux poits (X (i) ) i et costate sur [X (i), X (i+) [ pour i {,..., }. La foctio F (t) est u estimateur aturel de F (t), comme ous allos le voir das le résultat suivat. Propositio 3. O a pour tout t R, F (t) est u estimateur sas biais et fortemet cosistat de F (t). Par ailleurs, o a L t R, (F (t) F (t)) N (0, F (t)( F (t)). + Démostratio. Le calcul de l espérace motre que l estimateur est sas biais. De plus, la loi forte des grads ombres appliquée aux variables aléatoires i.i.d. {Xi t} (borées doc itégrable) tels que E[ {Xi t}] = P(X i t) = F (t) etraîe la covergece presque sûre. Le derier poit découle du théorème cetral limite.

0 Chapitre IV. Foctio de répartitio empirique Das les sectios suivates, ous allos ous itéresser o pas à la covergece poctuelle simple de F vers F mais à la covergece uiforme. Notos que la discotiuité de F présete des icovéiets théoriques évidets das l optique d estimer F. Néamois, comme elle est costate par morceaux, elle est simple à costruire e pratique. Das les sectios suivates, ous auros besoi de l outil de la foctio iverse gééralisée : x ]0, [, F = if {t R : F (t) x}. Propositio 4. (Ouvrard p. 9) La foctio iverse gééralisée se cofod avec l iverse de F quad F est bijective. Elle possède les propriétés suivates : - La mootoie de F etraîe t R, x ]0, [, F (t) x t F (x) - Si U U([0, ]) alors F (U) est ue variable aléatoire dot la foctio de répartitio est F. - Si Z est ue variable aléatoire de foctio de répartitio F cotiue alors F (Z) U([0, ]). Théorème de Gliveko-Catelli Le résultat de cette sectio reforce le théorème de la loi forte des grads ombres. Théorème 5. Théorème de Gliveko-Catelli Soit (X i ) i ue suite de variables aléatoires i.i.d. de foctio de répartitio F. O pose : t R, F (t) = {Xi t}. Alors o a : i= sup F (t) F (t) 0 p.s. t R Démostratio. D après la loi forte des grads ombres (comme das la propositio 3), o a pour tout t R fixé, F (t)(ω) F (t)(ω) pour presque tout ω. Il reste à voir que la covergece est uiforme e t. Si o pose : V = sup {Xi t} F (t). t R i= Soit (U k ) k ue suite de variable aléatoires idépedates idetiquemet distribuées de loi U([0, ]). O a alors les égalités e loi suivates : V = sup {Xi t} F (t) = sup {F (U i) t} F (t) = sup {Ui F (t)} F (t) t R i= t R Si o pose s = F (t), il viet : sup {Ui F (t)} F (t) = t R i= sup i= s F (R) i= t R {Ui s} s sup s [0,] i= {Ui s} s Aisi il suffit de motrer que le théorème est vrai das le cas particulier où les variables X i = (U i ) suivet des lois uiformes sur [0, ]. Grâce à la loi des grads ombres, o sait que pour tout s R, il existe u esemble égligeable N s Ω vérifiat : ω Ω\N s, {Ui s} s. i= i=

3. Test de Kolmogorov Comme ue réuio déombrable d esembles égligeables est ecore égligeable, o e déduit l existece d ue partie égligeable N Ω telle que : ω Ω\N, s [0, ] Q, {Ui s} s. E fait la croissace de s Pour chaque ω Ω\N, {Ui s} fait que l o a : i= ω Ω\N, s [0, ], i= {Ui s} s. i= {Ui s} coverge doc simplemet vers s sur [0, ]. Le théorème de Dii ous i= permet alors de coclure que la covergece est uiforme. 3. Test de Kolmogorov Le théorème de Gliveko-Catelli est ue gééralisatio de la loi forte des grads ombres au cas oparamétrique. La gééralisatio du TCL est doée par le théorème qui suit. La statistique itroduite das ce théorème ous permettra de costruire u test d ajustemet à ue loi (test de Kolmogorov). Das le même esprit, ous costruiros aussi u test d homogééité (test de Kolmogorov - Smirov). Propositio 6. Soit (X (),..., X () ) u -échatillo issu de X. O ote F la foctio de répartitio de X et F la foctio de répartitio empirique. Si F est cotiue alors la loi de e déped pas de F. D(F, F ) = sup F (t) F (t) t R Démostratio. O a, e posat x = F (t), D(F, F ) = sup F (t) F (t) = sup t R t R {Xi t} F (t) i= = sup {F (Xi) F (t)} F (t) = sup {Ui x} x d où le résultat. t R i= x [0,] i= Le résultat pricipal de cette sectio est le suivat. Théorème 7. O suppose que l o a les mêmes hypothèses que ci-dessus. Alors la variable aléatoire D(F, F ) coverge e loi, vers ue loi limite qui e déped pas de F et dot la foctio de répartitio est égale à : O a doc, pour λ > 0, + t 0, F KS (t) = + ( ) k exp ( k t ) k= P( + D(F, F ) λ) + ( ) k exp ( k λ ) k= Ce théorème est admis. Nous pouvos doc costruire u test d ajustemet à ue loi, dit test de Kolmogorov. O peut d abord

Chapitre IV. Foctio de répartitio empirique remarquer que si o réordoe de maière croissate l échatillo, (X (),..., X () ) alors F (X (j) ) = j/ et ( D(F, F ) = max max j j F (X (j)), F (X (j) ) j ) Si o veut tester que la loi de l échatillo a pour foctio de répartitio F 0, c est-à-dire H 0 : F = F 0 cotre H : F = F, o commece par réordoer l échatillo. Puis o calcule D(F, F ), e remarquat que sous H 0, o a D(F, F ) = D(F, F 0 ). Puis o cherche (das ue table) le quatile k α de la loi de Kolmogorov. O accepte alors H 0 si D(F, F 0 ) < D(F, F 0 ). Ce test est asymptotiquemet de iveau α et sa puissace ted vers quad ted vers +. 4. Test de Kolmogorov-Smirov Das le même esprit, ous allos costruire u test d homogééité. O observe deux échatillos de taille respective et m, (X,..., X ) et (Y,..., Y m ). O veut tester si les deux échatillos sot issus d ue même loi (évetuellemet icoue). O ote F la foctio de répartitio de chacue des variables X i et G la foctio de répartitio de chacue des variables Y i. O veut tester H 0 : F = G cotre H : F G. Pour cela, o itroduit : t R, F (t) = {Xi t} et G m (t) = m {Yi t} m et o pose O a le résultat suivat. Théorème 8. i= D m, = sup F (t) G m (t). t R Avec les hypothèses doées ci-dessus o a, sous "H 0 : F = G" : m + P( + m D m, λ) + ( ) k exp ( k λ ) k= i= Ceci permet alors de costruire u test sur le même modèle que ci-dessus.

Idex foctio de répartitio empirique, 9 foctio iverse gééralisée, 0 hypothèse alterative, 6 hypothèse ulle, 6 iveau de sigificatio, 6 puissace d u test, 8 risque d erreur de première espèce, 7 risque d erreur de secode espèce, 7 statistique, 6 test bilatéral, 6 test bilatérale, 6 test d ajustemet (famille de lois), 8 test d ajustemet (loi cotiue), 8 test d ajustemet (loi discrète), 7 test d ajustemet ou d adéquatio, 5 test d idépedace, 8 test d homogééité ou de comparaiso, 5 test d hypothèse, 5 test d idépedace ou d associatio, 5 test de coformité, 5 test de Kolmogorov, test uilatéral, 6 test uilatérale, 6 tests o paramétriques, 5 tests paramétriques, 5 Théorème de Gliveko-Catelli, 0