Statistiques inférentielles : tests hypothèse Table es matières I Tests hypothèse 2 I.1 Test bilatéral relatif à une moyenne...................................... 2 I.2 Test unilatéral relatif à une moyenne..................................... 3 I.3 Test unilatéral relatifs à une fréquence.................................... 4 II Test e comparaison 5 II.1 Comparaison e eux moyennes........................................ 5 II.2 Comparaison e eux fréquences....................................... 6 Pour remplir es paquets e farine e 10 kg, on utilise une ensacheuse réglée avec précision, mais on ne peut espérer que tous les paquets sortant e la machine pèsent exactement 10 kg. On peut seulement exiger que l espérance mathématique es masses e tous les paquets prouits soit e 10 kg. Ainsi, une palette e 50 paquets pèsera par exemple 497 kg. Doit-on en conclure que la machine est mal réglée? Si, après avoir réglé ifféremment la machine, une nouvelle palette e50 paquets pèse 502 kg, peut-on en conclure que la machine est mieux réglée? Ce sont les tests e valiité hypothèse qui permettent e prenre une écision. Ces écisions seront prises avec un certain risque a priori. Dans tout ce chapitre, les notions seront aborées grâce à es exemples. Pour chaque test, on appliquera le cheminement suivant : Construction u test e valiité hypothèse. Étape 1 : étermination e la variable aléatoire e écision et e ses paramètres, Étape 2 : choix es eux hypothèses : l hypothèse nulleh o et l hypothèse alternativeh l, Étape 3 : l hypothèse nulle étant consiérée comme vraie et compte tenu e l hypothèse alternative, étermination e la selon le niveau e risqueαonné, Étape 4 : réaction une règle e écision. Utilisation u test hypothèse. Étape 5 : calcul es caractéristiques un échantillon particulier puis application e la règle e écision. -1-
I Tests hypothèse I.1 Test bilatéral relatif à une moyenne Exemple 1 Une machine prouit es ronelles ont l épaisseur est une variable aléatoirex écart type 0, 3 mm. La machine a été réglée pour obtenir es épaisseurs e 5 mm. Un contrôle portant sur un échantillon e 100 ronelles a onné 5, 07 mm comme moyenne es épaisseurs e ces 100 ronelles. Peut-on affirmer que la machine est bien réglée au seuil e risque e 5%? 1. Variable aléatoire e écision. Soit m l espérance mathématique e X, c est-à-ire la moyenne es épaisseurs e toutes les ronelles prouites par la machine ainsi réglée. Consiérons la variable aléatoire M qui, à chaque échantillon e taille 100, associe sa moyenne. La taille es échantillons étant suffisamment grane, on consière quem suit la loin N m; ).M sera la variable aléatoire e écision. m; 0, 3 100 ), c est-à-ire 2. Choix es hypothèses. On estime que la machine est bien réglée, si la moyenne e toutes les ronelles prouites par la machine est 5 mm. C est onc l hypothèsem = 5 que nous allons tester. On l appelle l hypothèse nulleh 0. Sinon, on choisit comme hypothèse alternative l hypothèseh 1 : «m 5». Recherchons comment la moyennem e, un échantillon e 100 ronelles peut confirmer ou non l hypothèseh 0. Dons le cas où l hypothèseh 0 est vraie, la variable aléatoirem suit la loin 5; ). On cherche alors le réeltel quep 5 M 5 +) = 0, 95. E) la variable aléatoiret = M 5 suit la loi normale centrée réuiten 0, 1), on a alors : E) P 5 T + 5 5 +) = 0, 95 P T ) = 0, 95 ) ) E) 2Π 1 = 0, 95 Π = 0, 975 On trouve alors = 1, 96 soit = 0, 0588 0, 06. L intervalle e confiance est onc l intervalle : [5 0, 06; 5 + 0, 06] = [4, 94; 5, 06]. hypothèseh 0 acceptée 0, 95 0, 025 0, 025 4, 94 5 5, 06 La probabilité qu un échantillon ait une moyenne située hors e cet intervalle étant 0, 05, on peut consiérer que cet événement est rare. Ainsi, la moyenne e notre échantillonm e = 5, 07 nous amène à outer e la valiité e l hypothèseh 0. Ne perons pas e point e vue qu il se peut, malgré tout, que la machine soit bien réglée et que notre échantillon fasse partie es 5% e ceux ayant une moyenne hors e l intervalle trouvé. C est pourquoi cette région est appelée. 4. Règle e écision. Si la moyenne e l échantillon n est pas située ans la, on accepteh 0, sinon, on refuseh 0 et on accepteh 1. Puisque 5, 07 appartient à la, on écie e rejeter l hypothèseh 0 et accepter l hypothèse alternativeh l :m 5 la machine n est pas bien réglée). Dans un test e valiité hypothèse, le seuil e risqueαest la probabilité e rejeterh 0 alors qu elle est vraie. -2-
I.2 Test unilatéral relatif à une moyenne Exemple 2 La urée e vie en heures) es ampoules électriques prouites par une usine est une variable aléatoirex écart type 1. Le fabricant annonce qu en moyenne, les ampoules ont une urée e vie e 11 heures. On emane e réiger une règle e écision pour vérifier l affirmation u fabriquant, au seuil e risque e e 5%, en testant un échantillon e 36 ampoules. 1. Variable aléatoire e écision. Soitml espérance mathématique e X, c est-à-ire la moyenne es urée e vie e toutes les ampoules prouites par l usine. Consiérons la variable aléatoire M qui, à chaque échantillon e 36 ampoules associe la moyenne e urée e vie es 36 ampoules. La taille es échantillons étant suffisamment grane, on consière quem suit la loin m; 1 ), c est-à-ire 36 N m; ). 2. Choix es hypothèses. Soit l hypothèse nulleh 0 :m=11 l affirmation u fabricant est vraie). Dans l exemple précéent, les ronelles evaient avoir une épaisseur moyenne e 5 mm et cette mesure ne supportait ni excès, ni éficit. Ici, l acheteur ne se plainra que si la urée e vie es ampoules est inférieure à 11 heures ; ans le cas où la moyennem e, e l échantillon est supérieure à 1 1, l hypothèse u fabricant se trouve imméiatement confirmée. L hypothèse alternativeh l est oncm<11 l affirmation u fabricant est fausse). La se trouve onc un seul côté e la moyenne. On it alors que le test est unilatéral par opposition au test bilatéral effectué au paragraphe précéent. Dans le cas où hypothèseh 0 est vraie, la variable aléatoirem suit la loin 11; ) On cherche alors le réeltel quep M< 11 ) = 0, 05. E) M 11 la variable aléatoiret = suit la loi normale centrée réuiten 0, 1), on a alors : E) P T + 11<11 ) = 0, 05 P T< ) = 0, 05 E) P T> ) = 0, 05 1 P T ) ) = 0, 05 Π = 0, 95 On trouve alors = 1, 645 soit = 32, 9 33. La est onc l intervalle ] ; 11 33] =] ; 1087]. au seuil e 5% hypothèseh 0 acceptée 0, 05 1087 0, 95 11 La est l intervalle ] ; 1087[ : 5% seulement es échantillons e taille 36 ont en moyenne une urée e vie inférieure à 1087 heures. 4. Règle e écision. Si la moyennem e e l échantillon observé est inférieure à 1087, on rejette l hypothèseh 0 et on accepte l hypothèse alternativeh 1 l affirmation u fabricant est fausse). Si la moyennem e e l échantillon observé est supérieure à 1087, on accepte l hypothèseh 0. -3-
I.3 Test unilatéral relatifs à une fréquence On onne ici un exemple e test unilatéral relatif à une fréquence, mais autres cas peuvent amener à envisager es tests bilatéraux relatifs à une fréquence. Exemple 3 un joueur qui oit choisir au hasar une carte ans un jeu e 32 cartes obtient certains avantages s il écouvre un roi. On constate qu il a retourné 134 fois un roi sur 800 essais. Peut-on présumer, au seuil e risque e 1%, que ce joueur est un tricheur? 1. Variable aléatoire e écision. Soitpla fréquence e rois que le joueur écouvrirait s il jouait une infinité e fois. Soit F la variable aléatoire qui, à chaque échantillon e 800 essais, associe la fréquence apparition ) u roi. La p1 p) taille es échantillons étant suffisamment grane, on consière que F suit la loi N p;.f sera la 800 variable aléatoire e écision. 2. Choix es hypothèses. Si le joueur n est pas un tricheur, la valeur epest 4 = 0, 125. 32 Donc, l hypothèse nulleh 0 estp = 0, 125 le joueur n est pas un tricheur). Sip<0, 125, on consiérera que le joueur n est pas un tricheur non plus, onc : l hypothèse alternativeh 1 est p>0, 125 le joueur est un tricheur). ) 0, 125 0, 875 Dans le cas où l hypothèseh 0 est vraie, la variable aléatoiref suit la loin 0, 125; soit 800 N 0, 125; ). On cherche alors le réeltel quep F> 0, 125 +) = 0, 01. E) F 0, 125 la variable aléatoiret = suit la loi normale centrée réuiten 0, 1), on a alors : ) E) P T + 0, 125>0, 125 +) = 0, 01 P T> = 0, 01 ) ) E) 1 P T = 0, 01 Π = 0, 99 On trouve alors = 2, 33 soit = 0, 027261 0, 027. La est onc l intervalle [0, 125 + 0, 027; + [= [0, 152; + [. hypothèseh 0 acceptée au seuil e 1% Donc la est ]0, 152; + [. 0, 99 0, 01 0, 125 0, 152 4. Règle e écision. Si la fréquence e l échantillon est supérieure à 0, 152, on rejette l hypothèseh 0 et on accepte l hypothèseh 1 : l hypothèseh 0 n est pas valiée. Si la fréquence e l échantillon est inférieure à 0, 152, on accepte l hypothèseh 0 : l hypothèseh 0 est valiée. L échantillon observé a une fréquence égale à 134 = 0, 1675. 800 D après la règle e écision, puisque 0, 1675> 0, 152, on accepte l hypothèseh 1 : on écie que le joueur est un tricheur. -4-
II Test e comparaison II.1 Comparaison e eux moyennes Exemple 4 Une entreprise fabrique es sacs en plastique pour échets. Afin e surveiller la prouction, elle effectue es contrôles réguliers portant sur le pois maximum que les sacs peuvent supporter. Á une première atet 1, le contrôle e 100 sacs a onné une moyenne e 58 kg et un écart type e 3 kg. À la secone atet 2, le contrôle e 150 sacs a onné une moyenne e 56 kg et un écart type e 5 kg. Peut-on consiérer, au risque e 4%, que la qualité es sacs a évolué entre les eux ates? 1. Variable aléatoire e écision. AppelonsE 1 resp.e 2 ) l ensemble e tous les sacs prouits par l entreprise à la atet 1 resp.t 2 ). SoitM 1 la variable aléatoire qui, à chaque échantillon e 100 sacs issus e la populatione 1, associe sa moyenne. 100 Une estimation ponctuelle e la moyenne et e l écart-type e à la atet 1 est :m 1 = 58, etσ 1 = 3 99. La taille es échantillons étant suffisamment grane,m 1 suit la loin m 1 ; σ1 100 ) =N 58; 1 11 ). SoitM 2 la variable aléatoire qui, à chaque échantillon e 150 sacs issus e la populatione 2, associe sa moyenne. 150 Une estimation ponctuelle e la moyenne et e l écart-type à la atet 2 est :m 2 = 56, etσ 2 = 5 149. La taille es échantillons étant suffisamment grane,m 2 suit la loin m 2 ; σ2 150 ) =N La variable aléatoired=m 1 M 2 suit également une loi normale e paramètres : ED) =EM 1 ) EM 2 ) =m 1 m 2. V D) =V M 1 ) +VM 2 ) = 1 11 + 25 149 = 0, 2587. D oùσ D = 0, 51. DoncDsuit la loin m 1 m 2 ; 0, 51).D est la variable aléatoire e écision. 2. Choix es hypothèses. L hypothèse nulleh 0 estm 1 =m 2 la qualité n a pas évolué). L hypothèse alternativeh 1 estm 1 m 2 la qualité a évolué). 56; 5 149 ). Supposons que l hypothèseh 0 soit vraie, on a alorsm 1 m 2 = 0 ; alorsd suit la loi normalen 0; 0, 51). On cherche alors le réeltel quep D ) = 0, 95. E) la variable aléatoiret = D suit la loi normale centrée réuiten 0, 1), on a alors : 0, 51 E) P <0, 51T<) = 0, 96 P 0, 51 T ) = 0, 96 ) ) 0, 51 E) 2Π 1 = 0, 96 Π = 0, 98. On trouve alors = 2, 05 soit = 1, 0455 1, 05. 0, 51 0, 51 0, 51 Pour un seuil e risque e 4%, la est : ] ; 1, 05 [ ] 1, 05 ; + [. hypothèseh 0 acceptée 0, 96 0, 02 0, 02 1, 05 0 1, 05 4. Règle e écision. Si la ifférence es moyennes es eux échantillons est inférieure à 1, 05 ou supérieure à 1, 05, alors l hypothèse H 0, n est pas valiée. Si la ifférence es moyennes es eux échantillons est comprise entre 1, 05 et 1, 05,l hypothèseh 0 est valiée. La ifférence es moyennes es eux échantillons est 58 56 = 2. D après la règle e écision, on rejetteh 0 et on écie que la qualité es sacs a évolué entre les atest 1 ett 2. -5-
II.2 Comparaison e eux fréquences Exemple 5 A l issue un examen, il y a 23 reçus et 17 ajournés ans une classe et 15 reçus et 25 ajournés ans une autre classe. La ifférence observée entre les eux pourcentages e réussite est-elle significative une ifférence e niveau entre les eux classes, au seuil e 5% 1. Variable aléatoire e écision. On suppose que la première classe est issue une populationc 1 pour laquelle la fréquence e succès estp 1, et que la euxième classe est issue une populationc 2 pour laquelle la fréquence e succès estp 2. SoitF 1 la variable qui, à chaque échantillon e élèves e la populationc 1, associe sa fréquence e succès. ) p1 1 p 1 ) La taille es échantillons étant suffisamment grane, on consière quef 1, suit la loin p 1 ;. Une estimation ponctuelle e la fréquence et e l écart-type pour la populationc 1 est : p 1 = 23 0, 5451 0, 545) = 0, 545, etσ 1 = 39 = 0, 079. Donc,F 1 suit la loinp 1 ; 0, 079). SoitF 2 la variable qui, à chaque échantillon e élèves e la populationc 2, associe sa fréquence e succès. ) p2 1 p 2 ) La taille es échantillons étant suffisamment grane, on consière quef 2, suit la loin p 2 ;. Une estimation ponctuelle e la fréquence et e l écart-type pour la populationc 2 est : p 1 2 = 15 0, 3751 0, 375) = 0, 375, etσ 2 = 39 = 0, 078. Donc,F 2 suit la loinp 2 ; 0, 078). La variable aléatoired=f 1 F 2 suit également une loi normale e paramètres : ED) =EF 1 ) EF 2 ) =p 1 p 2. V D) =V F 1 ) +VF 2 ) = 0, 077 2 + 0, 078 2. D oùσ D =. DoncDsuit la loin p 1 p 2 ; ).D est la variable aléatoire e écision. 2. Choix es hypothèses. L hypothèse nulleh 0 estp 1 =p 2 les eux populations ont le même niveau), l hypothèse alternativeh 1 estp 1 p 2 les eux populations n ont pas le même niveau). Supposons que l hypothèseh 0 soit vraie, on a alorsp 1 p 2 = 0 ; alorsd suit la loi normalen 0; ). On cherche alors le réeltel quep D ) = 0, 95. E) la variable aléatoiret = D suit la loi normale centrée réuiten 0, 1), on a alors : E) P <T<) = 0, 95 P T ) = 0, 95 ) ) E) 2Π 1 = 0, 95 Π = 0, 975. On trouve alors = 1, 96 soit = 0, 2156 0, 22. Pour un seuil e risque e 5%, la est : ] ; 0, 22[ ]0, 22; + [. hypothèseh 0 acceptée 0, 95 0, 025 0, 025 0, 22 0 0, 22 4. Règle e écision. Si la ifférence es moyennes es eux échantillons est inférieure à 0, 22 ou supérieure à 0, 22, alors l hypothèse H 0 n est pas valiée. Sinon, l hypothèseh 0 est valiée. La ifférence es fréquences e succès es eux échantillons est 23 15 = 0, 2. D après la règle e écision, on en conclut qu au seuil e risque e 5%, la ifférence observée entre les eux échantillons n est pas significative une ifférence e niveau entre les eux classes. l hypothèseh 0 est valiée). -6-