Université Paris 13 Cours de Statistiques et Econométrie I UFR de Sciences Economiques Année 2008-2009 Licence de Sciences Economiques L3 Premier semestre TESTS PARAMÉTRIQUES Remarque: les exercices 2, 11 et 12, ainsi que les exercices 17, 18, 22, 23 et 24 seront a priori corrigés en cours. 1. Tests simples et unilatères Exercice 1. Soit x = 20 obtenu à l aide d un échantillon de taille 50 de loi gaussienne d écart type σ = 5. (1) Tester H 0 : µ = 30 contre H 1 : µ = 29 pour un risque de première espèce α = 0.05. Calculer la puissance 1 β de ce test. (2) Tester H 0 : µ = 30 contre H 1 : µ < 30 pour un risque de première espèce α = 0.05. Exercice 2. On considre un n-échantillon de loi exponentielles E λ. (1) Trouver la forme optimale de la zone de rejet pour tester H 0 : λ = λ 0 contre H 1 : λ = λ 1 au niveau α en supposant que λ 1 < λ 0. (2) Déterminer cette zone de rejet lorsque n = 100, λ 0 = 5, λ 1 = 4 et α = 0.05, et calculer la puissance de ce test. Donner le résultat obtenu lorsque x n = 0.21. Exercice 3. On veut tester si une pièce d or est bien en or ou si elle a été fraudée (par un mélange avec un autre métal). On sait qu une pièce en or pèse exactement m 0 = 19, 3 grammes. La balance sur laquelle on pèse donne le poids de la pièce avec une erreur gaussienne d espérance nulle (pas de biais) et d écart type 0, 2 (il dépend de la précision de la balance). On effectue avec la même pièce dix mesures que l on peut supposer indépendantes. Les résultats sont les suivants : 18.83 19.03 18.61 19.46 18.80 18.96 19.37 19.20 18.88 19.34. (1) Tester, au niveau α = 0.1, m = m 0 contre m < m 0 (2) Calculer l erreur de seconde espèce du test si m = 19.1 (3) Chercher le nombre de pesées nécessaires pour que l erreur de seconde espèce définie au 2) soit inférieure ou égale à 0.1. Exercice 4. Dans une grande ville américaine, 57% des électeurs sont inscrits comme étant démocrates. Récemment un institut de sondage a sélectionné au hasard 1600 électeurs dans cette ville, et leur a demandé comment ils s inscriraient s ils avaient à le faire ce jour là. Seulement 54, 5% ont répondu Démocrates. Cela indique-t-il une tendance? Pourquoi? Exercice 5. Un commerçant veut acheter à un fabricant de conserves un grand nombre de boîtes dont le fabricant affirme que le poids moyen est de 1000 g. Le commerant prétend, lui, que le poids moyen est de 995 g. Pour savoir qui a raison, ils pèsent ensemble 20 boîtes au hasard et trouvent un poids moyen de 998 g. Il s agit d un test paramétrique, de signification, de l hypothèse H0 : m = 1000 g contre H1 : m = 995 g Date: Novembre 2006. 1
2 (1) Est-ce qu on a toutes les informations pour répondre à la question? (2) Le fabricant et le commerçant sont d accord pour dire que généralement 98 % des boîtes ne s écartent du poids moyen que de 20 g (en plus ou en moins) au maximum. En supposant que le poids des boîtes est gaussien, déterminez la valeur de σ. (3) Construisons le test d hypothse. Il s agit d un test unilatral. La variable de dcision est X. Le risque de 1ère espèce α représente : le risque de dire que m = 1000 alors qu en fait m = 995 g? ou le risque de dire que m = 995 alors qu en fait m = 1000 g? α est donc le risque du vendeur (le fabricant en l occurence). L autre risque ci-dessus est-il l erreur de seconde espèce β? β est donc le risque de l acheteur (le commerant en l occurence) Si le vendeur fixe α = 0.05 et n = 20, la valeur critique pour X est : En conclusion, accepte-t-on H0? Dans ce cas le risque β de l acheteur vaut : β =. (4) Afin de rendre le test plus équilibré, le fabricant et le commerant décident de changer la procédure : ils veulent que les risques α et β soient tous deux au plus égaux à 0.05, afin de ne lser aucun des deux portagonistes. Pour cela faut-il augmenter ou réduire la taille n de l échantillon? Calculer la valeur minimale de n, puis la valeur critique de X correspondante. (5) Si, sur un chantillon de 32 boîtes, le poids moyen est de 998 g, quelle hypothèse conservera-t-on? H0 : m = 1000 g ou H1 : m = 995 g Exercice 6. On considère un échantillon de taille 40 de gaussiennes centrées de variance σ 2 inconnue. On a calculé 40 i=1 x2 i = 50. Tester au risque α = 0, 05 H 0 : σ 2 = 1 contre H 1 : σ 2 > 1. 2. Tests bilatères ou composés Exercice 7. On veut vérifier qu une pièce est bien équilibrée. Pour cela on effectue 100 lancers et l on modélise le résultat du i-ème lancer comme la réalisation d une variable de Bernouilli X i de paramètre θ ]0, 1[. (1) Construire le test de θ = 1/2 contre θ 1/2 de niveau α = 0.05. (2) Quelle doit être l écart maximal entre la proportion de piles et celle de faces pour que l hypotèse H 0 soit retenue? (3) Déterminer l expression de la puissance de ce test en fonction de θ pour θ 1/2. (4) Calculer sa valeur pour θ = 1/3. Exercice 8. Un professeur est chargé de corriger un très grand nombre de copies d examen. Sur un échantillon aléatoire de 30 copies, il trouve une note moyenne i (xi x)2 de 10.3 avec un écart-type n = 1.2. On supposera de plus que les notes suivent une répartition normale N (m, σ 2 ). (1) On affirme que le test de H0 : m = 10 contre H1 : m > 10 est un test paramétrique, de signification, portant sur un échantillon de taille 30, et qu une variable de décision possible est X. Ces affirmations sont-elles toutà-fait exactes? (2) Donner une estimation non biaisée de σ 2. (3) Le test est-il unilatère ou bilatère? (4) On note α le risque de première espèce de ce test. Donner la zone de rejet si α = 0.05, puis si α = 0.1.
3 (5) Quelle est votre décision si α = 0.05? Si α = 0.1? (6) On a calculé la P-Value et on a trouvé p = 0.09. Cette valeur est-elle en contradiction avec les résultats de la question précédente? (7) Conserve-t-on l hypothèse H0 avec α = 0.08? Exercice 9. On veut vérifier la solidité de câbles métalliques fabriqués selon un certain procédé, dont la charge de rupture (en kg) suit en principe une loi N (m, σ 2 ), où m = 8000 et σ = 150 ). (1) Jusqu à quelle valeur de l écart-type s, sur un échantillon de taille 40, peuton dire que l écart-type ne dépasse pas 150 kg? (0n prendra α = 0.05 ; on ne supposera pas m connue). (2) On mesure la charge de rupture de 40 câbles pris au hasard. La moyenne de ces valeurs est : 7 950 kg, avec un cart-type : s = 174 kg (a) Est-ce que s dépasse de façon significative 150 kg? (b) En tenant pour acquis que σ = 150, peut-on considrer que m = 8000? ( toujours avec α = 0.05 ) (c) La conclusion est-elle la même si on tient compte du fait que σ est inconnu? Exercice 10. Le tableau suivant représente les mesures de 10 pièces éffectuées par deux contrôleurs différents. Contrôleur 1 Contrôleur 2 1.04 1.23 1.11 1.20 1.13 1.18 1.00 1.03 1.04 1.33 1.02 1.08 1.05 1.10 1.14 1.20 1.05 1.13 1.07 1.10 (1) Quelle est, en moyenne, la différence entre leurs mesures? (2) Quel est l écart-type de cette différence : Pouvait-on le dduire des variances des mesures de chaque contrôleur? (3) Les mesures du 2ème contrôleur semblent être systématiquement plus grandes que celles du 1er. Quelle est la valeur critique à considrer, pour pouvoir dire si cela est significatif : (au risque α = 0.05) (4) Les mesure du 2ème contrôleur sont-elles significativement plus grandes que celles du premier? (au risque α = 0.05) (5) Pensez-vous que pour comparer les 2 contrôleurs il aurait été plus avantageux de comparer leurs mesures sur deux échantillons différents? En fait, lorsqu on utilise comme ici des données appariées, on a V (X 1 X 2 ) = V (X 1 ) + V (X 2 ) 2cov(X 1, X 2 ), et si la covariance est 0 (cas le plus frquent), on obtient une zone d acceptation du test plus étroite pour X 1 Y, et donc un test plus puissant qu en prenant deux échantillons indépendants.
4 Exercice 11. Soient n 1 = 10 n 2 = 12 x 1 = 20 x 2 = 18 pour deux gaussiennes X 1 et X 2 indépendantes supposées s 1 = 6 s 2 = 5 de même variance. Tester l hypothèse H 0 : µ 1 = µ 2. Donner un intervalle de confiance pour µ 1 µ 2 à 95%. Exercice 12. On se donne deux échantillons, de tailles respectives n 1 et n 2, de deux gaussiennes indépendantes X et Y de moyennes nulles et de variances σ1 2 et σ2 2 inconnues. On veut tester H 0 : σ1 2 = σ2 2 contre H 1 : σ1 2 σ2. 2 Donner une région critique réunion de deux sous régions F < F 1 et F > F 2, où F est égale à χ 2 1/ν 1 χ 2 2 /ν, 2 et où χ 2 1 et χ 2 2 sont deux variables aléatoires indépendantes, qui suivent des lois du χ 2 à ν 1 et ν 2 degrés de liberté. Application numérique : Tester H 0 : σ1 2 = σ2 2 pour deux gaussiennes de moyenne nulle, si n 1 = 10, n 2 = 20, x 2 i = 1440, et yi 2 = 6480. Exercice 13. Même question que dans l exercice précédent, mais sans supposer que les moyennes µ 1 et µ 2 de X et Y sont connues. Application numérique, en notant s 2 1 et s 2 2 les estimations non biaisées de σ 2 1 et σ 2 2: n 1 = 10 n 2 = 20 s 1 = 12 s 2 = 18 3. Tests d ajustement et d indépendance Exercice 14. Selon la loi de Mendel, les fruits d un certain croisement devraient être de couleur rouge, noire, ou blanche, dans les proportions 9, 3 et 4. Si une expérience produit 150, 70 et 100 fruits rouges, noirs, blancs, la théorie est-elle justifiée? Exercice 15. Selon la formule de Hardy-Weinberg, le nombre de moustiques produits par certains croisements doivent respecter les proportions q 2, 2pq, p 2, où p + q = 1. Une expérience qui donne les fréquences 80, 90, 40, est-elle compatible avec cette formule? Indication: On estimera le paramètre q par le maximum de vraisemblance ˆq = n1+ 1 2 n2 n 1+n 2+n 3, où n 1, n 2, et n 3 sont les fréquences observées des 3 espèces, et l on appliquera le test du χ 2 en remplaçant q par ˆq. Exercice 16. Un exemple historique On a compté le nombre de morts annuelles occasionnées par une morsure de cheval au sein de 10 corps d armée de la cavalerie Prussienne sur une durée de 20 ans. L échantillon est ici de taille 200. On cherche à savoir si ce nombre de morts suit une loi de Poisson. Les données sont les suivantes: Nombre de morts 0 1 2 3 4 Fréquence observée 109 65 22 3 1 Appliquer le test du χ 2 pour savoir si l hypothèse de Poisson est raisonnable.
5 Exercice 17. Un exemple anthropométrique On a reporté dans le tableau suivant les largeurs en mm de 106 crânes humains découverts à Londres en 1895. (Ces crânes appartenaient sans doute à des habitants de Londres morts durant la grande peste de 1665-1666). largeur 120 123 124 127 128 131 132 135 136 139 effectif 1 0 2 7 21 largeur 140 143 144 147 148 151 152 155 156 159 effectif 41 19 12 2 1 Tester au niveau 0,05 l hypothèse selon laquelle cette pression suit une loi normale. (1) Tracer l histogramme des données. (2) Sous l hypothèse que ces données sont gaussiennes, estimer la moyenne et la variance. (3) Calculer les effectifs espérés des différentes classes. (4) Tracer l histogramme espéré obtenu. (5) Mettre en place en test du χ 2, en regroupant les classes si besoin est. Exercice 18. On donne dans le tableau suivant les résultats d un sondage IPSOS effectué début Mai 1997 et publiés dans le Monde sur les intentions de vote au premier tour des législatives en France, ainsi que les résultats réels obtenus au premier tout du scrutin. Dans ce sondage, 1000 personnes étaient interrogées, et 780 parmi se sont prononcées. Les pourcentages ont donc été calculés à partir des 780 qui ont donné une intention de vote. Partis Résultats du sondage en % Résultats du scrutin en % Extrême Gauche 2.5 2.6 P.C. 10 10 P.S. 28.5 28.2 Ecologistes. 7 6.9 UDF-RPR 37 30.3 Divers Droite 1 6.7 F.N. + Extrême Droite 14 15.3 (1) Calculer les effectifs théoriques et les effectifs observés sur cette population de 780 personnes en laissant deux chiffres après la virgule. (2) Effectuer un test d ajustement du χ 2 et analyser le(s) facteur(s) expliquant ce résultat. (3) Regrouper les cases UDF-RPR et Divers Droite en une seule case, et effectuer un nouveau test d ajustement. Quelles sont vos réflexions sur le résultat obtenu? Exercice 19. Un échantillon aléatoire de 1250 diplômes d université, délivrés en 1976, a donné la répartition suivante: Diplôme Sexe Licence Maîtrise Doctorat Masculin 501 162 27 Féminin 409 143 8 (1) Exprimer H 0. (2) Calculer le χ 2, donner son nombre de degrés de liberté.
6 (3) Conclure. Exercice 20. Voici la répartition de 6800 individus selon la couleur des yeux et celle des cheveux. Dans ce tableau les lignes sont des couleurs d yeux et les colonnes de cheveux. blond brun noir roux total bleu 1768 807 189 47 2811 gris ou vert 946 1387 746 53 3132 brun 115 438 288 16 857 total 2829 2632 1223 116 Tester au niveau 0,01 l hypothèse selon laquelle la couleur des yeux et la couleur des cheveux sont indépendantes. 4. Extraits de partiels Exercice 21. On suppose que l on joue avec un seul dé, et que l on perd chaque fois que le dé sort l as. Après 100 jets, on remarque que l on a subi un peu trop de pertes: 20 as. On soupçonne l adversaire d utiliser un dé pipé. Plus précisément, on commence à se demander si ce n est pas un de ces dés pipés, dont une publicité a récemment vanté qu ils sortaient l as une fois sur quatre. Nous noterons p la probabilité qu a le dé utilisé de sortir l as. (1) Construire un intervalle de confiance à 95% pour p. (2) On veut tester H 0 : p = 1/6, contre H 1 : p = 1/4. Trouver la proportion critique d as au delà de laquelle on rejetterait H 0 au seuil de 5 %. (3) Donner, pour ce test, une évaluation de l erreur de seconde espèce β. (4) Avec l observation de 20 as, quelle est la décision? (5) Si on double le risque de première espèce α, évaluez grossièrement ce qui arrive à β? Exercice 22. Vingt lignes, de longueur 60 cm chacune, ont été dessinées. Un étudiant a estimé visuellement le centre de chaque ligne. La distance en cm de chaque point désigné à l extrémité gauche de la ligne a été mesurée. Les 20 mesures sont reportées dans le tableau suivant: 29,7 32,3 30,0 29,8 31,1 29,8 30,6 30,7 29,7 30,2 29,8 30,7 31,8 29,2 30,0 30,3 31,3 31,3 29,4 32,0 On supposera que les données sont des réalisations de Gaussiennes indépendantes de moyenne m et de variance σ 2. (1) Estimer la moyenne m et la variance σ 2 en en donnant des estimations non biaisées. (2) Construire un intervalle de confiance au niveau 0.95 pour m. (3) On cherche à tester H 0 : m = 30 contre H 1 : m > 30. Construire un test unilatère pour décider si l étudiant fait au non une erreur systématique. On prendra le risque égal à 0.05. Exercice 23. (1) Les 608 premières décimales de π sont réparties comme suit: 0 1 2 3 4 5 6 7 8 9 60 62 67 68 64 56 62 44 58 67 En supposant que les décimales de π sont indépendantes les unes des autres, peut-on affirmer que les 10 chiffres ont la même fréquence d apparition?
7 (2) On a reporté dans le tableau suivant les répartitions par âge des hommes et des femmes affectés d une certaine maladie et traités dans un même hôpital. Age 10-25 26-35 36-45 46-55 56 et + Hommes 23 34 64 81 98 Femmes 20 31 55 68 96 Peut-on affirmer, au risque de 0,05, qu il y a une différence entre la façon dont la maladie affecte les hommes et les femmes? (Indication: vous effectuerez un test d indépendance). Exercice 24. Test du caractère poissonnien des arrivées à une file d attente Pendant 100 intervalles de 10 minutes, on a compté le nombre X d ouvriers se présentant à un magasin pour emprunter des outils, ce qui donne le tableau suivant. x i 5 1 6 0 7 1 8 2 9 1 10 3 11 5 12 6 13 9 14 10 15 11 16 12 17 8 18 9 19 7 20 5 21 4 22 3 23 1 24 1 25 1 Total 100 (1) Calculer la moyenne empirique de cet échantillon et eprésenter graphiquement les données à l aide d un diagramme en batons. (2) On cherche à savoir si X suit une loi de Poisson. Estimer le paramètre λ de cette loi. On note λ cette estimation. Calculer les probabilités q i =P λ(x = x i ) pour x i {5,, 24} et q 21 = P λ(x 25). (3) Représenter graphiquement les 100 q i sur la même figure que celle de la première question. (4) Tester H 0 : la distribution de X est une loi de Poisson, contre H 1 : ce n est pas une loi de Poisson au risque α = 5%. On prendra garde à regrouper les cases de façon à ce que les effectifs espérés sous H 0 soient toujours supérieurs ou égaux à 5. n i