Université Paris 13 Cours de Statistiques et Econométrie UFR de Sciences Economiques Année 2008-2009 Licence de Sciences Economiques 3 Premier semestre FEUILLE 1 : ESTIMATION 1. Estimation ponctuelle Exercice 1. Une machine fabrique des pièces carrées dont on veut estimer la surface moyenne ; pour cela on dispose des mesures de 2 côtés, x et y, sur un échantillon de n pièces. (1) On supposera que X et Y sont des variables aléatoires indépendantes de même espérance m et de même écart-type σ. Les moyennes empiriques X et Y sont-ils des estimateurs sans biais de m? Sont-ils indépendants l un de l autre? Ont-ils même variance et, si oui, quelle est-elle? (2) On décide de choisir entre trois estimations possibles de la surface moyenne: (x + y) 2 /4, (x 2 + y 2 )/2, x y. Les estimateurs suivants sont-ils sans biais ( X + Y ) 2 /4. (X 2 + Y 2 )/2. X Y. Quel est parmi eux l estimateur le plus biaisé? (3) Calculer le risque quadratique de X Y. Exercice 2. Comparons, sur un petit exemple, les qualités de X à celles d autres estimateurs possibles de la moyenne. On dispose d une population de cinq individus dont on a mesuré la taille en mètre : Alain, de taille 1, 75m, Bernard, de taille 1, 80m, Clément, qui qui mesure 1, 72m, David de taille 1, 68m et Eugène qui mesure 1, 78m. La moyenne des cinq tailles est m = 1, 746m et l écart-type est σ = 4, 27cm. On extrait des échantillons (avec remise) de n = 3 individus parmi les 5. On note X la moyenne des tailles de l échantillon, X 1 la taille du premier individu tiré au sort, X 3 celle du troisième, et X me la taille médiane. (1) Calculer E(X), V (X), E(X 1 ), V (X 1 ), E(X 3 ), V (X 3 ). (2) Lequel des estimateurs X, X 1 et X 3 est-il le plus efficace? (3) Combien y-a-t-il d échantillons aléatoires simples (i.e. avec remise) possibles, équiprobables? (4) Parmi ceux-ci combien ont pour médiane 1, 68m, 1, 72m, 1, 75m, 1, 78m, 1, 80m? (On rappelle que si a 1 a 2 a 3 sont trois nombres (distincts ou confondus) ordonnés par ordre croissant, a 2 est leur médiane). (5) En déduire E(X me ) et V (X me ). (6) X me est-il un estimateur sans biais de m? (7) X me est-il un estimateur sans biais de la médiane? Date: Octobre 2008. 1
2 FEUILLE 1 : ESTIMATION Exercice 3. Soit θ un paramètre strictement positif. Soit X 1,, X n un n- échantillon de densité f θ (x) = 1 2πθ exp( x2 ), x R. (1) Reconnaître la loi de X i. (2) Montrer que T = n i=1 X2 i n est un estimateur sans biais de θ. Exercice 4. Soit θ un paramètre strictement positif. Soit X 1,, X n un n- échantillon de densité la densité exponentielle de paramètre θ. 2θ (1) Calculer la vraisemblance L(θ) de X 1,, X n. (2) Calculer l estimateur du maximum de vraisemblance de θ. (3) Application numérique: des durées de vie d ampoules de même type, supposées être les réalisations de variables aléatoires de loi exponentielle sont données ci-dessous. 19 100 151 301 179 120 35 28 93 16 65 11 65 28 7 125 33 5 34 138 56 58 148 7 77 425 80 203 81 52 176 6 243 20 3 35 81 2 103 17 Estimer la durée de vie moyenne. Estimer le paramètre de la loi exponentielle. Exercice 5. M. Dupont prend tous les jours l autobus, aux environs de 8 h. Il sait que ce bus passe à intervalles de temps réguliers, mais il ne connaît pas la durée de ces intervalles. La durée de son attente est donc une variable aléatoire X, de loi uniforme sur un intervalle [ 0, a ], où a est inconnu et strictement positif. Il a noté, pendant 20 jours, la durée de son attente : x1, x2,..., xn ( n = 20 ), et veut utiliser cet échantillon pour estimer a, durée maximale d attente. (1) Calculer E(X). En déduire un estimateur sans biais de a dont on calculera la variance. On notera U ce premier estimateur. Cet estimateur est-il convergent? (2) Une autre possibilité, puisque a est la durée maximale de l attente, est d estimer a par M = max(x 1, X 2,, X n ). L estimateur M est-il sans biais? (vous essayerez de répondre sans faire le calcul de cette espérance. (3) En utilisant le fait que M a pour densité g M (x) = n xn 1, pour x [0, a], an calculer E a (M) puis E a (M 2 ). En déduire le risque quadratique R(a, M). (4) Quel estimateur allez-vous choisir entre U et M? (5) Comme a est le milieu de [0, a], on peut aussi estimer a par Y = M + m, où m = min(x 1,, X n ). On peut démontrer que E(Y ) = a, et V (Y ) = 2a 2 (n+1)(n+2). Quel est l estimateur de risque quadratique le plus faible entre Y,M et U?
FEUILLE 1 : ESTIMATION 3 Exercice 6. Afin d estimer le nombre d oies dans une région un premier groupe de 100 oies est capturé marqué et relaché. Un second groupe de 75 oies est capturé parmi lesquelles on observe que 2 sont marquées. Sans faire de calcul compliqué, donner une estimation grossière du nombre d oies. 2. Intervalles de confiance Exercice 7. Soit X une variable aléatoire de densité f(x; µ) = (x µ) 2 e 32 4 2π. (1) On a calculé x = 30 pour un échantillon aléatoire de taille 20 de X. Déterminer un intervalle de confiance à 95% pour µ. (2) De quelle taille devrait être un échantillon pour que l intervalle de confiance soit moins long de moitié? (3) Le poids d un nouveau né est une variable gaussienne d écart type 0,5 kg. On pèse 19 nouveaux nés dans une maternité et on trouve un poids moyen empirique de 3,6 kg. Déterminer un intervalle de confiance au niveau 0,95 pour le poids moyen des nouveaux nés dans la région desservie par cet hopital. (4) Quel serait l intervalle de confiance au même niveau si le poids moyen de 3,6 kg avait été obtenu sur un échantillon de 50 enfants? (5) Pour un échantillon de 19 enfants, quel est le degré de confiance d un intervalle de longueur 0,1? Exercice 8. Dans une population le temps d écoute de la télévision en une semaine en heures est une variable de loi normale dont la moyenne µ fluctue selon la saison et les programmes. Un sondage auprès de 16 individus de cette population a donné les temps d écoute suivants en une semaine : 12,0 23,5 15,0 11,5 23,0 29,5 31,0 19,5 20,0 27,0 13,0 22,5 6,0 25,0 18,0 20,5. (1) Déterminer un intervalle de confiance au niveau 0,9 pour l espérance du temps d écoute cette semaine là (2) Si l écart type est connu égal à 6, déterminer un intervalle de confiance au niveau 0,9. Combiens d observations aurait-il fallu pour que la longueur de cet intervalle n excède pas une heure? Exercice 9. Des statistiques sur 199 enfants d une population ont montré que le nombre de caries dentaires sur une période de 36 mois avait pour moyenne 21 et pour écart type 12. En supposant que le nombre de ces caries suit une loi normale déterminer un intervalle de confiance pour sa moyenne au niveau 90/100, puis au niveau 99/100. Exercice 10. Soit un n-échantillon de taille 20 de la densité f(x; θ) = exp( 1 2 ( x 10 σ )2 ) σ. 2π Trouver un intervalle de confiance à 90% pour σ 2. On donne: x 1 + + x 20 = 180 et x 2 1 + + x 2 20 = 2000
4 FEUILLE 1 : ESTIMATION Exercice 11. (1) Utiliser les valeurs suivantes, qui sont les réalisations d un échantillon Gaussien d espérance µ et de variance σ 2 pour obtenir un intervalle de confiance à 95% pour σ 2. 0.964-0.266-1.726 2.252 0.523 0.016 1.639 0.116 0.150-0.635 0.313-0.496-1.203 1.163 1.306-2.466 (2) On suppose que vous disposez de 1000 échantillons indépendants de cette loi et de taille 16. Pour chaque échantillon vous calculez l intervalle de confiance à 95% pour σ 2 associé. On suppose aussi que vous connaissez la vraie variance. On coche chaque intervalle qui la contient. Quel est le nombre attendu d intervalles non cochés? Quelle est la loi du nombre d intervalles non cochés? Exercice 12. (extrait du partiel de janvier 2006) On a étudié l effet d un régime alimentaire sur 9 femmes. On donne les résultats dans le tableau suivant. Poids avant Poids après Femme (en livres) (en livres) 1 133 132 2 146 143 3 135 137 4 168 160 5 148 151 6 152 148 7 180 171 8 126 120 9 122 124 Construire un intervalle de confiance à 90% pour la différence moyenne de poids µ (la différence de poids sera prise égale au poids avant régime - poids après régime et sera supposée gaussienne). Exercice 13. Construisez un intervalle de confiance à 90% pour le paramètre µ de la loi de Poisson si un échantillon de taille 30 donne x 1 + + x 30 = 240. Utilisez l approximation normale pour X et remplacer σ par son estimateur. Exercice 14. (1) Construisez un intervalle de confiance à 95% pour le paramètre p de la loi de Bernoulli (on note π(x, p) la probabilité si le paramètre est p d obtenir le résultat x pour cette variable): { p si x = 1 π(x; p) = 1 p si x = 0, à partir d un échantillon de taille 50 vérifiant 50 i=1 x i = 15. Utilisez l approximation normale pour X et remplacer la variance par la variance estimée. (2) Après le débat télévisé d octobre 1981 entre les candidats à la présidence des Etats Unis, Reagan et Mondale, un sondage d opinion fait par la maison Gallup pour le compte du journal Newsweek a révélé que 205 spectateurs sur les 375 sondés pensaient que Mondale l avait emporté. Construire un intervalle de confiance au niveau 0,9 pour la proportion de spectateurs qui pensaient que Mondale l avait emporté. Peut-on affirmer avec ce degré de confiance que la majorité des spectateurs étaient de cet avis?
FEUILLE 1 : ESTIMATION 5 (3) 20 pièces produites par une machine sur un échantillon de 200 sont défectueuses. Calculer un intervalle de confiance au niveau 0,95 pour la proportion de pièces défectueuses produites par cette machine. Exercice 15. (extrait du partiel de Janvier 2006) (1) Dans un échantillon de 1500 électeurs, 52% préféraient le candidat A au candidat B. Donner un intervalle de confiance à 98% pour la proportion d électeurs qui préfèrent le candidat A. (2) La variance maximale de l estimation d une proportion p à partir d un échantillon de taille n est 1 4n. Par suite, la longueur maximale d un intervalle de confiance pour p de c niveau 1 α, si l on utilise l approximation gaussienne, est n, où c est tel que P ( N (0, 1) c) = 1 α. Combien d observations sont-elles nécessaires pour que l on soit sûr à 95% que l estimation diffère de p d au plus 0.01? Exercice 16. (extrait du partiel de Janvier 2008) Vingt lignes, de longueur 60 cm chacune, ont été dessinées. Un étudiant a estimé visuellement le centre de chaque ligne. La distance en cm de chaque point désigné à l extrémité gauche de la ligne a été mesurée. Les 20 mesures sont reportées dans le tableau suivant: 29,7 32,3 30,0 29,8 31,1 29,8 30,6 30,7 29,7 30,2 29,8 30,7 31,8 29,2 30,0 30,3 31,3 31,3 29,4 32,0 On supposera que les données sont des réalisations de Gaussiennes indépendantes de moyenne m et de variance σ 2. (1) Estimer la moyenne m et la variance σ 2 en en donnant des estimations non biaisées. (2) Construire un intervalle de confiance au niveau 0.95 pour m. Exercice 17. Une maison de sondages se propose d estimer des proportions dans une population par les proportions correspondantes dans un échantillon de façon à ce que la marge d erreur soit au plus de 2/100 et ce 19 fois sur 20 en moyenne. Quelle doit être la taille minimale de l échantillon?