Université Paris 1 Magistère d Economie - 1ère année COURS DE STATISTIQUE TD - FEUILLE N 2 Estimation ponctuelle et comparaison d estimateurs Exercice 1 On considère une variable aléatoire X de loi L, d espérance m et de variance σ 2 finies. Quelles sont les propriétés des estimateurs X et S 2 de m et σ 2? Qu en est-il dans le cas d une loi normale N (m, σ 2 )? Exercice 2 On considère la répartition des ménages français en deux classes C 1 et C 2 suivant qu ils habitent dans une commune urbaine ou dans une commune rurale. On désigne respectivement par p 1 et p 2 les proportions dans chaque classe des ménages possédant un bien durable déterminé. Pour estimer p 1 et p 2, on a tiré au hasard et avec remise n 1 ménages dans C 1 et n 2 ménages dans C 2 et pris pour estimateurs les fréquences F 1 et F 2 de ménages possédant le bien considéré dans chaque échantillon. On suppose ici que p 1 = p 2 = p. 1. Les estimateurs F 1, F 2 et F 1+F 2 2 sont-ils sans biais? Quel est le meilleur des trois suivant les valeurs de n 1 et n 2? (on supposera n 1 > n 2 ). 2. Parmi les estimateurs de la forme af 1 + bf 2, quel est le meilleur estimateur sans biais de p? Exercice 3 La loi de probabilité d une variable aléatoire X dépend d un paramètre réel θ. Soient T 1 et T 2 deux estimateurs sans biais de θ, de variances respectives V 1, V 2 et de covariance W. On considère les estimateurs sans biais de θ de la forme : T 3 = at 1 + bt 2 1. Trouver en fonction de a les valeurs de b pour lesquelles ces estimateurs sont sans biais. 2. Parmi les estimateurs sans biais de cette forme, quel est celui de variance minimum? Calculer sa variance V 3 en fonction de V 1, V 2 et W. 3. Montrer que si T 1 et T 2 sont tous deux efficaces, ils sont égaux presque partout. Exercice 4 Soit X une variable aléatoire suivant une loi normale N (m, σ 2 ) et (X 1,..., X n ) un n-échantillon de X. On considère les estimateurs suivants de σ 2 : T 1 = 1 n n (X i m) 2 ; T 2 = 1 n n ( Xi X ) 2 ; T3 = 1 n 1 n ( Xi X ) 2 Quelles sont les propriétés de chacun des trois estimateurs? Dans quels cas utilise-t-on T 1, T 2 ou T 3? 1
Exercice 5 Deux cimenteries produisent selon le même procédé de fabrication du ciment dont on suppose que la résistance est une variable aléatoire N (m, σ 2 ) où m et σ 2 sont des paramètres inconnus. Chaque cimenterie examine un n-échantillon de cette variable aléatoire auquel elle associe l estimateur sans biais de σ 2 : S 2 = 1 n 1 1ère cimenterie : n = 10, (X 1,..., X 10 ) : S1 2 = 1 10 ( ) 2 9 Xi X 1 où X1 = 1 10 10 X i n ( Xi X ) 2 2ème cimenterie : n = 6, (X 11,..., X 16 ) : S2 2 = 1 16 ( ) 2 5 1 Xi X 2 où X2 = 1 16 6 1 X i 1. On ne dispose comme information que des réalisations de S1 2 et S2. 2 On cherche des estimateurs de σ 2 de la forme : as1 2 + bs2. 2 Trouver a et b tels que l estimateur T 1 = a S1 2 +b S2 2 soit sans biais et de variance minimum parmi les estimateurs de cette forme. 2. On dispose maintenant de toutes les réalisations des variables X i et non plus uniquement des variables S 2 1 et S 2 2. L ensemble des X i pour i = 1,..., 16 est considéré alors comme un échantillon unique de taille 16. Quels sont alors les estimateurs M de m et T 2 de σ 2? Calculer leurs espérances et leurs variances. Comparer T 1 et T 2. Exercice 6 Le bureau de contrôle de fabrication d une usine doit étudier le nombre de pannes d un certain type d appareil durant un intervalle de temps donné T. On suppose que le nombre de pannes d un appareil durant cet intervalle de temps T est une variable aléatoire N suivant une loi de Poisson de paramètre ct. On étudie k appareils et on note le nombre de pannes (n 1,..., n k ) de ces k appareils pendant le temps T, (n 1,..., n k ) étant considéré comme une réalisation d un k-échantillon de N. 1. On veut estimer ct. (a) Que représente concrètement le paramètre ct? (b) On considère la statistique F = 1 k k N i. Calculer l espérance et la variance de F. (c) Montrer que F est un estimateur sans biais et convergent de ct. (d) On pose f une réalisation de la variable aléatoire F. Quelles différences faites-vous entre F, f et ct? 2. On veut estimer c. (a) Que représente concrètement le paramètre c? (b) Déduire de la première partie l expression d un estimateur sans biais et convergent de c. Exercice 7 Soit X une variable aléatoire qui suit une loi Binômiale B(16, p), où p est un paramètre inconnu. On se propose d estimer p à l aide d un échantillon de taille n de X : (X 1,..., X n ). 2
1. On envisage les estimateurs suivants de p : T 1 = X 1 +... + X n n ; T 2 = X 1 +... + X n 16n ; T 3 = 1 16 [ X 1 + X ] 2 +... + X n n 1 Dire lesquels sont sans biais, convergents. Lequel doit-on retenir de préférence? 2. Quel est l estimateur de maximum de vraisemblance de p? Est-il efficace? Exercice 8 1. Démontrer que, pour qu un estimateur T n d un paramètre θ soit convergent, il suffit qu il soit sans biais et que sa variance tende vers 0 quand n tend vers l infini. 2. On définit le coût quadratique moyen comme E θ [ (Tn θ) 2]. Etablir la relation suivante : E θ [ (Tn θ) 2] = V θ (T n ) + [E θ (T n ) θ] 2 3. Montrer que le critère de choix d un estimateur (coût quadratique moyen minimum) est compatible avec celui d efficacité. Quel est l intérêt de ce critère par rapport à celui d efficacité? 4. Reformuler la condition suffisante du point 1) avec la notion de coût quadratique moyen. 5. On suppose que le paramètre θ a un estimateur T n dont la loi de probabilité sous P θ est définie par : P θ (T n = θ) = 1 1 n, P θ (T n = n) = 1 n A l aide de cet exemple, montrer que cette condition suffisante d estimateur convergent n est pas une condition nécessaire. Exercice 9 Soit (X 1,..., X n ) un n-échantillon de loi de Bernoulli de paramètre θ. Vérifier que T = X ( 1 X ) est un estimateur biaisé de θ(1 θ). Donner un estimateur sans biais de θ(1 θ) qui soit fonction de T et calculer sa variance. Le calcul de la variance est facultatif. Exercice 10 On observe X 1 et X 2 deux variables aléatoires indépendantes et distribuées selon une loi de Bernoulli de paramètre θ, θ ]0, 1[. Montrer qu on ne peut pas trouver d estimateur sans θ biais de qui soit fonction de X 1 θ 1 et X 2. Exercice 11 Calculer l estimateur de maximum de vraisemblance du paramètre θ pour chacune des lois envisagées dans l exercice 21 de la première feuille. Dans chaque cas, on examinera si l estimateur trouvé est sans biais et éventuellement efficace. Exercice 12 Soit D la variable aléatoire représentant la durée d une communication téléphonique. On suppose que la loi de D est la loi Uniforme U[0, θ], pour θ > 0. On veut estimer θ. Pour cela, on observe un n-échantillon : les durées de n communications. 3
1. On propose comme estimateur de θ la statistique n T = 2 n D i Est-il sans biais? Convergent? Calculer sa variance. 2. Donner une statistique exhaustive pour θ, que l on notera S dans la suite. Donner la loi de S. 3. Déterminer l estimateur de maximum de vraisemblance de θ. Déterminer sa loi. Est-il sans biais? Convergent? 4. Soit V l estimateur sans biais proportionnel au précédent. Est-il convergent? Comparer V et T. 5. Calculer l information de Fisher I(θ) relative à θ. Comparer V(V ) et [I n (θ)] 1. Expliquer ce résultat. Exercice 13 Dans une population donnée, on suppose que le revenu annuel d un individu est une variable aléatoire de densité f : f(r) = { 1 π(r r0 ) e [ln(r r 0) θ] 2, r > r 0 0, r r 0 r 0 désigne le revenu minimal dans la population (r 0 > 0) et θ est un paramètre inconnu que l on veut estimer à l aide d un échantillon de taille n de R : (R 1,..., R n ). 1. Quel est l estimateur de maximum de vraisemblance θ de θ? 2. Montrer que la variable aléatoire Z = ln (R r 0 ) suit une loi normale dont on précisera les paramètres. 3. L estimateur θ est-il sans biais? Convergent? Exercice 14 On appelle loi de Paréto unilatérale de paramètres α et r la loi de densité avec α > 0 et r > 0. f α,r (x) = αrα x α+1 1 (x>r), 1. Calculer l espérance (pour α > 1) et la variance (pour α > 2). 2. On observe un n-échantillon de cette loi. Donner une statistique exhaustive pour le couple de paramètres (α, r). 3. En supposant α connu, déterminer l estimateur de maximum de vraisemblance de r et calculer sa loi. Cet estimateur est-il sans biais? Exercice 15 Soit (X 1,..., X n ) un n-échantillon de loi de Poisson de paramètre λ > 0. On veur estimer θ = λ 2. Soit S = X 1 +...+X n. Montrer que T = S(S 1)/n 2 estime θ sans biais. Généraliser à l estimation de λ k, pour k un entier positif. (Utiliser la fonction génératrice de S). Montrer que l estimateur T n est pas efficace. (Il est pourtant de variance minimum parmi les estimateurs sans biais, mais on ne peut pas le montrer dans le cadre de ce TD). Comparer 4
à l estimateur de maximum de vraisemblance. Exercice 16 On veut estimer la proportion p de poissons d une certaine espèce se trouvant dans un lac. Pour cela, on pêche jusqu à ce qu on obtienne un nombre m de poissons de l espèce voulue, fixé à l avance. Soit X la variable aléatoire égale au nombre total de poissons pêchés. 1. Déterminer la loi de X. On montrera que : { C m 1 x 1 p P(X = x) = m (1 p) x m, x {m, m + 1,...} 0, sinon Cette loi porte le nom de loi Binômiale négative de paramètres m et p. 2. Montrer que la loi de X est la somme de m variables aléatoires indépendantes de loi géométrique G(p). En se servant de la fonction génératrice de la loi géométrique, retrouver la loi de X. 1 (On utilisera les dérivées successives de ). 1 X 3. Montrer que T = m 1, pour m > 1, est un estimateur sans biais de p. X 1 4. Calculer l estimateur de maximum de vraisemblance de p. Est-il sans biais? Estimation ponctuelle et intervalles de confiance Exercice 1 Reconnaître dans chacun des problèmes suivants un problème d estimation. On déterminera : la loi des variables aléatoires utilisées le paramètre θ à estimer pour une estimation ponctuelle, sa valeur et les propriétés de l estimateur choisi la loi de l erreur commise T θ en remplaçant le paramètre θ par son estimateur T un intervalle de confiance à 95% pour θ préciser les hypothèses supplémentaires, éventuellement nécessaires pour répondre aux points précédents. 1. Le dépouillement d une enquête sur le logement, concernant le niveau des loyers des appartements en région parisienne, indique pour 100 appartements les résultats suivants : x = 1 100 x i = 2000, s 2 = 1 100 (x i x) 2 = 250000 100 99 Que peut-on dire du niveau moyen des loyers des appartements dans la région parisienne? 2. Dans une usine fabricant un type donné de pièce, un contrôle statistique de la qualité révèle que sur un échantillon de 100 pièces contrôlées, dix d entre elles sont jugées défectueuses car ne satisfaisant pas aux normes de production. Que peut-on dire de la production de pièces défectueuses pour l ensemble de la production de cette usine? 3. Sur un échantillon de 600 sujets atteints de cancer des bronches, on a trouvé 550 fumeurs. Que peut-on dire du pourcentage de fumeurs parmi les cancéreux des bronches? Peut-on déduire de ces résultats qu il est dangereux de fumer? 5
Exercice 2 L une des caractéristiques d une pièce industrielle peut être considérée comme une variable aléatoire X suivant une loi N (m, σ 2 ), où m et σ 2 sont inconnus. On mesure sur 16 pièces les valeurs x 1,..., x 16 de ces caractéristiques et on pose : x = 1 16 16 x i, s 2 = 1 15 16 (x i x) 2 1. Déterminer un intervalle de confiance symétrique à 98% pour m. 2. L observation de l échantillon de taille 16 de X conduit à l intervalle suivant : [374, 426]. En déduire les estimations de x et s 2 observées dans l échantillon. 3. Que pourrait-on faire si l on voulait diminuer la largeur de l intervalle? Exercice 3 Dans une usine de fabrication, le réglage des machines est effectué de telle façon que le diamètre moyen des pièces soit de 5 cm. On suppose que le diamètre X d un axe est une variable aléatoire normale d espérance 5 cm et d écart-type inconnu σ. A la sortie de la chaîne de fabrication, on prélève au hasard un lot de 30 pièces dont on mesure les diamètres x 1,..., x 30. On cherche à estimer σ 2. 1. Quel estimateur choisissez-vous? Pourquoi? 2. En prélevant les 30 pièces, on a trouvé : 30 (x i 5) 2 = 1, 2 Quell est l estimation correspondante de σ 2? 3. Déterminer un intervalle de confiance unilatère à gauche pour σ 2 à 95% (une borne supérieure à 95% pour σ 2 ). 6