Correction des travaux dirigés - Estimation Julian Tugaut Si vous trouvez des erreurs de Français ou de mathématiques ou bien si vous avez des questions et/ou des suggestions, envoyez-moi un mail à tugaut@math.cnrs.fr 1
2
Table des matières Page de garde 1 Table des matières 3 Exercice 1 5 Énoncé........................................... 5 Correction......................................... 5 Correction du 1).................................. 5 Correction du 2).................................. 5 Exercice 2 7 Énoncé........................................... 7 Correction......................................... 7 Correction du 1).................................. 7 Correction du 2).................................. 7 Exercice 3 9 Énoncé........................................... 9 Correction......................................... 9 Correction du 1).................................. 9 Correction du 2).................................. 9 Correction du 3).................................. 9 Correction du 4).................................. 9 Correction du 5).................................. 9 Exercice 4 11 Énoncé........................................... 11 Correction......................................... 11 Correction du 1).................................. 11 Correction du 2).................................. 11 Correction du 3).................................. 12 Correction du 4).................................. 12 Exercice 5 13 Énoncé........................................... 13 Correction......................................... 13 Exercice 6 15 Énoncé........................................... 15 Correction......................................... 15 Correction du 1).................................. 15 Correction du 2).................................. 15 3
Exercice 7 17 Énoncé........................................... 17 Correction......................................... 17 4
Exercice 1 Énoncé Une machine automatique remplit des paquets de sucre en poudre. Les poids, en grammes, sur un échantillon de dix paquets sont 297, 300, 295, 297, 300, 310, 300, 295, 310, 300. 1) Calculer le poids moyen de l échantillon et son écart-type. 2) Donner une estimation de l écart-type de la production. Correction Correction du 1) Le poids moyen de l échantillon est 297 + 300 + 295 + 297 + 300 + 310 + 300 + 295 + 310 + 300 m e := 10 =300.4. L écart-type de l échantillon se calcule comme suit : Correction du 2) (297 300.4) 2 + + (300 300.4) 2 σ e := 10 5.16. On peut utiliser deux estimateurs pour l écart-type de la production. On peut prendre ˆσ 1 = σ e = 5.16, l écart-type d échantillon. Toutefois, cet estimateur a un biais et la taille de l échantillon est faible. On considère donc aussi l écart-type d échantillon corrigé ˆσ 2 = 10 10 1 σ e 5.44. 5
6
Exercice 2 Énoncé D un contrôle journalier effectué à la sortie d une chaîne de fabrication de billes en acier sur un échantillon de 900 billes, il ressort que leur poids suit une loi normale de moyenne 62.33 mg et d écart-type 6.54 mg. 1) Estimer l écart-type de la production journalière. 2) Estimer le poids moyen de la production par un intervalle de confiance au niveau de confiance de 95%. Correction Correction du 1) On utilise l estimateur sans biais pour évaluer cet écart-type : Correction du 2) ˆσ := 900 6.54 6.544. 900 1 Auniveaudeconfiancede 95%,c est-à-direauseuilderisquede 5%,unintervalledeconfiance du poids moyen est [ ] 6.54 6.54 62.33 q 0,975 ; 62.33 + q 0,975, 900 1 900 1 où q 0,975 est le quantile d ordre 0.975. Donc, q 0,975 = 1.96. L intervalle de confiance est donc [61.90; 62.76]. 7
8
Exercice 3 Énoncé On considère une variable aléatoire X qui suit la loi f θ (x) := 1 θ 1 [0;θ](x) où θ est un paramètre strictement positif que l on ne connait pas. On dispose d un échantillon de quarante observations : 1.147; 1.573; 0.652; 2.639; 0.065; 1.878; 2.277; 3.876; 1.801; 0.457; 3.041; 2.662; 2.736; 3.586; 3.328; 0.865; 0.907; 1.181; 0.507; 2.447; 2.730; 3.104; 3.723; 3.267; 0.982; 0.964; 1.562; 2.938; 1.088; 0.308; 3.060; 0.851; 1.433; 3.578; 0.120; 3.014; 2.109; 3.527; 3.833; 2.478. 1) Calculer l espérance mathématique de la variable aléatoire X, en fonction de θ. 2) En déduire une méthode simple pour estimer θ. 3) Estimer θ avec la méthode proposée dans la question 2. 4) L estimation de θ par la moyenne d échantillon étant sensible aux valeurs aberrantes, on se propose d estimer θ par le maximum de vraisemblance. Calculer la vraisemblance de θ. 5) Trouver θ qui maximise la fonction de vraisemblance. Correction Correction du 1) Après intégration, on trouve, E[X] = θ 2. Correction du 2) On considère la statistique 2X n où X n est la moyenne d échantillon. En effet, on sait que la moyenne d échantillon est un estimateur sans biais et convergent de la moyenne arithmétique. Correction du 3) On prend les moyenne des nombres et l on trouve 2.06. On multiplie par 2 et l on estime ainsi θ par 4.12. Correction du 4) On a L x1,,x 4 0(θ) := 40 i=1 1 θ 1 [0;θ](x i ). Correction du 5) Si θ < max 1 i 40 x i, L x1,,x 4 0(θ) = 0. Donc, on prend θ max 1 i 40 x i. Ainsi, L x1,,x 4 0(θ) = 1 θ 40. Par conséquent, on prend θ le plus petit possible, ce qui nous donne θ = max 1 i 40 x i = 3.876. 9
10
Exercice 4 Énoncé Une usine d embouteillage possède une machine qui remplit ses bouteilles de un litre. Cette machine n est pas très précise et le volume de boisson versé dans une bouteille est toujours supérieur à un litre. On supposera par la suite que ce surplus suit une loi uniforme entre 0 et θ, θ représentant le nombre de litres maximal que peut verser en trop la machine. On aimerait avoir une estimation du nombre maximal de litres que la machine peut verser en trop dans une bouteille. Pour cela, un technicien regarde la machine remplir n bouteilles et note pour chaque i {1,, n}, le nombre de litres X i que la machine a versé en trop pour remplir la bouteille numéro i. On rappelle que si X suit une loi uniforme sur [0; θ], alors : E[X] = θ θ2 et var[x] =. 2 12 On propose deux stratégies pour estimer θ. La première consiste à considérer l estimateur θ 1 := 2X n. La deuxième consiste à définir θ 2 comme étant la plus grande des variables aléatoires parmi X 1,, X n. On admet les résultats probabilistes suivants : E[ θ 2 ] = 1) Calculer le biais de l estimateur θ 1. n n + 1 θ et var[ θ 2 ] = 2) Calculer la variance de l estimateur θ 1. n (n + 2)(n + 1) 2 θ2. 3) Calculer le risque quadratique de θ 2. 4) Parmi ces deux estimateurs, lequel choisiriez-vous? Expliquer. On pourra, pour simplifier, se restreindre au cas où n est grand. Correction Correction du 1) Soit b θ ( θ 1 ) ce biais. Alors : bθ ( θ 1 ) = Eθ ( θ 1 ) θ = 2Eθ (X n ) θ = 0. Correction du 2) On a 11
Var θ ( θ 1 ) = Varθ ( 2Xn ) = 4Var θ ( Xn ) = 4 n Var n 2 θ [X i ] i=1 = 4 n Var θ[x 1 ] θ 2 = 4 n 12 = θ2 3n. Correction du 3) Le risque quadratique de θ 2 est défini comme étant Correction du 4) E θ [ ( θ 2 θ ) 2 ] = Var θ ( θ 2 ) + ( Eθ ( θ 2 ) θ ) 2 = = ( )2 n n (n + 2)(n + 1) + 2 n + 1 θ θ 2 (n + 1)(n + 2) θ2. À première vue, l estimateur θ 1 semble meilleur car il est sans biais. Néanmoins, quand n est grand, l erreur quadratique moyenne de θ 2 est en 1 n 2 tandis que celle de θ 1 est en 1 n. Conséquemment, on préfèrera le second estimateur. 12
Exercice 5 Énoncé Une série d expériences dans une unité pilote en vue d étudier l influence de la température X sur le rendement d une réaction chimique Y à pression constante a donné les résultats suivants : Température X (en ) 51 52 54 56 57 58 59 Rendement Y (en %) 21 18 15 12 8 6 4 Estimer, par la méthode des moindres carrés, la droite de régression linéaire de Y par X. Correction D après le cours, la droite de regression a pour équation y = a 0 x + b 0, où a 0 := sxy et b s 2 0 := y x sxy où s x s 2 xy est la covariance des séries statistiques x et y, s 2 x est la x variance de x, x est la moyenne de x et y est la moyenne de y. On calcule maintenant ces quatre quantités. Calcul de x On a Calcul de y On a x = 1 (51 + 52 + 54 + 56 + 57 + 58 + 59) 7 = 387 7 55.3. y = 1 (21 + 18 + 15 + 12 + 8 + 6 + 4) 7 = 84 7 12. 13
Calcul de s 2 x On a s 2 x = 1 ( 51 2 + 52 2 + 54 2 + 56 2 + 57 2 + 58 2 + 59 2) ( ) 387 2 7 7 = 388 49 7.9. Calcul de s xy On a s xy = 1 387 (51 21 + 52 18 + 54 15 + 56 12 + 57 8 + 58 6 + 59 4) 7 7 12 = 115 7 16.4. Droite de régression Il vient a 0 = 805 2.1 et b 388 0 = 12 387 ( ) 805 7 388 = 49161 = 126.7. La droite de régression 388 a donc pour équation y = 2.1x + 126.7. 14
Exercice 6 Énoncé On considère une variable aléatoire discrète X dont la loi de probabilité est définie par P (X = k) = θk 1 (1 + θ) k, k N. Ici, θ est un paramètre strictement positif que l on ne connait pas. 1) Montrer que E(X) = θ + 1 et Var(X) = θ(1 + θ). 2) On se propose d estimer le paramètre θ à partir d une réalisation numérique (x 1,, x n ) d un n-échantillon (X 1,, X n ) de la loi de X. (a) Trouver l estimateur du maximum de vraisemblance Θ n du paramètre θ. (b) L estimateur Θ n est-il sans biais? Correction Correction du 1) On détermine la fonction caractéristique de X. ϕ X (t) :=E [ e itx] = e itn θ n 1 n=1 (1 + θ) n = 1 ( ) n θ θ n=1 1 + θ eit = 1 θ 1+θ eit θ 1 θ 1+θ eit e it = 1 + θ(1 e it ). On sait E[X] = iϕ X(0) = 1 + θ et Var[X] = ϕ X(0) + (ϕ X(0)) 2 = θ(1 + θ). Correction du 2) (a) On détermine d abord la fonction de vraisemblance : n h(θ; x 1,, x n ) := P (X i = x i ) i=1 n θ x i 1 = i=1 (1 + θ) x i 15 = θn(x 1) (1 + θ) nx
où x := 1 n ni=1 x i. On cherche maintenant θ qui minimise le logarithme népérien de cette fonction. Or, log (h(θ; x 1,, x n )) = n(x 1) log(θ) nx log(1 + θ). On prend la dérivée par rapport à θ et il vient d dθ log (h(θ; x 1,, x n )) = n(x 1) θ nx 1 + θ. On remarque que cette quantité est positive pour θ < x 1, négative pour θ > x 1 et nulle pour x = x 1. L estimateur du maximum de vraisemblance est donc x 1. (b) On calcule le biais comme suit : E[ Θ n ] = E[X] 1 = E[X] 1 = θ donc Θ n est un estimateur sans biais de θ. 16
Exercice 7 Énoncé Après une enquête sur un échantillon de 500 ménages d une population, on constate que 405 possèdent une voiture. Estimer par intervalle de confiance au niveau de confiance de 95% la proportion de ménages possédant une voiture. Correction Ici, la proportion d échantillon est f e = 405 = 0.81. Un intervalle de confiance pour cette 500 proportion au niveau de confiance de 95% (au seuil de risque de 5%) est fe (1 f e ) fe (1 f e ) 0.81 q 0.975 ; 0.81 + q 0.975 500 500 où q 0.975 estlequantiled ordre 0.975delaloinormalecentréeréduite.Donc,onat 0.975 = 1.96. Il vient, après calculs : [0.776; 0.844]. 17