Université Paris 1 Magistère d Economie - 1ère année COURS DE STATISTIQUE TD - FEUILLE N 3 Généralités Exercice 1 Le nombre mensuel d accidents sur un parcours routier peut être considéré comme la réalisation d une variable aléatoire X suivant une loi de Poisson de paramètre λ inconnu. On admet pour simplifier que λ ne peut prendre que deux valeurs λ 1 = 4 et λ 2 = 6, 25 correspondant aux hypothèses H 1 et H 2 à tester. Suivant la valeur de λ, on décidera ou non d aménager ce parcours. On dispose pour ce test d un échantillon d observations de X sur neuf mois : x 1 = 4, x 2 = 9, x 3 = 2, x 4 = 5, x 5 = 6, x 6 = 2, x 7 = 3, x 8 = 7, x 9 = 7 1. Suivant que le test est commandé par une association d automobilistes ou par le ministre de l équipement, quelle hypothèse de base le statisticien choisira-t-il? 2. On adopte la règle de décision suivante : si x c, on aménage le parcours. si x < c, on n aménage pas le parcours. En faisant une approximation normale de la loi de X, calculer les valeurs c 1 ou c 2 selon que l hypothèse de base retenue est H 1 ou H 2 avec un risque de première espèce α =1%, puis évaluer les puissances π 1 et π 2 associées. 3. Suivant l hypothèse de base choisie, quelle décision prendra-t-on au vu des observations disponibles? 4. Peut-on répondre à la question suivante : H 1 est-elle plus probable que H 2? On examinera d abord dans quel cadre on peut attribuer un sens à cette question et ensuite quelle donnée (a priori) supplémentaire serait nécessaire pour y répondre. Exercice 2 Une machine fabrique des pièces de diamètre X où X suit une loi exponentielle translatée, c est-à-dire de densité : { exp( (x d)), x d f(x) = 0, x < d Quand elle se dérègle, elle produit des pièces de diamètre X + s, où s est une constante positive. On teste au niveau α =1% les hypothèses : 1
H 0 : La machine est bien réglée (s = 0) H 1 : La machine est déréglée (s 0). Deux méthodes sont proposées : à partir de l observation d un 5-échantillon, utiliser X = 1 5 (X 1 + X 2 +... + X 5 ) ou Z = inf (X 1, X 2,..., X 5 ). 1. Poser Y = X d s. Déterminer la loi de Y. 2. Déterminer la loi de T = Y 1 +... + Y 5, puis de 2T. En déduire la loi de 10Y. Définir une région de rejet de H 0 au niveau 1% en utilisant la variable aléatoire X. 3. Définir et représenter la courbe de puissance de ce test. 4. Déterminer la loi de Z et construire une région de rejet de H 0 au niveau 1% en utilisant la variable aléatoire Z. 5. Représenter la courbe de puissance de ce test et comparer les deux tests. Quel est le meilleur? Exercice 3 Soit X une variable aléatoire de densité : { 1, x [0, θ] f(x) = θ 0, x / [0, θ] On teste les hypothèses H 0 : θ = 1 H 1 : θ = 2. On observe une seule valeur de la variable aléatoire X. Si la région de rejet de H 0 est l intervalle (X > 0, 5), déterminer le niveau et la puissance. Même chose si la région de rejet est (X > 1, 5). Exercice 4 On sait qu une boite contient ou bien 3 boules rouges et 5 noires, ou bien 5 boules rouges et 3 noires. On tire 3 boules de la boite. Si l on obtient moins de 3 boules rouges, on prend la décision que la boite contient 3 boules rouges et 5 noires. Calculer α et β. Exercice 5 Soit X une variable discrète dont la distribution sous H 0 et sous H 1 est donnée par le tableau suivant : X 1 2 3 4 5 6 7 Sous H 0 0,01 0,02 0,03 0,05 0,05 0,07 0,77 Sous H 1 0,03 0,09 0,10 0,10 0,20 0,18 0,30 Faire la liste de toutes les régions de rejet de niveau α =10%. Parmi ces régions, déterminer celle qui correspond à la plus petite valeur de β. Exercice 6 On sait que dans une boîte, il y a 8 tickets sans valeurs, et 1 ou 2 tickets gagnants. Soit H 0 et H 1 les hypothèses correspondantes. Pour tester H 0 H 1, on tire les tickets un par un jusqu à ce qu on obtienne un ticket gagnant. Soit X la variable aléatoire égale au nombre de tirages nécessaires, calculer la loi de X sous H 0 et sous H 1. On prend comme région de 2
rejet (X 5). Calculer α et β. Exercice 7 Considérer les hypothèses H 0 : p = 0, 5 et H 1 : p = 1 pour une Binomiale X avec n = 2. Faire la liste de toutes les régions de rejet pour lesquelles α 0, 5. Laquelle de ces régions de rejet minimise α + β? Utilisation du lemme de Neyman-Pearson Exercice 8 Soit H 0 : p = 1/2 et H 1 : p = 1/3, où p est la probabilité de succès d une expérience. On réalise l expérience trois fois. On accepte H 0 si et seulement si on obtient deux succès au moins. Que valent α et β, risques de première et de seconde espèce? Pour chaque niveau α 1/8, quel est le test de puissance maximum associé? Exercice 9 Un homme politique candidat à une élection se propose de faire étudier la proportion p des électeurs qui lui sont favorables. Il considère que deux hypothèses sont possibles : { H : p = 0, 48 K : p = 0, 52 Il interroge un échantillon de n électeurs et, suivant les résultats du sondage, il décidera d intensifier ou non sa campagne électorale. 1. Quelles sont les deux erreurs possibles? 2. Il choisit H comme hypothèse de base et fixe le risque de première espèce correspondant, α, égal à 5%. Quelle est la signification de ce choix? 3. Il choisit des régions critiques de la forme R(n) = {f n a}, où f n est la proportion d électeurs qui lui sont favorables dans l échantillon. Quelle est la règle de décision adoptée si n = 900? Quelle est la puissance de ce test? 4. Comment varie la région critique quand n augmente? On la calculera explicitement pour : n = 900, 2500 et 10000. A partir de quelle valeur de n aura-t-on une puissance π 95%? 5. Quelle sera la décision du candidat si la moitié des électeurs interrogés lui sont favorables lorsqu il interroge respectivement 900, 2 500 et 10 000 électeurs? Ces résultats vous paraissent-ils cohérents? 6. Montrer que lés régions critiques R(n) correspondent aux règles de décision optimale pour tester H K. N.B. : Dans toutes les applications numériques on pourra utiliser l approximation normale de la loi Binomiale. Exercice 10 L entreprise Duchemin fabrique des pneumatiques. Elle veut étudier la résistance à la crevaison d un nouveau type de pneu. On admet que le nombre de crevaisons sur 10 000 km suit une loi de Poisson P(θ). 3
Pour le modèle habituel θ = 0, 15 et on considère que le nouveau pneu doit être commercialisé si θ = 0, 1. Pour cela, l entreprise fait procéder à des essais sur 20 voitures équipées des nouveaux pneus et roulant pendant 50 000 km (chaque pneu crevé étant immédiatement réparé et réutilisé). A. (a) Définir les hypothèses et les décisions. (b) Quelle est, à votre avis, l hypothèse de base choisie par l entreprise Duchemin? (c) Bâtir le test le plus puissant de seuil α =5%. (d) Quelle est la décision si on a observé 50 crevaisons pour les 20 voitures? B. Le mensuel Quoi jeter, organe d une association de consommateurs, ayant connaissance de ces essais, réussit à en obtenir les résultats et bâtit un test à son tour : (a) Quelle sera l hypothèse de base retenue? (b) Bâtir le test le plus puissant de seuil α =5%. (c) Quelle sera la conclusion de Quoi jeter? (d) Les deux points de vue sont-ils conciliables? Hypothèses simples ou multiples Exercice 11 Sur un parcours routier déterminé, le nombre mensuel d accidents suit une loi de Poisson de paramètre λ. En absence de limitation de vitesse, le nombre moyen d accidents par moi est de cinq. On veut savoir si la limitation de vitesse peut diminuer le nombre d accidents. On fait un essai avec limitation de vitesse pendant trois mois et on observe les nombres x 1, x 2 et x 3 d accidents pour chaque mois. 1. Quelle hypothèse de base choisit-on? Pourquoi? 2. On choisit la règle de décision suivante : on décidera de limiter la vitesse si le nombre total d accidents observés pendant les trois mois considérés est strictement inférieur à k. (a) Ecrire entièrement la règle de décision adoptée. Quelle est la statistique employée pour cette règle de décision? Quelle est sa loi de probabilité? (b) On fixe le risque de première espèce α à 5%. Quelle est la valeur de k correspondante? Comment varie k quand α diminue? (c) Montrer que les règles de décision sont U.P.P. Exercice 12 On admet que la durée de vie X, exprimée en heures, de tubes fluorescents d un type déterminé est une variable aléatoire suivant une loi exponentielle de densité : { 1 f(x) = θ e x θ, x 0 0, x < 0 1. Calculer E(X) et V(X). 2. Que représente concrètement le paramètre θ? 4
3. On hésite entre deux valeurs pour θ : θ = 1600 et θ = 1200. On prélève un échantillon de 100 tubes dont on mesure les durées de vie. Quelle est la région critique du test le plus puissant de seuil α (α =5%) pour tester : où H 0 est l hypothèse de base. 4. Quelle est la puissance de ce test? 5. Montrer qu il existe un test U.P.P. de : H 0 : θ = 1600 H 1 : θ = 1200 H 0 : θ = 1600 H 1 : θ = 1200 au seuil α =5%, où H 0 est l hypothèse de base. Quelle sera, dans ce cas, la décision adoptée si la réalisation d un 100-échantillon donne x = 1280? Exercice 13 Soit X une variable aléatoire normale, d espérance m inconnue et de variance σ 2 = 25. On dispose d un échantillon de taille 25 de X. 1. Quel est le test le plus puissant au seuil α =10% de : où H 0 est l hypothèse de base? H 0 : m = 0 H 1 : m = 1 2. Montrer qu il existe un test U.P.P. au seuil α =10% (construire sa courbe d efficacité) de : où H 0 est l hypothèse de base. H 0 : m = 0 K 1 : m > 0 3. Montrer qu il n existe pas de test U.P.P. au seuil α =10% de : où H 0 est l hypothèse de base. H 0 : m = 0 K 2 : m 0 (a) Si on choisit la règle de décision du 2 comme test de H 0 K 2, quelle est sa courbe d efficacité? 5
(b) Bâtir un test raisonnable de H 0 K 2. Construire sa courbe d efficacité sur le même graphique que le précédent. Exercice 14 Soit X la variable aléatoire suivant une loi normale centrée de variance σ 2 = 4 et la variable aléatoire Y = ax proportionnelle à X. 1. On veut tester H : a = 1 K 1 : a > 1 à l aide d un échantillon de taille n = 8 de Y. Peut-on trouver un test U.P.P. de seuil α =10%? Quelle en serait la puissance pour a = 1, 7? 2. Construire, à l aide du 8-échantillon de Y, un test raisonnable de H : a = 1 K 2 : a 1. Calculer sa puissance pour a = 1, 7. Exercice 15 Une usine fabrique des tubes fluorescents dont la durée de vie X exprimée en heures suit une loi normale N (m, σ 2 ). Pour que la production soit acceptable, il faut que m soit égal à 450 et σ à 10. On prélève un échantillon de 16 lampes dont on mesure la durée de vie. On observe : x = 1 16 x i = 454, s 2 = 1 16 (x i x) 2 = 121 16 15 i=1 1. On teste au seuil α =10% i=1 H 0 : σ = 10 H 1 : σ 10. A quelle décision conduit l échantillon observé? 2. On teste alors au seuil α =10% K 0 : m = 450 K 1 : m 450. A quelle décision conduit l échantillon observé? Exercice 16 A partir d un n-échantillon de loi de Poisson P(λ), donner le test U.P.P. de H 0 : λ = λ 0 H 1 : λ = λ 1, avec λ 0 < λ 1. Même chose pour H 0 : λ λ 0 H 1 : λ > λ 0. Exercice 17 Soit un n-échantillon (X 1, X 2,..., X n ) de loi N ( 0, 1 θ) avec θ > 0. Tester H 0 : θ = 1 H 1 : θ > 1 au niveau α. Déterminer la puissance de ce test. Exercice 18 Soit deux nombres positifs θ 0 et θ 1 (θ 0 < θ 1 ) et un n-échantillon de loi donnée par la densité { θ f(x) = 2 xe θx, x > 0 0, x 0 Montrer que pour tout α [0, 1], il existe un test plus puissant de niveau α pour tester θ = θ 0 θ = θ 1. Ce test est-il sans biais? 6
Quel test proposer pour tester θ = θ 0 θ > θ 0, ou θ θ 0? Quelles sont les qualités de ce test? Exercice 19 Même problème que dans l exercice 18, pour { θ f(x) = πx e θx, x > 0 0, x 0, où θ > 0. Tests gaussiens Exercice 20 On se demande si le fait d assister au cours augmente la probabilité d avoir un succès à l examen. Pour 100 étudiants on obtient les résultats suivants : Succès à l examen Echecs à l examen Total Assistent au cours 28 12 40 N assistent pas au cours 33 27 60 Total 61 39 100 1. Formaliser ce problème de test. 2. Quelle est la règle de décision pour un risque de première espèce α de 10%? 3. Quelle est la décision correspondant aux résultats observés? Exercice 21 On veut comparer deux instruments de mesure I 1 et I 2. On admet que le résultat de la mesure d une grandeur m avec I 1 (respectivement avec I 2 ) suit une loi normale N (m, σ 2 1) (respectivement N (m, σ 2 2)). On fait une suite de vingt mesures d une même grandeur avec chaque instrument : On calcule I 1 donne : x 1,..., x 20 I 2 donne : y 1,..., y 20 s 2 1 = 1 20 19 i=1 (x i x) 2 = 0, 75 et s 2 2 = 1 20 19 i=1 (y i y) 2 = 0, 25. On envisage de tester si I 2 est plus précis que I 1 : 1. Formaliser ce problème de test. H 0 : σ 1 = σ 2 H 1 : σ 1 > σ 2 2. Pour un risque de première espèce α de 5%, quelle est la règle de décision? 3. Quelle est la décision correspondant aux observations recueillies? 7
Exercice 22 On s intéresse à la durée de vie de deux types d appareils A et B. On désigne cette durée de vie par X et on suppose que X est une variable aléatoire qui suit une loi normale d espérance m 1 et d écart-type σ 1 pour les appareils de type A, d espérance m 2 et d écart-type σ 2 pour les appareils de type B. On veut comparer m 1 et m 2. Pour cela on prélève n 1 = 30 appareils de type A et n 2 = 60 appareils de type B et on observe les résultats suivants : On rappelle que : x 1 = 2000 h moyenne empirique dans l échantillon A s 1 = 300 h écart-type empirique dans l échantillon A x 2 = 2200 h moyenne empirique dans l échantillon B s 2 = 360 h écart-type empirique dans l échantillon B x = 1 n n i=1 x i et s 2 = 1 n n 1 i=1 (x i x) 2 1. Tester l égalité des variances dans les deux populations avec un risque de première espèce α =5%. 2. En considérant le résultat de 1 comme vrai, peut-on conclure que la durée de vie moyenne des appareils de type B est significativement supérieure à celle des appareils de type A avec un risque de première espèce α =5%? 8