Deuxième partie Estimation ponctuelle et par intervalles
CHAITRE 3 Estimation ponctuelle Résumé : Des chapitres précédents, il faut essentiellement retenir que dans la plupart des cas étudiés dans ce cours, on dispose de valeurs observées que l on modélise par un n-échantillon X 1,, X n, de loi commune une loi appartenant à un certain ensemble { θ, θ 2 Θ } La vraie loi θ 0 est inconnue, mais dans les bons cas, on la connaît à un ou deux paramètres près, que l on note précisément θ 0 Objectif : Dans ce chapitre, on explique comment estimer θ 0 ou une fonction de θ 0, comme l espérance µ = µ(θ 0 ) ou la variance σ 2 = σ(θ 0 ) commune des observations de l échantillon Attention, ce chapitre est plus théorique que tous les autres de ce cours, mais il veut vous donner un bref aperçu du travail sur lequel se concentrent les chercheurs en statistique (dont je fais partie) 11 De la théorie 1 Notions d estimateur et d estimée Définition 31 (Estimateur) Un estimateur est toute variable aléatoire construite uniquement à partir des observations X 1,, X n En particulier, il ne doit pas dépendre de quantités inconnues, telles que θ 0 ou θ 0 Remarque 31 Une convention utile est qu on note les estimateurs par les quantités qu ils estiment, surmontées de petits chapeauxb Ainsi, dans un modèle de Bernoulli, lorsque le modèle est l ensemble des B(p), avec p 2 [0, 1], on note par bp les estimateurs de p, et parfois même,bp n lorsque l on énonce des assertions dépendant de la taille n de l échantillon Dans tous les modèles, on notera bµ (ou bµ n ) les estimateurs de l espérance commune µ des observations de l échantillon, etbσ (oubσ n ), ceux de l écart-type σ Exemple 31 Dans le modèle de Bernoulli, on pourrait proposer les quantités suivantes comme estimateur du vrai paramètre de fréquence p 0 : bp n = X n = 1 n X 1 + + X n, ou bp n = X 1, ou bp n = 05 On sent évidemment que le premier est le meilleur estimateur et que les deux autres sont très mauvais Remarque 32 (Estimateur vs «bon» estimateur) S il est facile de définir la notion d estimateur, il est en revanche beaucoup plus difficile de dire ce qu est un bon estimateur! Il n y a pas de notion universelle de bon estimateur, mais je vous proposerai ci-dessous la liste, non exhaustive, de quelques qualités qu un estimateur peut posséder L objet de la recherche en statistique est alors, entre autres, d exhiber des estimateurs possédant ces qualités, dans des modèles plus compliqués que ceux fondés sur des n-échantillons (avec davantage de dépendance entre les observations ou en situations d observations parcellaires, etc)
12 A la pratique! Définition 32 (Estimée) Une estimée est le résultat du calcul d un estimateur sur les données x 1,, x n (On remplace les X j par les x j dans la définition de l estimateur correspondant) 13 Ce que l on veut estimer On peut vouloir estimer θ 0, comme on le décrit en préambule du chapitre, ou une fonction de θ 0, comme l espérance ou la variance Nous notons dans la suite g(θ 0 ) cette quantité objet de l étude On parlera alors d estimateurs de g(θ 0 ) 2 remière qualité éventuelle d un estimateur : le caractère sans biais Définition 33 (Estimateur sans biais) Un estimateur bg n de g(θ 0 ) est dit sans biais lorsque E bg n = g(θ0 ) Que l espérance de l estimateur soit égale à l objectif de l estimation g(θ 0 ) nous fait espérer que la plupart du temps, l estimateur lui-même soit proche de g(θ 0 ) Cela découle, par exemple, de l inégalité de Chebychev-Markov, qui, je vous le rappelle, contrôle les déviations de bg n autour de son espérance : autant que ce dernier ait pour espérance l objectif à estimer! Exercice 31 rouver que bµ n = X n est un estimateur sans biais de l espérance µ (lorsque cette dernière existe) La variable aléatoire bµ 0 n = X 1 est-elle un estimateur sans biais? Exercice 32 On suppose la loi commune du n-échantillon admet un moment d ordre deux, que l on note m 2 (θ 0 ) = EhX 2 1i roposer un estimateur sans biaiscm 2,n de m 2 (θ 0 ) Exercice 33 On suppose ici encore que la loi commune du n-échantillon admet un moment d ordre deux et on définit de manière naturelle un estimateur de sa variance σ 2 = m 2 (θ 0 ) µ 2 par cm 2,n Xn 2 Montrer que c est un estimateur biaisé de σ 2 et en déduire un estimateur non biaisé Montrer que l on peut écrire ce dernier sous la forme (que l on retiendra pour la suite) bσ 2 n = 1 n X j X n 2 n 1 j=1 La minute SS 31 Lorsque l on calcule une variance (par exemple, par Analyze / Descriptive Statistics / Descriptives), c est bien la formule de variance débiaisée qui est utilisée Dit autrement, la valeur que l on lit dans le tableau produit par SSS est une estimée de la variance sur les valeurs observées, calculée à partir de l estimateur sans biais introduit plus haut Exercice 34 Comment estimeriez-vous l écart-type? L estimateur que vous proposez est-il sans biais? Remarque 33 Le caractère sans biais est surtout important lorsque la taille d échantillon n est petite our des tailles d échantillon n plus grandes, on préférera s intéresser à la consistance des estimateurs 30 Gilles Stoltz
3 Deuxième qualité éventuelle d un estimateur : la consistance Rigoureusement parlant, la consistance ne peut être la propriété que d une suite d estimateurs Définition 34 (Estimation consistante) Une suite (bg n ) d estimateurs de g(θ 0 ) est dite consistante lorsque bg n g(θ 0 ) La consistance est évidemment une vue de l esprit, un outil d évaluation théorique En pratique, la taille d échantillon n est ce qu elle est! On peut tout au plus plannifier de la prendre suffisamment grande si l on n a pas encore fini la phase de recueil des données (en un sens qui sera quantifié par la troisième qualité éventuelle, voir ci-dessous, mais pas par la propriété de consistance, qui ne met en jeu aucune vitesse de convergence) Remarque 34 La loi des grands nombres est souvent l outil fondamental pour prouver une consistance (quand on l associe au résultat de la proposition 31) Exercice 35 rouver que la suite des moyennes empiriquesbµ n = X n estime l espérance µ de manière consistante (lorsque cette dernière existe) Des propriétés utiles de la convergence en probabilité sont décrites ci-dessous, elles permettront de traiter l exercice 36 roposition 31 (ropriétés de la convergence en probabilité) La convergence en probabilité passe aux fonctions continues d un nombre fini de variables ar exemple, dans le cas d une fonction continue de deux variables (y, z) 7 g(y, z), si par ailleurs on a deux suites de variables aléatoires (Y n ) et (Z n ) convergeant en probabilité respectivement vers des variables aléatoires Y et Z, Y n En particulier, Y et Z n Y n + Z n n Z, alors g Yn, Z g(y, Z) Y + Z ou Y n Z n YZ Exercice 36 On suppose ici que la loi commune du n-échantillon admet un moment d ordre deux roposer différentes suites d estimateurs consistants de la variance σ 2 et de l écart-type σ 31 La méthode des moments, présentation Les techniques employées dans l exercice précédent, ie, loi des grands nombres combinée à la proposition 31, forment ce que l on appelle la méthode des moments On la formalise comme suit On note, pour k = 1, 2, et sous réserve d existence, m k (θ 0 ) = EhX k 1i le k-ième moment de la loi commune des observations n de l échantillon ar loi des grands nombres, on l estime par cm k,n = 1 X k 1 + + X k n Si g(θ 0 ) peut s écrire comme g(θ 0 ) = ψ (m 1 (θ 0 ),, m k (θ 0 )) Gilles Stoltz 31
pour une certaine fonction ψ continue et un entier k, alors on propose la suite d estimateurs définie par bg n = ψ (cm 1,n,,cm k,n ) Cette suite est consistante C est exactement ainsi qu ont été formés les estimateurs de l exercice 36 On note cependant que, comme on l a vu à l exercice 33, la méthode des moments conduits à une suite d estimateurs biaisés de la variance 32 La méthode des moments, exemples simples Dans les cas les plus simples, le ou les paramètres du modèle sont donné(s) par la moyenne et/ou la variance, et les techniques précédentes s appliquent donc aisément Exemple 32 (Loi de Bernoulli) Lorsque la loi commune des observations est de Bernoulli, on peut vouloir estimer son paramètre p 0 Comme µ = p 0 = m 1 (p 0 ), le plus naturel est de prendrebp n = X n Comment estimer la variance σ 2 = p 0 (1 p 0 ) = g(p 0 )? On a envie de considérer bσ 2 n = g bp n =bp n 1 bp n = Xn 1 Xn En fait, puisque pour des variables de Bernoulli, X j = X 2 j, l expression à laquelle on vient de penser coïncide exactement avec l expression généralecm 2,n cm 1,n 2 Exemple 33 (Retour à notre fil d Ariane) Revenons à l exemple de la Française des jeux Vous vous souvenez que nous avions modélisé nos cent observations x 1,, x 100 indiquant le nombre de gagnants significatifs par carnet comme un n-échantillon X 1,, X 100 distribué selon une certaine loi ν 0 sur {0, 1,, 50} Nous étions ensuite passé aux Y j = I{X j >2}, qui sont distribuées selon une loi de Bernoulli de paramètre p 0 à définir Vu que sur les valeurs observées, y j = 0 pour tout j, on propose donc l estimée 0 pour p 0 (Ce qui ne veut pas dire que p 0 vaille vraiment 0, c est juste une valeur que l on propose) Exemple 34 (Loi de oisson) our la loi (λ), ie, la loi de oisson de paramètre λ, on a µ = σ 2 = λ b La méthode des moments propose b donc les estimateurs λn =cm 1,n = X n et λ 0 n =cm 2,n Xn 2 Lequel est le meilleur? Le paragraphe sur la normalité asymptotique des estimateurs va nous permettre de trancher en faveur du premier Ce sera là un exemple montrant combien la réflexion théorique est importante en pratique Exercice 37 (Loi exponentielle) On considère le modèle formé par les lois exponentielles E(λ) Montrer, en intégrant par parties, que m 1 (λ) = 1/λ et m 2 (λ) = 2/λ 2 En déduire deux estimateurs par moments du paramètre λ 0 33 La méthode des moments, deux exemples plus complexes illustrant les limites de la méthode Nous donnons deux exemples où les estimateurs proposés par la méthode des moments sont parfois déraisonnables Cela illustre que la méthode des moments n est pas la panacée Elle est facile à mettre en œuvre, certes, mais ne procure pas toujours un résultat satisfaisant D ailleurs, aucune autre méthode d estimation n est parfaite, chacune a ses qualités et défauts (Voir plus bas le paragraphe présentant ou faisant référence à d autres méthodes) 32 Gilles Stoltz
Exemple 35 (Où l on illustre le vice mathématique!) Les mathématiciens aiment bien construire des contre-exemples tordus, ne correspondant pas forcément à une réalité, simplement pour le plaisir de montrer que telle ou telle intuition est fausse Soit le modèle suivant X 1,, X n un n-échantillon distribué selon une loi uniforme sur [0, θ], où l on sait seulement que θ 2 R+ (Un A dans la matière au premier qui me trouve un exemple convaincant et mettant en jeu des situations étudiées dans les cours d une école de commerce!) Il s agit d estimer le vrai paramètre inconnu θ 0 Comme µ(θ 0 ) = θ 0 /2, on b est tenté de proposer θn = 2 X n Cet estimateur est consistant Mais il est clair qu on a nécessairement θ 0 > max{x 1,, X n } Or il se peut que 2 X n soit strictement plus petit que cette valeur, auquel cas on sait pertinemment qu on pourrait mieux estimer en prenant le maximum En réalité, une autre méthode, dite du maximum de vraisemblance, conduirait à ce meilleur estimateur, bθ n = max { X 1,, X n } Exercice 38 (Estimation des paramètres d une loi binômiale sur un pot de crème) Voici une situation plus réaliste Vous êtes chef de produit pour une crème de beauté, et il se trouve qu un accident est survenu sur une des trois chaînes de fabrication (dont on ne s est rendu compte que trois semaines après) : un certain nombre k de pots contiennent la crème sous une forme un peu trop grumeleuse pour être appliquée avec plaisir sur la peau Ce n est pas le cas de tous les pots, mais il semble que ce soit celui d une proportion fixe γ des N pots sortant de la chaîne chaque jour, de sorte que k = γn, où N est connu mais γ inconnu Votre direction vous demande des comptes et aimerait savoir combien de clients ont bien pu acheter de tels pots, ie, combien vaut k Si k est trop grand, vous savez qu elle se défaussera sur vous devant les actionnaires et que vous devrez démissionner our estimer k, elle va utiliser la méthode suivante Les clients mécontents écrivent pour se plaindre La direction groupe ces plaintes par lots de produits (chaque jour, on initie un numéro de lot différent) On dispose donc d une quinzaine de valeurs observées : le nombre de plaintes correspondant à chacun des jours ouvrés des trois semaines où il y a eu un problème Montrez que ces nombres n 1,, n 15 peuvent être modélisés comme un n-échantillon N 1,, N 15, de loi commune Bin(k, p), où p est le taux de plainte, à savoir, la proportion (inconnue) de clients qui, achetant un tel pot, sont suffisamment mécontents pour écrire une lettre de réclamation On veut employer la méthode des moments Calculez m 1 = m 1 (k, p) et m 2 = m 2 (k, p) et aboutissez, après quelques manipulations, au système d équations suivant, { m1 = kp m 2 = m 2 1 + m 1(1 p) Résolvez-le pour trouver finalement, avec les notations ci-dessus, bk n = cm 1,n 2 cm 1,n + cm 1,n 2 cm 2,n et bp n =cm 1,n + cm 1,n 2 cm 2,n cm 1,n Expliquez pourquoi ces deux estimateurs sont consistants Calculez également quelques valeurs numériques sur des données que vous inventerez pour voir le comportement de ces deux quantités Note : il se peut que ces deux estimateurs prennent des valeurs négatives, sur des valeurs observées choisies avec suffisamment de vice par un mathématicien, alors que l on Gilles Stoltz 33
sait que les vrais paramètres sont forcément positifs Ici encore, cela montre les limites de la méthode des moments dans les cas complexes! 4 Troisième qualité éventuelle d un estimateur : la normalité asymptotique Rigoureusement parlant, la normalité asymptotique ne peut, elle aussi, être la propriété que d une suite d estimateurs Définition 35 (Normalité asymptotique) Une suite (bg n ) d estimateurs de g(θ 0 ) est dite asymptotiquement normale, à vitesse p n et de variance asymptotique σ 2 g, lorsque p n bg n g(θ 0 ) N 0, σ 2 g Remarque 35 On peut prouver que la normalité asymptotique entraîne la consistance C est une propriété plus précise qui indique que la fluctuation de l estimateur autour de l objectif à estimer est approximativement normale Les résultats de normalité asymptotique nous seront fort utiles lors de la construction d intervalles de confiance asymptotiques, au chapitre suivant Exercice 39 rouver que, sous réserve de l existence d un moment d ordre deux, la suite des moyennes empiriques bµ n = X n estime l espérance µ de manière asymptotiquement normale (réciser également la variance asymptotique) De la même manière que la convergence en probabilité passe aux fonctions continues, la convergence en loi passe aux fonctions continues, tandis que la normalité asymptotique passe, d une certaine manière, aux fonctions C 1 La second assertion de la proposition suivante, associée au théorème de la limite centrale, sera l ingrédient fondamental pour prouver des propriétés de normalité asymptotique roposition 32 (ropriétés de la convergence en loi) Si on a la convergence en loi Y n Y et si ψ est une fonction continue, alors on a encore ψ(y n ) ψ(y) Si la suite de variables aléatoires (Y y n ) est asymptotiquement y normale, telle qu il existe y et σ 2 y tels que p n Yn ) N 0, σ 2, et si ψ est une fonction C 1, alors ψ(yn est également asymptotiquement normale, p n ψ(yn ) ψ(y) y N 0, ψ 0 (y) 2 σ 2 Exemple 36 Nous pouvons b maintenant comparer les deux estimateurs de l exercice 34 Celui de la moyenne empirique vérifie, par théorème de la limite centrale, que p 0 λ0 n λn λ N 0, tandis qu on peut montrer, par des versions multi-dimensionnelles du théorème de la limite centrale et du résultat de la proposition 32 (hors du programme de ce cours), que p n b λ 0 n λ 0 N 0, λ 0 + 2λ 2 0 Evidemment, l estimateur le meilleur des deux est celui de variance asymptotique la plus faible (c est celui le plus ramassé autour de λ 0, celui dont le pic gaussien a la base la plus étroite) Le traitement mathématique montre ainsi que dans le cadre d un modèle de oisson, on préfère l estimateur de la moyenne empiriqueb λn à celui de la variance empiriqueb λ 0 n 34 Gilles Stoltz
lus généralement, les versions multi-dimensionnelles du théorème de la limite centrale et du résultat de la proposition 32 montrent que les estimateurs par moments étudiés plus haut sont asymptotiquement normaux sous réserve d existence des moments : si l estimateur met en jeu des moments d ordre inférieur ou égal à k, alors la loi commune des observations doit admettre un moment d ordre 2k Exercice 310 (Loi exponentielle, suite) On considère, comme à l exercice 37, le modèle formé par les lois exponentielles E(λ) Montrer qu au moins un des estimateurs de λ 0 introduits là-bas est asymptotiquement normal et préciser sa variance asymptotique Remarque 36 Voici, pour conclure ce chapitre, une allusion rapide à un résultat fondamental de statistique (à destination de ceux qui seraient curieux, là encore, de savoir ce en quoi consiste la recherche en statistique) Dans la définition de la normalité asymptotique, un paramètre de variance asymptotique joue un rôle crucial et on a vu dans l exemple ci-dessus qu il mesurait la qualité de l estimation On veut considérer des estimateurs de variance asymptotique minimale Se posent les problèmes de 1 calculer cette valeur minimale et 2 d exhiber des estimateurs l atteignant (dits, par définition, efficaces) Le point 1 est réglé par la minoration dite de Cramer-Rao ar exemple, dans le bmodèle de oisson, cette variance minimale est λ 0 : l estimateur de la moyenne empirique λn est efficace Quant au point 2, il est généralement résolu par une autre méthode de construction d estimateurs, dite du maximum de vraisemblance, et que nous verrons plus tard dans ce cours 5 Estimation d une tendance centrale Finissons ce cours très théorique par un panorama rapide des moyens d estimer une tendance centrale ar tendance centrale, on entend comportement moyen, mais il peut s agir d estimer la moyenne ou la médiane, selon le contexte et la loi considérés Les propriétés de l estimateur de la moyenne empirique ont été vues plus haut : il est sans biais, consistant, et, sous réserve de l existence d un moment d ordre deux, asymptotiquement normal C est souvent le meilleur, en théorie Le problème, c est que sur des données, il n y a souvent qu un ajustement imparfait à la modélisation théorique espérée (par exemple, les données ne sont qu approximativement distribuées selon une loi normale), et pire, il y a souvent quelques données atypiques (bien plus petites ou bien plus grandes que les autres) 51 Estimateur de la médiane empirique Une alternative est la médiane Lorsque la distribution est symétrique autour d une valeur, comme c est le cas par exemple pour la loi normale, moyenne et médiane coïncident Estimer l une revient à estimer l autre A l inverse, lorsque la distribution est dissymétrique, la médiane peut refléter davantage le c comportement moyen ressenti, comme nous l avions vu au paragraphe 33 Or, il se trouve que l estimateur de la médiane empirique Mn (ie, la médiane de X 1,, X n ) est un bon estimateur de la médiane de la loi commune Il nous faut définir cette dernière Définition 36 (Médiane d une loi) On fixe une loi et on prend une variable aléatoire X distribuée selon cette loi Sa médiane est tout nombre m tel que {X 6 m} > 1/2 et {X > m} > 1/2 La médiane existe toujours mais n est pas nécessairement unique Gilles Stoltz 35
Fig 1 Calcul d estimées de la tendance centrale sur l exemple des salaires horaires moyens des infirmières américaines On a le résultat théorique suivant (On y suppose l unicité de la médiane pour chaque loi du modèle car on ne connaît pas θ 0 ; il suffirait évidemment d avoir cette unicité pour la vraie loi sous-jacente) Théorème 31 Soit un n-échantillon X 1,, X n distribué selon une loi θ 0 prise dans le modèle { θ, θ 2 Θ } c Si la médiane m θ de chacun des θ est unique, alors l estimateur de la médiane empirique Mn est consistant, cm n m θ0 On a même une propriété de normalité asymptotique sous des hypothèses supplémentaires L estimateurc Mn est donc un bon estimateur, bien que souvent moins bon en théorie que la moyenne empirique X n, lorsque moyenne et médiane coïncident En pratique, il se montre en revanche robuste : il est peu sensible aux données atypiques ( outliers ), ce qui est une qualité assez essentielle 52 Autres estimateurs de la tendance centrale La minute SS 32 La figure 1 reprend quelques lignes parmi celles obtenues en lançant Analyze / Descriptive Statistics / Explore / Statistics et en sélectionnant les M-estimators On voit tout d abord la moyenne, puis la moyenne calculée sur 95 % des observations, en enlevant les 25 % d observations les plus petites et les plus grandes (histoire de se débarrasser des valeurs atypiques) Si ces deux valeurs diffèrent beaucoup, c est le signe qu il y a des valeurs atypiques tirant la moyenne vers le haut ou le bas Vient ensuite la médiane Enfin, le tableau des estimateurs de la tendance centrale, présentant des alternatives robustes aux estimateurs de la moyenne et de la médiane empiriques Je ne les présente pas en détails, mais essayez de trouver ce qu en dit la documentation de SSS : M-estimators Robust alternatives to the sample mean and median for estimating the location The estimators calculated differ in the weights they apply to cases Huber s M-estimator, Andrews wave estimator, Hampel s redescending M- estimator, and Tukey s biweight estimator are displayed 36 Gilles Stoltz