Chapitre 5 ESTIMATION

Transcription

1 Statistique appliquée à la gestion et au marketing Chapitre 5 ESTIMATION La statistique inférentielle regroupe un ensemble de méthodes consistant à prendre en compte le hasard dans l analyse des données. Elle est fondée sur l hypothèse que les observations proviennent de tirages aléatoires dans une population statistique, constituant ce que l on appelle couramment un échantillon, et que la proportion dans laquelle un événement est réalisé se rapproche de sa probabilité lorsque le nombre d observations augmente indéfiniment. La démarche est inversée par rapport à celle des probabilités : les paramètres des lois de probabilités sont inconnus, et leur estimation consiste à en donner une approximation la meilleure possible sous la forme d une valeur précise ou d'un intervalle. Nous suivrons l habitude de plus en plus fréquente d utiliser des caractères grecs pour les paramètres théoriques, majuscules latins pour les variables aléatoires et minuscules latins pour les valeurs observées. 1. DES PROBABILITÉS À LA STATISTIQUE. La statistique inférentielle repose sur une hypothèse intuitive élaborée à partir d expériences diverses : celle de la convergence de la proportion dans laquelle un événement est réalisé au cours d expériences répétées vers sa probabilité telle que nous l avons définie dans le chapitre précédent.

2 Chapitre 5 2 Estimation 1.1 Simulation. Les expériences montrant cette convergence sont nombreuses : les jeux de hasard (jeux de casino, loto, etc.) en produisent un grand nombre, et le calcul des gains est fondé sur cette convergence. Certains jeux de stratégie sont fondés aussi sur le calcul des probabilités, comme le bridge. Nous utilisons dans cet ouvrage des expériences virtuelles, effectuées à l aide d un ordinateur 1 et de logiciels spécifiques 2 : ces expériences relèvent ce que l on appelle la simulation. Cette démarche, qui consiste à générer des nombres «pseudo-aléatoires» 3, est fréquemment utilisée dans le cas où il est difficile ou impossible d effectuer un calcul numérique (ce sont «les méthodes de Monte Carlo», appliquées par exemple au calcul d intégrales). Ces nombres pseudo-aléatoires peuvent être considérés comme des observations d une v.a. suivant la loi uniforme, et, à l aide de transformations mathématiques (données dans les exercices 1 et 2), on peut en déduire des observations d une v.a. suivant une loi quelconque. Ce qui nous intéresse particulièrement ici, c est la facilité avec laquelle on peut observer une variable aléatoire autant de fois que l on veut sans problème matériel. On crée ainsi des données vérifiant les propriétés que l on a choisies et que l analyse statistique permet de détecter. Inversement, lorsqu une méthode n est efficace que si les données possèdent des propriétés particulières, on pourra vérifier qu elle ne donne pas de bon résultat dans le cas où les données ne les possèdent pas. Exemple de tableau de données simulées (ou table de nombres au hasard) : Tableau 1.5 : nombres pseudo-aléatoires 1 Une calculatrice munie de la touche Rnd (ou Random) peut suffire pour des expériences simples. 2 Nous avons aussi utilisé des logiciels publiés dans Introduction aux tests statistiques, Enseignement Assisté par Ordinateur, de T. Foucart, édité par Technip, Paris, Ces nombres ne sont pas tirés au hasard au sens strict du terme, d où le préfixe pseudo.

3 Chapitre 5 3 Estimation On déduit facilement de ces nombres compris entre 0 et 1 (exclus) des nombres pseudo-aléatoires variant entre deux valeurs a et b fixées, ou des nombres entiers. Par exemple, on obtiendra des nombres compris entre 1 et 2 en effectuant la transformation suivante, pour toute valeur x du tableau précédent : y = 3 x 1 Pour obtenir des nombres entiers compris entre 1 et 6, on pose : y = Int(6 x +1) Int(z) désignant le plus grand entier inférieur ou égal à z : Int(5.456) = 5, Int(4) = Loi des grands nombres. Considérons le cas d un dé à 6 faces, que l on suppose parfaitement équilibré : la population est P = {1, 2, 3, 4, 5, 6}. L équilibre parfait de ce dé signifie qu il n y a aucune raison physique d observer une face plus qu une autre dans une série de lancers. En jetant le dé n fois, on obtient bien sûr n faces : à chaque jet, la probabilité d obtenir {1} est égale à 1/6, et la face obtenue au i e jet n a aucune incidence sur les autres faces obtenues : il y a équiprobabilité, et les lancers sont indépendants. Dans ces conditions, l expérience montre que, pour n suffisamment grand, la proportion de faces {1} va tourner autour de 1/6. De même la proportion de faces {2}, de faces {3} etc. Considérons les faces 1 à 4 du dé. On définit ainsi un événement A = {1, 2, 3, 4}dont la probabilité est égale à 4/6 = 2/3. L événement A se produit dans une proportion égale à la somme des proportions de chaque face et est donc de l ordre de 4 x 1/6 soit 2/3. Cette proportion est là aussi de l ordre de la probabilité. Exemple : nous avons effectué n = 600 lancers d un dé parfaitement équilibré. Les numéros ont tous été observés dans une proportion voisine de 1/6. L événement A = {1,2,3,4} et l événement B = {5,6} ont été observés dans des proportions proches de 2/3 et de 1/3 de l effectif total : P(A) = 2/3, P(B) = 1/3. numéros événements n 1 n 2 n 3 n 4 n 5 n 6 A B

4 Chapitre 5 4 Estimation L expérience du dé peut être schématisée à l aide d une urne contenant six boules numérotées de 1 à 6. Pour que les tirages soient indépendants, il suffit de remettre chaque boule tirée dans l urne : les tirages sont donc effectués «avec remise». On peut généraliser l expérience en tirant dans une urne contenant un nombre quelconque de boules numérotées à partir de 1. Axiome de la loi des grands nombres : On considère une population contenant N unités statistiques. On y effectue n tirages avec remise et on compte le nombre n A de réalisations d un événement A donné d effectif N A. La proportion observée n A / n converge vers la probabilité N A / N de l événement A lorsque le nombre de tirages augmente indéfiniment. Dans la pratique des sondages, on évite d interroger deux fois une même personne. Les tirages d unités statistiques sont donc effectués sans remise, et, par suite, ne sont pas indépendants. Mais on montre que si la taille de la population dans laquelle on effectue les tirages est grande par rapport au nombre d unités statistiques que l on tire au hasard, on peut considérer les tirages comme indépendants. Comme nous supposerons toujours cette condition réalisée, il n est pas gênant de supposer que les tirages sont effectués avec remise. 1.3 Notion de convergence. La loi des grands nombres utilise une notion de convergence particulière qui demande des explications. Considérons l ensemble des 6 faces du dé. La loi de probabilité de la v.a. X définie par le numéro de la face obtenue est la loi uniforme sur {1, 2, 3, 4, 5, 6} : Pour tout i de 1 à 6 P(X=i) = 1/6 Les proportions dans lesquelles les faces ont été observées en jetant le dé plusieurs fois est une approximation de cette loi, chacune étant plus ou moins proche de 1/6. Nous avons réalisé cette expérience en lançant 100 fois le dé. On constate (figure 1.5) une proximité entre ces proportions et ces probabilités. Les proportions observées des faces 1, 4, 5 et 6 sont inférieures aux probabilités.

5 Chapitre 5 5 Estimation Ces écarts sont compensés par des écarts opposés concernant les faces 2 et 3. Cela s explique par le fait que la somme des proportions comme la somme des probabilités est toujours égale à 1. Effectuons la même expérience, mais en lançant le dé 1000 fois : il est clair que les proportions sont plus proches des probabilités que précédemment (figure 2.5).

6 Chapitre 5 6 Estimation En augmentant le nombre de tirages, les proportions donnent généralement une meilleure approximation des probabilités. Mais ce n est pas toujours vrai : on aurait pu obtenir des proportions plus proches de 1/6 en lançant le dé 100 fois, et même il n est pas exclu qu en lançant le dé 6 fois seulement, on obtienne les six faces une fois chacune et par suite des proportions strictement égales à 1/6 (la probabilité de cet événement est toutefois faible : 6!/6 6 = ). En conclusion, dans le cas d une variable aléatoire discrète, il y a convergence des proportions vers les probabilités, mais cette convergence dépend elle-même du hasard. Elle n est pas systématique. Définition : la convergence de la proportion de réalisations d un événement au cours d une suite d expériences vers sa probabilité est appelée «convergence en probabilité». Propriété fondamentale : la densité observée d une variable qualitative ou discrète converge en probabilité vers la densité de la v.a. lorsque le nombre d observations augmente indéfiniment. Les densités observées et théoriques sont en effet définies par les suites des proportions et des probabilités. Cette convergence apparaît dans les diagrammes : les figures 1.5 et 2.5 en donnent une illustration. Remarque : La convergence des proportions vers les probabilités ne signifie pas qu il y ait convergence des effectifs. Dans le cas du dé par exemple, la convergence de la proportion de l événement {1, 3, 5} vers 1/2 ne montre pas que le nombre d observations de cet événement tend vers la moitié du nombre d expériences. Une explication est donnée par les deux formules : n 1 = 0.5 n + n n 2 = 0.5 n n La somme n 1 + n 2 est égale à n, et les proportions n 1 /n et n 2 /n tendent vers 0.5 lorsque n tend vers l infini : lim(n 1 /n ) = lim ( / n) = 0.5 lim(n 2 /n ) = lim (0.5 1/ n) = 0.5

7 Chapitre 5 7 Estimation Pourtant, la différence n n, égale à n, tend vers l infini : il y a divergence entre les valeurs 0.5 n et n 1 (de même entre n 2 et 0.5 n). On peut vérifier aussi que n 1 n 2 = 2 n augmente indéfiniment. 1.4 Densité et histogramme. Nous avons vu dans le chapitre 1 comment construire l histogramme d une variable statistique quantitative continue définie par n observations (x i ) i = 1,, n. : on choisit k intervalles I 1, I 2,, I i,, I k, de longueur l 1, l 2,, l k, et on dénombre les observations appartenant à chaque intervalle : n 1, n 2,, n k. On en déduit enfin la densité observée d 1, d 2,, d k par la formule : Pour tout i de 1 à k d i = [n i / n] / l i Pour chaque intervalle I i, la proportion n i / n est une approximation de la probabilité P(X I i ), et la densité observée d i est une valeur approchée de la densité par intervalle δ i que nous avons définie dans le chapitre précédent. La densité observée est donc une approximation de la densité par intervalle et par suite de la densité théorique lorsque le nombre d observations augmente indéfiniment et que les longueurs des intervalles deviennent de plus en plus petites. L histogramme, qui représente la densité observée, est une approximation de la représentation graphique de la densité théorique. Propriété fondamentale : la densité observée d une variable quantitative converge «en probabilité» vers la densité de la v.a. lorsque le nombre d observations augmente indéfiniment et que la longueur des intervalles tend vers 0. Exemple : Considérons une série de 100 nombres pseudo-aléatoires compris entre 0 et 1. L histogramme (figure 3.5) apparaît de façon évidente comme une approximation de la courbe représentant la densité théorique de la loi uniforme continue sur [0, 1]. En générant valeurs comprises entre 0 et 1, nous pouvons diminuer la taille des intervalles en augmentant leurs effectifs pour observer la convergence. L histogramme est alors plus proche de la densité théorique de la loi uniforme sur [0, 1].

8 Chapitre 5 8 Estimation On examinera aussi la figure 6.5 du chapitre ESTIMATEUR D UN PARAMÈTRE L estimation statistique est un chapitre fondamental de la statistique mathématique. Son objectif est d affecter aux paramètres théoriques des lois de probabilité des valeurs numériques, ou estimations, vérifiant des propriétés précises. Ces valeurs numériques sont les observations de variables aléatoires appelées estimateurs. 2.1 Estimations empiriques. Considérons tout d abord la v.a. discrète X définie par la face obtenue en lançant le dé. En relançant le dé 100 fois puis 1000 fois, nous avons obtenu les répartitions suivantes :

9 Chapitre 5 9 Estimation Faces Probabilités 1/6 1/6 1/6 1/6 1/6 1/6 Proportions (100 valeurs) Proportions (1000 valeurs) Tableau 2.5 : résultats des lancers d un dé équilibré à 6 faces Les moyennes sont donc : Moyenne théorique : µ = p 1 x x 1 + p 2 x x 2 + p 3 x x 3 + p 4 x x 4 +p 5 x x 5 + p 6 x x 6 = (1/6) x 1 + (1/6) x 2 + (1/6) x 3 + (1/6) x 4 + (1/6) x 5 + (1/6) x 6 Moyenne observée m = f 1 x x 1 + f 2 x x 2 + f 3 x x 3 + f 4 x x 4 + f 5 x x 5 + f 6 x x 6 sur les 100 valeurs : m 100 = 0.16 x x x x x x 6 sur les 1000 valeurs : m 1000 = x x x x x x 6 On trouve : µ = 3.5 m 100 = 3.75 m 1000 = La proximité entre la moyenne théorique (3.5) et les moyennes observées (3.75 et 3.525) est due à la convergence des proportions observées f i vers les probabilités p i. Plus les effectifs sont importants, plus ces proportions sont proches des probabilités, et plus la moyenne observée est proche de la moyenne théorique (au sens de la convergence en probabilité). Il y a également convergence dans le cas d une v.a. continue. Examinons le cas de la loi uniforme que nous avons simulée dans le paragraphe précédent (figure 3.5). Toutes les valeurs observées appartenant à la première classe sont proches du centre de cette classe, soit 0.1. De même pour les autres classes. Classe [0, 0.2 [ [0.2, 0.4 [ [0.4, 0.6 [ [0.6, 0.8 [ [0.8, 1 [ Centre Proportion Tableau 3.5 : Classification des 100 observations d une v.a. de loi uniforme sur ]0, 1[

10 Chapitre 5 10 Estimation Une valeur approximative de la moyenne est donc donnée par : m = 0.23 x x x x x 0.9 = La moyenne observée m (= 0.498) est très proche de la moyenne théorique µ (= 0.5). Cette proximité est d autant plus forte que les nombres d observations et de d intervalles augmentent, puisque, comme nous l avons vu sur la figure 4.5 : la proportion dans chaque intervalle converge vers la probabilité théorique ; les longueurs des intervalles tendent vers 0 et les valeurs sont de plus en plus proches du centre de la classe à laquelle elles appartiennent.. La limite de la moyenne observée dans ces conditions est par définition l intégrale de la fonction x f(x) : on retrouve la moyenne d une v.a. continue. Le calcul détaillé que nous avons effectué pour montrer la convergence de la moyenne empirique vers la moyenne théorique peut être appliquée au cas de la variance : Variance théorique : σ = p 1 x x 1 + p 2 x x 2 + p 3 x x 3 + p 4 x x 4 + p 5 x x 5 + p 6 x x 2 6 µ 2 Variance observée : s 2 =f 1 x x f 2 x x f 3 x x f 4 x x f 5 x x f 6 x x 6 2 m 2 On trouve, en notant s et s les variances des échantillons de taille 100 et 1000 : σ 2 = s = s = Les convergences des proportions f i vers les probabilités p i et de la moyenne empirique m vers la moyenne théorique µ assurent celle de la variance empirique vers la variance théorique. Mais cette convergence en probabilité est soumise au hasard, et c est pour cela que la variance empirique s précédente est plus proche de la variance théorique σ 2 que s Naturellement, les v.a. continues vérifient la même propriété. Définition : On appelle estimation empirique de la moyenne d une variable aléatoire la moyenne calculée sur les observations effectuées. On appelle estimation empirique de la variance d une variable aléatoire la variance calculée sur les observations effectuées.

11 Chapitre 5 11 Estimation Propriété : Les estimations empiriques de la moyenne et de la variance convergent en probabilité vers les paramètres théoriques lorsque le nombre d observations augmente indéfiniment. 2.2 Estimateurs de la moyenne et de la variance. On peut formaliser la notion d échantillon et d estimation. En effet, une suite d observations x i d une v.a. X peut être considérée comme une suite d observations de n variables aléatoires X i suivant la loi de X, correspondant chacune à un tirage au hasard dans la population. Il existe donc deux notions d échantillons : Définitions : L échantillon de v.a. X i, i = 1,, n, est une suite de v.a. indépendantes et de même loi que X, la v.a. X i représentant simplement la v.a. X au i ième tirage. L échantillon observé x i, i = 1,, n, est une suite de valeurs observées de la v.a. X ou de chaque v.a. X i, i = 1,, n. Définition : on appelle estimateur d un paramètre d une loi de probabilité d une v.a. X une v.a. calculée sur un échantillon X i, i = 1,, n de X, dont la valeur observée est une approximation de ce paramètre, et qui vérifie certaines propriétés d optimalité. variance. Les estimateurs les plus utilisés sont les estimateurs empiriques de la moyenne et de la La moyenne observée de la suite x i, i = 1,, n est par définition le nombre m : 1 n m = Σ x i n i = 1 La moyenne de l échantillon X i, i = 1,, n, est par définition la v.a. M : 1 n M = Σ X i n i = 1 En conclusion, M est une v.a. dont la valeur observée à l issue d une suite de n tirages au hasard est égale à m : la v.a. M est antérieure aux tirages, et m en est une valeur observée, postérieure aux tirages.

12 Chapitre 5 12 Estimation On peut définir de la même façon l estimateur de la variance : 1 n V = Σ (X i µ) 2 n i = 1 dont la valeur observée v est la variance de l échantillon observé : 1 n v = Σ (x i µ) 2 n i = 1 On ne peut toutefois calculer cet estimateur que si l on connaît la moyenne théorique µ, ce qui n est pas le cas en général. On considère donc souvent l estimateur ci-dessous : 1 n S 2 = Σ (X i Μ) 2 n i = 1 dont la valeur observée s 2 est la variance de l échantillon observé : Définitions : 1 n s 2 = Σ (x i m) 2 n i = 1 L estimateur empirique de la moyenne théorique d une v.a. est la v.a. M : 1 n M = Σ X i n i = 1 L estimateur empirique de la variance théorique est la v.a. S 2 : 1 n S 2 = Σ (X i M) 2 n i = Propriétés caractéristiques des estimateurs. Ce que l on appelle estimation en statistique inférentielle regroupe des méthodes beaucoup plus générales que celles que nous avons présentées dans les paragraphes précédents. Les estimateurs empiriques comme M et S 2 ne sont pas toujours les «meilleurs» pour estimer la moyenne et la variance théoriques d une loi de probabilité. Dans le cas d une v.a. qui suit la loi de Poisson P(λ) par exemple, le paramètre λ est à la fois la moyenne et la variance de la v.a. : l estimateur de λ qu il faut choisir est-il M ou S 2?

13 Chapitre 5 13 Estimation Pour répondre à ce genre de question, il est nécessaire de formaliser la démarche et de préciser ce que l on entend par «meilleur». On cherche donc des estimateurs possédant certaines propriétés. En voici quelques-unes : Un estimateur d un paramètre ω est : sans biais si son espérance est égale à ω, et biaisé dans le cas contraire ; asymptotiquement sans biais si son espérance converge vers ω lorsque le nombre d observations tend vers l infini ; convergent si sa valeur observée converge en probabilité vers ω lorsque le nombre d observations tend vers l infini ; efficace s il n existe pas d estimateur sans biais de ω de variance strictement inférieure. Les estimateurs empiriques précédents possèdent des propriétés particulières : L estimateur empirique de la moyenne est sans biais. L estimateur empirique de la variance est asymptotiquement sans biais. Ils sont convergents. Lorsque les v.a. X i suivent la loi normale, l estimateur empirique de la moyenne est efficace. En ce qui concerne le second des quatre points précédents, on montre que l estimateur empirique de la variance a pour espérance (n 1) σ 2 /n. Cela explique que, surtout pour des échantillons de taille faible, on choisit souvent comme estimateur ponctuel de σ 2 la statistique S 2 = n S 2 /(n 1). On a en effet (ex. 3) : E(S 2 ) = E[ n S 2 /(n 1) ] = n E(S 2 ) /(n 1) = σ Loi de l estimateur de la moyenne (théorème de la limite centrée). Théorème de la limite centrée : on considère une suite de n v.a. X i indépendantes et de même loi de probabilité, d espérance µ et de variance σ 2. La loi de probabilité de l estimateur M est, pour une valeur suffisante de n, la loi normale d espérance µ et de variance σ 2 /n. L expression «valeur suffisante de n» est vague : cela vient du fait que le nombre n à partir duquel on peut considérer que la loi de M est normale dépend de la loi des v.a. X i.

14 Chapitre 5 14 Estimation Par exemple, si les v.a. X i suivent elles-mêmes la loi normale, il suffit que n soit supérieur ou égal à 1 : la propriété est toujours vraie. Pour une loi uniforme, on considère en général n = 12, ou n = 24. Dans le cas de lois non symétriques comme la loi exponentielle, la valeur minimale de la taille de l échantillon assurant la convergence vers la loi normale peut être beaucoup plus grande (>50). Étudions le cas de v.a. X i suivant la loi uniforme sur ] 0, 1 [. La moyenne théorique est égale à µ = 0.5 et la variance à σ 2 = 1/12. Un échantillon de cette loi, pour une taille suffisante, n = 24 par exemple, aura pour moyenne une valeur m proche de 0.5 et pour variance une valeur s 2 proche de 1/12. Ces valeurs m et s 2 sont les valeurs observées des estimateurs M et S 2 : Tableau 4.5 : 24 observations de la loi uniforme sur ] 0, 1 [ m = , s 2 = Le théorème de la limite centrée dit que la variable M suit la loi normale de moyenne µ et de variance σ 2 /n. La simulation par ordinateur concrétise cette propriété : en générant 100 échantillons de taille 24, on obtient 100 valeurs observées m 1, m 2,, m 100 de M.

15 Chapitre 5 15 Estimation On constate effectivement, sur la figure 5.5, la proximité de l histogramme de ces 100 valeurs avec la densité théorique de la loi normale. On pourra, en simulant des échantillons de taille 12 d une v.a. suivant la loi exponentielle par le logiciel TESTEAO 4, constater que la taille de ces échantillons est très insuffisante pour que leur moyenne suive la loi normale. Ce théorème est vrai aussi lorsque la v.a. est discrète, avec les mêmes réserves sur la taille n de l échantillon nécessaire pour que la convergence de la v.a. M vers la loi normale soit acceptable. Une première application est de permettre une prévision de la valeur moyenne observée si l on connaît les paramètres théoriques de la loi de probabilité des X i. Exemple : on lance 100 fois le dé. D après le théorème de la limite centrée, la moyenne empirique M définie par la moyenne des 100 chiffres obtenus suit approximativement la loi normale d espérance µ = 3.5 et de variance σ 2 /n = On peut donc effectuer des calculs de probabilités sur cette v.a. : Paris, Introduction aux tests statistiques, Enseignement Assisté par Ordinateur, de T. Foucart, Technip,

16 Chapitre 5 16 Estimation La probabilité de l intervalle [µ 1.96 σ / n, µ σ / n] = [3.165, 3.835] est égale à Il est donc très probable que la valeur moyenne obtenue en lançant le dé 100 fois soit comprise entre ces deux valeurs. La probabilité de l intervalle ], µ σ / n] = ], ] est égale à On est presque sûr d obtenir une valeur moyenne supérieure à Loi de l estimateur de la variance. L étude de l estimateur de la variance est fondée sur une propriété supplémentaire : la loi des v.a. X i doit être la loi normale. Théorème : si les v.a. X i, i = 1,, n sont indépendantes et suivent la loi normale d espérance µ et de variance σ 2, la v.a. n S 2 /σ 2 suit la loi du χ 2 de degré de liberté n 1. Ce théorème est une conséquence de la définition de la loi du χ 2. La v.a. n S 2 /σ 2 est une somme de carrés de variables qui suivent approximativement la loi normale centrée réduite, si les X i suivent la loi normale : n S 2 (X 1 M) 2 (X 2 M) 2 (X 3 M) 2 (X n M) 2 = σ 2 σ 2 σ 2 σ 2 σ 2 Le degré de liberté est diminué de 1 pour tenir compte du fait que les variables de la forme (X i M) / σ, ne sont pas indépendantes puisqu elles dépendent toutes de M, et qu elles ne sont pas exactement de variance 1. On notera que la connaissance de la moyenne théorique µ n est pas nécessaire pour appliquer le théorème. Nous avons simulé, pour visualiser la loi de probabilité de la v.a. n S 2 /σ 2, 1000 échantillons de taille n de la loi des X i, construit l histogramme des valeurs n s 2 /σ 2 obtenues, et superposé la loi du χ 2 correspondante. En figure 7.5, la loi des v.a. X i simulée est la loi normale et chaque échantillon de taille 10. On constate la proximité entre l échantillon et la loi du χ 2, ce qui confirme le théorème. L histogramme est par contre différent de la densité de la loi du χ 2 lorsque ces variables suivent la loi uniforme (figure 8.5).

17 Chapitre 5 17 Estimation Comme dans le cas de l estimateur M, on peut prévoir dans quel intervalle se trouvera probablement la variance calculée sur n observations d une v.a. qui suit la loi normale de moyenne µ et de variance σ 2. Exemple : supposons n = 50 et σ 2 = 25. La v.a. X 2 = 50 S 2 /25 = 2 S 2 suit la loi du χ 2 de degré de liberté 49 (on suppose donc que les v.a. X i suivent la loi normale). La table statistique pour ν = 49 degrés de liberté donne les valeurs suivantes :

18 Chapitre 5 18 Estimation P(2 S 2 < 31.55) = P(2 S 2 > 70.22) = On en déduit la probabilité ci-dessous : P(31.55 <2S 2 <70.22) = 0.95 La variance de l échantillon sera très probablement comprise entre et : P(15.78 < S 2 < 35.36) = ESTIMATION PAR INTERVALLE DE CONFIANCE. Nous avons calculé précédemment des intervalles contenant probablement la moyenne et la variance d un échantillon généré suivant une loi dont les paramètres sont connus. Nous abordons maintenant le problème inverse : la moyenne et la variance de la loi sont inconnues, et nous cherchons des intervalles contenant vraisemblablement leurs vraies valeurs. 3.1 Intervalle de confiance. Propriétés des estimateurs empiriques. La notion de niveau de confiance est indispensable pour construire un intervalle de confiance. Nous avons déjà abordé ce problème dans le paragraphe précédent, en choisissant des probabilités (0.95) associées aux intervalles contenant très probablement les valeurs calculées sur l échantillon. Il faut en effet fixer une probabilité suffisamment grande pour que l on puisse considérer que la réalisation d un événement est très probable. Habituellement, on choisit les valeurs 0.90, 0.95, ou 0.99, que l on note 1 α pour des raisons expliquées dans le chapitre 6. Définition : le niveau de confiance 1 α, noté aussi (100 α) %, est la probabilité d un événement que l on considère comme très probable. Son choix est raisonné ; on doit l effectuer en fonction du contexte dans lequel les estimations sont effectuées. On ne peut guère donner plus de précisions à ce stade. On considère un paramètre ω de la loi de probabilité d'une v.a. X, et un échantillon X i, i = 1,, n de cette v.a..

19 Chapitre 5 19 Estimation Définition : l intervalle de confiance du paramètre ω est défini au niveau de confiance 1 α par l observation de deux v.a. B 1 et B 2 dépendant de l échantillon X i, i = 1,, n et vérifiant la propriété suivante : P(ω [B 1, B 2 ]) = 1 α Les bornes B 1 et B 2 de l intervalle dépendent du hasard. Chaque échantillon observé donne donc un intervalle de confiance [b 1, b 2 ] différent. L intervalle de confiance est finalement l ensemble des valeurs vraisemblables du paramètre ω compte tenu de l échantillon observé. On donne en figure 9.5 une suite d intervalles de confiance de la moyenne théorique µ d une v.a. X. Chaque intervalle [m 1, m 2 ] résulte de l observation d un échantillon de X et est la réalisation de l intervalle aléatoire [M 1, M 2 ] contenant le paramètre théorique m avec la probabilité Les v.a. M 1 et M 2 sont définies dans le paragraphe Intervalle de confiance de la moyenne (variance connue). Nous cherchons à évaluer la moyenne µ de la population (figure 9.5). Pour cela, on choisit un niveau de confiance égal à (100 α)%, qui permet de définir l intervalle de confiance. On suppose tout d abord que la variance théorique σ 2 est connue. Propriété : lorsque les v.a. X i sont indépendantes et suivent la loi normale, la

20 Chapitre 5 20 Estimation statistique U définie par suit la loi centrée réduite. U = [M µ ]/[σ 2 /n ] 1/2 On sait que la v.a. M suit la loi normale de moyenne µ et de variance σ 2 /n. La variable U ci-dessus est obtenue en centrant et en réduisant M. On peut donc déterminer le nombre u α tel que : P( u α < U < u α ) = 1 α Pour obtenir un intervalle symétrique, on pose : Exemple (figure 10.5) : On en déduit : On obtient l intervalle ci-dessous : avec : P(U < u α ) = α/2 P(U > u α ) = α/2 α = 1% 1 α = 99% u α = 2.58 α = 5% 1 α = 95% u α = 1.96 α = 10% 1 α = 90% u α = 1.65 P( u α σ/ n < M µ < u α σ/ n ) = 1 α P(M u α σ/ n < µ < M + u α σ/ n ) = 1 α IC = [M u α σ/ n, M + u α σ/ n] = [M 1, M 2 ]

21 Chapitre 5 21 Estimation M 1 = M u α σ/ n M 2 = M + u α σ/ n À ce niveau, les bornes de l intervalle IC dépendent de la v.a. M et sont aléatoires : on peut donc dire que la moyenne théorique µ appartient à l intervalle de confiance IC avec la probabilité 1 α. Par contre, après observation de l échantillon, on connaît la valeur observée m de M : on ne peut tenir le même discours que précédemment puisque les bornes de l intervalle ne dépendent plus du hasard. La moyenne théorique µ est très «vraisemblablement» comprise entre les deux valeurs numériques. Définition : lorsque la variance théorique σ 2 est connue, l intervalle de confiance de la moyenne au niveau de confiance (100 α)% est l intervalle : [m u α σ/ n, m + u α σ/ n ] le nombre u α étant choisi dans la table de la loi normale centrée réduite U de façon que P( u α < U < u α ) = 1 α. Remarques : Les bornes de l intervalle de confiance sont symétriques par rapport à la moyenne observée. Il est possible de les choisir différemment. Par exemple, on choisit la valeur u α telle que : P(U < u α ) = 1 α L intervalle de confiance est alors de la forme ], M + u α σ/ n ] : la moyenne théorique est très vraisemblablement inférieure à m + u α σ/ n. La longueur de l intervalle aléatoire tend vers 0 lorsque le nombre d observations augmente indéfiniment. On retrouve la convergence de l estimateur M vers la moyenne théorique µ. Le théorème de la limite centrée permet de calculer cet intervalle de confiance même lorsque la v.a. X ne suit pas la loi normale, à condition que l échantillon soit de taille suffisante.

22 Chapitre 5 22 Estimation 3.3 Intervalle de confiance de la moyenne (variance inconnue). L estimation de la moyenne est plus fréquemment effectuée sans que l on connaisse la variance théorique. On ne peut donc plus effectuer les calculs précédents. Le calcul de l intervalle de confiance est fondé sur la propriété suivante : Propriété : lorsque les v.a. X i sont indépendantes et suivent la loi normale, la statistique T définie par : T = [M µ ]/[S 2 / (n 1) ] 1/2 suit la loi de Student de degré de liberté n 1. Une démarche analogue à la précédente nous donne l intervalle de confiance. Définition : lorsque la variance théorique σ 2 est inconnue, l intervalle de confiance de la moyenne au niveau de confiance (100 α)% est l intervalle : [m t α s/(n 1) 1/2, m + t α s/(n 1) 1/2 ] Pour déterminer t α, on utilise : si n 120, la table de la loi de probabilité de Student de degré de liberté ν = n 1 ; pour n > 120 la table de la loi normale centrée réduite. Nous donnons ci-dessous quelques valeurs de t α : n = 10 ν = 9 α= 5% t α = 2.26 n = 20 ν = 19 α= 5% t α = 2.09 n = 20 ν = 19 α= 10% t α = 1.73 n = 50 ν = 49 α= 5% t α = 2.02 Remarque : les remarques du paragraphe précédent restent vraies. Exemple : nous avons calculé dans le chapitre 1 la moyenne et la variance des 50 achats de l échantillon tiré au hasard : m = F, s = , s 2 = On a, pour α = 5%, t α = L intervalle de confiance de la moyenne est égal à : [ x / 49, x / 49 ]

23 Chapitre 5 23 Estimation Soit : [ , ] Dans le calcul de l intervalle de confiance de la moyenne, le manque de symétrie de la répartition, constaté précédemment par l étude de l histogramme et la valeur du coefficient d asymétrie (1.16, est compensé par le nombre d observations (50). 3.4 Intervalle de confiance de la variance. En ce qui concerne la variance, le principe est le même, mais la loi de probabilité utilisée est la loi du χ 2 de degré de liberté ν = n 1. Propriété : lorsque les v.a. X i sont indépendantes et suivent la loi normale, la v.a. n S 2 /σ 2 suit la loi du χ 2 de degré de liberté n 1. La loi du χ 2 n est pas symétrique (figure 11.5), puisque les valeurs appartiennent à l intervalle [0, + [. Pour obtenir un intervalle de confiance de niveau de confiance 1 α symétrique en probabilité, il faut déterminer deux bornes (figure 11.5) : χ 2 α telle que P(n S 2 / σ 2 < χ 2 α ) = α/2 χ 2 1 α telle que P(n S 2 /σ 2 > χ 2 1 α ) = α/2

24 Chapitre 5 24 Estimation Les valeurs ci-dessous sont obtenues dans la table de la loi du χ 2 : n ν α 2 χ α 2 χ 1 α % % % % % On en déduit la probabilité de l intervalle [χ α 2, χ 1 α 2 ] suivant la loi du χ 2 : Un calcul simple donne : P(χ α 2 < n S 2 /σ 2 < χ 1 α 2 ) = 1 α P(n S 2 /χ 1 α 2 < σ 2 < n S 2 /χ α 2 ) = 1 α Définition : l intervalle de confiance de la variance au niveau de confiance (100 α)% est l intervalle : [n s 2 /χ 1 α 2, n s 2 /χ α 2 ] Le calcul de l intervalle de confiance de la variance est plus compliqué pour n>100 et nous n en parlerons pas (la procédure est expliquée dans la plupart des tables du χ 2 ). Remarques : Les bornes χ 2 α et χ 2 1 α respectent la symétrie en probabilité. On aurait pu les choisir de façon différente, la seule condition étant : P(n S 2 /σ 2 < χ 2 α ) + P(n S 2 /σ 2 > χ 2 1 α ) = α En choisissant χ 2 α = 0, on obtient une valeur minimale de la variance puisque l intervalle de confiance est de la forme [n s 2 /χ 2 1 α, + [ En choisissant χ 2 1 α = +, on obtient une valeur maximale de la variance puisque l intervalle de confiance est de la forme [0, n s 2 /χ 2 α [ La v.a. n S 2 /σ 2 ne suit la loi du χ 2 que lorsque la v.a. X suit la loi normale. L intervalle de confiance peut toujours être calculé, mais son intérêt est limité lorsque cette propriété n est pas vraie, même lorsque l effectif de l échantillon est élevé. On remarquera que l intervalle de confiance de la variance ne dépend pas de la moyenne théorique de la v.a. Plus précisément, les v.a. M et S 2 sont indépendantes, ce qui signifie que l approximation faite sur un paramètre n a pas d effet sur l approximation faite

25 Chapitre 5 25 Estimation sur l autre. Exemple : calculons l intervalle de confiance de la variance des achats des clients d Euromarket. L estimation est s 2 = Le degré de liberté est égal à 49 pour 50 observations. On a, en choisissant un niveau de confiance égal à 95% : χ 2 α = χ 2 1 α = D où l intervalle de confiance de la variance des achats : [50 x /70.222, 50 x / ] IC = [ , ] On sait que le montant des achats n est pas réparti suivant la loi normale dans la population. On accordera donc un intérêt limité à l intervalle de confiance ci-dessus que nous n avons calculé qu à titre d exemple numérique. 3.5 Autres intervalles de confiance. Les lois des estimateurs M et S 2 nous ont permis de calculer les bornes des intervalles de confiance des paramètres µ et σ 2. On ne peut pas toujours effectuer ce calcul, et la recherche des bornes doit parfois être menée différemment. Étudions les cas particuliers d une probabilité et du paramètre λ d une loi de Poisson intervalle de confiance d une probabilité π. La démarche repose sur la loi de Bernoulli de paramètre π (qui n est évidemment pas égal ici à 3.14) et la loi binomiale. Cette probabilité π est la probabilité d un événement E, par exemple la proportion de femmes dans la clientèle d Euromarket.. On calcule, en effectuant une suite de n tirages, le nombre de réalisations n E de l événement E : on sait que le rapport p = n E /n est une estimation de la probabilité π, et que n E est la valeur observée x d une variable aléatoire X qui suit la loi binomiale B(n, π). Lorsque le nombre de tirages est suffisant (n>100) on utilise une approximation de cette loi par la loi normale : Définition : pour n >100, on appelle intervalle de confiance d une probabilité π au niveau de confiance (100 α)%, l intervalle :

26 Chapitre 5 26 Estimation [ p u α [p (1 p)/n] 1/2, p + u α [p (1 p)/n] 1/2 ] dans lequel p est la fréquence observée dans l échantillon et u α est choisi dans la table de la loi normale suivant le niveau de confiance fixé. Exemple : pour n =200, x= 130 et α = 0.05, on a u α = On en déduit p = 0.65 et l intervalle de confiance : [ x [ 0.65 x 0.35/200 ] 1/2, x [ 0.65 x 0.35/200 ] 1/2 ] IC = [ 0.584, 0.716] Pour les petites valeurs de n, la procédure consiste à déterminer pour x connue les valeurs π α a et π 1 α telles que : P(X>x/π = π α ) = α/2 P(X<x/π = π 1 α ) = α/2 Cela revient à calculer la plus grande et la plus petite des valeurs possibles de π. On peut utiliser un abaque 5, une table statistique ou un logiciel. Exemple : examinons le cas pour n = 10, p = 0.6 et α = Nous donnons cidessous les probabilités P(X<=6) et P(X>=6) pour π = 0.3 et π = 0.8. Loi Binomiale B(10,0.3) Loi Binomiale B(10,0.8) P(X<=6) P(X>=6) P(X<=6) P(X>=6) On peut considérer que les valeurs π = 0.3 et π = 0.8 appartiennent à l intervalle de confiance puisque les probabilités sont supérieures à On constate aussi que plus la valeur de π est élevée, plus la probabilité P(X<=6) est faible et plus la probabilité P(X>=6) est grande. On cherche donc la valeur de π la plus grande possible, jusqu à obtenir P(X<=6) = On trouve π = 0.88 Réciproquement, plus la valeur de π est faible, plus la probabilité P(X<=6) est grande et plus la probabilité P(X>=6) est petite. On cherche donc la valeur de π la plus petite 5 Graphique donnant par simple lecture la solution approchée d'un problème numérique. On trouvera un abaque dans l ouvrage de G. Saporta.

27 Chapitre 5 27 Estimation possible, jusqu à obtenir P(X>=6) = On trouve π = La lecture de l abaque donne le même intervalle de confiance: [0.26, 0.88] intervalle de confiance du paramètre λ de la loi de Poisson. Définition : l intervalle de confiance du paramètre λ d une v.a. de loi P(λ) au niveau de confiance (100 α)% est l intervalle : [χ 2 α /2n, χ 2 1 α /2n ] où n est le nombre d observations, s leur somme et où les valeurs χ 2 α et χ 2 1 α vérifient les propriétés : χ 2 α telle que P(X 2 1 < χ 2 α ) = α/2, X 2 1 étant une v.a. suivant la loi du χ 2 de degré de liberté ν 1 = 2 s χ 2 1 α telle que P(X 2 2 > χ 2 1 α ) = α/2, X 2 2 étant une v.a. suivant la loi du χ 2 de degré de liberté ν 2 = 2 (s+1) On peut utiliser aussi les tables statistiques ou un logiciel pour calculer l intervalle de confiance comme précédemment. Exemple : pour calculer l intervalle de confiance du paramètre λ d une loi de Poisson dont la valeur estimée sur 10 observations est l = 2.5, on cherche les valeurs χ 2 α et χ 2 1 α pour les degrés de liberté 50 et 52 et pour le niveau de confiance choisi (95%). La table donne : χ 2 α = , χ 2 1 α = On en déduit l intervalle de confiance : [1.618, 3.691] CONCLUSION L estimation est un chapitre important de la statistique inférentielle dont nous n avons donné qu un aperçu limité aux propriétés fondamentales. Elle donne les outils nécessaires à une approximation contrôlée des paramètres statistiques habituels. On peut ainsi déterminer la précision d une estimation, et inversement, calculer le nombre d observations nécessaires pour obtenir une précision donnée. Ce dernier point est utile en particulier dans les sondages.

28 Chapitre 5 28 Estimation TABLE DES MATIÈRES 1. DES PROBABILITÉS À LA STATISTIQUE Simulation Loi des grands nombres Notion de convergence Densité et histogramme ESTIMATEUR D UN PARAMÈTRE Estimations empiriques Estimateurs de la moyenne et de la variance Propriétés caractéristiques des estimateurs Loi de l estimateur de la moyenne (théorème de la limite centrée) Loi de l estimateur de la variance ESTIMATION PAR INTERVALLE DE CONFIANCE Intervalle de confiance. Propriétés des estimateurs empiriques Intervalle de confiance de la moyenne (variance connue) Intervalle de confiance de la moyenne (variance inconnue) Intervalle de confiance de la variance Autres intervalles de confiance intervalle de confiance d une probabilité π intervalle de confiance du paramètre λ de la loi de Poisson CONCLUSION... 27