Chapitre 3 : INFERENCE 3.1 L ÉCHANTILLONNAGE 3.1.1 Introduction 3.1.2 L échantillonnage aléatoire 3.1.3 Estimation ponctuelle 3.1.4 Distributions d échantillonnage 3.1.5 Intervalles de probabilité L échantillonnage 1 / 41
Chapitre 3 : INFERENCE 3.1 L ÉCHANTILLONNAGE 3.1.1 Introduction 3.1.2 L échantillonnage aléatoire 3.1.3 Estimation ponctuelle 3.1.4 Distributions d échantillonnage 3.1.5 Intervalles de probabilité L échantillonnage 2 / 41
Définitions En général, l inférence est définie comme une opération mentale qui consiste à tirer une conclusion d une série de propositions reconnues pour vraies. Ces conclusions sont tirées à partir de règles de base. L inférence statistique est définie comme le processus d utilisation des données d un échantillon pour estimer ou tester des hypothèses sur les caractéristiques numériques («paramètres») d une population. Une population (ou «population mère») est définie comme l ensemble de tous les éléments d intérêt dans une étude particulière. Un échantillon est défini comme un sous-ensemble de la population. L échantillonnage 3 / 41
Pourquoi prendre un échantillon? Le coût : recenser toute la population coûte trop cher et/ou prend trop de temps Recensement de la population 2010 : recensement traditionnel (questionnaire à tous les ménages) coûterait 200 millions ; proposition du Conseil fédéral (échantillonnage + recensement fondé sur les registres coûtera 124 millions [estimations faites en 2006]) Etant donné l impossibilité d examiner chaque être humain, toute étude empirique d hypothèses générales en sciences sociales doit être basée sur des échantillons, soit d individus soit de groupes d individus (ménages, firmes, industries, pays,...) L échantillonnage 4 / 41
Un exemple fictif : Statville Commune Statville : 2500 habitants adultes (= population) Syndic s intéresse à la distribution des revenus parmi ces habitants et à la participation des habitants à la dernière assemblée communale (ils étaient trop nombreux pour être comptés) Interroger tous les 2500 habitants serait trop cher Budget permet d interroger un échantillon de 30 habitants Paramètres de la population (inconnus par le syndic!) : o Revenu moyen (): 51800 francs o Ecart-type du revenu (): 4000 francs o Taux de participation à la dernière assemblée (p) : 60% Que devrait faire le syndic? L échantillonnage 5 / 41
Chapitre 3 : INFERENCE 3.1 L ÉCHANTILLONNAGE 3.1.1 Introduction 3.1.2 L échantillonnage aléatoire 3.1.3 Estimation ponctuelle 3.1.4 Distributions d échantillonnage 3.1.5 Intervalles de probabilité L échantillonnage 6 / 41
L échantillonnage aléatoire simple Population de N éléments ; échantillon de n éléments Définition pour une population finie (N connu): tous les éléments de la population ont la même probabilité de faire partie de l échantillon Probabilité qu un élément de la population soit contenu dans l échantillon est n/n. Définition pour une population infinie (N inconnu): les éléments de l échantillon sont sélectionnés indépendamment de la même population Echantillonnage sans remise (chaque élément ne peut être sélectionné qu une fois) : o Nombre d échantillons possibles = C = N!/(n!(N-n)!) o Probabilité qu un échantillon particulier soit tiré = 1/C o Exemple Statville : C 2.75 * 10 69 L échantillonnage 7 / 41
Comment obtenir un échantillon aléatoire simple? Critère : probabilité de sélection indépendante de toute caractéristique des éléments de la population Population finie : Tirage au sort Choix avec nombres aléatoires à partir d une liste des éléments [Excel :=ALEA() génère des nombres aléatoires entre 0 et 1] Population infinie (processus continu dans le temps) : Sélectionner selon une loi de Bernoulli [Excel : =SI(ALEA()>=P; oui ; non ) répond «oui» dans (1 P) pourcent de cas] Trouver astuce (exemple contrôle douanier : examiner chaque voiture arrivant après une voiture orange) L échantillonnage 8 / 41
Autres types d échantillon Echantillon aléatoire stratifié Critère : strates homogènes Difficulté de la pondération représentative des strates Statville : sélectionner aléatoirement des individus selon le niveau d éducation Échantillon aléatoire par grappes o Critère : grappes composées de façon hétérogène et donc représentative o Statville : sélectionner aléatoirement des ménages/quartiers Échantillonnage subjectif Critère : échantillon qui semble représentatif Statville : syndic choisit 30 individus qui lui semblent représentatifs de la population municipale Évidemment problématique (danger de biais de sélection)! L échantillonnage 9 / 41
Chapitre 3 : INFERENCE 3.1 L ÉCHANTILLONNAGE 3.1.1 Introduction 3.1.2 L échantillonnage aléatoire 3.1.3 Estimation ponctuelle 3.1.4 Distributions d échantillonnage 3.1.5 Intervalles de probabilité L échantillonnage 10 / 41
Bases But : estimer la valeur d un paramètre de la population («estimation ponctuelle») Méthode : calculer la statistique d échantillon correspondante «Méthode des moments» : prendre moment de l échantillon comme estimateur du moment de la population Statistiques d échantillon : toute mesure de tendance centrale, de dispersion, etc. L échantillonnage 11 / 41
Exemple Statville (1) Échantillon aléatoire de 30 individus ind. revenu participation revenu participation 1 49094.3 1 Somme 1554420 19 2 53263.9 1 Moyenne 51814 0.63 3 49643.5 1 Ecart type 3347.7 0.49 4 49894.9 1 5 47621.6 0 6 55924.0 1 7 49092.3 1 8 51404.4 1 9 50957.7 1 10 55109.7 1 11 45922.6 1 12 57268.4 0 13 55688.8 1 14 51564.7 0 15 56188.2 0 16 51766.0 1 17 52541.3 0 18 44980.0 1 19 51932.6 1 20 52973.0 1 21 45120.9 1 22 51753.0 1 23 54391.8 0 24 50164.2 0 25 52973.6 0 26 50241.3 0 27 52793.9 0 28 50979.4 1 29 55860.9 1 30 57309.1 0 L échantillonnage 12 / 41
Exemple Statville (2) Revenu : moyenne de l échantillon revenu 1554420 x i 51814 51800 n 30 Revenu : écart type de l échantillon 2 ( revenui - x) 325009260 3348 4000 s n-1 29 Participation : moyenne de l échantillon participation 19 p i 0.63 p 0.60 n 30 Les estimations ponctuelles ne correspondent pas exactement aux paramètres de la population que faire? L échantillonnage 13 / 41
Chapitre 3 : INFERENCE 3.1 L ÉCHANTILLONNAGE 3.1.1 Introduction 3.1.2 L échantillonnage aléatoire 3.1.3 Estimation ponctuelle 3.1.4 Distributions d échantillonnage 3.1.5 Intervalles de probabilité L échantillonnage 14 / 41
Bases Idée de départ : répéter la sélection d un échantillon multiples fois et étudier comment se comportent les statistiques de l échantillon par rapport aux paramètres correspondants de la population En moyenne, la statistique de l échantillon a-t-elle tendance à être proche du paramètre «vrai» correspondant, ou y a-til une divergence systématique (c.à.d. un «biais»)? Distribution d échantillonnage = distribution de probabilité de toutes les valeurs possibles d une statistique de l échantillon Puisque la sélection d échantillons suit un processus aléatoire, les statistiques de l échantillon sont elles-aussi des variables aléatoires et suivent donc un distribution de probabilité L échantillonnage 15 / 41
Exemple Statville (1) Supposons (pour fixer les idées, pas parce-que ce serait réaliste ou intelligent) que le syndic ait les moyens de répéter l expérience initiale multiples fois, c.à.d. de resélectionner des échantillons aléatoires de taille 30 parmi les habitants de Statville. Pour chacun de ces échantillons, il calcule x, s et p. Ensuite il résume les valeurs de chacune de ces trois statistiques d échantillon p.ex. sous forme d un histogramme approximation empirique de la distribution d échantillonnage Excel : un histogramme peut être dessiné via les menusoutils Utilitaire d analyse (installer viamacro complémentaire) Histogramme (Représentation graphique) voir aussiutilitaire d analyse Génération de nombres aléatoires et Échantillonnage L échantillonnage 16 / 41
Exemple Statville (2) Valeurs de x, s et p obtenues à partir de 500 échantillons aléatoires simples de 30 habitants échantillon revenu: moyenne ( x ) revenu: écart type (s ) participation: moyenne ( ) 1 51814 3347.7 0.63 2 52670 4239.1 0.70 3 51780 4433.4 0.67 4 51588 3985.3 0.53............ 500 51752 3857.8 0.50 moyenne 51808 3995.4 0.61 écart type ( s x x,, s pp) 729.4 0.0896 p L échantillonnage 17 / 41
Exemple Statville (3) Distribution de fréquence de x obtenue à partir des 500 échantillons revenu: fréquence fréquence moyenne relative 49500-49999 2 0.004 50000-50499 16 0.032 50500-50999 52 0.104 51000-51499 101 0.202 51500-51999 133 0.266 52000-52499 110 0.220 52500-52999 54 0.108 53000-53499 26 0.052 53500-53999 6 0.012 Total 500 1 L échantillonnage 18 / 41
Exemple Statville (4) Histogramme de la fréquence relative des valeurs de x obtenues à partir des 500 échantillons Approximation empirique de la distribution d échantillonnage fréquence relative 0.3 0.25 0.2 0.15 0.1 0.05 de x! 0 49500-49999 50000-50499 50500-50999 51000-51499 51500-51999 52000-52499 52500-52999 53000-53499 53500-53999 L échantillonnage 19 / 41
L espérance La moyenne de la variable aléatoire x si le nombre d échantillons tend vers l infini («moyenne des moyennes») correspond à l espérance mathématique de x, E(x). Rappel : = moyenne de la population (le paramètre «vrai») On peut montrer que E(x) =. La moyenne d un échantillon aléatoire est un estimateur non-biaisé de la moyenne de la population. L échantillonnage 20 / 41
L erreur type Soit x l écart type de la distribution d échantillonnage de x, désormais dénommé «erreur type». On peut montrer que x n N n N 1 Pour une population infinie (N ), on a = ( n). N n N 1 L échantillonnage 21 / 41 = «facteur de correction pour une population finie» Règle pratique : ( n) est une approximation satisfaisante si la population est finie et nn 0.05. N n Statville : nn = 302500 = 0.012 0.994 1 N 1. x
La distribution d échantillonnage toute entière (1) Nous avons défini la moyenne et l écart type de la distribution d échantillonnage de la moyenne. Pouvons nous définir la distribution d échantillonnage toute entière? Oui! Résultat 1 : Si les données de la population suivent une distribution normale, la distribution d échantillonnage de x est normale elle aussi, quelle que soit la taille de l échantillon n. o Cas plutôt rare o Inspecter histogramme o On peut tester formellement l hypothèse selon laquelle un certain échantillon est tiré d une population qui suit une distribution normale (p.ex. test du Khi-deux, ch. 3.3.5) L échantillonnage 22 / 41
La distribution d échantillonnage toute entière (2) Résultat 2 : Si les données de la population ne sont pas distribuées selon une loi normale, on peut appliquer le théorème centrale limite : Pour des échantillons aléatoires simples, la distribution d échantillonnage de x peut être approchée par une distribution de probabilité normale, lorsque la taille de l échantillon devient importante. L échantillonnage 23 / 41
La distribution d échantillonnage toute entière (3) Formellement, avec un échantillon aléatoire simple : x x N (, x ), z (0,1) x N, où (, ) et x 0.5 x 1 x N x f x e, 2 1 0.5z z N (0,1) f z e 2. 2 x 2 Règle pratique approximative : le théorème centrale limite peut être invoqué pour des échantillons de taille n 30. L échantillonnage 24 / 41
Illustration du théorème centrale limite (1) L échantillonnage 25 / 41
Illustration du théorème centrale limite (2) L échantillonnage 26 / 41
Illustration du théorème centrale limite (3) L échantillonnage 27 / 41
Illustration du théorème centrale limite (4) L échantillonnage 28 / 41
Illustration du théorème centrale limite (5) L échantillonnage 29 / 41
Illustration du théorème centrale limite (6) L échantillonnage 30 / 41
Le cas de p Continuons à supposer qu on ait un échantillon aléatoire simple. L espérance mathématique de la variable aléatoire p (moyenne dans l échantillon de la mesure de proportion p) est donnée par : E(p) = p p est un estimateur non-biaisé de p L erreur type de p est donné par : p et, pour une population infinie, par : p p(1 p) N n n N 1 p(1 p). n ; La distribution d échantillonnage toute entière peut être approchée par une distribution de probabilité normale lorsque np 5 et n(1 p) 5 (règle pratique approximative ; basée sur la convergenence de la loi binomiale avec la loi normale). L échantillonnage 31 / 41
Exemple Statville : distribution d échantillonnage de la moyenne L échantillonnage 32 / 41
Exemple Statville : distribution d échantillonnage d une proportion L échantillonnage 33 / 41
Statistique 1e année bachelor, 2009-10 Exemple Statville : erreur type et taille de l échantillon L échantillonnage 34 / 41
Statistique 1e année bachelor, 2009-10 Chapitre 3 : INFERENCE 3.1 L ÉCHANTILLONNAGE 3.1.1 3.1.2 3.1.3 3.1.4 3.1.5 Introduction L échantillonnage aléatoire Estimation ponctuelle Distributions d échantillonnage Intervalles de probabilité L échantillonnage 35 / 41
Statistique 1e année bachelor, 2009-10 Base Lorsqu on a un échantillon, il est hautement improbable que les statistiques de l échantillon ( x, p ) correspondent exactement aux paramètres de la population (, p) Que peut-on dire sur la probabilité que la valeur d une statistique particulière soit «proche» du paramètre de la population, ou «proche» signifie un écart maximum de M? Les distributions d échantillonnage contiennent la réponse! Statville : o Quelle est la probabilité que le revenu moyen de l échantillon, x, soit à 500 francs près du revenu moyen de la commune,? (M = 500) o Quelle est la probabilité que la proportion des participants de l échantillon, p, soit à 5 points de pourcentage près de la proportion totale, p? (M = 0.05) L échantillonnage 36 / 41
Statistique 1e année bachelor, 2009-10 Exemple Statville (1) Probabilité que le revenu moyen d un échantillon de taille 30 soit à 500 francs près du revenu moyen de la population? x Rappel : N (0,1) x x M 500 4000 n 30 : x 730.3 n 30 (inconnu par le syndic!) 500 500 P ( 500 x 500 n 30) P Z P Z 730.3 730.3 L échantillonnage 37 / 41
Statistique 1e année bachelor, 2009-10 Exemple Statville (2) 500 730.3 Moyenne : M 500, n 30 P ( 500 x 500 n 30) P ( 0.68 Z 0.68) 0.50 * * * voir la Table 1, p. 730, du manuel de Anderson et al., où F(z) P(0 < Z < z) L échantillonnage 38 / 41
Statistique 1e année bachelor, 2009-10 Exemple Statville (3) 500 400 Moyenne : M 500, n 100 P ( 500 x 500 n 100) P ( 1.25 Z 1.25) 0.79 * * * voir la Table 1, p. 730, du manuel de Anderson et al., où F(z) P(0 < Z < z) L échantillonnage 39 / 41
Statistique 1e année bachelor, 2009-10 Exemple Statville (4) 0.05 0.089 Proportion : M 0.05, n 30 P ( p 0.05 p p 0.05 n 30) ( 0.56 Z 0.56) 0.42 * * * voir la Table 1, p. 730, du manuel de Anderson et al., où F(z) P(0 < Z < z) L échantillonnage 40 / 41
Statistique 1e année bachelor, 2009-10 Exemple Statville (4) Grand problème : le syndic ne connaît pas Que faire pour juger de la fiabilité des estimations basées sur son échantillon? Attendre le chapitre prochain... L échantillonnage 41 / 41