Chapitre 3 : INFERENCE

Documents pareils
Estimation: intervalle de fluctuation et de confiance. Mars IREM: groupe Proba-Stat. Fluctuation. Confiance. dans les programmes comparaison

Loi binomiale Lois normales

Estimation et tests statistiques, TD 5. Solutions

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

Lois de probabilité. Anita Burgun

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction.

Théorie des sondages : cours 5

Exercices supplémentaires sur l introduction générale à la notion de probabilité

CONCEPTION ET TIRAGE DE L ÉCHANTILLON

STA108 Enquêtes et sondages. Sondages àplusieurs degrés et par grappes

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

LES GENERATEURS DE NOMBRES ALEATOIRES

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

M2 IAD UE MODE Notes de cours (3)

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Endettement des jeunes adultes

Moments des variables aléatoires réelles

Réseau SCEREN. Ce document a été numérisé par le CRDP de Bordeaux pour la. Base Nationale des Sujets d Examens de l enseignement professionnel.

Table des matières. I Mise à niveau 11. Préface

Probabilités et Statistiques. Feuille 2 : variables aléatoires discrètes

Séries Statistiques Simples

Cours de Tests paramétriques

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

Calcul élémentaire des probabilités

TABLE DES MATIERES. C Exercices complémentaires 42

EVALUATION DE LA QUALITE DES SONDAGES EN LIGNE : CAS D UN SONDAGE D OPINION AU BURKINA FASO

Principe d un test statistique

Fiche qualité relative à l enquête Santé et Itinéraire Professionnel 2010 (SIP) Carte d identité de l enquête

Introduction à la Statistique Inférentielle

Questionnaire de vérification pour l implantation de la norme ISO dans une entreprise

Précision d un résultat et calculs d incertitudes

CNAM léments de cours Bonus-malus et Crédibilité

Les devoirs en Première STMG

Actuariat I ACT2121. septième séance. Arthur Charpentier. Automne charpentier.arthur@uqam.ca. http ://freakonometrics.blog.free.

TSTI 2D CH X : Exemples de lois à densité 1

MODÈLE CROP DE CALIBRATION DES PANELS WEB

ECOLE DES HAUTES ETUDES COMMERCIALES CORRIGÉ TYPE DE L EXAMEN

PROBABILITES ET STATISTIQUE I&II

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Sommaire. Rentabilité du retour d une franchise de baseball de la Ligue majeure de baseball à Montréal (les «Expos»)

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.

LE RÔLE DE LA STATISTIQUE DANS UN PROCESSUS DE PRISE DE DÉCISION

Annexe commune aux séries ES, L et S : boîtes et quantiles

Calculs de probabilités conditionelles

Leçon 5. Systèmes de gestion à recomplétement périodique et stock de sécurité

1. Les comptes de dépôt et d épargne

TESTS D'HYPOTHESES Etude d'un exemple

Probabilités sur un univers fini

Probabilités (méthodes et objectifs)

Licence MASS (Re-)Mise à niveau en Probabilités. Feuilles de 1 à 7

4 Distributions particulières de probabilités

La nouvelle planification de l échantillonnage

Programmes des classes préparatoires aux Grandes Ecoles

Introduction à l approche bootstrap

FOTO - L OMNIBUS MENSUEL DE CROP LE NOUVEAU CROP-EXPRESS

Probabilités Loi binomiale Exercices corrigés

Probabilités III Introduction à l évaluation d options

Le niveau de revenus des ménages est associé à la couverture vaccinale par le vaccin pneumocoque conjugué chez les enfants d'ile-de-france

ACTUARIAT 1, ACT 2121, AUTOMNE 2013 #4-5

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

La représentativité d un échantillon et son test par le Khi-deux Testing the representativeness of a sample

Peut-on croire un sondage?

Baccalauréat ES Antilles Guyane 12 septembre 2014 Corrigé

Lignes directrices de 2004 pour des sondages sur la satisfaction des demandeurs dans le cadre de l assurance-automobile

Statistique : Résumé de cours et méthodes

THÈME 1. Ménages et consommation

MATHÉMATIQUES. Mat-4104

La pratique du coaching en France. Baromètre 2010

Statistiques Décisionnelles L3 Sciences Economiques & Gestion Faculté d économie, gestion & AES Université Montesquieu - Bordeaux

Probabilités sur un univers fini

Compte rendu du stage ATSM Probabilités et statistique

LEÇON N 7 : Schéma de Bernoulli et loi binomiale. Exemples.

Ressources pour le lycée général et technologique

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

Le modèle de régression linéaire

Brock. Rapport supérieur

TARIFICATION EN ASSURANCE COMPLEMENTAIRE SANTE: il était une fois, un statisticien, un actuaire, un économiste de la santé

Statistiques Descriptives à une dimension

Observer dans la durée les atteintes aux voitures

CREER UNE ENTREPRISE A JERSEY

Probabilités conditionnelles Exercices corrigés

Propriétés des options sur actions

données en connaissance et en actions?

Raisonnement probabiliste

Suites numériques 3. 1 Convergence et limite d une suite

Biostatistiques : Petits effectifs

Le risque Idiosyncrasique

VI. Tests non paramétriques sur un échantillon

Impact du mobile banking sur les comportements d épargne et de transferts à Madagascar. Florence Arestoff Baptiste Venet

III- Raisonnement par récurrence

La diffusion des résultats statistiques du recensement de la population

Traitement des données avec Microsoft EXCEL 2010

CHAPITRE 5. Stratégies Mixtes

COMPTE RENDU DU QUESTIONNAIRE DE SATISFACTION

Incertitude et variabilité : la nécessité de les intégrer dans les modèles

PLAN DE COURS CEGEP DU VIEUX-MONTRÉAL

OUTILS STATISTIQUES ET NUMÉRIQUES

Automatique (AU3): Précision. Département GEII, IUT de Brest contact:

SOMMAIRE. AVRIL 2013 TECHNOLOGIE ÉTUDE POINTS DE VUE BDC Recherche et intelligence de marché de BDC TABLE DES MATIÈRES

Transcription:

Chapitre 3 : INFERENCE 3.1 L ÉCHANTILLONNAGE 3.1.1 Introduction 3.1.2 L échantillonnage aléatoire 3.1.3 Estimation ponctuelle 3.1.4 Distributions d échantillonnage 3.1.5 Intervalles de probabilité L échantillonnage 1 / 41

Chapitre 3 : INFERENCE 3.1 L ÉCHANTILLONNAGE 3.1.1 Introduction 3.1.2 L échantillonnage aléatoire 3.1.3 Estimation ponctuelle 3.1.4 Distributions d échantillonnage 3.1.5 Intervalles de probabilité L échantillonnage 2 / 41

Définitions En général, l inférence est définie comme une opération mentale qui consiste à tirer une conclusion d une série de propositions reconnues pour vraies. Ces conclusions sont tirées à partir de règles de base. L inférence statistique est définie comme le processus d utilisation des données d un échantillon pour estimer ou tester des hypothèses sur les caractéristiques numériques («paramètres») d une population. Une population (ou «population mère») est définie comme l ensemble de tous les éléments d intérêt dans une étude particulière. Un échantillon est défini comme un sous-ensemble de la population. L échantillonnage 3 / 41

Pourquoi prendre un échantillon? Le coût : recenser toute la population coûte trop cher et/ou prend trop de temps Recensement de la population 2010 : recensement traditionnel (questionnaire à tous les ménages) coûterait 200 millions ; proposition du Conseil fédéral (échantillonnage + recensement fondé sur les registres coûtera 124 millions [estimations faites en 2006]) Etant donné l impossibilité d examiner chaque être humain, toute étude empirique d hypothèses générales en sciences sociales doit être basée sur des échantillons, soit d individus soit de groupes d individus (ménages, firmes, industries, pays,...) L échantillonnage 4 / 41

Un exemple fictif : Statville Commune Statville : 2500 habitants adultes (= population) Syndic s intéresse à la distribution des revenus parmi ces habitants et à la participation des habitants à la dernière assemblée communale (ils étaient trop nombreux pour être comptés) Interroger tous les 2500 habitants serait trop cher Budget permet d interroger un échantillon de 30 habitants Paramètres de la population (inconnus par le syndic!) : o Revenu moyen (): 51800 francs o Ecart-type du revenu (): 4000 francs o Taux de participation à la dernière assemblée (p) : 60% Que devrait faire le syndic? L échantillonnage 5 / 41

Chapitre 3 : INFERENCE 3.1 L ÉCHANTILLONNAGE 3.1.1 Introduction 3.1.2 L échantillonnage aléatoire 3.1.3 Estimation ponctuelle 3.1.4 Distributions d échantillonnage 3.1.5 Intervalles de probabilité L échantillonnage 6 / 41

L échantillonnage aléatoire simple Population de N éléments ; échantillon de n éléments Définition pour une population finie (N connu): tous les éléments de la population ont la même probabilité de faire partie de l échantillon Probabilité qu un élément de la population soit contenu dans l échantillon est n/n. Définition pour une population infinie (N inconnu): les éléments de l échantillon sont sélectionnés indépendamment de la même population Echantillonnage sans remise (chaque élément ne peut être sélectionné qu une fois) : o Nombre d échantillons possibles = C = N!/(n!(N-n)!) o Probabilité qu un échantillon particulier soit tiré = 1/C o Exemple Statville : C 2.75 * 10 69 L échantillonnage 7 / 41

Comment obtenir un échantillon aléatoire simple? Critère : probabilité de sélection indépendante de toute caractéristique des éléments de la population Population finie : Tirage au sort Choix avec nombres aléatoires à partir d une liste des éléments [Excel :=ALEA() génère des nombres aléatoires entre 0 et 1] Population infinie (processus continu dans le temps) : Sélectionner selon une loi de Bernoulli [Excel : =SI(ALEA()>=P; oui ; non ) répond «oui» dans (1 P) pourcent de cas] Trouver astuce (exemple contrôle douanier : examiner chaque voiture arrivant après une voiture orange) L échantillonnage 8 / 41

Autres types d échantillon Echantillon aléatoire stratifié Critère : strates homogènes Difficulté de la pondération représentative des strates Statville : sélectionner aléatoirement des individus selon le niveau d éducation Échantillon aléatoire par grappes o Critère : grappes composées de façon hétérogène et donc représentative o Statville : sélectionner aléatoirement des ménages/quartiers Échantillonnage subjectif Critère : échantillon qui semble représentatif Statville : syndic choisit 30 individus qui lui semblent représentatifs de la population municipale Évidemment problématique (danger de biais de sélection)! L échantillonnage 9 / 41

Chapitre 3 : INFERENCE 3.1 L ÉCHANTILLONNAGE 3.1.1 Introduction 3.1.2 L échantillonnage aléatoire 3.1.3 Estimation ponctuelle 3.1.4 Distributions d échantillonnage 3.1.5 Intervalles de probabilité L échantillonnage 10 / 41

Bases But : estimer la valeur d un paramètre de la population («estimation ponctuelle») Méthode : calculer la statistique d échantillon correspondante «Méthode des moments» : prendre moment de l échantillon comme estimateur du moment de la population Statistiques d échantillon : toute mesure de tendance centrale, de dispersion, etc. L échantillonnage 11 / 41

Exemple Statville (1) Échantillon aléatoire de 30 individus ind. revenu participation revenu participation 1 49094.3 1 Somme 1554420 19 2 53263.9 1 Moyenne 51814 0.63 3 49643.5 1 Ecart type 3347.7 0.49 4 49894.9 1 5 47621.6 0 6 55924.0 1 7 49092.3 1 8 51404.4 1 9 50957.7 1 10 55109.7 1 11 45922.6 1 12 57268.4 0 13 55688.8 1 14 51564.7 0 15 56188.2 0 16 51766.0 1 17 52541.3 0 18 44980.0 1 19 51932.6 1 20 52973.0 1 21 45120.9 1 22 51753.0 1 23 54391.8 0 24 50164.2 0 25 52973.6 0 26 50241.3 0 27 52793.9 0 28 50979.4 1 29 55860.9 1 30 57309.1 0 L échantillonnage 12 / 41

Exemple Statville (2) Revenu : moyenne de l échantillon revenu 1554420 x i 51814 51800 n 30 Revenu : écart type de l échantillon 2 ( revenui - x) 325009260 3348 4000 s n-1 29 Participation : moyenne de l échantillon participation 19 p i 0.63 p 0.60 n 30 Les estimations ponctuelles ne correspondent pas exactement aux paramètres de la population que faire? L échantillonnage 13 / 41

Chapitre 3 : INFERENCE 3.1 L ÉCHANTILLONNAGE 3.1.1 Introduction 3.1.2 L échantillonnage aléatoire 3.1.3 Estimation ponctuelle 3.1.4 Distributions d échantillonnage 3.1.5 Intervalles de probabilité L échantillonnage 14 / 41

Bases Idée de départ : répéter la sélection d un échantillon multiples fois et étudier comment se comportent les statistiques de l échantillon par rapport aux paramètres correspondants de la population En moyenne, la statistique de l échantillon a-t-elle tendance à être proche du paramètre «vrai» correspondant, ou y a-til une divergence systématique (c.à.d. un «biais»)? Distribution d échantillonnage = distribution de probabilité de toutes les valeurs possibles d une statistique de l échantillon Puisque la sélection d échantillons suit un processus aléatoire, les statistiques de l échantillon sont elles-aussi des variables aléatoires et suivent donc un distribution de probabilité L échantillonnage 15 / 41

Exemple Statville (1) Supposons (pour fixer les idées, pas parce-que ce serait réaliste ou intelligent) que le syndic ait les moyens de répéter l expérience initiale multiples fois, c.à.d. de resélectionner des échantillons aléatoires de taille 30 parmi les habitants de Statville. Pour chacun de ces échantillons, il calcule x, s et p. Ensuite il résume les valeurs de chacune de ces trois statistiques d échantillon p.ex. sous forme d un histogramme approximation empirique de la distribution d échantillonnage Excel : un histogramme peut être dessiné via les menusoutils Utilitaire d analyse (installer viamacro complémentaire) Histogramme (Représentation graphique) voir aussiutilitaire d analyse Génération de nombres aléatoires et Échantillonnage L échantillonnage 16 / 41

Exemple Statville (2) Valeurs de x, s et p obtenues à partir de 500 échantillons aléatoires simples de 30 habitants échantillon revenu: moyenne ( x ) revenu: écart type (s ) participation: moyenne ( ) 1 51814 3347.7 0.63 2 52670 4239.1 0.70 3 51780 4433.4 0.67 4 51588 3985.3 0.53............ 500 51752 3857.8 0.50 moyenne 51808 3995.4 0.61 écart type ( s x x,, s pp) 729.4 0.0896 p L échantillonnage 17 / 41

Exemple Statville (3) Distribution de fréquence de x obtenue à partir des 500 échantillons revenu: fréquence fréquence moyenne relative 49500-49999 2 0.004 50000-50499 16 0.032 50500-50999 52 0.104 51000-51499 101 0.202 51500-51999 133 0.266 52000-52499 110 0.220 52500-52999 54 0.108 53000-53499 26 0.052 53500-53999 6 0.012 Total 500 1 L échantillonnage 18 / 41

Exemple Statville (4) Histogramme de la fréquence relative des valeurs de x obtenues à partir des 500 échantillons Approximation empirique de la distribution d échantillonnage fréquence relative 0.3 0.25 0.2 0.15 0.1 0.05 de x! 0 49500-49999 50000-50499 50500-50999 51000-51499 51500-51999 52000-52499 52500-52999 53000-53499 53500-53999 L échantillonnage 19 / 41

L espérance La moyenne de la variable aléatoire x si le nombre d échantillons tend vers l infini («moyenne des moyennes») correspond à l espérance mathématique de x, E(x). Rappel : = moyenne de la population (le paramètre «vrai») On peut montrer que E(x) =. La moyenne d un échantillon aléatoire est un estimateur non-biaisé de la moyenne de la population. L échantillonnage 20 / 41

L erreur type Soit x l écart type de la distribution d échantillonnage de x, désormais dénommé «erreur type». On peut montrer que x n N n N 1 Pour une population infinie (N ), on a = ( n). N n N 1 L échantillonnage 21 / 41 = «facteur de correction pour une population finie» Règle pratique : ( n) est une approximation satisfaisante si la population est finie et nn 0.05. N n Statville : nn = 302500 = 0.012 0.994 1 N 1. x

La distribution d échantillonnage toute entière (1) Nous avons défini la moyenne et l écart type de la distribution d échantillonnage de la moyenne. Pouvons nous définir la distribution d échantillonnage toute entière? Oui! Résultat 1 : Si les données de la population suivent une distribution normale, la distribution d échantillonnage de x est normale elle aussi, quelle que soit la taille de l échantillon n. o Cas plutôt rare o Inspecter histogramme o On peut tester formellement l hypothèse selon laquelle un certain échantillon est tiré d une population qui suit une distribution normale (p.ex. test du Khi-deux, ch. 3.3.5) L échantillonnage 22 / 41

La distribution d échantillonnage toute entière (2) Résultat 2 : Si les données de la population ne sont pas distribuées selon une loi normale, on peut appliquer le théorème centrale limite : Pour des échantillons aléatoires simples, la distribution d échantillonnage de x peut être approchée par une distribution de probabilité normale, lorsque la taille de l échantillon devient importante. L échantillonnage 23 / 41

La distribution d échantillonnage toute entière (3) Formellement, avec un échantillon aléatoire simple : x x N (, x ), z (0,1) x N, où (, ) et x 0.5 x 1 x N x f x e, 2 1 0.5z z N (0,1) f z e 2. 2 x 2 Règle pratique approximative : le théorème centrale limite peut être invoqué pour des échantillons de taille n 30. L échantillonnage 24 / 41

Illustration du théorème centrale limite (1) L échantillonnage 25 / 41

Illustration du théorème centrale limite (2) L échantillonnage 26 / 41

Illustration du théorème centrale limite (3) L échantillonnage 27 / 41

Illustration du théorème centrale limite (4) L échantillonnage 28 / 41

Illustration du théorème centrale limite (5) L échantillonnage 29 / 41

Illustration du théorème centrale limite (6) L échantillonnage 30 / 41

Le cas de p Continuons à supposer qu on ait un échantillon aléatoire simple. L espérance mathématique de la variable aléatoire p (moyenne dans l échantillon de la mesure de proportion p) est donnée par : E(p) = p p est un estimateur non-biaisé de p L erreur type de p est donné par : p et, pour une population infinie, par : p p(1 p) N n n N 1 p(1 p). n ; La distribution d échantillonnage toute entière peut être approchée par une distribution de probabilité normale lorsque np 5 et n(1 p) 5 (règle pratique approximative ; basée sur la convergenence de la loi binomiale avec la loi normale). L échantillonnage 31 / 41

Exemple Statville : distribution d échantillonnage de la moyenne L échantillonnage 32 / 41

Exemple Statville : distribution d échantillonnage d une proportion L échantillonnage 33 / 41

Statistique 1e année bachelor, 2009-10 Exemple Statville : erreur type et taille de l échantillon L échantillonnage 34 / 41

Statistique 1e année bachelor, 2009-10 Chapitre 3 : INFERENCE 3.1 L ÉCHANTILLONNAGE 3.1.1 3.1.2 3.1.3 3.1.4 3.1.5 Introduction L échantillonnage aléatoire Estimation ponctuelle Distributions d échantillonnage Intervalles de probabilité L échantillonnage 35 / 41

Statistique 1e année bachelor, 2009-10 Base Lorsqu on a un échantillon, il est hautement improbable que les statistiques de l échantillon ( x, p ) correspondent exactement aux paramètres de la population (, p) Que peut-on dire sur la probabilité que la valeur d une statistique particulière soit «proche» du paramètre de la population, ou «proche» signifie un écart maximum de M? Les distributions d échantillonnage contiennent la réponse! Statville : o Quelle est la probabilité que le revenu moyen de l échantillon, x, soit à 500 francs près du revenu moyen de la commune,? (M = 500) o Quelle est la probabilité que la proportion des participants de l échantillon, p, soit à 5 points de pourcentage près de la proportion totale, p? (M = 0.05) L échantillonnage 36 / 41

Statistique 1e année bachelor, 2009-10 Exemple Statville (1) Probabilité que le revenu moyen d un échantillon de taille 30 soit à 500 francs près du revenu moyen de la population? x Rappel : N (0,1) x x M 500 4000 n 30 : x 730.3 n 30 (inconnu par le syndic!) 500 500 P ( 500 x 500 n 30) P Z P Z 730.3 730.3 L échantillonnage 37 / 41

Statistique 1e année bachelor, 2009-10 Exemple Statville (2) 500 730.3 Moyenne : M 500, n 30 P ( 500 x 500 n 30) P ( 0.68 Z 0.68) 0.50 * * * voir la Table 1, p. 730, du manuel de Anderson et al., où F(z) P(0 < Z < z) L échantillonnage 38 / 41

Statistique 1e année bachelor, 2009-10 Exemple Statville (3) 500 400 Moyenne : M 500, n 100 P ( 500 x 500 n 100) P ( 1.25 Z 1.25) 0.79 * * * voir la Table 1, p. 730, du manuel de Anderson et al., où F(z) P(0 < Z < z) L échantillonnage 39 / 41

Statistique 1e année bachelor, 2009-10 Exemple Statville (4) 0.05 0.089 Proportion : M 0.05, n 30 P ( p 0.05 p p 0.05 n 30) ( 0.56 Z 0.56) 0.42 * * * voir la Table 1, p. 730, du manuel de Anderson et al., où F(z) P(0 < Z < z) L échantillonnage 40 / 41

Statistique 1e année bachelor, 2009-10 Exemple Statville (4) Grand problème : le syndic ne connaît pas Que faire pour juger de la fiabilité des estimations basées sur son échantillon? Attendre le chapitre prochain... L échantillonnage 41 / 41