MODULE 1 : Concepts de la théorie de l échantillonnage

Documents pareils
Traitement des données avec Microsoft EXCEL 2010

1. Vocabulaire : Introduction au tableau élémentaire

STA108 Enquêtes et sondages. Sondages àplusieurs degrés et par grappes

Logiciel Le Sphinx Plus 2 version 5. Le Sphinx Développement Chavanod

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

SPHINX Logiciel de dépouillement d enquêtes

Statistiques Descriptives à une dimension

La définition La méthode. Les échelles de mesure L ENQUETE PAR SONDAGE : LA METHODE

1. Les types d enquêtes

Panel MBAweb MBA Recherche

CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Introduction au Data-Mining

Introduction au Data-Mining

Chapitre 1 : La consommation et l épargne

Probabilité. Table des matières. 1 Loi de probabilité Conditions préalables Définitions Loi équirépartie...

Chapitre 3 : INFERENCE

Pourquoi l apprentissage?

LES DIFFERENTS TYPES DE MESURE

La nouvelle planification de l échantillonnage

Utilisation des médicaments au niveau des soins primaires dans les pays en développement et en transition

Le Sphinx Millenium Modes opératoires Préparer, administrer, Dépouiller les enquêtes


L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Évaluations aléatoires : Comment tirer au sort?

MATHÉMATIQUES ET SCIENCES HUMAINES

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

FORMULAIRE DE STATISTIQUES

Théorie des sondages : cours 5

Observatoire Economique et Statistique d Afrique Subsaharienne

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

Baccalauréat professionnel vente (prospection - négociation - suivi de clientèle) RÉFÉRENTIEL DE CERTIFICATION

LEÇON N 7 : Schéma de Bernoulli et loi binomiale. Exemples.

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction.

Localisation des fonctions

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, LES STATISTIQUES INFERENTIELLES

Exercices supplémentaires sur l introduction générale à la notion de probabilité

PRXSENTATION D UN GESTIONNAIRE DE DONNEES NUMERIQUES HIERARCHISEES DESTINE AU DE- -POUILLEMENT D ENQUETES

Introduction à la Statistique Inférentielle

UNE FORMATION POUR APPRENDRE À PRÉSENTER DES DONNÉES CHIFFRÉES : POUR QUI ET POURQUOI? Bénédicte Garnier & Elisabeth Morand

LES DECIMALES DE π BERNARD EGGER

Précision d un résultat et calculs d incertitudes

Lois de probabilité. Anita Burgun

Résultats d Etude. L étude de marché. Résultats d Etude N 1889 : Conciergerie privée. Testez la fiabilité de votre projet.

Soutien technique en informatique

Chapitre 1. La démarche statistique appliquée au management. Minicas. Questions :

PROBLEMES D'ORDONNANCEMENT AVEC RESSOURCES

TSTI 2D CH X : Exemples de lois à densité 1

Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie

SERIE 1 Statistique descriptive - Graphiques

Anticiper pour avoir une innovation d'avance : le leitmotiv de Pierre Jouniaux, entrepreneur du big data!

La culture financière des Français

La fonction d audit interne garantit la correcte application des procédures en vigueur et la fiabilité des informations remontées par les filiales.

IBM SPSS Direct Marketing 21

Principe d optimisation. Optimisation technico-économique. Coût. Isolation thermique. Isolation optimale

Rédiger et administrer un questionnaire

EXERCICES UML. Modéliser cette situation par un diagramme de cas d utilisation. Consulter planning

Étude sur les taux de revalorisation des contrats individuels d assurance vie au titre de 2013 n 26 mai 2014

GUIDE D UTILISATION OCTOBRE 2013

Probabilités. Rappel : trois exemples. Exemple 2 : On dispose d un dé truqué. On sait que : p(1) = p(2) =1/6 ; p(3) = 1/3 p(4) = p(5) =1/12

Excel Avancé. Plan. Outils de résolution. Interactivité dans les feuilles. Outils de simulation. La valeur cible Le solveur

Guide méthodologique de mise en place d une enquête de satisfaction

1. Introduction Création d'une requête...2

COMMUNICATEUR BLISS COMMANDE PAR UN SENSEUR DE POSITION DE L'OEIL

ANALYSE GLOBALE DES PROGRAMMES DE LA SHQ. SQEP 18 novembre 2011

CONCEPTION ET TIRAGE DE L ÉCHANTILLON

Séance 4. Gestion de la capacité. Gestion des opérations et de la logistique

Le modèle de données

BTS ASSISTANT DE GESTION PME À RÉFÉRENTIEL EUROPÉEN

Extraction d informations stratégiques par Analyse en Composantes Principales

Tests statistiques et régressions logistiques sous R, avec prise en compte des plans d échantillonnage complexes

Chapitre 3. Les distributions à deux variables

données en connaissance et en actions?

Ecole Préparatoire SNV Université d Oran Semestre /2015 Matière : Travaux d Initiative Personnelle Encadrés (TIPE) Prof. M. Z.

Statistique Descriptive Élémentaire

Les Français et les nuisances sonores. Ifop pour Ministère de l Ecologie, du Développement Durable et de l Energie

Exercice du cours Gestion Financière à Court Terme : «Analyse d un reverse convertible»

Crédit à la consommation, un bon outil pour la rentrée?

Programmation linéaire

Introduction. I Étude rapide du réseau - Apprentissage. II Application à la reconnaissance des notes.

Présentation de lʼoutil Diagnostic Egalité sur le logiciel Excel!

Complexité. Licence Informatique - Semestre 2 - Algorithmique et Programmation

Mesures de Risque Multipériodes Cohérentes Appliquées au Compte à Terme

Les critères de segmentation Critères Variables retenues Description Exemple Pays, région, ville, Chauffage,

Activité : Élaboration, mise en forme et renseignement de documents

LES GENERATEURS DE NOMBRES ALEATOIRES

METHODOLOGIE GENERALE DE LA RECHERCHE EPIDEMIOLOGIQUE : LES ENQUETES EPIDEMIOLOGIQUES

Evaluation de la variabilité d'un système de mesure

Microsoft Excel : tables de données

Se Perfectionner à Excel

Fiabilité et simplicité d'utilisation sont garanties

Projet de Traitement du Signal Segmentation d images SAR

Les Français et les complémentaires santé

Formation PME Etude de marché

Transcription:

MODULE : Concepts de la théorie de l échantillonnage Objectif du module : Présentation de l échantillonnage Auteur : Hugues Fournel Leçon : EchM Contenu du module Ce module contient 5 leçons Leçon : Notion de population et d échantillon Leçon 2 : Les différentes étapes d une enquête Leçon 3 : Méthodes de prélèvement d un échantillon Leçon 4 : Caractéristiques de population et d échantillon 2

Leçon : Notion de population et d échantillon Objectif de la leçon : Poser les notions de population, d échantillon, d inférence statistique Auteur : Hugues Fournel Leçon : EchM 3 Notion de population et d échantillon Population: l'ensemble complet des unités qu'on désire étudier Échantillon: tout sous-ensemble de la population Paramètre: mesure utilisée pour décrire la population Statistique (paramètre de l échantillon): mesure utilisée pour décrire un échantillon 4 Remarque: un même ensemble d'unités d'observation peut être considéré, selon la question à l'étude, comme un échantillon ou une population. Exemple: considérons la classe des étudiants de L3 MV. Si on étudie les résultats de la promotion actuelle des L3 MV l'ensemble des personnes inscrites à ce cours forme une population; la moyenne des notes des étudiants est alors un paramètre (ou paramètre de la population) Si, par contre, on s'intéresse aux résultats des étudiants de l ISEM, la classe L3MV forme un échantillon; la note moyenne de la classe est alors un indice statistique ou paramètre de l échantillon 2

Objectif de l inférence statistique Le but de l'inférence est de généraliser les résultats obtenus auprès d'un échantillon pour décrire la population. Plus précisément, les paramètres de l échantillon sont utilisés pour estimer les paramètres de la population. Notations Pour distinguer entre les paramètres de la population et ceux de(s) l échantillon(s), on utilisera les notations suivantes : Caractéristique Population Échantillon Moyenne m x Écart type σ S Nombre d'unités N n Pourcentage p F ou f Notion d échantillon théorique et empirique 5 Importance de l échantillonnage L'échantillonnage est courant dans la vie de tout les jours exemple : on goûte le vin avant de le servir, etc. Le but de l'échantillonnage est de fournir suffisamment d'informations pour que des inférences concernant la population puissent être faites. En fait, dans nombre de cas, il s'avère tout simplement impossible d'étudier toute la population, parce que ce serait risqué, paradoxal ou trop exigeant. Lors de l'échantillonnage, on tente de choisir un sous-ensemble de la population qui représente le plus fidèlement possible les caractéristiques (à l'étude) de la population 6 3

Importance de l échantillonnage Mais il est impossible de choisir un échantillon qui soit parfaitement représentatif de la population. Il est rare que le paramètre obtenu pour un échantillon prenne exactement la même valeur que le paramètre de la population que l'on désire estimer. Exemple: la moyenne du revenu des gens de cette classe est possiblement proche de la valeur moyenne pour tous les étudiants de l ISEM, mais pas nécessairement identique Il est donc impossible d'éliminer l'erreur d'échantillonnage Mais le principe de l échantillonnage est de tenir compte de ce type d'erreur. Remarque : la seule façon d'éliminer complètement cette erreur serait d'étudier l'ensemble de la population. 7 Avantages de l échantillonnage Le coût et la complexité Il s'avère souvent moins coûteux et moins complexe de prendre un échantillon que d étudier l ensemble de la population Exemple: mise sur le marché d'un nouveau produit Précision des résultats échantillonnaux Les résultats de petits échantillons fournissent parfois toute l'information nécessaire Exemple: une prise de sang Situations paradoxales Lorsque la mesure a un impact sur l'unité d'observation, il peut être paradoxal de tester toutes les unités Exemple: tester la durée de fonctionnement des ampoules Population fluctuante La population peut changer le temps que se déroule l'observation Exemple: recensement global de la population 8 4

Leçon 2 : Les différentes étapes d une enquête Objectif de la leçon : Découvrir les étapes d une enquête Replacer l échantillonnage dans le contexte d une enquête Auteur : Hugues Fournel Leçon : EchM_L2 9 Rappels : L'information n'existe pas ou n'est pas disponible Le sondage est le seul moyen pour obtenir l'information L'information sera collectée sur le terrain Le public concerné par l'étude de marché va être interrogé Le sondage : une définition Un sondage est une enquête ponctuelle qui consiste à construire un échantillon à partir d'une population de base déterminée. Les personnes faisant partie de l'échantillon sont interrogées à l'aide d'un questionnaire et les réponses obtenues sont ensuite extrapolées à la population de base. (inférence) 0 5

Les étapes d une étude par enquête Elaboration du Questionnaire Objectifs et contraintes Base de sondage Echantillonnage Collecte des données Codification, saisie Contrôles Estimation, redressements Analyse des données Publication, évaluation Objectifs et contraintes : Définition des variables d intérêt Champ de l enquête (population) Précisions souhaitées Les contraintes (coût, organisationnelle) 2 Recherche d une base de sondage : ex fichier client,annuaire Dépend de l existant, du mode d administration En cas d absence de base de sondage on peut : envisager un sondage empirique (méthode des quotas, choix raisonnés ) rechercher des bases de niveau intermédiaire (ex foyer d accueil) rechercher des bases de population intermédiaire 3 Tirer l échantillon : sélectionner les individus dans la base de sondage Plusieurs plan de sondages sont possibles (Cf leçon suivante) 6

4 Le questionnaire 4. Quatre thèmes sont généralement abordés dans les enquêtes marketing : Identité Comportement (notoriété, possession, achat, usage du produit) Motifs : découvrir les raisons de son comportement Besoins et attentes Motivations et freins Attitudes, critères, intentions Opinions et valeurs Préférences Satisfaction / Insatisfaction Image Valeurs Style de vie 4.2 L art du questionnaire Introduire le questionnaire Structurer le questionnaire en thèmes Utiliser un langage clair, adapté à l enquêté Commencer par une question facile Vérifier que tous les objectifs de départ seront atteints Anticiper les traitements futurs Ne pas partir avec des a priori Ne pas oublier le signalétique 7

5 La collecte des données (ou mode d administration de l enquête) Différents mode de collecte : observation directe interview directe (face à face) enquête par téléphone enquête postale enquête par internet (email ou sur Formulaire) prise de rendez-vous par téléphone puis mode de collecte direct système de saisie CAPI et CATI (Computed Assisted Téléphone Interview) Mode de collecte, questionnaire et plan de sondage ne sont pas interchangeables Prévoir des relances et des contrôles pour tester la conformité du comportement des enquêteurs aux instructions 6 Codification, saisie des réponses 6. les différents types de variables Variables qualitatives nominales (3 types): Réponses dichotomiques (Oui/Non) Réponses à plusieurs modalités : ex : couleur des yeux (Bleu/Vert/Noisette/...) Réponses à choix multiples Variable qualitatives ordinales variables dont les modalités sont ordonnées selon une gradation ex : Très important / important / peu important / très peu important Variables quantitatives : Les réponses se présentent sous la forme d un nombre ex : le revenu, l âge 8

6.2 exemple dans Sphinx Question fermée unique toutes les modalités possibles sont proposées, une seule réponse est enregistrée Question fermée multiple toutes les modalités possibles sont proposées, Plusieurs réponses sont possibles Question fermée échelle toutes les modalités possibles sont proposées, Les modalités sont ordonnées Question ouverte numérique Correspond aux variables quantitatives Question ouverte textuelle Texte transcrivant la réponse de l enquêté. Autres types Code, date, images, Ex : Sexe de l individu Homme / Femme Ex : Quelle radio écoutez-vous? Ex : Pour ce produit, êtes vous? Satisfait,Moyennement satisfait Pas du tout satisfait Ex : Quel âge avez-vous? Ex : Avez-vous d autres Commentaires? 7 Contrôle et redressements Avant les premiers résultats Vérification des quotas Vérification des filtres et renvois Contrôle du taux de réponse Tris par enquêteur Le cas échéant, envisager des redressements : Calcul des poids Réaffectation aux individus 9

8 : l analyse ou dépouillement. Les analyses descriptives simples. le tris à plat On appelle tableau à plat, la répartition des observations pour une variable (question) Pour les variables quantitatives il est possible : de calculer la moyenne (et son écart type) sur l ensemble de la population, de créer à partir de cette variable une variable qualitative (la mettre en classe). Exemple pour une variable qualitative : Nb. cit. Fréq. SEXE Homme Femme TOTAL OBS. AGE Moins de 20 De 20 à 30 De 30 à 40 De 40 à 50 De 50 à 60 De 60 à 70 Plus de 70 TOTAL OBS. 98 49,0% 02 5,0% 200 00% Nb. cit. Fréq. 7 3,5% 4 20,5% 56 28,0% 67 33,5% 3 6,5% 3 6,5% 3,5% 200 00% Minimum = 7, Maximum = 8 Moyenne = 38,79 L édition des tris à plat de l ensemble des questions pour tous les individus est utilisé : Pour avoir une vue globale des réponses des individus Pour vérifier les quotas et éventuellement envisager un redressement Pour permettre, par une simple lecture de détecter des anomalies de saisies, des réponses aberrantes. (Exemple des filtres non respectés). Pour recoder certaines variables. (Exemple de la modalité de réponses autres ayant une fréquence trop élevée. -> on va recodifier ces réponses autres en créant de nouvelles modalités.) Pour envisager la transformation ou la création de nouvelles variables. (par exemple convertir un âge en classe d âge, ou encore regrouper des modalités ayant une fréquence d apparition trop faible). 0

.2 les tris croisés On appelle tris croisés ou tableaux croisés ou encore tableau de contingence la répartition des observations selon deux questions Tris croisés entre variables qualitatives : exemple tris entre la question possédez-vous une voiture et le sexe Effectifs Pourcentages colonnes POSSESSION SEXE Homme Femme TOTAL Oui Non TOTAL 9 7 98 84 8 02 75 25 200 POSSESSION SEXE Homme Femme TOTAL Oui Non TOTAL 52,0% 28,0% 49,0% 48,0% 72,0% 5,0% 00% 00% 00% Pourcentages lignes POSSESSION SEXE Homme Femme TOTAL Oui Non TOTAL 92,9% 7,% 00% 82,4% 7,6% 00% 87,5% 2,5% 00% Pourcentages par rapport au total POSSESSION SEXE Homme Femme TOTAL Oui Non TOTAL 45,5% 3,5% 49,0% 42,0% 9,0% 5,0% 87,5% 2,5% Tableau de moyennes Pour le croisement d une variable qualitative avec une variable quantitative il est possible de calculer des moyennes selon les modalités de la variable qualitative. Note d appréciation moyenne du véhicule en fonction de la catégorie socio professionnelle (CSP) Les valeurs encadrées correspondent à des moyennes par catégories différentes de l ensemble de l échantillon CSP Non réponse Agriculteur Commerçant, artisan Cadre Employé Ouvrier Chomeur Etudiant Inactif Autre TOTAL NOTE 3,74 0,7 4,33 4,97 3,42,27,08 2,78 3,8 3,3 3,23

Pour les tris croisés, on peut distinguer : les tris croisés avec les variables signalétiques Ils permettent de caractériser les réponses à une question, autrement dit d expliquer les réponses par un caractère de l individu (par exemple sa CSP) les tris croisés entre les variables du questionnaire Définis préalablement ou pendant l analyse, ces tris permettent d infirmer ou de confirmer certaines hypothèses.3 les strates de population Une strate est un sous-ensemble des observations qui répondent à tel ou tel critères. L utilisation de strate permet d analyser les réponses d une certaine catégorie d individus. On parle ici de tris filtrés. 2. Les analyses multidimentionnelles Elles permettent de prendre en compte simultanément les réponses à un ensemble de questions Les analyses Factorielles Leur but est de représenter un grand nombre de variables dans un espace de faible dimension grâce à l existence de corrélation entre certaines variables. L analyse d un ensemble de variables numériques : l analyse en composantes principales Analyse d un tris croisés : l analyse factorielle des correspondances L analyse d un ensemble de variables qualitatives : l analyse factorielle des correspondances multiples Les classifications et typologies Elles permettent de regrouper au sein de classes des individus ayant un comportement proche. Ces classes seront par la suite caractérisées par les variables signalétiques par exemple 2

9 La présentation des résultats 2 ou 3 questions du demandeur Problème de la présentation Sélectionner les 5 ou 6 tableaux Questionnaire de 30 questions d où on tire 4 ou 5 graphiques 00 tableaux (tris à plats, croisés, ) pour argumenter à l aide de 3 ou 4 chiffres + de 000 chiffres les 2 ou 3 réponses que le demandeur attend Conclusion Leçon C est après un effort de synthèse et de simplification que l étude peut déboucher sur l aide à la décision Il faut donc sélectionner les informations les plus sûres au regard de la méthode et les plus utiles pour l action. 3

Leçon 3 : Méthodes de prélèvement d un échantillon Objectif de la leçon : Présentation des différents types de sondage Auteur : Hugues Fournel Leçon : EchM_L2 27 Échantillonnage aléatoire Définition: un échantillon est dit aléatoire lorsque la probabilité de sélection de chaque individu de la population est connue et non nulle Avantage: permet de juger objectivement de la valeur des estimations Plusieurs types de sondage: aléatoire simple, stratifié par grappes Dans certains cas, l équiprobabilité n est pas respectée volontairement (cas de l aléatoire pondéré, stratifié avec allocation non proportionnelle) 28 4

29 Tirage aléatoire simple Tirage aléatoire simple Définition: le tirage aléatoire simple est une méthode pour laquelle : - tous les échantillons possibles (de même taille) ont la même probabilité d'être choisis - tous les éléments de la population ont une chance égale de faire partie de l'échantillon Pour choisir les unités, on peut utiliser la «technique du chapeau», une table de nombres aléatoires, un tirage aléatoire de numéro de téléphone Exemple : dans une classe de 20 personnes, on désire choisir un échantillon aléatoire simple de 5 individus. Le nombre de combinaisons possibles est donné par : 20! C 5 20 = = 5504 5!! ( 20 5) Par conséquent, chaque tirage ar une probabilité de /5504 d'être choisie et chaque personne doit avoir une probabilité de 5/20 = /4 de se retrouver dans l'échantillon. Tirage stratifié Définition du cas général: l'échantillonnage stratifié est une méthode qui consiste d'abord à subdiviser la population en groupes homogènes (strates) pour ensuite extraire un échantillon aléatoire de chaque strate Cette méthode suppose la connaissance de la structure de la population Pour estimer les paramètres, les résultats doivent être pondérés par l'importance relative de chaque strate dans la population Exemple: Pour estimer les revenus moyens des étudiants/es de l ISEM, on prend un échantillon aléatoire de 0 individus dans chaque formation. Ainsi on est sûr que l ensemble des formations sera couvert, mais il y a-til vraiment un rapport entre le revenu et la formation suivie? Plusieurs mode de tirage stratifié : Avec allocation proportionnelle Avec allocation non proportionnelle 30 5

3 Tirage stratifié avec allocation proportionnelle Définition: l'échantillonnage stratifié avec allocation proportionnelle consiste à subdiviser la population en groupes homogènes (strates) pour ensuite extraire un échantillon aléatoire de chaque strate en utilisant le même taux de sondage dans chaque strate. Avantage : l échantillon respectera la répartition de la population Exemple: on souhaite étudier la consommation d eau pour l année N des clients d une compagnie de distribution d eau. On effectue des strate selon le type de client et l analyse du fichier client nous en donne la répartition particulier résidant en appartement, (30% des clients) particulier résident en maison individuelle, (35%) professionnels, (25%) collectivité territoriale (commune) (0%) Le nombre total de client étant de 00000, si on utilise un taux de sondage de 0,% on interrogera : 30 particuliers résidant en appartement, 35 particulier résident en maison individuelle, 25 professionnels, 0 communes Tirage stratifié avec allocation non proportionnelle Définition: l'échantillonnage stratifié avec allocation non proportionnelle est un tirage stratifié dans lequel le taux de sondage est différent d une strate à l autre. Dans l exemple précédent, comme les commune et les professionnels ont des consommations plus élevés et surtout plus variables que les particuliers on pourrait appliquer le tirage suivant : 0 particuliers résidant en appartement, (soit un taux de 0,03%) 5 particulier résident en maison individuelle, (soit un taux de 0,04%) 35 professionnels, (soit un taux de 0,4%) 40 communes (soit un taux de 0,40%) Avantage : en donnant plus de poids aux catégories ayant des consommations plus élevées l erreur commise sera moindre Il sera nécessaire de redresser les résultats totaux pour estimer la consommation globale 32 6

Tirage stratifié avec allocation optimale Définition: l'échantillonnage stratifié avec allocation optimale consiste à calculer un taux de sondage de chaque grappe en fonction de la variance du paramètre. Dans l exemple précédent, on pourrait utiliser la consommation en N- et calculer les variances et consommations moyennes en N- de chaque strate et utiliser ces résultats pour minimiser l erreur commise 33 Echantillonnage par grappe Définition: l'échantillonnage par grappes est une méthode qui consiste à choisir un échantillon aléatoire d'unités qui sont ellesmêmes des sous-ensembles de la population («grappes») Cette méthode suppose que les unités de chaque grappe sont représentatives Elle possède l'avantage d'être souvent plus économique Exemple: la compagnie aérienne «Aircool» souhaite étudier la satisfaction de ses passagers au cours de leur voyage. Un questionnaire papier doit être administré afin de recueillir les impressions sur le vol (embarquement, temps d attentes, amabilités, respect des horaires ) Un sondage aléatoire simple conduirait a interroger : 2 passagers du vol n 76582 Paris/New York du 6/0 passager du vol n 84526 Londres/Moscou du 7/0 passager du vol n 5224 Paris/Tokyo du 7/0. L administration de ce questionnaire aura dans ce cas un coût considérable (et sera même certainement impossible à réaliser) 34 7

Echantillonnage par grappe Le principe du sondage en grappe consistera à : tirer aléatoirement des vols parmi l ensemble des vols de la compagnie Dans ces vols, interroger aléatoirement un grand nombre de passagers (voir tous) L avantage sera une réduction du coût d administration de l enquête Inconvénient : que se passe-t-il si un au cours d un des vols sélectionnés il y a un incident (par exemple un retard). On ne peut par remonter à l unité statistique primaire (par exemple comparer les différentes destinations entre elles) 35 Les méthodes de sondages empiriques On classe ici les méthodes de sondages non aléatoires Avantages : Coût d administration moins important Utilisées quand il n y a pas de base de sondage Inconvénients : Validité des échantillons est subjective Les échantillons sont souvent biaisés La variance des estimateurs n est pas calculable Plusieurs méthodes : Échantillonnage dans la rue Méthode des unités types (Echantillonnage sur la base du jugement) Méthode des itinéraires Méthode des quotas 36 8

Échantillonnage sur le base du jugement Définition: un échantillon formé sur la base du jugement est un échantillon formé à partir de l'opinion d'une ou de plusieurs personnes (unités types) suffisamment éclairées pour identifier les unités qui représentent adéquatement la population. Exemple: une commune française est réputée pour donner les même résultats aux élections qu au niveau national Avantage: constitue un net avantage lorsque des individus compétents ont une expérience pertinente Inconvénient: il est difficile d'évaluer objectivement jusqu'à quel point l'échantillon est représentatif 37 La méthode des quotas Elle consiste à s assurer de la représentativité de l échantillon en lui affectant une structure similaire à celle de la population de base. On fixe donc quelques caractéristiques dont on connaît la répartition dans la population (souvent le sexe, la tranche d âge, la CSP, ). Leur choix dépend de : De ce qu on connait dans la population (statistiques disponibles) Doivent être identifiables par les enquêteur Doivent en rapport avec le thème de l enquête Ne doivent pas être trop nombreux On distinguera Quotas Simples et Quotas croisés : Quotas simples : le nombre d individus à interroger est fixé selon la répartition des individus de la population dans chacune des variables (dans le tris à plat). Quotas croisés : le nombre d individus à interroger est fixé selon la répartition des individus de la population dans le tableau croisés des variables. 38 9

Exemple de quota simple : Sexe Total Homme Femme Population 25000 3500 500 % 54% 46% Echantillon 00 54 46 Tranche Age moins 25 De 25 à 45 De 45 à 65 ans et Total ans ans 65 ans plus Population 25000 5000 7000 8000 5000 20% 28% 32% 20% Echantillon 00 20 28 32 20 39 Exemple de quota croisé : Population Effectifs moins 25 ans De 25 à 45 ans De 45 à 65 ans 65 ans et plus Total Homme 2000 4000 5000 2500 3500 Femme 3000 3000 3000 2500 500 Total 5000 7000 8000 5000 25000 %/total moins 25 ans De 25 à 45 ans De 45 à 65 ans 65 ans et plus Total Homme 8% 6% 20% 0% 54% Femme 2% 2% 2% 0% 46% Total 20% 28% 32% 20% 00% Taille de l'échantillon : 200 Echantillon Effectifs moins 25 ans De 25 à 45 ans De 45 à 65 ans 65 ans et plus Total Homme 6 32 40 20 08 Femme 24 24 24 20 92 Total 40 56 64 40 200 40 Voir le fichier excel (Quotas) 20

Leçon 4 : Caractéristiques de population et d échantillon Objectif de la leçon : Rappels des calculs des différentes caratéristiques Auteur : Hugues Fournel Leçon : EchM_L4 4 Caractéristiques de l échantillon théorique moyenne empirique notée : variance empirique notée : moment non centré empirique d ordre r : moment centré empirique d ordre r: Proportion : X F = n X = X = m n i ' 2 2 ' S = (Xi X) = µ 2 n n = r = r mr X f i ix n i i= n n ' r r µ r = (Xi X) = fi ( Xi X) n i= i= C est le nombre d unités possédant la caractéristique étudiée divisé par l effectif de l échantillon. Elle est souvent exprimée en pourcentage 42 2

Caractéristiques de la population (caractéristiques théoriques) 43 moment non centré d ordre r moment non centré d ordre (moyenne) La variance p : proportion dans la population m Cas continu χ Cas discret = E X r = x r r f( x) dx r k mr = E[ X ] = x p m = E[ X] = xf ( x) dx m = E[ X] = µ χ x χ x χ xp x 2 2 2 = V[X] = E[ X E(X) ] µ = V[X] = E [ X E(X) ] = ( x m ) 2 2 f(x)dx = ( x m) px χ X p = N m = E X [ ] = x χ V[X] = N N N x χ X p = N x ( x i m) i= 2 x 2 Synthèse des notations La moyenne Caractéristiques de la population m Caractéristiques correspondantes dans l échantillon théorique X La variance 2 = 2 2 σ V[X] S ou Ŝ Moment non centré d ordre r m r m r La proportion p F 44 22

Exercice EchML3_Ex0 Une population de 30 étudiants a obtenu les notes suivantes à un examen : Calculer l espérance et la variance de cette variable N Note/00 N Note/00 68 6 55 2 74 7 6 3 42 8 72 4 47 9 56 5 50 20 79 6 65 2 88 7 52 22 68 8 4 23 90 9 57 24 63 0 65 25 69 78 26 8 2 66 27 87 3 49 28 65 4 59 29 85 5 60 30 95 m = E X N [ ] = 30 x χ x 987 m = x = 30 30 [X] = N i= i = 66,2333 N 2 N 2 2 V ( x i m) V[X] = x i m i= N i= 6083,37 V [X] = = 202,78 30 37689 V[X] = 66,2333 30 2 = 202,78 45 Exercice EchML3_Ex Les statistiques du recensement d une région donne le nombre de familles ayant 0,, 2 enfants de moins de 25 ans. Calculer l espérance et la variance de cette variable. Espérance mathématique : Nb d'enfants Nb Familles 0 8 94 3 888 2 3 5 3 288 4 432 5 24 6 39 7476 pi 46,89% 22,25% 20,09% 7,37% 2,47% 0,7% 0,22% xipi 0,0000 0,2225 0,408 0,22 0,0989 0,0355 0,034 0,993 [ ] = xp = 0,993 m = E X x χ x 46 23

Variance V(X) = ( x ) x χ m 2 p x x i n i p i x i p i x i -m (x i -m)² (x i -m)²p i x i ²p i 0 894 46,89% 0,0000 3888 22,25% 0,2225 2 35 20,09% 0,408 3 288 7,37% 0,22 4 432 2,47% 0,0989 5 24 0,7% 0,0355 6 39 0,22% 0,034-0,993 0,0069,0069 2,0069 3,0069 4,0069 5,0069 0,9863 0,0000,038 4,0275 9,042 6,0550 25,0687 0,4625 0,0000 0,2037 0,2968 0,2235 0,39 0,0559 0,0000 0,2225 0,8036 0,6633 0,3955 0,774 0,0803 7476 0,993,3563 2,3426 47 V(X) V(X) 2 = ( x m) px =, 3563 x χ 2 2 = x p x m x χ = 2,3426 0,993 2 =,3563 Exercice EchML3_Ex2 Une entreprise répartit ses commerciaux selon le nombre de clients de leur portefeuille. Elle Calculer l espérance et la variance du tableau suivant : Nb Clients ni De [0 à 20[ 9 De [20 à 30[ 28 De [30 à 40[ 35 De [40 à 50[ 42 De [50 à 60[ 3 De [60 à 70[ 24 De [70 à 80[ 6 De [80 à 00[ 5 Solutions : E[X]=44,6 V[X]=375,84 48 24

Exercice à faire pour le prochain cours (Question de l exercice 2 du sujet de 203) Un directeur financier étudie l évolution du chiffre d affaires d un échantillon de 00 entreprises du secteur commercial. On note X la variable aléatoire suivante : «le chiffre d affaires en million d euros». Le directeur a vérifié que X obéissait à une loi Normale. Il obtient la répartition suivante pour l année t. Chiffre d affaires Nombre d entreprises [0 20[ 5 [20 40[ 0 [40 50[ 5 [50 70[ 37 [70 80[ 8 [80 00[ 2 [00 20[ 3 Calculer la moyenne et la variance de cet échantillon 49 Fin du module 50 25