STAT Statistique descriptive. Transparents Philippe Lambert.

Documents pareils
Théorie des sondages : cours 5

STA108 Enquêtes et sondages. Sondages àplusieurs degrés et par grappes

Chapitre 3 : INFERENCE

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction.

Chapitre 11 METHODOLOGIE D ENQUÊTES

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

La classification automatique de données quantitatives

Représentation des Nombres

POINTS DE VUE DES CANADIENS SUR LA COUVERTURE DES MÉDICAMENTS D ORDONNANCE

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

MODÈLE CROP DE CALIBRATION DES PANELS WEB

Probabilités conditionnelles Loi binomiale

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Exercices supplémentaires sur l introduction générale à la notion de probabilité

CONCEPTION ET TIRAGE DE L ÉCHANTILLON

Chapitre 3. Les distributions à deux variables

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Bulletin de service Bureaux d agents, de courtiers en immeubles et d évaluateurs de biens immobiliersetdes autres activités liées à l immobilier

Probabilités III Introduction à l évaluation d options

FOTO - L OMNIBUS MENSUEL DE CROP LE NOUVEAU CROP-EXPRESS

Principe d optimisation. Optimisation technico-économique. Coût. Isolation thermique. Isolation optimale

Note méthodologique. Les principales différences avec les TES sont mentionnées dans l encadré 1.

La culture financière des Français

Table des matières: Guidelines Fonds de Pensions

PROJET D ELECTRIFICATION RURALE PAR RESEAU SBEE <<MESURES D ACCOMPAGNEMENT>> (MISSION D INTERMEDIATION SOCIALE)

Probabilités sur un univers fini

ELEMENTS DE COMPTABILITE NATIONALE

Programmation linéaire

La nouvelle planification de l échantillonnage

Baromètre sur le financement et l accès au crédit des PME

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

Dérivés Financiers Contrats à terme

DÉCISIONS À PRENDRE AVANT DE COMMENCER

Modèles et Méthodes de Réservation

I. Cas de l équiprobabilité

Institut Informatique de gestion. Communication en situation de crise

Baromètre sur le financement et l accès au crédit des PME

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

PROGRAMME INTERNATIONAL POUR LE SUIVI DES ACQUIS DES ÉLÈVES QUESTIONS ET RÉPONSES DE L ÉVALUATION PISA 2012 DE LA CULTURE FINANCIÈRE

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

INITIATION AUX METHODES DE SONDAGE

Consolidation de fondamentaux

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Institut économique de Montréal. Rapport d un sondage omnibus. Juin 2005

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

Réseaux sociaux et recrutement : Quand, Pourquoi, Comment? présentation : Patrick Debray tél info@dmd.ch

I. Une nouvelle loi anti-discrimination

Estimation et tests statistiques, TD 5. Solutions

CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING

Probabilités. I Petits rappels sur le vocabulaire des ensembles 2 I.1 Définitions... 2 I.2 Propriétés... 2

Gestion des stocks et des approvisionnements

Baromètre des professions Février 2015

Guide méthodologique : Enquêtes en ligne

La valeur présente (ou actuelle) d une annuité, si elle est constante, est donc aussi calculable par cette fonction : VA = A [(1-1/(1+k) T )/k]

Probabilités sur un univers fini

Crédit à la consommation, un bon outil pour la rentrée?

Qu est-ce que l effet de levier?

Echantillonnage INTRODUCTION. Module 1

Comment valoriser une entreprise et sur quels critères? ISEC 22 novembre 2011 Evaluation d entreprises

Analyse des coûts. 1 ère année DUT GEA, 2005/2006 Analyse des coûts

Panel MBAweb MBA Recherche

Pour diffusion immédiate. Nouveau sondage CROP : LES AIRES PROTÉGÉES, UNE PRIORITÉ SELON LES QUÉBÉCOIS

Programmation linéaire

Lignes directrices de 2004 pour des sondages sur la satisfaction des demandeurs dans le cadre de l assurance-automobile

Les salariés du secteur privé face à la généralisation de la complémentaire santé collective

LES GENERATEURS DE NOMBRES ALEATOIRES

Becca Distribution Inc

C R É D I T A G R I C O L E A S S U R A N C E S. Des attitudes des Européens face aux risques

Consolidation de jeux de données pour la prospective : la génération d une population synthétique pour les communes de Belgique

Probabilités et Statistiques. Feuille 2 : variables aléatoires discrètes

Votre capital le plus précieux: Les collaborateurs de votre entreprise.

EVALUATION DE LA QUALITE DES SONDAGES EN LIGNE : CAS D UN SONDAGE D OPINION AU BURKINA FASO

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, LES STATISTIQUES INFERENTIELLES

CHAPITRE 2 : L'INVESTISSEMENT ET SES DETERMINANTS

PRIVOR Plus prévoyance optimisée. Sécurité élevée et chances attractives de rendement

1. QU'EST CE QUE LE TABLEAU DE BORD D UN PROJET?

Sondage d opinion auprès des Canadiens Perception à l égard des couples de même sexe PROJET

Voici la plus récente édition de notre bulletin fiscal. Nous vous proposerons des idées de planification et un suivi de l actualité fiscale.

Théorie et Codage de l Information (IF01) exercices Paul Honeine Université de technologie de Troyes France

GUIDE PRATIQUE. Du provisionnement des emprunts à risques

L exclusion mutuelle distribuée

23. Interprétation clinique des mesures de l effet traitement

Date de diffusion publique : lundi 15 décembre 2008, 6h00 heure normale de l Est

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

ASR1 TD7 : Un microprocesseur RISC 16 bits

Les indices à surplus constant

Observatoire Economique et Statistique d Afrique Subsaharienne

Actions Propres et Consolidation

Établissement des taux d actualisation fondés sur la meilleure estimation aux fins des évaluations de provisionnement sur base de continuité

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

Les devoirs en Première STMG

OBSERVATOIRE DE L EPARGNE EUROPEENNE

Algorithmes d'apprentissage

I. Accord obtenu sur un certain nombre de principes de base = note de synthèse.

Probabilités. Rappel : trois exemples. Exemple 2 : On dispose d un dé truqué. On sait que : p(1) = p(2) =1/6 ; p(3) = 1/3 p(4) = p(5) =1/12

Document de réflexion - RACHETER OU NE PAS RACHETER?

Étude des résultats des investisseurs particuliers sur le trading de CFD et de Forex en France

Calculs de probabilités conditionelles

À besoins particuliers, solutions particulières. Prévoyance complémentaire

Régime à cotisation déterminée. On sait ce qu on met dedans; ce qu on retirera à la retraite dépend du rendement.

Transcription:

STAT0002 - Statistique descriptive Transparents Philippe Lambert www.statsoc.ulg.ac.be/stat0002.html Faculté des Sciences Sociales Université de Liège

Avertissement - Droits d auteur Les supports de cours mis sur Internet ont pour seule vocation d être utilisés par les étudiants dans le cadre de leur cursus au sein de l Université de Liège. Aucun autre usage ni diffusion ne sont autorisés, sous peine de constituer une violation de la Loi du 30 juin 1994 relative aux droits d auteurs. Les supports de cours mis sur Internet ne représentent pas l entièreté de la matière, mais constituent les notes de base indispensables et minimales à la bonne connaissance de celle-ci. P. Lambert c - Faculté des Sciences Sociales

Ch 4: Les sondages (partie 2): les sondages probabilistes Préambule Le fait de disposer d un base de sondage de qualité permet au sondeur de maîtriser la probabilité qu un individu donné soit questionné durant l enquête. Cette maîtrise permet d élaborer des mesures de précision pour les estimateurs retenus pour les paramètres de population, et ainsi, en plus d intervalles de valeurs plausibles pour ces derniers, de tester des hypothèses concernant cette population. Nous limiterons notre intérêt aux paramètres de population suivants: N i=1 Y i ; Ȳ = N i=1 1 N Y i ; et plus généralement, θ = N Les estimateurs étudiés auront généralement la même forme: ˆθ(s) = W i (s)y i i s où W i (s) est poids de sondage associé à l observation i. i=1 α i Y i. P. Lambert c - Faculté des Sciences Sociales Les sondages probabilistes - 1

Si θ impliquait, par ex, des carrés de Y i, cette propriété serait également retenue pour l estimateur correspondant. La stratégie de sondage déterminera les poids de sondage W i (s). Définition P i : c est la probabilité que l individu i fasse partie de l échantillon. De cette définition, on déduit que P i = s: i s p(s) somme des probs. des sondages impliquant l individu i Si l échantillon est de taille fixe n, alors N i=1 P i = n où, pour rappel, n est la taille d échantillon et N la taille de la population. P. Lambert c - Faculté des Sciences Sociales Les sondages probabilistes - 2

Ex Reprenons l exemple du chapitre précédent avec une population notée symboliquement par {1, 2, 3, 4}. Les K = 6 échantillons possibles de taille n = 2 sont s 1 = {1, 2}, s 2 = {1, 3}, s 3 = {1, 4}, s 4 = {2, 3}, s 5 = {2, 4} et s 6 = {3, 4}. Cas 1 : le sondeur choisit au hasard un des 6 échantillons avec, chacun, la même probabilité 1/6 d être sélectionné: P 1 = p(s 1 ) + p(s 2 ) + p(s 3 ) = 3/6 ;... ; P 4 = p(s 3 ) + p(s 5 ) + p(s 6 ) = 3/6 N i=1 P i = N 3 6 = 2 = n Cas 2 : nous avions imposé p(s 1 ) = p(s 2 ) = p(s 4 ) = 3/15 et p(s 3 ) = p(s 5 ) = p(s 6 ) = 2/15. Cela implique que P 1 = p(s 1 ) + p(s 2 ) + p(s 3 ) = 8/15 ; P 2 = p(s 1 ) + p(s 4 ) + p(s 5 ) = 8/15 P 3 = p(s 2 ) + p(s 4 ) + p(s 6 ) = 8/15 ; P 4 = p(s 3 ) + p(s 5 ) + p(s 6 ) = 6/15 N i=1 P i = 8 15 + 8 15 + 8 15 + 6 15 = 2 = n P. Lambert c - Faculté des Sciences Sociales Les sondages probabilistes - 3

Sondage aléatoire simple Définition N = taille de la population ; n= taille de l échantillon. Un sondage aléatoire simple est un échantillonnage sans remise où chaque individu a la même probabilité d inclusion. Aucune information auxiliaire n est utilisée. Donc P 1 =... = P N et comme N i=1 P i = n, on a P i = n N = f = taux de sondage Ex Considérons une population de N = 20 personnes dont les salaires (inconnus du sondeurs) respectifs sont 1775, 1850, 1801, 1912, 1982, 1917, 2022, 1992, 2127, 1963, 1880, 1976, 2058, 2104, 2078, 1898, 2150, 2040, 1985 et 1819 euros. Si un échantillon de n = 5 personnes est constitué, alors P 1 =... = P 20 = n N = 0.25 = f Chaque individu a 1 chance sur 4 d être questionné. P. Lambert c - Faculté des Sciences Sociales Les sondages probabilistes - 4

Estimation du total Estimation sans biais du total T = N En effet, on peut réécrire ˆT comme ˆT = i s Y i P i = N E( ˆT ) = E i=1 N i=1 i=1 Y i : ˆT = Y i 1 P i1 +... + Y i n P in = i s Y i P i I i (s) avec I i (s) = Y i P i I i (s) = N i=1 Y i P i 1 si i s avec prob. P i 0 sinon avec prob. (1 P i ) Y i E(I i (s)) Bernoulli = P i N i=1 Y i P i = N Y i = T P i i=1 On voit que le poids de sondage associé à l individu i dans l estimation de T est W i (s) = 1/P i = N/n Tout fonctionne donc comme si chaque individu représentait N/n personnes de la population. P. Lambert c - Faculté des Sciences Sociales Les sondages probabilistes - 5

Ex (suite) Intéressons-nous à l estimation du revenu total (inconnu du sondeur) de ces 20 personnes, soit T = 20 Y i = 1775 +... + 1819 = 39329 euros. i=1 Si les n = 5 personnes à questionner sont choisies par sondage aléatoire simple, alors P 1 =... = P 20 = n/n = 0.25 = f. Imaginons que les personnes échantillonnées portent les étiquettes s = {6, 13, 5, 2, 19}, càd i 1 = 6, i 2 = 13, i 3 = 5, i 4 = 2 et i 5 = 19. La théorie qui précède nous dit qu un estimateur non biaisé de T est donné par ˆT = Y i 1 +... + Y i n = 1917 P i1 P in 0.25 + 2058 0.25 + 1982 0.25 + 1850 0.25 + 1985 0.25 On peut réécrire la formule précédente avec les poids de sondages: = 39168 euros. ˆT = W i1 Y i1 +...+W in Y in = 4 1917+4 2058+4 1982+4 1850+4 1985 mettant en évidence que chaque personne sondée est la porte-parole de 4 personnes de la population. P. Lambert c - Faculté des Sciences Sociales Les sondages probabilistes - 6

Estimation de la moyenne Comme Ȳ = T, on déduit qu un estimateur sans biais de la moyenne est donné N par ˆȲ = ȳ En effet, comme P i = n/n en aléatoire simple, ˆȲ = ˆT N = i s Y i 1 P i N = Y i i s n = ȳ Autrement dit, pour estimer (sans bias) la moyenne d une variable dans une population à l aide d un échantillon aléatoire simple, on prend simplement la moyenne arithmétique des données recueillies. Ex (suite) La moyenne inconnue vaut Ȳ = 1966.45 et est estimée (sans biais) par ȳ = 1917 + 2058 + 1982 + 1850 + 1985 n = 9792 5 = 1958.40 =... = ˆT N = 39168 20 P. Lambert c - Faculté des Sciences Sociales Les sondages probabilistes - 7

Variance de ȳ On peut démontrer que V(ȳ) = (1 f) σ2 n où σ 2 est la variance de Y dans la population. Pour améliorer la précision dans l estimation de augmenter la taille d échantillon n, augmenter le taux de sondage f = n N. Ȳ, on peut donc La variance σ 2 est un aspect sur lequel on ne peut pas agir. Plus la population est homogène en Y, plus l estimation de Ȳ sera précise. P. Lambert c - Faculté des Sciences Sociales Les sondages probabilistes - 8

Remarques Le taux de sondage, f, apparaît dans la formule car on échantillonne sans remise (puisque qu une même personne ne peut pas être comptabilisée plus d une fois!). Lorsque n N, on a f 0 et donc V(ȳ) σ 2 /n. La taille de la population n a alors plus vraiment d importance. La variance de l estimateur ˆT du total T est V( ˆT ) = N 2 (1 f) σ2 n On estime σ 2 par s 2 = 1 n 1 Cela permet d estimer V(ȳ) par i s (Y i ȳ) 2 ˆV(ȳ) = (1 f) s2 n P. Lambert c - Faculté des Sciences Sociales Les sondages probabilistes - 9

Intervalle de confiance pour la moyenne Sous certaines conditions (... notamment n 20, N suffisamment grand par rapport à n... ), un intervalle de confiance (approximatif) 95% pour Ȳ est donné par IC(Ȳ ) = ȳ ± 2 (1 f) s2 n Par définition, si on répète la procédure d échantillonnage un grand nombre de fois, 95% des intervalles ainsi construits contiendront la valeur inconnue de la moyenne, Ȳ. Il s agit donc d une ensemble de valeurs plausibles pour Ȳ. Remarque L IC(Ȳ ) associé à un sondage donné contient ou ne contient pas Ȳ. P. Lambert c - Faculté des Sciences Sociales Les sondages probabilistes - 10

Ex Le ministère de l agriculture souhaite estimer la surface totale cultivée par 2100 fermes d une région rurale. A cette fin, un sondage aléatoire simple est réalisé auprès de 100 fermes pour lesquelles la surface totale cultivée est évaluée. Les résultats obtenus pour les 100 fermes sont: somme des surfaces cultivées: 2907 ha (=hectares). somme des carrés des surfaces cultivées: 154593 ha 2. Sur base de ces informations, (a) estimons la surface cultivée en moyenne par une ferme de la région d intérêt ; (b) donnons un ensemble de valeurs plausibles pour cette quantité. Les données sont donc N = 2100, n = 100, Y i = 2907, i s i s Y 2 i = 154593. (a) ˆȲ = ȳ = 1 n i s Y i = 2907 100 = 29.07 ha. (b) Ces valeurs sont données par l intervalle de confiance ȳ ± 2 (1 f) s2 n. P. Lambert c - Faculté des Sciences Sociales Les sondages probabilistes - 11

Or Donc ˆσ 2 = i s Y 2 i n ȳ2 = 154593 29.07 2 = 700.865 100 s 2 = n n 1 ˆσ2 = 707.945 Comme le taux de sondage vaut f = n N = 100 2100 = 0.047, l ensemble des valeurs plausibles demandé est 29.07 ± 2 (1 0.047) 707.945 = (23.9, 34.3) 100 P. Lambert c - Faculté des Sciences Sociales Les sondages probabilistes - 12

Intervalle de confiance pour une proportion Un cas particulier de la théorie précédente survient lorsque Y i est simplement un indicateur 0 1 pour l individu i. Dans ce cas, Ȳ = N i=1 Y i N est la proportion π d individus présentant la caractéristique d intérêt dans la population cible. L estimateur non-biaisé vaut p = 1 n La variance de p vaut V(p) = (1 f) σ2 n i s Bernoulli = (1 f) Y i proportion de 1 dans l échantillon. π(1 π) n (1 f) p(1 p) n Sous certaines conditions (... ), un intervalle de confiance 95% pour π est IC(π) = p ± 2 (1 f) p(1 p) n La marge d erreur est la demi largeur de l intervalle, soit 2 (1 f) p(1 p) n. P. Lambert c - Faculté des Sciences Sociales Les sondages probabilistes - 13

Ex Un sondage aléatoire simple est réalisé auprès de 150 étudiants d une Faculté qui en compte 1500 pour déterminer s ils sont satisfaits de l orientation qu ils ont choisie à l université. Quelles sont les valeurs plausibles pour le taux de satisfaction sachant que 114 étudiants se sont dits satisfaits par leur choix? Nous avons n = 150, N = 1500 et i s Y i = 114. Le taux de sondage est f = n/n = 150/1500 = 0.1 = P i : chaque étudiant a donc 1 chance sur 10 d être interrogé. Une estimation (non biaisée) de la proportion π d étudiants satisfaits de l orientation choise parmi les 1500 de la population étudiée est p = i s Y i n = 114 150 = 0.76 = 76% Un ensemble de valeur plausible pour π est donné par IC(π) = p±2 (1 f) p(1 p) n = 0.76 ± 2 (1 0.1) 0.76(1 0.76) 150 Il est donc raisonnable de penser qu une majorité est satisfaite de son choix. = (0.69, 0.83) P. Lambert c - Faculté des Sciences Sociales Les sondages probabilistes - 14

Marge d erreur et taille d échantillon Lorsque le taux de sondage f = n/n est proche de 0, la marge d erreur vaut approximativement 2 p(1 p) n. Elle est maximum lorsque p = 0.50, et vaut alors 2 0.50 (1 0.50) n = 1 n Par conséquent, si l on souhaite estimer p par sondage aléatoire simple avec une marge d erreur d au plus 100 x%, il suffit de prendre n 1 x 2 Voici le résultat de ce calcul pour quelques marges d erreur: Marge d erreur x 1% 2% 3% 4% 5% 10% Taille d échantillon n 10000 2500 1112 625 400 100 P. Lambert c - Faculté des Sciences Sociales Les sondages probabilistes - 15

Sondage stratifié Motivation Rappel: dans les sondages aléatoires simples, aucune information auxiliaire n est utilisée durant le tirage de l échantillon ou durant l estimation. Si la population d intérêt est très hétérogène au niveau du Y d intérêt (σy 2 grand), alors l estimation de Ȳ peut être très imprécise. Idée fondamentale des sondages stratifiés: effectuer un sondage aléatoire simple au sein de groupes (a priori) homogènes (en matière de Y ). Ex Estimation de la durée moyenne de travail domestique hebdomadaire: stratifier par sexe s impose a priori. P. Lambert c - Faculté des Sciences Sociales Les sondages probabilistes - 16

Estimation de la moyenne Soient: H le nombre de groupes (=strates), N h le nombre d individus dans la strate h, Ȳh la moyenne de Y dans la strate h. n h le nombre d individus sondés dans la strate h. Y i La moyenne Ȳh = est estimée sans biais par ȳ h = Y i, càd la moyenne i G h N h i s h n h des données collectées dans la strate. On sait que Ȳ = H h=1 N h N Ȳh On en déduit un estimateur sans biais de Ȳ : ˆȲ st = H h=1 N h N ȳh. C est simplement la moyenne pondérée (par le poids de la strate h dans la population) des estimations obtenues dans chacune des strates. P. Lambert c - Faculté des Sciences Sociales Les sondages probabilistes - 17

Ex On s intéresse au nombre moyen d employés dans 1060 entreprises. A l aide de documents fiscaux, on dispose d une variable auxiliaire donnant un ordre de grandeur pour ce nombre d employés dans chacune des entreprises. Sur cette base les 1060 entreprises ont été classées en 5 groupes: celles avec de 0 à 9 (500 entreprises), 10 à 19 (300), 20 à 49 (150), 50 à 499 (100) ou plus de 500 (10 entreprises) employés. Un sondage aléatoire simple a été réalisé dans chacun de ces groupes auprès de, respectivement, 130, 80, 60, 25 et 5 entreprises, soit 300 au total. Dans chacune des entreprises sondées, les employés ont été comptés. Les moyennes (variances) suivantes ont alors été calculées dans chaque groupe: 5 (1.5), 12 (4), 30 (8), 150 (100) et 600 (2500) respectivement. Sur base de ces informations, donnons une estimation sans biais du nombre moyen d employés dans les 1060 entreprises. P. Lambert c - Faculté des Sciences Sociales Les sondages probabilistes - 18

Nous pouvons résumer les informations communiquées par Strate (# employés) N h n h ȳ h s 2 h 0 9 500 130 5 1.5 10 19 300 80 12 4 20 49 150 60 30 8 50-499 100 25 150 100 > 500 10 5 600 2500 Total 1060 300 On en déduit l estimation non-biaisée de la moyenne: ˆȲ st = H h=1 N h N ȳh = 500 1060 5 +... + 10 1060 600 = 29.8 employés. P. Lambert c - Faculté des Sciences Sociales Les sondages probabilistes - 19

Variance de la moyenne V( ˆȲ st ) = V H N h h=1 N ȳh = H h=1 N h N 2 V(ȳ h ) = H h=1 N h N 2 (1 f h ) σ2 h n h où f h = n h /N h est le taux de sondage dans la strate h et σ 2 h la variance de Y dans cette strate. Elle peut être estimée par ˆV( ˆȲ st ) = H Remarques h=1 N h N 2 (1 f h ) s2 h n h La variance est donc d autant plus petite que les variances σ 2 h le sont. Cela est d autant plus vrai que la variable auxiliaire utilisée pour construire les strates est corrélée avec la variable d intérêt Y. P. Lambert c - Faculté des Sciences Sociales Les sondages probabilistes - 20

Intervalle de confiance pour la moyenne Sous certaines conditions (... ), un intervalle de confiance (approximatif) 95% est donné par IC(Ȳ ) = ˆȲ st ± 2 ˆV( ˆȲ st ) Ex (suite) Construisons un ensemble de valeurs plausibles pour le nombre moyen d employés dans les 1060 entreprises. ˆV( ˆȲ st ) = H h=1 N 2 h N = 500 2 1060 = 0.055 = 0.235 2 (1 f h ) s2 h n h 1 130 1.5 500 130 +... + 10 1060 2 1 5 10 2500 5 L intervalle recherché est donc 29.8 ± 2 0.235 2 = (29.3, 30.3) employés. P. Lambert c - Faculté des Sciences Sociales Les sondages probabilistes - 21

Choix de n h : l allocation proportionnelle C est la méthode de détermination de n h la plus fréquemment utilisée car, pour beaucoup, c est la plus naturelle et la plus facile à mettre en oeuvre: n h n = N h N Ex Le pourcentage d habitants par région en Belgique est 58%(= N 1 /N) en Flandre, 32%(= N 2 /N) en Wallonie et 10%(= N 3 /N) à Bruxelles. Si on stratifie par région, n = 500 individus sondés pourraient se répartir selon la même clé, càd 290, 160 et 50 respectivement (n h = n N h /N). La taille d échantillon par strate est proportionnelle au poids de la strate dans la population: l échantillon est un modèle réduit de la population vis-à-vis de l auxiliaire. Comme le sondage est aléatoire simple dans chaque strate, on déduit que la probabilité qu un individu i, appartenant à la strate h, soit choisi vaut P i = Pr(Etre choisi strate h) = f h = n h N h = n N = f L allocation proportionnelle assure donc que tous les individus ont la même probabilité d étre sondé: le taux de sondage est le même dans toutes les strates. P. Lambert c - Faculté des Sciences Sociales Les sondages probabilistes - 22

Il existe des alternatives à l allocation proportionnelle qui intègrent une dimension de coût dans la procédure d échantillonnage. Choix de n h en allocation proportionnelle avec un budget C Supposons, par ex, que le nombre H de strates soit fixé, une allocation proportionnelle soit considérée, le budget disponible soit C avec un coût c h par unité dans la strate h.? Combien d individus va-t-on interroger dans chacune des strates? Ex Enquête réalisée en Wallonnie et à Bruxelles avec un coût moyen HTVA de, respectivement, 11 et de 9 euros par personne interrogée: Combien de personnes va-t-on interroger dans chacune des régions avec un budget global de 10000 euros? Pour rappel, les wallons représentent 76% de la population en Wallonie-BXL. P. Lambert c - Faculté des Sciences Sociales Les sondages probabilistes - 23

Les tailles d échantillons par strate doivent vérifier l égalité C = H h=1 n h c h Comme l allocation est proportionnelle, nous avons: n h = N h N n Par conséquent, C = H h=1 N h N n c h n = H h=1 C N h N c h Ex (suite): 10000 = n 1 11 + n 2 9 = 0.76n 11 + 0.24n 9 En conclusion, n 10000 0.76 11 + 0.24 9 = 950.57 > 950 n 1 = 0.76 950 = 722 ; n 2 = 0.24 950 = 228 avec un coût total de 722 11 + 228 9 = 9994 euros. P. Lambert c - Faculté des Sciences Sociales Les sondages probabilistes - 24

Choix de n h : allocation optimale de Neyman pour un budget C Tout en contrôlant le coût total de collecte C, on peut déterminer n h de façon à minimiser la variance de l estimateur, V( ˆȲ st ). On peut démontrer (multiplicateurs de Lagrange... ) que l allocation optimale est n h = N h S h ch l C N h S h N l S l cl ch Cette allocation de Neyman prévilégie donc les strates comprenant un nombre important d invidus ; avec une grande variabilité pour la réponse: c est là qu il y a le plus d information à collecter par personne interrogée ; avec un plus faible coût de collecte par unité. P. Lambert c - Faculté des Sciences Sociales Les sondages probabilistes - 25

Ex (suite) Supposons que la variabilité de Y soit la même en Wallonie qu à Bruxelles, càd que S 1 = S 2 = S. En se rappelant que N 1 = 0.76N et N 2 = 0.24N, et la formule de Neyman, on a n h = N h S h ch l C N h S h N l S l cl ch n 1 = 0.76N S 11 10000 0.76N S 11 + 0.24N S 9 n 2 = 0.24N S 9 10000 0.76N S 11 + 0.24N S 9 = 707.11 > 707 = 246.86 > 246 On interrogera donc un total de 953 (=707+246 ) personnes pour un coût de 707 11 + 246 9 = 9991 euros Une plus grande précision est attendue dans l estimation de la moyenne qu avec l allocation proportionnelle (à coût identique). P. Lambert c - Faculté des Sciences Sociales Les sondages probabilistes - 26

Ex (suite) Reprenons l exemple précédent en supposant cette fois que des sondages antérieurs suggèrent que la variabilité de Y soit 20% supérieure en Wallonie, càd que S 1 = 1.20S 2. La formule de Neyman suggère n 1 = 0.76N 1.20S 2 11 = 734.30 > 734 10000 0.76N 1.20S 2 11 + 0.24N S 2 9 n 2 = 0.24N S 2 9 10000 0.76N 1.20S 2 11 + 0.24N S 2 9 = 213.63 > 213 On interrogera donc un total de 947 (=734+213 ) personnes pour un coût total de 734 11 + 213 9 = 9991 euros La variabilité de Y étant supérieure en Wallonie, il est suggéré d y interroger plus de personnes que dans le cas précédent (cf. 734 au lieu de 707). P. Lambert c - Faculté des Sciences Sociales Les sondages probabilistes - 27

Remarques L allocation de Neyman requiert une estimation de σ 2 h. Une mauvaise estimation de σ 2 h n induit pas de biais dans l estimation de Ȳ. Si σ 2 h est correctement estimé, on a V opt ( ˆȲ st ) V prop ( ˆȲ st ) V( ˆȲ aleat.simple ) Le gain en précision en passant du proportionnel à l optimal n est important que si les σ 2 h sont très différents. La recherche d optimalité concerne la précision dans l estimation de Ȳ. Les moyennes par strate, Ȳ h, pourraient être estimées imprécisément, en particulier dans les petites strates (puisque n h est proportionnel à N h ). P. Lambert c - Faculté des Sciences Sociales Les sondages probabilistes - 28

Choix des strates La stratification se fait à l aide des variables auxiliaires de la base de sondage les plus corrélées avec la réponse Y. En théorie, le nombre de strates doit être aussi élevé que possible. Cependant, au-delà d un certain nombre, le gain en précision escompté devient marginal ; les σh 2 deviennent difficiles à estimer dans les strates à faibles effectifs. Ces estimations peuvent également induire des coûts non négligeables si elles nécessitent une étude pilote. P. Lambert c - Faculté des Sciences Sociales Les sondages probabilistes - 29

Estimation d une proportion A chaque individu i de la population est associée un variable 0-1 (binaire) Y i, la valeur 1 indiquant que la caractéristique d intérêt est présente. Dans ce cas particulier, Ȳ = π où π est la proportion (à estimer) d individus dans la population avec la caractéristique d intérêt. Le rôle de Ȳh sera joué par π h qui est la proportion précédente au niveau de la sous-population correspondant à la strate h. Le rôle de l estimateur ȳ h de Ȳh sera joué par p h qui estime π h. Lorsque l échantillon dans chaque strate est aléatoire simple, on a simplement f h = n h /N h. Sous cette condition, la variance de p h est V(p h ) = (1 f h ) π h(1 π h ) n h où f h = n h /N h est le taux de sondage dans la strate h. P. Lambert c - Faculté des Sciences Sociales Les sondages probabilistes - 30

La théorie précédente concernant Ȳ s applique sans modification à π. Nous avons donc, avec les mêmes notations que précédemment: Estimation sans biais de π p st = ˆπ st = H h=1 N h N p h Variance de l estimateur V(p st ) = H Cette variance est estimée par h=1 ˆV(p st ) = H Intervalle de confiance 95% h=1 N h N N h N 2 2 (1 f h ) π h(1 π h ) n h (1 f h ) p h(1 p h ) n h IC(π) = p st ± 2 ˆV(pst ) P. Lambert c - Faculté des Sciences Sociales Les sondages probabilistes - 31

Ex Une enquête menée dans une entreprise employant 7500 personnes a pour objectif de déterminer la proportion d employés disposant d une voiture personnelle. Une variable auxiliaire suggérée est le revenu de ces personnes: elles sont classées en 3 groupes: -1- revenus bas (3500 employés) ; -2- revenus moyens (2000 employés) ; -3- revenus élevés (2000 employés). Un sondage aléatoire simple a été mené dans chacun de ces groupes auprès de, respectivement, 500, 300 et 200 personnes. Parmi elles, 65, 135 et 100 ont déclaré disposer d une voiture personnelle. Nous avons donc N 1 = 3500, N 2 = 2000 et N 3 = 2000 ; n 1 = 500, n 2 = 300 et n 3 = 200 ; p 1 = 65 n 1 = 0.13, p 2 = 135 n 2 = 0.45 et p 3 = 100 n 3 = 0.50. Estimons la proportion recherchée: p st = ˆπ st = H h=1 N h N p h = 3500 7500 0.13 + 2000 7500 0.45 + 2000 7500 0.50 = 0.314 Dérivons également un ensemble de valeurs plausibles pour cette proportion: IC(π) = p st ± 2 ˆV(pst ) P. Lambert c - Faculté des Sciences Sociales Les sondages probabilistes - 32

Or ˆV(p st ) = = + + H N 2 h h=1 N 3500 7500 2000 7500 2000 7500 2 2 2 (1 f h ) p h(1 p h ) 1 500 3500 1 300 2000 1 200 2000 n h Un ensemble de valeurs plausibles pour π est donc 0.13 (1 0.13) 500 0.45 (1 0.45) 300 0.50 (1 0.50) 200 = 0.013 2 0.314 ± 2 0.013 = (0.29, 0.34). P. Lambert c - Faculté des Sciences Sociales Les sondages probabilistes - 33

Sondage à plusieurs degrés Principes de base Parmi les désavantages des sondages aléatoires simple et stratifié, citons: la nécessité de disposer d une base de sondage complète ; les coûts de déplacement lorsque la présence physique d un enquêteur auprès de chaque interviewé est nécessaire. Le sondage à plusieurs degrés permet de limiter ces inconvénients. L idée est d effectuer l échantillonnage en plusieurs phases ou degrés. Degré 1: sélection d unités primaires (UPs) Les UPs correspondent, la plupart du temps, à des entités (ex: géographiques) disjointes qui partitionnent le territoire qui doit être sondé (ex: les communes ; des bureaux de vote ; des caisses de produits manufacturés ; des médecins). Un échantillon d UPs est sélectionné à l aide d une procédure adéquate (ex: par sondage aléatoire simple ou à l aide d un sondage avec probabilités de sélection proportionnelles au nombre d unités dans chaque entité). P. Lambert c - Faculté des Sciences Sociales Les sondages probabilistes - 34

Degré 2: sondage à l intérieur de chaque UP Un sondage aléatoire simple ou stratifié pourrait être envisagé. Le 1er degré permet de réduire les coûts (ex: par la concentration des interviews à réaliser sur des poches du territoire ; par des sondages à la sortie des bureaux de vote sélectionnés ; par l ouverture des caisses désignées par le 1er degré du sondage ; par l examen approfondi des prescriptions faites aux patients des médecins sélectionnés). Dans le 1er exemple, il est alors envisageable de former des équipes d enquêteurs pour chacune des UPs et de les resolliciter à l occasion d autres sondages. Il n est pas nécessaire de disposer d une base de sondage dans les UPs non retenues si la sélection des UPs se fait par sondage aléatoire simple. Si on souhaite sélectionner les UPs par sondage avec probabilités de sélection proportionnelles au nombre d individus dans chaque UP, il faut au minimum connaître les effectifs dans chacune des UPs. P. Lambert c - Faculté des Sciences Sociales Les sondages probabilistes - 35

Estimation du total Si on numérote les M unités primaires avec un indice i, alors la probabilité P ij que le jème individu de l UP i soit sélectionné vaut P ij = P(j selectionné j UP i ) P(UP i selectionnée) Si m UPs sont sélectionnées parmi les M par sondage aléatoire simple, alors P(UP i selectionnée) = m M Si n i individus sont sélectionnés par sondage aléatoire simple parmi les N i personnes de la ième UP, alors P(j selectionné j UP i ) = n i N i Par conséquent, avec un sondage aléatoire simple à chaque degré: P ij = n i N i m M La probabilité de sélection n est donc pas nécessairement la même pour tout le monde!! (sauf si le taux de sondage n i /N i est le même dans chaque UP). P. Lambert c - Faculté des Sciences Sociales Les sondages probabilistes - 36

Notations s est l ensemble des UP sélectionnées. s i est l ensemble des individus sélectionnés dans la ième UP. La formule générale de l estimateur sans biais du total T reste d actualité: ˆT = i:i s Y ij j:j s i P ij Si les 2 phases du sondages sont aléatoire simples, alors ˆT = M m i:i s N i n i Y ij j:j s i La connaissance de la taille totale N de la population n est pas requise! P. Lambert c - Faculté des Sciences Sociales Les sondages probabilistes - 37

Variance de ˆT On peut calculer (expression non fournie) la variance V( ˆT ) de ˆT. Elle fait intervenir un terme lié au 1er degré (tirage des UPs) et un terme lié au 2ème degré (tirage des individus dans chaque UP). Le 1er terme est le plus grand en pratique. Afin d avoir une variance de taille raisonnable, on conseille de prendre des UPs de tailles N i sembables, de petites tailles, avec des comportements moyens Ȳi = T i /N i semblables. Ex Sondage auprès de n = 1000 ménages. Les 3 stratégies suivantes sont possibles: -1-250 UPs avec 4 ménages par UP, -2-500 UPs avec 2 ménages par UP, -3-1000 UPs avec 1 ménage par UP. En terme de précision, -1- < -2- < -3-. P. Lambert c - Faculté des Sciences Sociales Les sondages probabilistes - 38

Remarques Les estimations obtenues avec un sondage à plusieurs degrés sont généralement moins précises qu en travaillant avec un seul degré par sondage aléatoire simple. Il est en effet très fréquent qu un effet grappe soit présent: les réponses enregistrées dans une même UP sont plus homogènes que dans la population totale. L information accumulée est alors moins importante que dans un seul échantillon aléatoire simple de même taille. Plus le nombre de degrés du sondage est élevé, moins grande est la précision des estimations. P. Lambert c - Faculté des Sciences Sociales Les sondages probabilistes - 39

Autres sondages probabilistes Il existe d autres sondages probabilistes que ceux exposés jusqu ici. Leur étude est post-posée à un cours plus avancé. Citons parmi ces sondages: les sondages en grappes: c est un sondage à plusieurs degrés où tous les individus du dernier degré sont interrogés.... P. Lambert c - Faculté des Sciences Sociales Les sondages probabilistes - 40

Les sondages empiriques Les sondages probabilistes sont de loin les plus recommendables car ils permettent un contrôle du bais et une évaluation des précisions obtenues. Cependant, les sondages empiriques sont fréquemment utilisés en pratique. C est notamment le cas lorsqu on ne dispose pas d une base de sondage ou lorsqu un sondage probaliste est trop coûteux ou trop long à mettre en oeuvre. Ce type de sondage est très fréquemment utilisé par les instituts de sondage privés. Ce type de sondage doit être évité si cela est possible. P. Lambert c - Faculté des Sciences Sociales Les sondages probabilistes - 41

La méthode des quotas Le but de cette approche est de construire un échantillon dont la structure est la même que celle de la population. Ex Même proportion d hommes dans l échantillon que dans la population ; même répartition au niveau des âges... Pour la qème catégorie, la méthode des quotas impose que n q n = N q N. Un enquêteur doit alors réunir un quota de n q personnes de la qème catégorie dans l échantillon (exemple de feuille de quotas à la page suivante). La plupart du temps, pour des raisons pratiques, les quotas imposés sur le terrain sont marginaux. P. Lambert c - Faculté des Sciences Sociales Les sondages probabilistes - 42

P. Lambert c - Faculté des Sciences Sociales Les sondages probabilistes - 43

Estimation de la moyenne Hypothèse de travail: on peut tranposer les conclusions recueillies sur l échantillon à la population entière. Par définition de la moyenne, on sait que Ȳ = Q q=1 N q N Ȳq Si un quota est imposé sur Q catégories de population, on estime Ȳ par: ˆȲ = Q q=1 n q n ȳq Remarques La variance de ˆȲ ne peut pas être évaluée. Le sondage probabiliste le plus sembable est le stratifié à allocation proportionnelle. P. Lambert c - Faculté des Sciences Sociales Les sondages probabilistes - 44

La méthode des quotas: biais La qualité de l estimation repose sur l homogénéité des groupes définis par les quotas. Il est donc souhaitable d avoir un maximum de variables auxiliaires pour constituer les groupes. En pratique, pour les sondages d opinion, on se limite souvent au sexe, à l âge et à la catégorie socio-professionnelle. Un biais apparaît s il existe un lien entre la probabilité de sélection et la variable réponse Y pour une catégorie q donnée. Afin de limiter ce biais, il est conseillé à chaque enquêteur d étaler ses interviews sur l ensemble de la journée, de couvrir l ensemble du territoire qui lui est attribué, etc. Un sondage stratifié à allocation proportionnelle est d autant plus précis que la taille d échantillon n est grande: ce n est pas le cas avec la méthode des quotas!! P. Lambert c - Faculté des Sciences Sociales Les sondages probabilistes - 45

La méthode des quotas: remarques finales Il est fréquent de privilégier la méthode des quotas pour les petits sondages (par ex. n 1000). Les quotas sont souvent utilisés lors d enquêtes pilotes (préliminaires à un sondage probabiliste de taille conséquente). La méthode des quotas est souvent combinée avec plusieurs degrés d échantillonnage. Ex 1er degré: province ; 2ème degré: communes avec un quota par commune retenue ; 3ème degré: quartier. Le problème de non-réponse existe également avec les quotas: certaines parties de la population ne sont jamais atteintes. Il est pratiquement impossible de vérifier la qualité du travail des enquêteurs (sauf si les coordonnées complètes des sondés sont disponibles). P. Lambert c - Faculté des Sciences Sociales Les sondages probabilistes - 46

Il existe d autres méthodes empiriques: la méthode des itinéraires: c est la méthode des quotas avec un itinéraire imposé à chaque enquêteur. la méthode des unités-types: des individus sont pré-désignés pour représenter des sous-groupes de la population. Ex Calcul de l audimat. l échantillonnage de volontaires: les sondés sont recrutés sur base volontaire par courrier, par des magazines auprès de leur lectorat, via des sites internet... Cette méthode est à proscrire car elle induit des biais très importants. P. Lambert c - Faculté des Sciences Sociales Les sondages probabilistes - 47