STA108 Sondages. Philippe Périé cours n 5 : 31OCT2014

Documents pareils
Modélisation et simulation

IFT3245. Simulation et modèles

Probabilités. Rappel : trois exemples. Exemple 2 : On dispose d un dé truqué. On sait que : p(1) = p(2) =1/6 ; p(3) = 1/3 p(4) = p(5) =1/12

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

Probabilités Loi binomiale Exercices corrigés

Représentation d un entier en base b

Probabilités conditionnelles Exercices corrigés

LES GENERATEURS DE NOMBRES ALEATOIRES

Probabilités. C. Charignon. I Cours 3

FICHE UE Licence/Master Sciences, Technologies, Santé Mention Informatique

TSTI 2D CH X : Exemples de lois à densité 1

Baccalauréat technique de la musique et de la danse Métropole septembre 2008

UML Diagramme de communication (communication diagram) Emmanuel Pichon 2013

LES DECIMALES DE π BERNARD EGGER

Probabilités conditionnelles Loi binomiale

Distribution Uniforme Probabilité de Laplace Dénombrements Les Paris. Chapitre 2 Le calcul des probabilités

16 Chapitre 16. Autour des générateurs pseudoaléatoires

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, LES STATISTIQUES INFERENTIELLES

Cours 1 : Introduction Ordinateurs - Langages de haut niveau - Application

Simulation de variables aléatoires

Correction du baccalauréat ES/L Métropole 20 juin 2014

Annexe commune aux séries ES, L et S : boîtes et quantiles

La nouvelle planification de l échantillonnage

1 Recherche en table par balayage

Architecture des Systèmes d Information Architecture des Systèmes d Information

Nombres, mesures et incertitudes en sciences physiques et chimiques. Groupe des Sciences physiques et chimiques de l IGEN


I. Cas de l équiprobabilité

BACCALAURÉAT GÉNÉRAL SESSION 2012 OBLIGATOIRE MATHÉMATIQUES. Série S. Durée de l épreuve : 4 heures Coefficient : 7 ENSEIGNEMENT OBLIGATOIRE

STA108 Enquêtes et sondages. Sondages àplusieurs degrés et par grappes

FORMULAIRE DE STATISTIQUES

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.

Programmation linéaire

Simulation : application au système bonus-malus en responsabilité civile automobile

Fluctuation d une fréquence selon les échantillons - Probabilités

Chapitre VI - Méthodes de factorisation

Programmation linéaire

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

Rappels sur les suites - Algorithme

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

6. Hachage. Accès aux données d'une table avec un temps constant Utilisation d'une fonction pour le calcul d'adresses

Lois de probabilité. Anita Burgun

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction.

Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34

ASR1 TD7 : Un microprocesseur RISC 16 bits

Probabilités sur un univers fini

La classification automatique de données quantitatives

1. Structure d un programme C. 2. Commentaire: /*..texte */ On utilise aussi le commentaire du C++ qui est valable pour C: 3.

Théorie et Codage de l Information (IF01) exercices Paul Honeine Université de technologie de Troyes France

UEO11 COURS/TD 1. nombres entiers et réels codés en mémoire centrale. Caractères alphabétiques et caractères spéciaux.

Système binaire. Algèbre booléenne

POKER ET PROBABILITÉ

La simulation probabiliste avec Excel

Mathématiques financières

Feuille d exercices 2 : Espaces probabilisés

Coefficients binomiaux

Quelques tests de primalité

MÉTHODE DE MONTE CARLO.

VI. Tests non paramétriques sur un échantillon

1 Définition et premières propriétés des congruences

EXCEL et base de données

TESTS D'HYPOTHESES Etude d'un exemple

Le signal GPS. Les horloges atomiques à bord des satellites GPS produisent une fréquence fondamentale f o = Mhz

Cours 7 : Utilisation de modules sous python

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

Exercices du Cours de la programmation linéaire donné par le Dr. Ali DERBALA

Bases de données documentaires et distribuées Cours NFE04

TP 1. Prise en main du langage Python

Exercices sur le chapitre «Probabilités»

Théorie des sondages : cours 5

Exercice autour de densité, fonction de répatition, espérance et variance de variables quelconques.

Algorithmique avec Algobox

Factorisation d entiers (première partie)

LES PROBABILITÉS DE GAINS

Projet Active Object

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

Principe de symétrisation pour la construction d un test adaptatif

Probabilités III Introduction à l évaluation d options

1/24. I passer d un problème exprimé en français à la réalisation d un. I expressions arithmétiques. I structures de contrôle (tests, boucles)

3. Caractéristiques et fonctions d une v.a.

Algorithme. Table des matières

Exercices - Polynômes : corrigé. Opérations sur les polynômes

TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION

ÉPREUVE COMMUNE DE TIPE Partie D

Ressources pour le lycée général et technologique

Nombres premiers. Comment reconnaître un nombre premier? Mais...

Séance 4. Gestion de la capacité. Gestion des opérations et de la logistique

EXPLOITATIONS PEDAGOGIQUES DU TABLEUR EN STG

Cours de Probabilités et de Statistique

Probabilités sur un univers fini

GLOSSAIRE DU SOUTIEN EN CAS DE RECOURS EN JUSTICE

ARTICLE 1 : OBJET REGLEMENT COMPLET DU JEU «Grattage Diamant 120 ans» La société Sofibel, dont le siège social est situé rue Victor

Les mathématiques du XXe siècle

Analyse empirique et modélisation de la dynamique de la topologie de l Internet

Strasbourg. De la statistique. aux probabilités. en lycée. De la statistique. aux probabilités. en lycée. Octobre 2006

Cryptographie et fonctions à sens unique

Cours d Informatique

DUT Techniques de commercialisation Mathématiques et statistiques appliquées

Architecture des ordinateurs TD1 - Portes logiques et premiers circuits

Transcription:

STA108 Sondages Philippe Périé cours n 5 : 31OCT2014

STA108 - Sondages Philippe Périé (IPSOS) philippe.perie@ipsos.com Sylvie Rousseau (INSEE) sylvie.rousseau@insee.fr

Algorithmes de tirage Nombres aléatoires Méthodes de tirage

Nombres aléatoires et pseudo aléatoires Utiles pour réaliser des tirages et simuler des phénomènes aléatoires Nombres aléatoires: suite de réalisations indépendantes d une variable uniforme sur [0;1] Peuvent être obtenus par des procédés physiques: roues de loterie, éclairage à intervalles irréguliers d'un disque divisé en 10 secteurs isométriques et numérotés de 0 à 9 : table de Kendall et Babington Smith Procédés déterministes mais fournissant une suite de nombres en apparence iid sur [0; 1] Suites mathématiques décimales de, des tables de logarithmes Procédés arithmétiques Milieu du carré de Von Neumann (1946) 4

Milieu du carré de Von Neumann (1946) On part d'un nombre entier, On l élève au carré, On extrait les chiffres du centre comme nombres aléatoires. Exemple : x0 = 7534... d'où la suite 7611 9273 9885 7132 (7534)² = 56 7611 56 (7611)² = 57 9273 21 (9273)² = 85 9885 29 (9885)² = 97 7132 25 Inconvénients majeurs : dépendance au nombre de départ et régularités nombreuses (permanence de 0 ou de séries particulières). 5

Méthodes de congruence Elles reposent sur des suites récurrentes : choix arbitraire d un entier x 0 appelé germe (ou seed ou graine) génération d une séquence (x 1,..., x n ) d entiers : x i + 1 = ax i + b (modulo m) pour i = 1,..., n, où a, b et m sont des entiers appelés respectivement multiplicateur, incrément et modulo. On vérifie : 0 < x i < m pour i 1,..., n Intérêt : les nombres u 1, u n où u i = x i forment un échantillon pseudo-aléatoire de la loi uniforme sur [0,1] si les entiers a, b et m sont «bien» choisis. m Intuition de l horloge : les heures 9h et 21 sont Congrues modulo 12 6

Le procédé étant déterministe, ces nombres sont dits pseudo-aléatoires. Exemple : x0 = 1 ; a = 6 ; b = 0 ; m = 25 x0 = 1 x1 = 6 [25] = 6 x2 = 36[25] =11 x3 = 66[25] = 16 x4 = 96[25] = 21 x5 = 126[25] = 1 = x0 Ce cycle a pour longueur 5. Remarque : La séquence x i i=1,...,n contient au plus m termes distincts. Cette suite est donc périodique de période p avec p m Si p = m, la période est dite pleine. 7

Méthodes de congruence Choix des entiers a, b et m : Ils sont déterminés de telle sorte que la séquence ait les meilleures propriétés possibles. En particulier, m est pris aussi grand que possible pour assurer une grande variété de valeurs dans la suite xi Hull et Dobell (1962) ont montré que les séquences de période pleine sont obtenues si et seulement si : b et m sont premiers entre eux, (a-1) est un multiple de chaque nombre premier qui divise m si m est un multiple de 4 alors (a-1) aussi Un algorithme très usité est la méthode congruentielle de Lehmer (1948) qui pose b = 0. Méthode de Lehmer : x i +1=axi (m) (Sur machines 32 bits m aussi grand que possible m 31 1 ) 8

Algorithmes de tirage Nombres aléatoires Méthodes de tirage

Le cas des probabilités inégales sans remise Infinité de plans de sondage pour des i fixés Plus de 50 méthodes de tirage! Aucune ne satisfait tous les critères. 10

Le cas des probabilités inégales sans remise Une infinité de méthodes respectant les probabilités d inclusion d ordre 1 Comme nous l avons déjà dit, le problème est encore très ouvert théoriquement Yves Tillé (dans son ouvrage sur la théorie des sondages) liste 4 critères pour ce qu il appelle une bonne procédure Exactitude : les probabilité d inclusion d ordre 1 sont respectées Taille fixe : la taille de l échantillon est de taille fixe n Généralité : la méthode est applicable à toutes les probabilités et les tailles d échantillon relativement à la population Sans remise : une unité ne peut être sélectionnée qu une seule fois Il cite aussi : Les probabilité d inclusion d ordre 2 doivent être strictement positives (toutes les combinaisons sont possibles) Les probabilités doivent respecter les conditions de Sen-Yates-Grundy π ij π i π j La méthode doit fournir des probabilités d inclusion d ordre 2 telles que la variance de l estimateur doivent être aisée à mettre en œuvre L algorithme doit être rapide et en particulier éviter l énumération de tous les échantillons possibles de taille n dans N L algorithme doit être séquentiel, c est-à-dire qu il doit pouvoir s appliquer en une passe sur le fichier de donnée 11

Une méthode inefficace : énumération puis sélection (Yves Tillé, Sampling Algorithms p 31) Si le plan de sondage est connu, et que la population n est par trop large, une méthode pour sélectionner un échantillon est l approche énumérative : énumérer tous les échantillons possibles, puis en sélectionner 1 au hasard. méthode pure et simple conceptuellement mais impossible dès que la population dépasse quelques dizaines L objectif des algorithmes de tirage est de tirer un échantillon en respectant le plan de sondage et en évitant une énumération complète au préalable 12

Classes de méthodes (Yves Tillé pp 32 39) 1. Algorithmes séquentiels 2. Sélection pas à pas 3. Par élimination 4. Sondages rejectifs 13

Notion d entropie On appelle entropie du plan p(.) la quantité s p s ln p s On montre que I(p) est toujours positif Plus l entropie est élevée, plus le plan de sondage est aléatoire On peut chercher le plan le plus aléatoire (au sens de l entropie) qui vérifie les probabilités d inclusion fixées 14

Plans à probabilités égales sans remise Tirages successifs 15

Plans à probabilités égales sans remise Méthode de Bernouilli Tirage de Bernoulli: on tire N nombres aléatoires. L unité i est retenue si U i <. 16

Plans à probabilités égales sans remise Tirage de Bernoulli 17

Plans à probabilités égales sans remise Tri aléatoire 18

Plans à probabilités égales sans remise Sélection-rejet si U 1 <n/n on prend l unité 1. Puis n=n-1 et N=N-1. On sélectionne l unité 2 si U 2 <n-1/n-1 Si U 1 >n/n, on passe à l unité 2 avec N=N-1. On sélectionne l unité 2 si U 2 <n/n-1 etc. j= nb d unités déjà sélectionnées 19

Plans à probabilités égales sans remise Méthode de mise à jour de l échantillon 20

Plans à probabilités égales sans remise Méthode de mise à jour de l échantillon 21

Plans à probabilités égales sans remise Tirage systématique Définir un pas de tirage = N/n (entier par arrondi) Tirer une unité au hasard au début du fichier entre 1 et pas Sélectionner une unité tous les pas Avantages : - simplicité, N pas nécessairement connu a priori, peut être plus efficace que le tirage aléatoire si le fichier est trié selon une variable bien corrélée à la variable d intérêt (cf cours sur le sondage en grappes) 22

Plans à probabilités égales sans remise Tirage systématique Inconvénients Si périodicité dans le fichier (Ardilly) 23

Probabilités inégales sans remise Plan de Poisson Une généralisation du plan de Bernoulli pour les probabilités inégales Chaque unité est sélectionnée de manière indépendante avec une probabilité π i Une population de taille N, i un entier, u un réel Répéter pour k = 1,..N Tirer u dans une loi uniforme U[0,1] Si u < π i, sélectionner l unité i, sinon passer l unité i 24

Probabilités inégales sans remise Plan de Poisson Avantages : Les unités sont sélectionnées indépendamment, donc on a π ij = π i π j. Le calcul de la variance est très facile Le plan est à entropie maximale pour des probabilités d inclusion données (c est-à-dire que compte tenu des probabilités d inclusion, c est le plan qui est le plus aléatoire possible) Inconvénient : La méthode a un gros désavantage, la taille de l échantillon est aléatoire, il y a donc une chance (petite ) d avoir un échantillon vide ou de sélectionner toute la population Dans Excel avec la fonction ALEA() Individu probabilité selection? formule 1 0.8 1 =(ALEA()<E5)*1 2 0.3 0 =(ALEA()<E6)*1 3 0.4 1 =(ALEA()<E7)*1 4 0.2 0 =(ALEA()<E8)*1 5 0.6 0 =(ALEA()<E9)*1 6 0.7 1 =(ALEA()<E10)*1 25

Probabilités inégales sans remise Sondage systématique à probabilités inégales On cumule pour tous les individus les probabilités d'inclusion Vk = 1+ 2 +...+ k On génère une seule réalisation u de la loi U[0,1[ On sélectionne k tel que Vk-1 u < V k puis i tel quevi-1 u + 1 < Vi puis j tel que Vj-1 u + 2 < Vj etc... on obtient in fine n individus 26

Probabilités inégales sans remise Sondage systématique à probabilités inégales Avantages : Simplicité Echantillon de taille fixe Inconvénient : certaines probabilités d inclusion d ordre 2 peuvent être nulles Dépend de l ordre du fichier Tri aléatoire avant tirage? 27

Probabilités inégales sans remise Sondage systématique à probabilités inégales Exemple : N = 6, n = 3 1=0.2 2=0.7 3=0.8 4=0.5 5=P6=0.4 Supposons u = 0.3658 les unités 2,3 et 5 sont sélectionnées entre 0.2 et 0.9 c est l unité 2, entre 0.9 et 1.7 c est l unité 3, entre 2.2 et 2.6 c est l unité 5 28

Probabilités inégales sans remise Sondage systématique à probabilités inégales La méthode a des probabilités d inclusion d ordre 2 nulles. Par exemple, si 1 est sélectionné, il est impossible de sélectionner les unités 2, 5 et 6 (En fait deux unités séparées par une distance inférieure au pas de sondage ne peuvent pas être sélectionnées simultanément) La matrice des probabilités d inclusion d ordre 2 est : - 0 0.2 0.2 0 0 0-0.5 0.2 0.4 0.3 0.2 0.5-0.3 0.4 0.2 0.2 0.2 0.3-0 0.3 0 0.4 0.4 0-0 0 0.3 0.2 0.3 0-29

Probabilités inégales sans remise Méthode de Sunter Méthode de Sunter (généralisation de la méthode de sélection-rejet) 30

Probabilités inégales sans remise Méthode de Sunter 31

Probabilités inégales sans remise Méthode RHC (Rao, Hartley,Cochran) Pour un tirage à probabilités proportionnelles à la taille X Trier les unités dans un ordre aléatoire Tronçonner le fichier en n groupes successifs de N/n unités Tirer dans chaque groupe une unité proportionnellement à la taille Simple et performant Remarque: procédé «inexactement proportionnel à la taille» car les groupes ne sont pas de même taille 32

Algorithmes de tirage Nombres aléatoires Méthodes de tirage