STA108 Sondages Philippe Périé cours n 5 : 31OCT2014
STA108 - Sondages Philippe Périé (IPSOS) philippe.perie@ipsos.com Sylvie Rousseau (INSEE) sylvie.rousseau@insee.fr
Algorithmes de tirage Nombres aléatoires Méthodes de tirage
Nombres aléatoires et pseudo aléatoires Utiles pour réaliser des tirages et simuler des phénomènes aléatoires Nombres aléatoires: suite de réalisations indépendantes d une variable uniforme sur [0;1] Peuvent être obtenus par des procédés physiques: roues de loterie, éclairage à intervalles irréguliers d'un disque divisé en 10 secteurs isométriques et numérotés de 0 à 9 : table de Kendall et Babington Smith Procédés déterministes mais fournissant une suite de nombres en apparence iid sur [0; 1] Suites mathématiques décimales de, des tables de logarithmes Procédés arithmétiques Milieu du carré de Von Neumann (1946) 4
Milieu du carré de Von Neumann (1946) On part d'un nombre entier, On l élève au carré, On extrait les chiffres du centre comme nombres aléatoires. Exemple : x0 = 7534... d'où la suite 7611 9273 9885 7132 (7534)² = 56 7611 56 (7611)² = 57 9273 21 (9273)² = 85 9885 29 (9885)² = 97 7132 25 Inconvénients majeurs : dépendance au nombre de départ et régularités nombreuses (permanence de 0 ou de séries particulières). 5
Méthodes de congruence Elles reposent sur des suites récurrentes : choix arbitraire d un entier x 0 appelé germe (ou seed ou graine) génération d une séquence (x 1,..., x n ) d entiers : x i + 1 = ax i + b (modulo m) pour i = 1,..., n, où a, b et m sont des entiers appelés respectivement multiplicateur, incrément et modulo. On vérifie : 0 < x i < m pour i 1,..., n Intérêt : les nombres u 1, u n où u i = x i forment un échantillon pseudo-aléatoire de la loi uniforme sur [0,1] si les entiers a, b et m sont «bien» choisis. m Intuition de l horloge : les heures 9h et 21 sont Congrues modulo 12 6
Le procédé étant déterministe, ces nombres sont dits pseudo-aléatoires. Exemple : x0 = 1 ; a = 6 ; b = 0 ; m = 25 x0 = 1 x1 = 6 [25] = 6 x2 = 36[25] =11 x3 = 66[25] = 16 x4 = 96[25] = 21 x5 = 126[25] = 1 = x0 Ce cycle a pour longueur 5. Remarque : La séquence x i i=1,...,n contient au plus m termes distincts. Cette suite est donc périodique de période p avec p m Si p = m, la période est dite pleine. 7
Méthodes de congruence Choix des entiers a, b et m : Ils sont déterminés de telle sorte que la séquence ait les meilleures propriétés possibles. En particulier, m est pris aussi grand que possible pour assurer une grande variété de valeurs dans la suite xi Hull et Dobell (1962) ont montré que les séquences de période pleine sont obtenues si et seulement si : b et m sont premiers entre eux, (a-1) est un multiple de chaque nombre premier qui divise m si m est un multiple de 4 alors (a-1) aussi Un algorithme très usité est la méthode congruentielle de Lehmer (1948) qui pose b = 0. Méthode de Lehmer : x i +1=axi (m) (Sur machines 32 bits m aussi grand que possible m 31 1 ) 8
Algorithmes de tirage Nombres aléatoires Méthodes de tirage
Le cas des probabilités inégales sans remise Infinité de plans de sondage pour des i fixés Plus de 50 méthodes de tirage! Aucune ne satisfait tous les critères. 10
Le cas des probabilités inégales sans remise Une infinité de méthodes respectant les probabilités d inclusion d ordre 1 Comme nous l avons déjà dit, le problème est encore très ouvert théoriquement Yves Tillé (dans son ouvrage sur la théorie des sondages) liste 4 critères pour ce qu il appelle une bonne procédure Exactitude : les probabilité d inclusion d ordre 1 sont respectées Taille fixe : la taille de l échantillon est de taille fixe n Généralité : la méthode est applicable à toutes les probabilités et les tailles d échantillon relativement à la population Sans remise : une unité ne peut être sélectionnée qu une seule fois Il cite aussi : Les probabilité d inclusion d ordre 2 doivent être strictement positives (toutes les combinaisons sont possibles) Les probabilités doivent respecter les conditions de Sen-Yates-Grundy π ij π i π j La méthode doit fournir des probabilités d inclusion d ordre 2 telles que la variance de l estimateur doivent être aisée à mettre en œuvre L algorithme doit être rapide et en particulier éviter l énumération de tous les échantillons possibles de taille n dans N L algorithme doit être séquentiel, c est-à-dire qu il doit pouvoir s appliquer en une passe sur le fichier de donnée 11
Une méthode inefficace : énumération puis sélection (Yves Tillé, Sampling Algorithms p 31) Si le plan de sondage est connu, et que la population n est par trop large, une méthode pour sélectionner un échantillon est l approche énumérative : énumérer tous les échantillons possibles, puis en sélectionner 1 au hasard. méthode pure et simple conceptuellement mais impossible dès que la population dépasse quelques dizaines L objectif des algorithmes de tirage est de tirer un échantillon en respectant le plan de sondage et en évitant une énumération complète au préalable 12
Classes de méthodes (Yves Tillé pp 32 39) 1. Algorithmes séquentiels 2. Sélection pas à pas 3. Par élimination 4. Sondages rejectifs 13
Notion d entropie On appelle entropie du plan p(.) la quantité s p s ln p s On montre que I(p) est toujours positif Plus l entropie est élevée, plus le plan de sondage est aléatoire On peut chercher le plan le plus aléatoire (au sens de l entropie) qui vérifie les probabilités d inclusion fixées 14
Plans à probabilités égales sans remise Tirages successifs 15
Plans à probabilités égales sans remise Méthode de Bernouilli Tirage de Bernoulli: on tire N nombres aléatoires. L unité i est retenue si U i <. 16
Plans à probabilités égales sans remise Tirage de Bernoulli 17
Plans à probabilités égales sans remise Tri aléatoire 18
Plans à probabilités égales sans remise Sélection-rejet si U 1 <n/n on prend l unité 1. Puis n=n-1 et N=N-1. On sélectionne l unité 2 si U 2 <n-1/n-1 Si U 1 >n/n, on passe à l unité 2 avec N=N-1. On sélectionne l unité 2 si U 2 <n/n-1 etc. j= nb d unités déjà sélectionnées 19
Plans à probabilités égales sans remise Méthode de mise à jour de l échantillon 20
Plans à probabilités égales sans remise Méthode de mise à jour de l échantillon 21
Plans à probabilités égales sans remise Tirage systématique Définir un pas de tirage = N/n (entier par arrondi) Tirer une unité au hasard au début du fichier entre 1 et pas Sélectionner une unité tous les pas Avantages : - simplicité, N pas nécessairement connu a priori, peut être plus efficace que le tirage aléatoire si le fichier est trié selon une variable bien corrélée à la variable d intérêt (cf cours sur le sondage en grappes) 22
Plans à probabilités égales sans remise Tirage systématique Inconvénients Si périodicité dans le fichier (Ardilly) 23
Probabilités inégales sans remise Plan de Poisson Une généralisation du plan de Bernoulli pour les probabilités inégales Chaque unité est sélectionnée de manière indépendante avec une probabilité π i Une population de taille N, i un entier, u un réel Répéter pour k = 1,..N Tirer u dans une loi uniforme U[0,1] Si u < π i, sélectionner l unité i, sinon passer l unité i 24
Probabilités inégales sans remise Plan de Poisson Avantages : Les unités sont sélectionnées indépendamment, donc on a π ij = π i π j. Le calcul de la variance est très facile Le plan est à entropie maximale pour des probabilités d inclusion données (c est-à-dire que compte tenu des probabilités d inclusion, c est le plan qui est le plus aléatoire possible) Inconvénient : La méthode a un gros désavantage, la taille de l échantillon est aléatoire, il y a donc une chance (petite ) d avoir un échantillon vide ou de sélectionner toute la population Dans Excel avec la fonction ALEA() Individu probabilité selection? formule 1 0.8 1 =(ALEA()<E5)*1 2 0.3 0 =(ALEA()<E6)*1 3 0.4 1 =(ALEA()<E7)*1 4 0.2 0 =(ALEA()<E8)*1 5 0.6 0 =(ALEA()<E9)*1 6 0.7 1 =(ALEA()<E10)*1 25
Probabilités inégales sans remise Sondage systématique à probabilités inégales On cumule pour tous les individus les probabilités d'inclusion Vk = 1+ 2 +...+ k On génère une seule réalisation u de la loi U[0,1[ On sélectionne k tel que Vk-1 u < V k puis i tel quevi-1 u + 1 < Vi puis j tel que Vj-1 u + 2 < Vj etc... on obtient in fine n individus 26
Probabilités inégales sans remise Sondage systématique à probabilités inégales Avantages : Simplicité Echantillon de taille fixe Inconvénient : certaines probabilités d inclusion d ordre 2 peuvent être nulles Dépend de l ordre du fichier Tri aléatoire avant tirage? 27
Probabilités inégales sans remise Sondage systématique à probabilités inégales Exemple : N = 6, n = 3 1=0.2 2=0.7 3=0.8 4=0.5 5=P6=0.4 Supposons u = 0.3658 les unités 2,3 et 5 sont sélectionnées entre 0.2 et 0.9 c est l unité 2, entre 0.9 et 1.7 c est l unité 3, entre 2.2 et 2.6 c est l unité 5 28
Probabilités inégales sans remise Sondage systématique à probabilités inégales La méthode a des probabilités d inclusion d ordre 2 nulles. Par exemple, si 1 est sélectionné, il est impossible de sélectionner les unités 2, 5 et 6 (En fait deux unités séparées par une distance inférieure au pas de sondage ne peuvent pas être sélectionnées simultanément) La matrice des probabilités d inclusion d ordre 2 est : - 0 0.2 0.2 0 0 0-0.5 0.2 0.4 0.3 0.2 0.5-0.3 0.4 0.2 0.2 0.2 0.3-0 0.3 0 0.4 0.4 0-0 0 0.3 0.2 0.3 0-29
Probabilités inégales sans remise Méthode de Sunter Méthode de Sunter (généralisation de la méthode de sélection-rejet) 30
Probabilités inégales sans remise Méthode de Sunter 31
Probabilités inégales sans remise Méthode RHC (Rao, Hartley,Cochran) Pour un tirage à probabilités proportionnelles à la taille X Trier les unités dans un ordre aléatoire Tronçonner le fichier en n groupes successifs de N/n unités Tirer dans chaque groupe une unité proportionnellement à la taille Simple et performant Remarque: procédé «inexactement proportionnel à la taille» car les groupes ne sont pas de même taille 32
Algorithmes de tirage Nombres aléatoires Méthodes de tirage