ALGORITHMES DE TIRAGE

Documents pareils
Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

STA108 Enquêtes et sondages. Sondages àplusieurs degrés et par grappes

Théorie des sondages : cours 5

La nouvelle planification de l échantillonnage

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, LES STATISTIQUES INFERENTIELLES

Modélisation et simulation

Annexe commune aux séries ES, L et S : boîtes et quantiles

La classification automatique de données quantitatives

1.6- Génération de nombres aléatoires

ACTUARIAT 1, ACT 2121, AUTOMNE 2013 #16

Analyse de la variance Comparaison de plusieurs moyennes

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.

IFT3245. Simulation et modèles

Statistiques Descriptives à une dimension

LES GENERATEURS DE NOMBRES ALEATOIRES

Resolution limit in community detection

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

PROBABILITES ET STATISTIQUE I&II

données en connaissance et en actions?

Probabilités. Rappel : trois exemples. Exemple 2 : On dispose d un dé truqué. On sait que : p(1) = p(2) =1/6 ; p(3) = 1/3 p(4) = p(5) =1/12

Introduction à l approche bootstrap

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

I. Cas de l équiprobabilité

TESTS D'HYPOTHESES Etude d'un exemple

M06/5/COMSC/SP1/FRE/TZ0/XX INFORMATIQUE NIVEAU MOYEN ÉPREUVE 1. Mardi 2 mai 2006 (après-midi) 1 heure 30 minutes INSTRUCTIONS DESTINÉES AUX CANDIDATS

TSTI 2D CH X : Exemples de lois à densité 1

Baccalauréat technique de la musique et de la danse Métropole septembre 2008

Examen Médian - 1 heure 30

Annexe B : Exemples. Avis de vente aux enchères liées Système de plafonnement et d échange de droits d émission de gaz à effet de serre (GES)

LES DECIMALES DE π BERNARD EGGER

FORMULAIRE DE STATISTIQUES

Rappels sur les suites - Algorithme

FICHE UE Licence/Master Sciences, Technologies, Santé Mention Informatique

Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie

CONCEPTION ET TIRAGE DE L ÉCHANTILLON

EXCEL et base de données

DUT Techniques de commercialisation Mathématiques et statistiques appliquées

Simulation de variables aléatoires

Non-réponse et données manquantes. Sylvie Rousseau & Gilbert Saporta décembre 2011

1/24. I passer d un problème exprimé en français à la réalisation d un. I expressions arithmétiques. I structures de contrôle (tests, boucles)

16 Chapitre 16. Autour des générateurs pseudoaléatoires

Corrigé des TD 1 à 5

Probabilités Loi binomiale Exercices corrigés

IN Cours 1. 1 Informatique, calculateurs. 2 Un premier programme en C

Sommaire. BilanStat manuel de présentation et d utilisation Page 2

Moments des variables aléatoires réelles

La représentativité d un échantillon et son test par le Khi-deux Testing the representativeness of a sample

Mathématiques financières

Simulation : application au système bonus-malus en responsabilité civile automobile

Cours d initiation à la programmation en C++ Johann Cuenin

TABLE DES MATIERES. C Exercices complémentaires 42

= constante et cette constante est a.

Current challenges for Audit Authorities and Groups of Auditors in ETC and IPA programmes and perspectives for the future

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Estimation et tests statistiques, TD 5. Solutions

BASE CONCEPTUELLE POUR L ANALYSE DES INCERTITUDES

Représentation d un entier en base b

Benny Creppy Claudia Senardière

Statistique Descriptive Élémentaire

Fiche qualité relative à l enquête Santé et Itinéraire Professionnel 2010 (SIP) Carte d identité de l enquête

Exercices sur le chapitre «Probabilités»

Santé environnement. Description du budget espace-temps et estimation de l exposition de la population française dans son logement

Cours de méthodes de scoring

ÉPREUVE COMMUNE DE TIPE Partie D

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

La simulation probabiliste avec Excel

4D v11 SQL Release 5 (11.5) ADDENDUM

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

MÉTHODE DE MONTE CARLO.

Exercices - Polynômes : corrigé. Opérations sur les polynômes

INITIATION AUX METHODES DE SONDAGE

Introduction à l'actuariat

CMI ECONOMIE, FINANCE QUANTITATIVE ET STATISTIQUES - PARCOURS FORMATION EN APPRENTISSAGE

Représentation des Nombres

Programmes des classes préparatoires aux Grandes Ecoles

Table des matières. Réclamation Guide d apprentissage I. I. Configuration d un dossier de réclamation... 2 A. Assignation d un plan...

1 Complément sur la projection du nuage des individus

EP A1 (19) (11) EP A1 (12) DEMANDE DE BREVET EUROPEEN. (43) Date de publication: Bulletin 2012/50

I. Introduction aux fonctions : les fonctions standards

ACT3284 Modèles en assurance IARD Examen Final - 14 décembre 2011

Probabilités sur un univers fini

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction.

Le théorème de Perron-Frobenius, les chaines de Markov et un célèbre moteur de recherche

Sur certaines séries entières particulières

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Exercices du Cours de la programmation linéaire donné par le Dr. Ali DERBALA

Chapitre 3 : INFERENCE

Exercices supplémentaires sur l introduction générale à la notion de probabilité

Probabilités. C. Charignon. I Cours 3

Exercice autour de densité, fonction de répatition, espérance et variance de variables quelconques.

Précision d un résultat et calculs d incertitudes

Examen d informatique première session 2004

Allegroupe. Système de gestion des paiements préautorisés

Probabilités conditionnelles Exercices corrigés

TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION

Chapitre VI - Méthodes de factorisation

REGLEMENT DU JEU «GRAND JEU DES VACANCES AOUT 2015»

Feuille d exercices 2 : Espaces probabilisés

UEO11 COURS/TD 1. nombres entiers et réels codés en mémoire centrale. Caractères alphabétiques et caractères spéciaux.

Transcription:

ALGORITHMES DE TIRAGE Utilisent des nombres aléatoires uniformément répartis entre 0 et 1 Qualités souhaitées: Sans remise Séquentiel Rapide Respecte les probabilités d inclusion De taille fixe Utilisable si N est inconnu Etc. 1

Nombres au hasard Procédés physiques Loteries, décimales de π,, des logarithmes Procédés arithmétiques Milieu du carré de Von Neumann (1946) Méthode multiplicative congruentielle de Lehmer (1948) x i+1 =ax i modulo m u i =x i /m Choix classique: m=2 31-11 a= 16807 2

Plans à probabilités égales sans remise Tirage de Bernoulli: on tire N nombres aléatoires. L unité i est retenue si U i <π. Plan de taille aléatoire Tri aléatoire : on garde les n premiers Sélection-rejet si U 1 <n/n on prend l unité 1. Puis n=n-1 1 et N=N-1. On sélectionne l unité 2 si U 2 <n-1/n 1/N-1 Si U 1 >n/n, on passe à l unité 2 avec N=N-1. On sélectionne l unité 2 si U 2 <n/n-1 1 etc. Pas aléatoires Tirer U et trouver s tel que C U 1 C n N s 1 n N sélectionner l unité s+1, faire N=N-s-1 1 et n=n-1 1 etc. Tirage systématique 3

Probabilités inégales sans remise Infinité de plans de sondage pour des π i fixés Plus de 50 méthodes de tirage! Aucune ne satisfait tous les critères. Quelques techniques simples: Tirage avec remise et conservation des unités distinctes mais taille non fixe Rejet de l échantillon si il y a des doublons mais proba d inclusion non proportionnelles aux x i 4

Tirage successif sans remise: On recalcule les probas d inclusion après tirage de ' π i chaque individu. Si j est tiré: π i Ne respecte pas les probas d inclusion d ordre 1 Tirage poissonnien: sélectionner i si U i <π i π ij = π i π j variance simple Mais taille non fixe = 1 π j 5

Tirage poissonnien (S.Rousseau, 2004) 6

Tirage systématique à probabilités inégales On cumule pour tous les individus les probabilités d'inclusion: V k = π 1 + π 2 +...+ π k On génére une seule réalisation u de la loi U[0,1[ On sélectionne k tel que V k-1 u < V k puis i tel que V i-1 u + 1 < V i puis j tel que V j-1 u + 2 < V j etc... on obtient in fine n individus

CNAM - Chaire de Statistique appliquée Statistique B8 : enquêtes et sondages (code 18323) Année universitaire 2003-2004 Examen 1ère session 20 février 2004 Tous documents et machines autorisés. Les exercices sont indépendants et peuvent être résolus dans n importe quel ordre. Exercice 1 On désire estimer la production d olives Y dans une certaine zone méditerranéenne. La zone est découpée en 8 secteurs géographiques dont on connaît la superficie cultivée X en hectares. On décide de tirer un échantillon de 3 secteurs à probabilités inégales proportionnellement à la superficie. 1. Quelle justification donner à ce mode de tirage? 2. En utilisant un tirage systématique sans modifier l ordre du fichier, quelles sont les probabilités d inclusion d ordre 1? 3. Donner l échantillon trouvé en partant de la réalisation 0.3254 d une variable aléatoire uniforme. 4. Calculer la matrice des probabilités d inclusion d ordre 2, (on pourra se contenter de la première ligne : π 12,.., π 18 ). Commentez. 5. Que se passerait-il si on modifiait l ordre du fichier, par exemple en le triant par valeurs décroissantes de X? secteur 1 2 3 4 5 6 7 8 X 50 200 60 50 35 10 80 15

Tirage systématique Simplicité Inconvénients: certaines probabilités d inclusion d ordre 2 peuvent être nulles Dépend de l ordre du fichier Tri aléatoire avant tirage? 8

2. Méthode de Sunter (généralisation de la méthode de sélectionrejet, 1977, 1986) au départ : o k = 1 : o j = 0 : o z = 0 : nombre d'unités de la population déjà examinées nombre d'unités de la population déjà sélectionnées cumul des probabilités d'inclusion z k = V k-1 = 1 + 2 +...+ k-1 Puis tant que j < n alors : o on génére u selon U[0,1[ o si u < k (n-j) / (n-z) alors : - sélectionner k - j = j + 1 o k = k + 1 o z = z + k Exemple : k x k k V k u k j (n - j) / (n - V k-1 ) k I k 1 10 0,8 0,8 0,375 0 0,8 1 2 10 0,8 1,6 0,624 1 0,75 1 3 8 0,64 2,24 0,045 2 0,533333333 1 4 6 0,48 2,72 0,517 3 0,272727273 0 5 6 0,48 3,2 0,632 3 0,375 0 6 4 0,32 3,52 0,246 3 0,4 1 7 2 0,16 3,68 0,927 4 0 0 8 2 0,16 3,84 0,325 4 0 0 9 1 0,08 3,92 0,645 4 0 0 10 1 0,08 4 0,178 4 0 0 Total 50 4 4 Avantages : une seule lecture de fichier suffit. Inconvénient : il est possible que k (n-j) / (n-z) dépasse 1 : ce cas est rare mais il amène à retenir n-1 unités et non n. Nombres aléatoires et algorithmes de tirage - Module B8-CNAM 16 05/11/2004 - S.Rousseau

C. L ECHANTILLONNAGE AVEC SAS 1. Procédure SURVEYSELECT Elle sélectionne un échantillon dans une base de sondage donnée selon un plan spécifié, simple ou complexe : sondage aléatoire simple sans remise ou avec remise sondage avec probabilités proportionnelles à la taille sans remise ou avec remise sondage systématique à probabilités inégales ou égales sondage stratifié avec des tirages par strates selon les méthodes décrites cidessus les plans par grappes et à plusieurs degrés ne sont pas directement intégrés dans la procédure : pour échantillonner de la sorte, on pourra utiliser la procédure à chaque étape de tirage avec l une des méthodes précédentes. 2. Procédure SURVEYMEANS Elle estime des totaux et/ou des moyennes dans une population à partir des données échantillonnées. Elle estime également la variance des estimateurs et fournit des intervalles de confiance ainsi que d'autres statistiques descriptives. Elle prend en compte partiellement le plan de sondage avec lequel l échantillon est tiré : quand l échantillon est stratifié, elle additionne les estimateurs de variance par strate pour calculer l'estimateur de variance totale. par contre, elle ne calcule que la variance inter-up dans les tirages à plusieurs degrés, la variance intra-up doit donc être estimée par une programmation spécifique dans le cas de tirages à probabilités inégales, elle calcule l estimation de la variance en supposant le tirage avec remise. Nombres aléatoires et algorithmes de tirage - Module B8-CNAM 18 05/11/2004 - S.Rousseau

3. Le principe d un tirage équilibré et la macro SAS %CUBE Un échantillon est dit équilibré sur une ou plusieurs variables disponibles dans la base de sondage, lorsque pour chacune d entre elles, l estimateur de Horvitz- Thompson coïncide exactement avec le vrai total issu de la base de sondage. Un échantillon S équilibré sur la variable de contrôle x respecte donc la contrainte suivante : où : k S N X k X k ie Xˆ HT X k k 1 - k est un individu quelconque de la base de sondage, k=1 à N, - k désigne sa probabilité d être sélectionné dans S - X k la valeur qui lui est associée pour x. - X est le vrai total (inconnu) de la variable x. - Xˆ HT est l estimateur d Horvitz-Thompson de ce total Exemples Un échantillon équilibré sur la variable constante égale à 1 restitue exactement la taille N de la population Equilibrer sur la variable des probabilités d inclusion permet d obtenir un échantillon de taille fixe Tirage probabiliste respectant des quotas La macro %CUBE, développée à l INSEE en SAS8, permet de sélectionner des échantillons équilibrés. Elle a notamment été utilisée pour désigner les groupes de rotation, de communes ou d immeubles, du nouveau recensement Elle est gratuitement disponible à l adresse : http://www.insee.fr/fr/nom_def_met/outils_stat/macro.htm. Nombres aléatoires et algorithmes de tirage - Module B8-CNAM 19 05/11/2004 - S.Rousseau