Utilisation des procédures SAS dans l enseignement des sondages



Documents pareils
Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

Théorie des sondages : cours 5

Approche modèle pour l estimation en présence de non-réponse non-ignorable en sondage

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction.

STA108 Enquêtes et sondages. Sondages àplusieurs degrés et par grappes

Chapitre 3 : INFERENCE

La nouvelle planification de l échantillonnage

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Principe de symétrisation pour la construction d un test adaptatif

Modèle de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes

SAS ENTERPRISE MINER POUR L'ACTUAIRE

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

Gestion obligataire passive

Évaluation de la régression bornée

Exemple PLS avec SAS

Faut-il pondérer? ...Ou l'éternelle question de l'économètre confronté à un problème de sondage. Laurent Davezies et Xavier D'Haultf uille.

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

Économétrie, causalité et analyse des politiques

Introduction à l approche bootstrap

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Raisonnement probabiliste

Tests statistiques et régressions logistiques sous R, avec prise en compte des plans d échantillonnage complexes

d évaluation Objectifs Processus d élaboration

TABLE DES MATIERES. C Exercices complémentaires 42

Echantillonnage Non uniforme

Etude d un cas industriel : Optimisation de la modélisation de paramètre de production

Article. Peut-on établir des statistiques officielles à partir d enquêtes en ligne reposant sur le principe de l autosélection? par Jelke Bethlehem

Logiciel XLSTAT version rue Damrémont PARIS

Le modèle de régression linéaire

HIVER 2004 MÉTHODOLOGIE DE LA RECHERCHE EN MARKETING MRK

Projet de Traitement du Signal Segmentation d images SAR

Données longitudinales et modèles de survie

INTRODUCTION AU DATA MINING

INITIATION AU LOGICIEL SAS

Exercices M1 SES Ana Fermin ( fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

Annexe commune aux séries ES, L et S : boîtes et quantiles

La classification automatique de données quantitatives

Probabilités conditionnelles Loi binomiale

Etude des propriétés empiriques du lasso par simulations

Évaluations aléatoires : Comment tirer au sort?

CONSEILS POUR LA REDACTION DU RAPPORT DE RECHERCHE. Information importante : Ces conseils ne sont pas exhaustifs!

4. Résultats et discussion

Définition 0,752 = 0,7 + 0,05 + 0,002 SYSTÈMES DE NUMÉRATION POSITIONNELS =

CONCEPTION ET TIRAGE DE L ÉCHANTILLON

Optimisation, traitement d image et éclipse de Soleil

Christophe SANNIER

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

La représentativité d un échantillon et son test par le Khi-deux Testing the representativeness of a sample

PROGRAMME (Susceptible de modifications)

Chapitre 3. Les distributions à deux variables

Les conducteurs automobiles évaluent-ils correctement leur risque de commettre un accident?

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

MESURE ET PRECISION. Il est clair que si le voltmètre mesure bien la tension U aux bornes de R, l ampèremètre, lui, mesure. R mes. mes. .

FOAD COURS D ECONOMETRIE 1 CHAPITRE 2 : Hétéroscédasicité des erreurs. 23 mars 2012.

La place de SAS dans l'informatique décisionnelle

FOTO - L OMNIBUS MENSUEL DE CROP LE NOUVEAU CROP-EXPRESS

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

Modélisation et simulation

Value at Risk. CNAM GFN 206 Gestion d actifs et des risques. Grégory Taillard. 27 février & 13 mars 20061

LE RÔLE DE LA STATISTIQUE DANS UN PROCESSUS DE PRISE DE DÉCISION

Principe d un test statistique

Statistique Descriptive Élémentaire

Mémoire d actuariat - promotion complexité et limites du modèle actuariel, le rôle majeur des comportements humains.

Comment évaluer une banque?

EVALUATION DE LA QUALITE DES SONDAGES EN LIGNE : CAS D UN SONDAGE D OPINION AU BURKINA FASO

Modélisation géostatistique des débits le long des cours d eau.

données en connaissance et en actions?

1 Imputation par la moyenne

Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

MODÈLE CROP DE CALIBRATION DES PANELS WEB

Bulletin de service Bureaux d agents, de courtiers en immeubles et d évaluateurs de biens immobiliersetdes autres activités liées à l immobilier

Analyse de la variance Comparaison de plusieurs moyennes

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Le niveau de revenus des ménages est associé à la couverture vaccinale par le vaccin pneumocoque conjugué chez les enfants d'ile-de-france

Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services

Analyse statistique de données qualitatives et quantitatives en sciences sociales : TP RÉGRESSION LOGISTIQUE (MODÈLES CHAPITRE 1)

Analyse discriminante et régression logistique: application au cas de l innovation pour les entreprises du Canton du Tessin

Encryptions, compression et partitionnement des données

TRAITEMENT DES DONNEES MANQUANTES AU MOYEN DE L ALGORITHME DE KOHONEN

NON-LINEARITE ET RESEAUX NEURONAUX

UNIVERSITÉ DE MONTRÉAL DÉPARTEMENT DE SOCIOLOGIE ************* Cours de niveau gradué en méthodes quantitatives *************

Etude comparative de différents motifs utilisés pour le lancé de rayon

Probabilités Loi binomiale Exercices corrigés

TP1 Méthodes de Monte Carlo et techniques de réduction de variance, application au pricing d options

Arbres binaires de décision

En 2014, comment mener à bien une enquête aléatoire en population générale par téléphone?

Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit

Classe de première L

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Production des Services d Assurance non-vie selon le SCN 2008

Analyse et interprétation des données

Non-réponse et données manquantes. Sylvie Rousseau & Gilbert Saporta décembre 2011

INF6304 Interfaces Intelligentes

Stockage de chaleur solaire par sorption : Analyse et contrôle du système à partir de sa simulation dynamique

Transcription:

Utilisation des procédures SAS dans l enseignement des sondages Yves Aragon Anne Ruiz-Gazen e-mail: aragon@cict.fr, ruiz@cict.fr 1. Introduction Depuis la version 8, SAS [6] propose trois procédures pour les questions d estimation en sondages. Il s agit des proc surveyselect pour la sélection d échantillons, surveymeans pour l estimation de moyennes, totaux et ratios et surveyreg pour l estimation des coefficients d une régression. Les procédure SAS sont relativement faciles d utilisation. Elles permettent de compléter des exercices de travaux dirigés et, si on dispose d une population exhaustive, d expérimenter des propriétés théoriques par simulation. La proc surveyselect offre de nombreuses possibilités de tirages aléatoires tandis que surveymeans et surveyreg tiennent compte de plans de sondages complexes dans les estimations. Nous présentons ces différentes procédures et illustrons leur usage sur la population des 554 communes de moins de 10000 habitants de la Haute-Garonne pour lesquelles nous disposons de données issues du recensement de 1999. Nous nous intéressons à l estimation du nombre total de logements vacants. L ensemble des communes est partitionné en 32 Bassins de vie quotidienne (BVQ). La variable nombre de logements est considérée comme une information auxiliaire. Les communes sont réparties en 4 strates d après la variable auxiliaire. L information exhaustive est connue mais, dans un but pédagogique, nous échantillonnons suivant différentes méthodes. Ce choix de données est inspiré de l exemple des municipalités de Suède de [5]. 2. Tirage d échantillons La proc surveyselect offre un ensemble d algorithmes de tirages d échantillons, notamment des tirages avec probabilités proportionnelles à la taille, avec ou sans remise (voir [2] pour une description synthétique et complète des possibilités). 2.1. Exemple de plan àundegré Les données sont dans la table COMpop et les strates sont définies par la variable stratloge. Considérons la sélection d échantillons décrite par la syntaxe suivante : proc surveyselect data=compop method=srs n=(5 10 21 34) seed=57926 out=logestsi rep=1000; strata stratloge; Le plan de sondage est un plan stratifié simple. La méthode de tirage est donnée par srs (simple random sampling) et les tailles d échantillon dans chaque strate sont données par n. La graine du générateur de nombres aléatoires a été fixée (seed=...) et l option rep=1000 permet de tirer 1000 échantillons, ce qui est utile pour faire des comparaisons empiriques de méthodes (voir la section 5). SAS fournit en sortie les échantillons et les probabilités d inclusion du premier ordre, les poids (SamplingWeight), inverses des probabilités d inclusion, utilisés pour l étape d estimation et, pour certains plans, les probabilités d inclusion du second ordre (option JTPROBS). Yves Aragon et Anne Ruiz-Gazen: GREMAQ, UMR CNRS C5604, Université de Toulouse 1, 21 allée de Brienne, 31000 Toulouse, France et Laboratoire de Statistique et Probabilités, UMR CNRS C5583, Université Paul Sabatier, Toulouse.

2 Yves Aragon, Anne Ruiz-Gazen 2.2. Exemple de plan àundegré avec remise et probabilités proportionnelles à la taille On utilise l information auxiliaire nombre de logements (loge) pour tirer avec remise un échantillon de 70 communes. proc surveyselect data=compop method=pps_wr n=70 seed=98556 out=logepps rep=1000 outhits ; size loge; Dans un plan avec remise, SAS crée une variable (NumberHits) indiquant le nombre d apparitions de chaque observation. Par l option outhits, chaque unité figure dans le fichier de sortie autant de fois qu elle a été tirée. Il est préférable d utiliser cette option en vue des étapes d estimation suivantes. 2.3. Exemple de plan à deux degrés On dispose de la table BVQpop des identifiants des Æ Á ¾ BVQ. On veut tirer un échantillon de communes présentant une dispersion spatiale. Pour ce faire on met en œuvre un plan à deux degrés. Degré 1. On tire un échantillon Á de Ò Á µ BVQ suivant un plan SI, taux de sondage : Á Ò Á Æ Á. proc surveyselect data= BVQpop sampsize= 6 seed= 25123 stats out=bvqsel rep=500; La table en sortie contient notamment les variables replicate, numéro d échantillon, et BVQ_N, identifiant des BVQ tirés dans chaque échantillon. On forme ensuite dans une étape data le fichier des communes des BVQ échantillonnés : comsel1 où les poids du sondage de ce premier degré sont renommés w1. Degré 2. Dans chaque BVQ ¾ Á,deÆ communes, on tire un échantillon de Ò µ communes suivant un plan SI, taux de sondage : Ò Æ. proc surveyselect data= comsel1 sampsize= 3 seed= 55268 out=comsel2 stats; strata BVQ_N; by replicate; On renomme w2 les poids de sondage de ce degré. Dans le cas d un plan à deux degrés, il est important que l utilisateur stocke par une étape data le produit des poids des deux degrés w12 = w1 * w2 en vue de l étape d estimation. 3. Estimation de totaux, moyennes et ratios Les proc surveymeans et surveyreg permettent de calculer des estimateurs de totaux, moyennes, ratios, et coefficients de régressions linéaires, en tenant compte du plan d échantillonnage. Les poids d observation sont pris en compte par la commande weight (qui existe aussi dans les proc means et reg) tandis que la structure du plan de sondage est donnée par les commandes strata et cluster. Une moyenne est considérée comme un ratio et elle est estimée à l aide de l estimateur de Hajek, quotient des estimateurs du total et de la taille de l échantillon. 3.1. Exemple d utilisation de la proc surveymeans On tire 1000 échantillons de 70 communes selon un plan SI et on obtient les 1000 estimations du nombre total de logements vacants (variable logevac) stockées dans le fichier resultat par la syntaxe suivante : proc surveyselect data=compop method=srs n=70 stats seed=47279 out=logsi rep=1000;

Utilisation des procédures SAS dans l enseignement des sondages 3 proc surveymeans data=logsi total=554 sum; var logevac; by Replicate; weight Samplingweight; ods select none; ods output Statistics = resultat; ods select all; C est l Output Delivery System (ODS) qui gère les sorties des procédures surveymeans et surveyreg. La commande ods output Statistics = resultat; envoie ces sorties dans un fichier resultat et la commande ods select none; supprime toute impression dans la fenêtre output. 3.2. Exemples d utilisation de la proc surveyreg Cette procédure réalise essentiellement l estimation des coefficients d une régression à l aide de données obtenues par échantillonnage. Mais elle permet également des estimations par régression et par ratio de totaux ou de moyennes. Considérons l estimation par régression du nombre total de logements vacants (logevac)à l aide de l information auxiliaire nombre de logements, d après le modèle : logevac ¼ ½ loge Ù Ù ¼ ¾ µ Sachant que le nombre total de logements est 197314, l estimateur du total est : ¼ ½ ½ ½. La syntaxe suivante réalise cette estimation : proc surveyreg data=logsi total=554; model logevac = loge / Solution; by Replicate; Estimate "logevac" Intercept 554 loge 197314; ods select none; ods output Estimates = resultat; ods select all; Une estimation par ratio du nombre total de logements vacants correspond au modèle : logevac ½ loge Ù Ù ¼ ¾ loge µ Après avoir calculé la variable ratiologe = 1/loge, on estime le total par la syntaxe : proc surveyreg data=logsi total=554; model logevac = loge /Noint Solution; Weight ratiologe; by Replicate; Estimate "logevac" loge 197314; ods select none; ods output Estimates = ods select all; resultat; Des commandes strata et cluster sont également disponibles pour décrire la structure du plan. En présence de poids de sondages inégaux et d un modèle sur la variance, l utilisateur doit calculer préalablement la variable de la commande Weight. Pour l estimation par régression, SAS retient essentiellement une approche bas ée sur un modèle et non assistée par un modèle (voir les discussions de [5] et [8] sur cette distinction).

4 Yves Aragon, Anne Ruiz-Gazen 4. Estimation de variances 4.1. Principe SAS estime les variances des estimateurs de totaux, moyennes, ratios et coefficients de régression. Quand l estimateur n est pas linéaire, cas d un ratio par exemple, SAS utilise la technique de linéarisation àlafaçon de [9] (voir aussi [7] pour un exposé récent). Par les commandes strata et cluster, SAS permet de prendre en compte les plans stratifiés et à plusieurs degrés. Pour un plan à plusieurs degrés, l utilisateur doit fournir le produit des poids des différents degrés mais ne peut indiquer la structure du plan que pour le premier degré. Illustrons cette limitation sur un plan SI,SI. 4.2. Exemple d estimation de variance dans un plan à deux degrés Dans un plan à plusieurs degrés, la variance de l estimateur du total est la somme des variances correspondant aux différents degrés (voir [5] p. 137). Considérons en particulier un plan à deux degrés SI,SI. L estimation sans biais de la variance du total s écrit : var ص avec Æ ¾ ½ Á Ë ¾ et Æ Á Á Ø Ò Á Á Ò Á Á Æ ¾ ½ Ë ¾ Ý Ò Attention. (resp. ) n est pas un estimateur sans biais de la variance du premier (resp. deuxième) degré etle terme surestime la variance du premier degré (voir par exemple [5] p. 137). Sur l exemple du plan à deux degrés de la section 2.3, deux solutions s offrent à nous pour estimer la variance de l estimateur par les valeurs dilatées du nombre total de logements. (1) Suivre les suggestions de SAS c est-à-dire : préciser le plan du premier degré par la commande cluster bvq_n;, utiliser les poids produits des deux degrés (w12 = w1 * w2), préciser la correction de population finie (fpc1 = Á ¾ ¼½) par l option rate=fpc1. On obtient,, estimateur biaisé de la variance comme on l a indiqué ci-dessus. (2) Calculer l estimateur sans biais var ص en calculant aussi. Au facteur Æ Á Ò Á près, est la variance d un total dans un plan stratifié (strata BVQ_n). 5. Comparaisons empiriques Revenons à l estimation du nombre de logements vacants. Les tableaux ci-dessous permettent de comparer différents plans de sondage et différentes méthodes d estimation. Pour chaque plan, on a réalisé 1000 tirages et on donne les estimations moyennes du total et les coefficients de variation des estimateurs calculés à partir des variances empiriques. Le nombre total de logements vacants fourni par le recensement est 10768. 5.1. Comparaison de plans d échantillonnage Nous avons considéré les plans suivants : SI : plan simple de taille Ò ¼communes, STSI taille : plan simple stratifié avec affectation proportionnelle à la taille en nombre de communes, STSI loge : plan simple stratifié avec affectation proportionnelle au nombre de logements, pps : plan avec remise et probabilités proportionnelles au nombre de logements, grappe : plan simple de taille Ò BVQ et tirage des 4 grappes de communes associées.

Utilisation des procédures SAS dans l enseignement des sondages 5 On a fixé les tailles d échantillons à 4 BVQ pour le plan en grappes et à 70 communes pour les autres plans car 4 BVQ correspondent en moyenne à 70 communes. Plan Estimation total Coefficient de variation SI 10668 18.84% STSI taille 10776 13.35% STSI loge 10745 6.97% pps 10779 7.45% grappe 10758 31.96% Tableau 1 Le tableau 1 illustre que, comparativement à un plan SI, un plan stratifié permet d améliorer la précision tandis qu un plan en grappes conduit généralement à une perte de précision. Les meilleurs résultats sont obtenus en prenant en compte l information auxiliaire, nombre de logements, que ce soit par échantillonnage stratifié ou par échantillonnage avec probabilité proportionnelle à la taille. 5.2. Comparaison des estimateurs par valeurs dilatées, par ratio et par régression pour un plan SI Le tableau 2 ci-dessous, obtenu pour un plan SI de taille 70, montre l intérêt de prendre en compte la variable auxiliaire nombre de logements dans l estimation. Méthode d estimation Estimation total Coefficient de variation par valeurs dilatées 10668 18.84% par ratio 10854 11.25% par régression 10828 11.72% Tableau 2 5.3. Comparaison des estimations de variance dans le plan à deux degrés 0 50 100 150 200 0.7 0.8 0.9 1.0 Fig. 1. Histogramme du rapport estimation suggérée par SAS/estimation sans biais. La figure ci-dessus donne l histogramme des rapports A/(A+B) définis section 4.2 ; le numérateur correspond à l estimation de variance suggérée par SAS tandis que le dénominateur donne l estimation sans biais. On observe que la grande majorité des valeurs sont supérieures à 80%, ce qui justifie pour cet exemple l utilisation de la formule simplifiée suggérée par SAS.

6 Yves Aragon, Anne Ruiz-Gazen: Utilisation des procédures SAS dans l enseignement des sondages 6. Conclusion La procédure surveyselect offre un choix important d algorithmes de tirage avec des temps d exécution très satisfaisants. Les procédures surveymeans, surveyreg et, dans la version 9, surveylogistic (voir [1]) qui prennent en compte la structure de plans de sondage relativement complexes, constituent des avancées significatives par rapport aux procédures classiques means, reg et logistic. L accès aux techniques de sondage s en trouve facilité, que ce soit pour un enseignement ou dans une entreprise ne disposant pas d un logiciel spécifique. Notons enfin que SAS propose aussi deux procédures pour le traitement des valeurs manquantes : les proc mi et mianalyze. References 1. An, R.P. (2002). Performing Logistic Regression on Survey Data with the New SURVEYLOGISTIC Procedure, SUGI 27 Paper 258-27. 2. An, R.P., Watts D. and Stocks M. (1999). SAS Procedures for Analysis of Sample Survey Data, The Survey Statistician, No. 41, http://www.cbs.nl/isi/survey-41-2.htm, part 2. 3. Berglund, P.A. (2002). Analysis of Complex Sample Survey Data Using the SURVEYMEANS and SURVEYREG Procedures and Macro Coding, SUGI 27 Paper 263-27. 4. Gossett, J.M., Simpson P., Parker J.G. and Simon W.L. (2002). How Complex Can Complex Survey Analysis Be with SAS?, SUGI 27 Paper 266-27. 5. Särndal, C.E., Swensson B. and Wretman J. (1992). Model Assisted Survey Sampling, Springer-Verlag, New-York, 694 pages. 6. SAS/STAT (2000). User s Guide, Version 8, SAS Institute, Cary NC. 7. Tillé Y. (2001). Théorie des sondages - Echantillonnage et estimation en populations finies, Dunod, Paris, 284 pages. 8. Valliant R., Dorfman A.H. and Royall R.M. (2000) Finite Population Sampling and Inference: A Prediction Approach, Wiley, New-York, 536 pages. 9. Woodruff R.S. (1971). A Simple Method for Approximating the Variance of a Complicated Estimate, Journal of the American Statistical Association, Vol. 66, pp. 411-414.