Utilisation des procédures SAS dans l enseignement des sondages

Utilisation des procédures SAS dans l enseignement des sondages Yves Aragon Anne Ruiz-Gazen e-mail: aragon@cict.fr, ruiz@cict.fr 1. Introduction Depuis la version 8, SAS [6] propose trois procédures pour les questions d estimation en sondages. Il s agit des proc surveyselect pour la sélection d échantillons, surveymeans pour l estimation de moyennes, totaux et ratios et surveyreg pour l estimation des coefficients d une régression. Les procédure SAS sont relativement faciles d utilisation. Elles permettent de compléter des exercices de travaux dirigés et, si on dispose d une population exhaustive, d expérimenter des propriétés théoriques par simulation. La proc surveyselect offre de nombreuses possibilités de tirages aléatoires tandis que surveymeans et surveyreg tiennent compte de plans de sondages complexes dans les estimations. Nous présentons ces différentes procédures et illustrons leur usage sur la population des 554 communes de moins de 10000 habitants de la Haute-Garonne pour lesquelles nous disposons de données issues du recensement de 1999. Nous nous intéressons à l estimation du nombre total de logements vacants. L ensemble des communes est partitionné en 32 Bassins de vie quotidienne (BVQ). La variable nombre de logements est considérée comme une information auxiliaire. Les communes sont réparties en 4 strates d après la variable auxiliaire. L information exhaustive est connue mais, dans un but pédagogique, nous échantillonnons suivant différentes méthodes. Ce choix de données est inspiré de l exemple des municipalités de Suède de [5]. 2. Tirage d échantillons La proc surveyselect offre un ensemble d algorithmes de tirages d échantillons, notamment des tirages avec probabilités proportionnelles à la taille, avec ou sans remise (voir [2] pour une description synthétique et complète des possibilités). 2.1. Exemple de plan àundegré Les données sont dans la table COMpop et les strates sont définies par la variable stratloge. Considérons la sélection d échantillons décrite par la syntaxe suivante : proc surveyselect data=compop method=srs n=(5 10 21 34) seed=57926 out=logestsi rep=1000; strata stratloge; Le plan de sondage est un plan stratifié simple. La méthode de tirage est donnée par srs (simple random sampling) et les tailles d échantillon dans chaque strate sont données par n. La graine du générateur de nombres aléatoires a été fixée (seed=...) et l option rep=1000 permet de tirer 1000 échantillons, ce qui est utile pour faire des comparaisons empiriques de méthodes (voir la section 5). SAS fournit en sortie les échantillons et les probabilités d inclusion du premier ordre, les poids (SamplingWeight), inverses des probabilités d inclusion, utilisés pour l étape d estimation et, pour certains plans, les probabilités d inclusion du second ordre (option JTPROBS). Yves Aragon et Anne Ruiz-Gazen: GREMAQ, UMR CNRS C5604, Université de Toulouse 1, 21 allée de Brienne, 31000 Toulouse, France et Laboratoire de Statistique et Probabilités, UMR CNRS C5583, Université Paul Sabatier, Toulouse.

2 Yves Aragon, Anne Ruiz-Gazen 2.2. Exemple de plan àundegré avec remise et probabilités proportionnelles à la taille On utilise l information auxiliaire nombre de logements (loge) pour tirer avec remise un échantillon de 70 communes. proc surveyselect data=compop method=pps_wr n=70 seed=98556 out=logepps rep=1000 outhits ; size loge; Dans un plan avec remise, SAS crée une variable (NumberHits) indiquant le nombre d apparitions de chaque observation. Par l option outhits, chaque unité figure dans le fichier de sortie autant de fois qu elle a été tirée. Il est préférable d utiliser cette option en vue des étapes d estimation suivantes. 2.3. Exemple de plan à deux degrés On dispose de la table BVQpop des identifiants des Æ Á ¾ BVQ. On veut tirer un échantillon de communes présentant une dispersion spatiale. Pour ce faire on met en œuvre un plan à deux degrés. Degré 1. On tire un échantillon Á de Ò Á µ BVQ suivant un plan SI, taux de sondage : Á Ò Á Æ Á. proc surveyselect data= BVQpop sampsize= 6 seed= 25123 stats out=bvqsel rep=500; La table en sortie contient notamment les variables replicate, numéro d échantillon, et BVQ_N, identifiant des BVQ tirés dans chaque échantillon. On forme ensuite dans une étape data le fichier des communes des BVQ échantillonnés : comsel1 où les poids du sondage de ce premier degré sont renommés w1. Degré 2. Dans chaque BVQ ¾ Á,deÆ communes, on tire un échantillon de Ò µ communes suivant un plan SI, taux de sondage : Ò Æ. proc surveyselect data= comsel1 sampsize= 3 seed= 55268 out=comsel2 stats; strata BVQ_N; by replicate; On renomme w2 les poids de sondage de ce degré. Dans le cas d un plan à deux degrés, il est important que l utilisateur stocke par une étape data le produit des poids des deux degrés w12 = w1 * w2 en vue de l étape d estimation. 3. Estimation de totaux, moyennes et ratios Les proc surveymeans et surveyreg permettent de calculer des estimateurs de totaux, moyennes, ratios, et coefficients de régressions linéaires, en tenant compte du plan d échantillonnage. Les poids d observation sont pris en compte par la commande weight (qui existe aussi dans les proc means et reg) tandis que la structure du plan de sondage est donnée par les commandes strata et cluster. Une moyenne est considérée comme un ratio et elle est estimée à l aide de l estimateur de Hajek, quotient des estimateurs du total et de la taille de l échantillon. 3.1. Exemple d utilisation de la proc surveymeans On tire 1000 échantillons de 70 communes selon un plan SI et on obtient les 1000 estimations du nombre total de logements vacants (variable logevac) stockées dans le fichier resultat par la syntaxe suivante : proc surveyselect data=compop method=srs n=70 stats seed=47279 out=logsi rep=1000;

Utilisation des procédures SAS dans l enseignement des sondages 3 proc surveymeans data=logsi total=554 sum; var logevac; by Replicate; weight Samplingweight; ods select none; ods output Statistics = resultat; ods select all; C est l Output Delivery System (ODS) qui gère les sorties des procédures surveymeans et surveyreg. La commande ods output Statistics = resultat; envoie ces sorties dans un fichier resultat et la commande ods select none; supprime toute impression dans la fenêtre output. 3.2. Exemples d utilisation de la proc surveyreg Cette procédure réalise essentiellement l estimation des coefficients d une régression à l aide de données obtenues par échantillonnage. Mais elle permet également des estimations par régression et par ratio de totaux ou de moyennes. Considérons l estimation par régression du nombre total de logements vacants (logevac)à l aide de l information auxiliaire nombre de logements, d après le modèle : logevac ¼ ½ loge Ù Ù ¼ ¾ µ Sachant que le nombre total de logements est 197314, l estimateur du total est : ¼ ½ ½ ½. La syntaxe suivante réalise cette estimation : proc surveyreg data=logsi total=554; model logevac = loge / Solution; by Replicate; Estimate "logevac" Intercept 554 loge 197314; ods select none; ods output Estimates = resultat; ods select all; Une estimation par ratio du nombre total de logements vacants correspond au modèle : logevac ½ loge Ù Ù ¼ ¾ loge µ Après avoir calculé la variable ratiologe = 1/loge, on estime le total par la syntaxe : proc surveyreg data=logsi total=554; model logevac = loge /Noint Solution; Weight ratiologe; by Replicate; Estimate "logevac" loge 197314; ods select none; ods output Estimates = ods select all; resultat; Des commandes strata et cluster sont également disponibles pour décrire la structure du plan. En présence de poids de sondages inégaux et d un modèle sur la variance, l utilisateur doit calculer préalablement la variable de la commande Weight. Pour l estimation par régression, SAS retient essentiellement une approche bas ée sur un modèle et non assistée par un modèle (voir les discussions de [5] et [8] sur cette distinction).

4 Yves Aragon, Anne Ruiz-Gazen 4. Estimation de variances 4.1. Principe SAS estime les variances des estimateurs de totaux, moyennes, ratios et coefficients de régression. Quand l estimateur n est pas linéaire, cas d un ratio par exemple, SAS utilise la technique de linéarisation àlafaçon de [9] (voir aussi [7] pour un exposé récent). Par les commandes strata et cluster, SAS permet de prendre en compte les plans stratifiés et à plusieurs degrés. Pour un plan à plusieurs degrés, l utilisateur doit fournir le produit des poids des différents degrés mais ne peut indiquer la structure du plan que pour le premier degré. Illustrons cette limitation sur un plan SI,SI. 4.2. Exemple d estimation de variance dans un plan à deux degrés Dans un plan à plusieurs degrés, la variance de l estimateur du total est la somme des variances correspondant aux différents degrés (voir [5] p. 137). Considérons en particulier un plan à deux degrés SI,SI. L estimation sans biais de la variance du total s écrit : var Øµ avec Æ ¾ ½ Á Ë ¾ et Æ Á Á Ø Ò Á Á Ò Á Á Æ ¾ ½ Ë ¾ Ý Ò Attention. (resp. ) n est pas un estimateur sans biais de la variance du premier (resp. deuxième) degré etle terme surestime la variance du premier degré (voir par exemple [5] p. 137). Sur l exemple du plan à deux degrés de la section 2.3, deux solutions s offrent à nous pour estimer la variance de l estimateur par les valeurs dilatées du nombre total de logements. (1) Suivre les suggestions de SAS c est-à-dire : préciser le plan du premier degré par la commande cluster bvq_n;, utiliser les poids produits des deux degrés (w12 = w1 * w2), préciser la correction de population finie (fpc1 = Á ¾ ¼½) par l option rate=fpc1. On obtient,, estimateur biaisé de la variance comme on l a indiqué ci-dessus. (2) Calculer l estimateur sans biais var Øµ en calculant aussi. Au facteur Æ Á Ò Á près, est la variance d un total dans un plan stratifié (strata BVQ_n). 5. Comparaisons empiriques Revenons à l estimation du nombre de logements vacants. Les tableaux ci-dessous permettent de comparer différents plans de sondage et différentes méthodes d estimation. Pour chaque plan, on a réalisé 1000 tirages et on donne les estimations moyennes du total et les coefficients de variation des estimateurs calculés à partir des variances empiriques. Le nombre total de logements vacants fourni par le recensement est 10768. 5.1. Comparaison de plans d échantillonnage Nous avons considéré les plans suivants : SI : plan simple de taille Ò ¼communes, STSI taille : plan simple stratifié avec affectation proportionnelle à la taille en nombre de communes, STSI loge : plan simple stratifié avec affectation proportionnelle au nombre de logements, pps : plan avec remise et probabilités proportionnelles au nombre de logements, grappe : plan simple de taille Ò BVQ et tirage des 4 grappes de communes associées.

Utilisation des procédures SAS dans l enseignement des sondages 5 On a fixé les tailles d échantillons à 4 BVQ pour le plan en grappes et à 70 communes pour les autres plans car 4 BVQ correspondent en moyenne à 70 communes. Plan Estimation total Coefficient de variation SI 10668 18.84% STSI taille 10776 13.35% STSI loge 10745 6.97% pps 10779 7.45% grappe 10758 31.96% Tableau 1 Le tableau 1 illustre que, comparativement à un plan SI, un plan stratifié permet d améliorer la précision tandis qu un plan en grappes conduit généralement à une perte de précision. Les meilleurs résultats sont obtenus en prenant en compte l information auxiliaire, nombre de logements, que ce soit par échantillonnage stratifié ou par échantillonnage avec probabilité proportionnelle à la taille. 5.2. Comparaison des estimateurs par valeurs dilatées, par ratio et par régression pour un plan SI Le tableau 2 ci-dessous, obtenu pour un plan SI de taille 70, montre l intérêt de prendre en compte la variable auxiliaire nombre de logements dans l estimation. Méthode d estimation Estimation total Coefficient de variation par valeurs dilatées 10668 18.84% par ratio 10854 11.25% par régression 10828 11.72% Tableau 2 5.3. Comparaison des estimations de variance dans le plan à deux degrés 0 50 100 150 200 0.7 0.8 0.9 1.0 Fig. 1. Histogramme du rapport estimation suggérée par SAS/estimation sans biais. La figure ci-dessus donne l histogramme des rapports A/(A+B) définis section 4.2 ; le numérateur correspond à l estimation de variance suggérée par SAS tandis que le dénominateur donne l estimation sans biais. On observe que la grande majorité des valeurs sont supérieures à 80%, ce qui justifie pour cet exemple l utilisation de la formule simplifiée suggérée par SAS.

6 Yves Aragon, Anne Ruiz-Gazen: Utilisation des procédures SAS dans l enseignement des sondages 6. Conclusion La procédure surveyselect offre un choix important d algorithmes de tirage avec des temps d exécution très satisfaisants. Les procédures surveymeans, surveyreg et, dans la version 9, surveylogistic (voir [1]) qui prennent en compte la structure de plans de sondage relativement complexes, constituent des avancées significatives par rapport aux procédures classiques means, reg et logistic. L accès aux techniques de sondage s en trouve facilité, que ce soit pour un enseignement ou dans une entreprise ne disposant pas d un logiciel spécifique. Notons enfin que SAS propose aussi deux procédures pour le traitement des valeurs manquantes : les proc mi et mianalyze. References 1. An, R.P. (2002). Performing Logistic Regression on Survey Data with the New SURVEYLOGISTIC Procedure, SUGI 27 Paper 258-27. 2. An, R.P., Watts D. and Stocks M. (1999). SAS Procedures for Analysis of Sample Survey Data, The Survey Statistician, No. 41, http://www.cbs.nl/isi/survey-41-2.htm, part 2. 3. Berglund, P.A. (2002). Analysis of Complex Sample Survey Data Using the SURVEYMEANS and SURVEYREG Procedures and Macro Coding, SUGI 27 Paper 263-27. 4. Gossett, J.M., Simpson P., Parker J.G. and Simon W.L. (2002). How Complex Can Complex Survey Analysis Be with SAS?, SUGI 27 Paper 266-27. 5. Särndal, C.E., Swensson B. and Wretman J. (1992). Model Assisted Survey Sampling, Springer-Verlag, New-York, 694 pages. 6. SAS/STAT (2000). User s Guide, Version 8, SAS Institute, Cary NC. 7. Tillé Y. (2001). Théorie des sondages - Echantillonnage et estimation en populations finies, Dunod, Paris, 284 pages. 8. Valliant R., Dorfman A.H. and Royall R.M. (2000) Finite Population Sampling and Inference: A Prediction Approach, Wiley, New-York, 536 pages. 9. Woodruff R.S. (1971). A Simple Method for Approximating the Variance of a Complicated Estimate, Journal of the American Statistical Association, Vol. 66, pp. 411-414.