Utilisation des procédures SAS dans l enseignement des sondages
|
|
- Daniel Vivien André
- il y a 8 ans
- Total affichages :
Transcription
1 Utilisation des procédures SAS dans l enseignement des sondages Yves Aragon Anne Ruiz-Gazen aragon@cict.fr, ruiz@cict.fr 1. Introduction Depuis la version 8, SAS [6] propose trois procédures pour les questions d estimation en sondages. Il s agit des proc surveyselect pour la sélection d échantillons, surveymeans pour l estimation de moyennes, totaux et ratios et surveyreg pour l estimation des coefficients d une régression. Les procédure SAS sont relativement faciles d utilisation. Elles permettent de compléter des exercices de travaux dirigés et, si on dispose d une population exhaustive, d expérimenter des propriétés théoriques par simulation. La proc surveyselect offre de nombreuses possibilités de tirages aléatoires tandis que surveymeans et surveyreg tiennent compte de plans de sondages complexes dans les estimations. Nous présentons ces différentes procédures et illustrons leur usage sur la population des 554 communes de moins de habitants de la Haute-Garonne pour lesquelles nous disposons de données issues du recensement de Nous nous intéressons à l estimation du nombre total de logements vacants. L ensemble des communes est partitionné en 32 Bassins de vie quotidienne (BVQ). La variable nombre de logements est considérée comme une information auxiliaire. Les communes sont réparties en 4 strates d après la variable auxiliaire. L information exhaustive est connue mais, dans un but pédagogique, nous échantillonnons suivant différentes méthodes. Ce choix de données est inspiré de l exemple des municipalités de Suède de [5]. 2. Tirage d échantillons La proc surveyselect offre un ensemble d algorithmes de tirages d échantillons, notamment des tirages avec probabilités proportionnelles à la taille, avec ou sans remise (voir [2] pour une description synthétique et complète des possibilités) Exemple de plan àundegré Les données sont dans la table COMpop et les strates sont définies par la variable stratloge. Considérons la sélection d échantillons décrite par la syntaxe suivante : proc surveyselect data=compop method=srs n=( ) seed=57926 out=logestsi rep=1000; strata stratloge; Le plan de sondage est un plan stratifié simple. La méthode de tirage est donnée par srs (simple random sampling) et les tailles d échantillon dans chaque strate sont données par n. La graine du générateur de nombres aléatoires a été fixée (seed=...) et l option rep=1000 permet de tirer 1000 échantillons, ce qui est utile pour faire des comparaisons empiriques de méthodes (voir la section 5). SAS fournit en sortie les échantillons et les probabilités d inclusion du premier ordre, les poids (SamplingWeight), inverses des probabilités d inclusion, utilisés pour l étape d estimation et, pour certains plans, les probabilités d inclusion du second ordre (option JTPROBS). Yves Aragon et Anne Ruiz-Gazen: GREMAQ, UMR CNRS C5604, Université de Toulouse 1, 21 allée de Brienne, Toulouse, France et Laboratoire de Statistique et Probabilités, UMR CNRS C5583, Université Paul Sabatier, Toulouse.
2 2 Yves Aragon, Anne Ruiz-Gazen 2.2. Exemple de plan àundegré avec remise et probabilités proportionnelles à la taille On utilise l information auxiliaire nombre de logements (loge) pour tirer avec remise un échantillon de 70 communes. proc surveyselect data=compop method=pps_wr n=70 seed=98556 out=logepps rep=1000 outhits ; size loge; Dans un plan avec remise, SAS crée une variable (NumberHits) indiquant le nombre d apparitions de chaque observation. Par l option outhits, chaque unité figure dans le fichier de sortie autant de fois qu elle a été tirée. Il est préférable d utiliser cette option en vue des étapes d estimation suivantes Exemple de plan à deux degrés On dispose de la table BVQpop des identifiants des Æ Á ¾ BVQ. On veut tirer un échantillon de communes présentant une dispersion spatiale. Pour ce faire on met en œuvre un plan à deux degrés. Degré 1. On tire un échantillon Á de Ò Á µ BVQ suivant un plan SI, taux de sondage : Á Ò Á Æ Á. proc surveyselect data= BVQpop sampsize= 6 seed= stats out=bvqsel rep=500; La table en sortie contient notamment les variables replicate, numéro d échantillon, et BVQ_N, identifiant des BVQ tirés dans chaque échantillon. On forme ensuite dans une étape data le fichier des communes des BVQ échantillonnés : comsel1 où les poids du sondage de ce premier degré sont renommés w1. Degré 2. Dans chaque BVQ ¾ Á,deÆ communes, on tire un échantillon de Ò µ communes suivant un plan SI, taux de sondage : Ò Æ. proc surveyselect data= comsel1 sampsize= 3 seed= out=comsel2 stats; strata BVQ_N; by replicate; On renomme w2 les poids de sondage de ce degré. Dans le cas d un plan à deux degrés, il est important que l utilisateur stocke par une étape data le produit des poids des deux degrés w12 = w1 * w2 en vue de l étape d estimation. 3. Estimation de totaux, moyennes et ratios Les proc surveymeans et surveyreg permettent de calculer des estimateurs de totaux, moyennes, ratios, et coefficients de régressions linéaires, en tenant compte du plan d échantillonnage. Les poids d observation sont pris en compte par la commande weight (qui existe aussi dans les proc means et reg) tandis que la structure du plan de sondage est donnée par les commandes strata et cluster. Une moyenne est considérée comme un ratio et elle est estimée à l aide de l estimateur de Hajek, quotient des estimateurs du total et de la taille de l échantillon Exemple d utilisation de la proc surveymeans On tire 1000 échantillons de 70 communes selon un plan SI et on obtient les 1000 estimations du nombre total de logements vacants (variable logevac) stockées dans le fichier resultat par la syntaxe suivante : proc surveyselect data=compop method=srs n=70 stats seed=47279 out=logsi rep=1000;
3 Utilisation des procédures SAS dans l enseignement des sondages 3 proc surveymeans data=logsi total=554 sum; var logevac; by Replicate; weight Samplingweight; ods select none; ods output Statistics = resultat; ods select all; C est l Output Delivery System (ODS) qui gère les sorties des procédures surveymeans et surveyreg. La commande ods output Statistics = resultat; envoie ces sorties dans un fichier resultat et la commande ods select none; supprime toute impression dans la fenêtre output Exemples d utilisation de la proc surveyreg Cette procédure réalise essentiellement l estimation des coefficients d une régression à l aide de données obtenues par échantillonnage. Mais elle permet également des estimations par régression et par ratio de totaux ou de moyennes. Considérons l estimation par régression du nombre total de logements vacants (logevac)à l aide de l information auxiliaire nombre de logements, d après le modèle : logevac ¼ ½ loge Ù Ù ¼ ¾ µ Sachant que le nombre total de logements est , l estimateur du total est : ¼ ½ ½ ½. La syntaxe suivante réalise cette estimation : proc surveyreg data=logsi total=554; model logevac = loge / Solution; by Replicate; Estimate "logevac" Intercept 554 loge ; ods select none; ods output Estimates = resultat; ods select all; Une estimation par ratio du nombre total de logements vacants correspond au modèle : logevac ½ loge Ù Ù ¼ ¾ loge µ Après avoir calculé la variable ratiologe = 1/loge, on estime le total par la syntaxe : proc surveyreg data=logsi total=554; model logevac = loge /Noint Solution; Weight ratiologe; by Replicate; Estimate "logevac" loge ; ods select none; ods output Estimates = ods select all; resultat; Des commandes strata et cluster sont également disponibles pour décrire la structure du plan. En présence de poids de sondages inégaux et d un modèle sur la variance, l utilisateur doit calculer préalablement la variable de la commande Weight. Pour l estimation par régression, SAS retient essentiellement une approche bas ée sur un modèle et non assistée par un modèle (voir les discussions de [5] et [8] sur cette distinction).
4 4 Yves Aragon, Anne Ruiz-Gazen 4. Estimation de variances 4.1. Principe SAS estime les variances des estimateurs de totaux, moyennes, ratios et coefficients de régression. Quand l estimateur n est pas linéaire, cas d un ratio par exemple, SAS utilise la technique de linéarisation àlafaçon de [9] (voir aussi [7] pour un exposé récent). Par les commandes strata et cluster, SAS permet de prendre en compte les plans stratifiés et à plusieurs degrés. Pour un plan à plusieurs degrés, l utilisateur doit fournir le produit des poids des différents degrés mais ne peut indiquer la structure du plan que pour le premier degré. Illustrons cette limitation sur un plan SI,SI Exemple d estimation de variance dans un plan à deux degrés Dans un plan à plusieurs degrés, la variance de l estimateur du total est la somme des variances correspondant aux différents degrés (voir [5] p. 137). Considérons en particulier un plan à deux degrés SI,SI. L estimation sans biais de la variance du total s écrit : var ص avec Æ ¾ ½ Á Ë ¾ et Æ Á Á Ø Ò Á Á Ò Á Á Æ ¾ ½ Ë ¾ Ý Ò Attention. (resp. ) n est pas un estimateur sans biais de la variance du premier (resp. deuxième) degré etle terme surestime la variance du premier degré (voir par exemple [5] p. 137). Sur l exemple du plan à deux degrés de la section 2.3, deux solutions s offrent à nous pour estimer la variance de l estimateur par les valeurs dilatées du nombre total de logements. (1) Suivre les suggestions de SAS c est-à-dire : préciser le plan du premier degré par la commande cluster bvq_n;, utiliser les poids produits des deux degrés (w12 = w1 * w2), préciser la correction de population finie (fpc1 = Á ¾ ¼½) par l option rate=fpc1. On obtient,, estimateur biaisé de la variance comme on l a indiqué ci-dessus. (2) Calculer l estimateur sans biais var ص en calculant aussi. Au facteur Æ Á Ò Á près, est la variance d un total dans un plan stratifié (strata BVQ_n). 5. Comparaisons empiriques Revenons à l estimation du nombre de logements vacants. Les tableaux ci-dessous permettent de comparer différents plans de sondage et différentes méthodes d estimation. Pour chaque plan, on a réalisé 1000 tirages et on donne les estimations moyennes du total et les coefficients de variation des estimateurs calculés à partir des variances empiriques. Le nombre total de logements vacants fourni par le recensement est Comparaison de plans d échantillonnage Nous avons considéré les plans suivants : SI : plan simple de taille Ò ¼communes, STSI taille : plan simple stratifié avec affectation proportionnelle à la taille en nombre de communes, STSI loge : plan simple stratifié avec affectation proportionnelle au nombre de logements, pps : plan avec remise et probabilités proportionnelles au nombre de logements, grappe : plan simple de taille Ò BVQ et tirage des 4 grappes de communes associées.
5 Utilisation des procédures SAS dans l enseignement des sondages 5 On a fixé les tailles d échantillons à 4 BVQ pour le plan en grappes et à 70 communes pour les autres plans car 4 BVQ correspondent en moyenne à 70 communes. Plan Estimation total Coefficient de variation SI % STSI taille % STSI loge % pps % grappe % Tableau 1 Le tableau 1 illustre que, comparativement à un plan SI, un plan stratifié permet d améliorer la précision tandis qu un plan en grappes conduit généralement à une perte de précision. Les meilleurs résultats sont obtenus en prenant en compte l information auxiliaire, nombre de logements, que ce soit par échantillonnage stratifié ou par échantillonnage avec probabilité proportionnelle à la taille Comparaison des estimateurs par valeurs dilatées, par ratio et par régression pour un plan SI Le tableau 2 ci-dessous, obtenu pour un plan SI de taille 70, montre l intérêt de prendre en compte la variable auxiliaire nombre de logements dans l estimation. Méthode d estimation Estimation total Coefficient de variation par valeurs dilatées % par ratio % par régression % Tableau Comparaison des estimations de variance dans le plan à deux degrés Fig. 1. Histogramme du rapport estimation suggérée par SAS/estimation sans biais. La figure ci-dessus donne l histogramme des rapports A/(A+B) définis section 4.2 ; le numérateur correspond à l estimation de variance suggérée par SAS tandis que le dénominateur donne l estimation sans biais. On observe que la grande majorité des valeurs sont supérieures à 80%, ce qui justifie pour cet exemple l utilisation de la formule simplifiée suggérée par SAS.
6 6 Yves Aragon, Anne Ruiz-Gazen: Utilisation des procédures SAS dans l enseignement des sondages 6. Conclusion La procédure surveyselect offre un choix important d algorithmes de tirage avec des temps d exécution très satisfaisants. Les procédures surveymeans, surveyreg et, dans la version 9, surveylogistic (voir [1]) qui prennent en compte la structure de plans de sondage relativement complexes, constituent des avancées significatives par rapport aux procédures classiques means, reg et logistic. L accès aux techniques de sondage s en trouve facilité, que ce soit pour un enseignement ou dans une entreprise ne disposant pas d un logiciel spécifique. Notons enfin que SAS propose aussi deux procédures pour le traitement des valeurs manquantes : les proc mi et mianalyze. References 1. An, R.P. (2002). Performing Logistic Regression on Survey Data with the New SURVEYLOGISTIC Procedure, SUGI 27 Paper An, R.P., Watts D. and Stocks M. (1999). SAS Procedures for Analysis of Sample Survey Data, The Survey Statistician, No. 41, part Berglund, P.A. (2002). Analysis of Complex Sample Survey Data Using the SURVEYMEANS and SURVEYREG Procedures and Macro Coding, SUGI 27 Paper Gossett, J.M., Simpson P., Parker J.G. and Simon W.L. (2002). How Complex Can Complex Survey Analysis Be with SAS?, SUGI 27 Paper Särndal, C.E., Swensson B. and Wretman J. (1992). Model Assisted Survey Sampling, Springer-Verlag, New-York, 694 pages. 6. SAS/STAT (2000). User s Guide, Version 8, SAS Institute, Cary NC. 7. Tillé Y. (2001). Théorie des sondages - Echantillonnage et estimation en populations finies, Dunod, Paris, 284 pages. 8. Valliant R., Dorfman A.H. and Royall R.M. (2000) Finite Population Sampling and Inference: A Prediction Approach, Wiley, New-York, 536 pages. 9. Woodruff R.S. (1971). A Simple Method for Approximating the Variance of a Complicated Estimate, Journal of the American Statistical Association, Vol. 66, pp
Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R
Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R Yves Aragon, David Haziza & Anne Ruiz-Gazen GREMAQ, UMR CNRS 5604, Université des Sciences
Plus en détailThéorie des sondages : cours 5
Théorie des sondages : cours 5 Camelia Goga IMB, Université de Bourgogne e-mail : camelia.goga@u-bourgogne.fr Master Besançon-2010 Chapitre 5 : Techniques de redressement 1. poststratification 2. l estimateur
Plus en détailApproche modèle pour l estimation en présence de non-réponse non-ignorable en sondage
Approche modèle pour l estimation en présence de non-réponse non-ignorable en sondage Journées de Méthodologie Statistique Eric Lesage Crest-Ensai 25 janvier 2012 Introduction et contexte 2/27 1 Introduction
Plus en détailExploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction.
Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction. Etudes et traitements statistiques des données : le cas illustratif de la démarche par sondage INTRODUCTION
Plus en détailSTA108 Enquêtes et sondages. Sondages àplusieurs degrés et par grappes
STA108 Enquêtes et sondages Sondages àplusieurs degrés et par grappes Philippe Périé, novembre 2011 Sondages àplusieurs degrés et par grappes Introduction Sondages à plusieurs degrés Tirage des unités
Plus en détailChapitre 3 : INFERENCE
Chapitre 3 : INFERENCE 3.1 L ÉCHANTILLONNAGE 3.1.1 Introduction 3.1.2 L échantillonnage aléatoire 3.1.3 Estimation ponctuelle 3.1.4 Distributions d échantillonnage 3.1.5 Intervalles de probabilité L échantillonnage
Plus en détailLa nouvelle planification de l échantillonnage
La nouvelle planification de l échantillonnage Pierre-Arnaud Pendoli Division Sondages Plan de la présentation Rappel sur le Recensement de la population (RP) en continu Description de la base de sondage
Plus en détailLA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»
LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers
Plus en détailCONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)
CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE Cinquième épreuve d admissibilité STATISTIQUE (durée : cinq heures) Une composition portant sur la statistique. SUJET Cette épreuve est composée d un
Plus en détailPrincipe de symétrisation pour la construction d un test adaptatif
Principe de symétrisation pour la construction d un test adaptatif Cécile Durot 1 & Yves Rozenholc 2 1 UFR SEGMI, Université Paris Ouest Nanterre La Défense, France, cecile.durot@gmail.com 2 Université
Plus en détailModèle de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes
de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes Zohra Guessoum 1 & Farida Hamrani 2 1 Lab. MSTD, Faculté de mathématique, USTHB, BP n 32, El Alia, Alger, Algérie,zguessoum@usthb.dz
Plus en détailSAS ENTERPRISE MINER POUR L'ACTUAIRE
SAS ENTERPRISE MINER POUR L'ACTUAIRE Conférence de l Association des Actuaires I.A.R.D. 07 JUIN 2013 Sylvain Tremblay Spécialiste en formation statistique SAS Canada AGENDA Survol d Enterprise Miner de
Plus en détailTABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.
STATISTIQUE THÉORIQUE ET APPLIQUÉE Tome 2 Inférence statistique à une et à deux dimensions Pierre Dagnelie TABLE DES MATIÈRES Bruxelles, De Boeck, 2011, 736 p. ISBN 978-2-8041-6336-5 De Boeck Services,
Plus en détailGestion obligataire passive
Finance 1 Université d Evry Séance 7 Gestion obligataire passive Philippe Priaulet L efficience des marchés Stratégies passives Qu est-ce qu un bon benchmark? Réplication simple Réplication par échantillonnage
Plus en détailÉvaluation de la régression bornée
Thierry Foucart UMR 6086, Université de Poitiers, S P 2 M I, bd 3 téléport 2 BP 179, 86960 Futuroscope, Cedex FRANCE Résumé. le modèle linéaire est très fréquemment utilisé en statistique et particulièrement
Plus en détailExemple PLS avec SAS
Exemple PLS avec SAS This example, from Umetrics (1995), demonstrates different ways to examine a PLS model. The data come from the field of drug discovery. New drugs are developed from chemicals that
Plus en détailFaut-il pondérer? ...Ou l'éternelle question de l'économètre confronté à un problème de sondage. Laurent Davezies et Xavier D'Haultf uille.
Faut-il pondérer?...ou l'éternelle question de l'économètre confronté à un problème de sondage Laurent Davezies et Xavier D'Haultf uille Juin 2009 Résumé Ce papier précise dans quels cas les estimations
Plus en détailTests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles
Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles Valentin Patilea 1 Cesar Sanchez-sellero 2 Matthieu Saumard 3 1 CREST-ENSAI et IRMAR 2 USC Espagne 3 IRMAR-INSA
Plus en détaildistribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position
Arbre de NESI distribution quelconque Signe 1 échantillon distribution symétrique non gaussienne Wilcoxon gaussienne Student position appariés 1 échantillon sur la différence avec référence=0 2 échantillons
Plus en détailLa survie nette actuelle à long terme Qualités de sept méthodes d estimation
La survie nette actuelle à long terme Qualités de sept méthodes d estimation PAR Alireza MOGHADDAM TUTEUR : Guy HÉDELIN Laboratoire d Épidémiologie et de Santé publique, EA 80 Faculté de Médecine de Strasbourg
Plus en détailÉconométrie, causalité et analyse des politiques
Économétrie, causalité et analyse des politiques Jean-Marie Dufour Université de Montréal October 2006 This work was supported by the Canada Research Chair Program (Chair in Econometrics, Université de
Plus en détailIntroduction à l approche bootstrap
Introduction à l approche bootstrap Irène Buvat U494 INSERM buvat@imedjussieufr 25 septembre 2000 Introduction à l approche bootstrap - Irène Buvat - 21/9/00-1 Plan du cours Qu est-ce que le bootstrap?
Plus en détailAnalyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés
Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés Professeur Patrice Francour francour@unice.fr Une grande partie des illustrations viennent
Plus en détailRaisonnement probabiliste
Plan Raisonnement probabiliste IFT-17587 Concepts avancés pour systèmes intelligents Luc Lamontagne Réseaux bayésiens Inférence dans les réseaux bayésiens Inférence exacte Inférence approximative 1 2 Contexte
Plus en détailTests statistiques et régressions logistiques sous R, avec prise en compte des plans d échantillonnage complexes
, avec prise en compte des plans d échantillonnage complexes par Joseph LARMARANGE version du 29 mars 2007 Ce cours a été développé pour une formation niveau M2 et Doctorat des étudiants du laboratoire
Plus en détaild évaluation Objectifs Processus d élaboration
Présentation du Programme pancanadien d évaluation Le Programme pancanadien d évaluation (PPCE) représente le plus récent engagement du Conseil des ministres de l Éducation du Canada (CMEC) pour renseigner
Plus en détailTABLE DES MATIERES. C Exercices complémentaires 42
TABLE DES MATIERES Chapitre I : Echantillonnage A - Rappels de cours 1. Lois de probabilités de base rencontrées en statistique 1 1.1 Définitions et caractérisations 1 1.2 Les propriétés de convergence
Plus en détailEchantillonnage Non uniforme
Echantillonnage Non uniforme Marie CHABERT IRIT/INP-ENSEEIHT/ ENSEEIHT/TéSASA Patrice MICHEL et Bernard LACAZE TéSA 1 Plan Introduction Echantillonnage uniforme Echantillonnage irrégulier Comparaison Cas
Plus en détailEtude d un cas industriel : Optimisation de la modélisation de paramètre de production
Revue des Sciences et de la Technologie RST- Volume 4 N 1 /janvier 2013 Etude d un cas industriel : Optimisation de la modélisation de paramètre de production A.F. Bernate Lara 1, F. Entzmann 2, F. Yalaoui
Plus en détailArticle. Peut-on établir des statistiques officielles à partir d enquêtes en ligne reposant sur le principe de l autosélection? par Jelke Bethlehem
Composante du produit n o -5-X au catalogue de Statistique Canada La série des symposiums internationaux de Statistique Canada : recueil Article Symposium 008 : Collecte des données : défis, réalisations
Plus en détailLogiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS
Logiciel XLSTAT version 7.0 Contact : Addinsoft 40 rue Damrémont 75018 PARIS 2005-2006 Plan Présentation générale du logiciel Statistiques descriptives Histogramme Discrétisation Tableau de contingence
Plus en détailLe modèle de régression linéaire
Chapitre 2 Le modèle de régression linéaire 2.1 Introduction L économétrie traite de la construction de modèles. Le premier point de l analyse consiste à se poser la question : «Quel est le modèle?». Le
Plus en détailHIVER 2004 MÉTHODOLOGIE DE LA RECHERCHE EN MARKETING MRK - 65384
Professeur : Raoul Graf FSA-Université Laval Pavillon Palasis Prince Bureau 2413 Tél. : 418 656 2131 ext. 2688 Courriel : Raoul.Graf@mrk.ulaval.ca HIVER 2004 MÉTHODOLOGIE DE LA RECHERCHE EN MARKETING MRK
Plus en détailProjet de Traitement du Signal Segmentation d images SAR
Projet de Traitement du Signal Segmentation d images SAR Introduction En analyse d images, la segmentation est une étape essentielle, préliminaire à des traitements de haut niveau tels que la classification,
Plus en détailDonnées longitudinales et modèles de survie
ANALYSE DU Données longitudinales et modèles de survie 5. Modèles de régression en temps discret André Berchtold Département des sciences économiques, Université de Genève Cours de Master ANALYSE DU Plan
Plus en détailINTRODUCTION AU DATA MINING
INTRODUCTION AU DATA MINING 6 séances de 3 heures mai-juin 2006 EPF - 4 ème année - Option Ingénierie d Affaires et de Projets Bertrand LIAUDET TP DE DATA MINING Le TP et le projet consisteront à mettre
Plus en détailINITIATION AU LOGICIEL SAS
INITIATION AU LOGICIEL SAS (version 9.1.3 sous Windows) Hélène HAMISULTANE Bibliographie : Initiation au logiciel SAS(9) pour Windows, Coqué N. (juin 2006). www.agroparistech.fr/img/pdf/polysas.pdf SAS
Plus en détailExercices M1 SES 2014-2015 Ana Fermin (http:// fermin.perso.math.cnrs.fr/ ) 14 Avril 2015
Exercices M1 SES 214-215 Ana Fermin (http:// fermin.perso.math.cnrs.fr/ ) 14 Avril 215 Les exemples numériques présentés dans ce document d exercices ont été traités sur le logiciel R, téléchargeable par
Plus en détailAnnexe commune aux séries ES, L et S : boîtes et quantiles
Annexe commune aux séries ES, L et S : boîtes et quantiles Quantiles En statistique, pour toute série numérique de données à valeurs dans un intervalle I, on définit la fonction quantile Q, de [,1] dans
Plus en détailLa classification automatique de données quantitatives
La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations
Plus en détailArticle. Mesure du fardeau de réponse à l Office for National Statistics du Royaume-Uni. par Denise Williams, Sarah Green et Jacqui Jones
Composante du produit n o 11-522-X au catalogue de Statistique Canada La série des symposiums internationaux de Statistique Canada : recueil Article Symposium 2008 : Collecte des données : défis, réalisations
Plus en détailProbabilités conditionnelles Loi binomiale
Exercices 23 juillet 2014 Probabilités conditionnelles Loi binomiale Équiprobabilité et variable aléatoire Exercice 1 Une urne contient 5 boules indiscernables, 3 rouges et 2 vertes. On tire au hasard
Plus en détailEtude des propriétés empiriques du lasso par simulations
Etude des propriétés empiriques du lasso par simulations L objectif de ce TP est d étudier les propriétés empiriques du LASSO et de ses variantes à partir de données simulées. Un deuxième objectif est
Plus en détailÉvaluations aléatoires : Comment tirer au sort?
Évaluations aléatoires : Comment tirer au sort? William Parienté Université Catholique de Louvain J-PAL Europe povertyactionlab.org Plan de la semaine 1. Pourquoi évaluer? 2. Comment mesurer l impact?
Plus en détailCONSEILS POUR LA REDACTION DU RAPPORT DE RECHERCHE. Information importante : Ces conseils ne sont pas exhaustifs!
CONSEILS POUR LA REDACTION DU RAPPORT DE RECHERCHE Information importante : Ces conseils ne sont pas exhaustifs! Conseils généraux : Entre 25 et 60 pages (hormis références, annexes, résumé) Format d un
Plus en détail4. Résultats et discussion
17 4. Résultats et discussion La signification statistique des gains et des pertes bruts annualisés pondérés de superficie forestière et du changement net de superficie forestière a été testée pour les
Plus en détailDéfinition 0,752 = 0,7 + 0,05 + 0,002 SYSTÈMES DE NUMÉRATION POSITIONNELS = 7 10 1 + 5 10 2 + 2 10 3
8 Systèmes de numération INTRODUCTION SYSTÈMES DE NUMÉRATION POSITIONNELS Dans un système positionnel, le nombre de symboles est fixe On représente par un symbole chaque chiffre inférieur à la base, incluant
Plus en détailCONCEPTION ET TIRAGE DE L ÉCHANTILLON
CHAPITRE 4 CONCEPTION ET TIRAGE DE L ÉCHANTILLON Ce chapitre technique 1 s adresse principalement aux spécialistes de sondage, mais aussi au coordinateur et aux autres responsables techniques de l enquête.
Plus en détailOptimisation, traitement d image et éclipse de Soleil
Kléber, PCSI1&3 014-015 I. Introduction 1/8 Optimisation, traitement d image et éclipse de Soleil Partie I Introduction Le 0 mars 015 a eu lieu en France une éclipse partielle de Soleil qu il était particulièrement
Plus en détailChristophe SANNIER christophe.sannier@sirs-fr.com
Systèmes d Information à Référence Spatiale Utilisation d un Estimateur de Régression avec des Données Landsat pour l Estimation de l Etendu et des Changements du Couvert Forestier du Gabon de 1990 à 2010
Plus en détailDéroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI
1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage
Plus en détailLa représentativité d un échantillon et son test par le Khi-deux Testing the representativeness of a sample
Tutorials in Quantitative Methods for Psychology 212, Vol. 8(3), p. 173-181. La représentativité d un échantillon et son test par le Khi-deux Testing the representativeness of a sample Louis Laurencelle
Plus en détailPROGRAMME (Susceptible de modifications)
Page 1 sur 8 PROGRAMME (Susceptible de modifications) Partie 1 : Méthodes des revues systématiques Mercredi 29 mai 2013 Introduction, présentation du cours et des participants Rappel des principes et des
Plus en détailChapitre 3. Les distributions à deux variables
Chapitre 3. Les distributions à deux variables Jean-François Coeurjolly http://www-ljk.imag.fr/membres/jean-francois.coeurjolly/ Laboratoire Jean Kuntzmann (LJK), Grenoble University 1 Distributions conditionnelles
Plus en détailLes conducteurs automobiles évaluent-ils correctement leur risque de commettre un accident?
Les conducteurs automobiles évaluent-ils correctement leur risque de commettre un accident? Nathalie LEPINE GREMAQ, Université de Toulouse1, 31042 Toulouse, France GRAPE, Université Montesquieu-Bordeaux
Plus en détailLa segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM
La segmentation à l aide de EG-SAS A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM Définition de la segmentation - Au lieu de considérer une population dans son ensemble,
Plus en détailMESURE ET PRECISION. Il est clair que si le voltmètre mesure bien la tension U aux bornes de R, l ampèremètre, lui, mesure. R mes. mes. .
MESURE ET PRECISIO La détermination de la valeur d une grandeur G à partir des mesures expérimentales de grandeurs a et b dont elle dépend n a vraiment de sens que si elle est accompagnée de la précision
Plus en détailFOAD COURS D ECONOMETRIE 1 CHAPITRE 2 : Hétéroscédasicité des erreurs. 23 mars 2012.
FOAD COURS D ECONOMETRIE CHAPITRE 2 : Hétéroscédasicité des erreurs. 23 mars 202. Christine Maurel Maître de conférences en Sciences Economiques Université de Toulouse - Capitole Toulouse School of Economics-ARQADE
Plus en détailLa place de SAS dans l'informatique décisionnelle
La place de SAS dans l'informatique décisionnelle Olivier Decourt ABS Technologies - Educasoft Formations La place de SAS dans l'informatique décisionnelle! L'historique de SAS! La mécanique! La carrosserie
Plus en détailFOTO - L OMNIBUS MENSUEL DE CROP LE NOUVEAU CROP-EXPRESS
FOTO - L OMNIBUS MENSUEL DE CROP LE NOUVEAU CROP-EXPRESS 550, RUE SHERBROOKE OUEST MONTRÉAL (QUÉBEC) H3A 1B9 BUREAU 900 TOUR EST T 514 849-8086, POSTE 3064 Réflexions méthodologiques Depuis des années,
Plus en détailStatistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier
Statistiques Appliquées à l Expérimentation en Sciences Humaines Christophe Lalanne, Sébastien Georges, Christophe Pallier Table des matières 1 Méthodologie expérimentale et recueil des données 6 1.1 Introduction.......................................
Plus en détailModélisation et simulation
Modélisation et simulation p. 1/36 Modélisation et simulation INFO-F-305 Gianluca Bontempi Département d Informatique Boulevard de Triomphe - CP 212 http://www.ulb.ac.be/di Modélisation et simulation p.
Plus en détailValue at Risk. CNAM GFN 206 Gestion d actifs et des risques. Grégory Taillard. 27 février & 13 mars 20061
Value at Risk 27 février & 13 mars 20061 CNAM Gréory Taillard CNAM Master Finance de marché et estion de capitaux 2 Value at Risk Biblioraphie Jorion, Philippe, «Value at Risk: The New Benchmark for Manain
Plus en détailLE RÔLE DE LA STATISTIQUE DANS UN PROCESSUS DE PRISE DE DÉCISION
LE RÔLE DE LA STATISTIQUE DANS UN PROCESSUS DE PRISE DE DÉCISION Sylvie Gervais Service des enseignements généraux École de technologie supérieure (sylvie.gervais@etsmtl.ca) Le laboratoire des condensateurs
Plus en détailPrincipe d un test statistique
Biostatistiques Principe d un test statistique Professeur Jean-Luc BOSSON PCEM2 - Année universitaire 2012/2013 Faculté de Médecine de Grenoble (UJF) - Tous droits réservés. Objectifs pédagogiques Comprendre
Plus en détailStatistique Descriptive Élémentaire
Publications de l Institut de Mathématiques de Toulouse Statistique Descriptive Élémentaire (version de mai 2010) Alain Baccini Institut de Mathématiques de Toulouse UMR CNRS 5219 Université Paul Sabatier
Plus en détailMémoire d actuariat - promotion 2010. complexité et limites du modèle actuariel, le rôle majeur des comportements humains.
Mémoire d actuariat - promotion 2010 La modélisation des avantages au personnel: complexité et limites du modèle actuariel, le rôle majeur des comportements humains. 14 décembre 2010 Stéphane MARQUETTY
Plus en détailComment évaluer une banque?
Comment évaluer une banque? L évaluation d une banque est basée sur les mêmes principes généraux que n importe quelle autre entreprise : une banque vaut les flux qu elle est susceptible de rapporter dans
Plus en détailEVALUATION DE LA QUALITE DES SONDAGES EN LIGNE : CAS D UN SONDAGE D OPINION AU BURKINA FASO
EVALUATION DE LA QUALITE DES SONDAGES EN LIGNE : CAS D UN SONDAGE D OPINION AU BURKINA FASO Auteur Baguinébié Bazongo 1 Ingénieur Statisticien Economiste Chef de l Unité de recherche à l Institut national
Plus en détailModélisation géostatistique des débits le long des cours d eau.
Modélisation géostatistique des débits le long des cours d eau. C. Bernard-Michel (actuellement à ) & C. de Fouquet MISTIS, INRIA Rhône-Alpes. 655 avenue de l Europe, 38334 SAINT ISMIER Cedex. Ecole des
Plus en détaildonnées en connaissance et en actions?
1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)
Plus en détail1 Imputation par la moyenne
Introduction au data mining L3 MIS - STA 1616-2010 V. Monbet Données manquantes L'objectif de ce TD est de manipuler et de comparer plusieurs méthodes d'imputation de données manquantes. La première partie
Plus en détailTests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA
Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA Soutenance de doctorat, sous la direction de Pr. Bilodeau, M. et Pr. Ducharme, G. Université de Montréal et Université
Plus en détailTABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie
PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats Pierre Dagnelie TABLE DES MATIÈRES 2012 Presses agronomiques de Gembloux pressesagro.gembloux@ulg.ac.be www.pressesagro.be
Plus en détailMODÈLE CROP DE CALIBRATION DES PANELS WEB
MODÈLE CROP DE CALIBRATION DES PANELS WEB 550, RUE SHERBROOKE OUEST MONTRÉAL (QUÉBEC) H3A 1B9 BUREAU 900 TOUR EST T 514 849-8086, POSTE 3064 WWW.CROP.CA Le Protocole CROP de calibration des panels en ligne
Plus en détailBulletin de service Bureaux d agents, de courtiers en immeubles et d évaluateurs de biens immobiliersetdes autres activités liées à l immobilier
N o 63-238-X au catalogue. Bulletin de service Bureaux d agents, de courtiers en immeubles et d évaluateurs de biens immobiliersetdes autres activités liées à l immobilier 2012. Faits saillants Le revenu
Plus en détailAnalyse de la variance Comparaison de plusieurs moyennes
Analyse de la variance Comparaison de plusieurs moyennes Biostatistique Pr. Nicolas MEYER Laboratoire de Biostatistique et Informatique Médicale Fac. de Médecine de Strasbourg Mars 2011 Plan 1 Introduction
Plus en détailBiostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke
www.fundp.ac.be/biostats Module 140 140 ANOVA A UN CRITERE DE CLASSIFICATION FIXE...2 140.1 UTILITE...2 140.2 COMPARAISON DE VARIANCES...2 140.2.1 Calcul de la variance...2 140.2.2 Distributions de référence...3
Plus en détailLe niveau de revenus des ménages est associé à la couverture vaccinale par le vaccin pneumocoque conjugué chez les enfants d'ile-de-france
Le niveau de revenus des ménages est associé à la couverture vaccinale par le vaccin pneumocoque conjugué chez les enfants d'ile-de-france Jean-Paul Guthmann, Pierre Chauvin, Yann Le Strat, Marion Soler,
Plus en détailVers une approche Adaptative pour la Découverte et la Composition Dynamique des Services
69 Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services M. Bakhouya, J. Gaber et A. Koukam Laboratoire Systèmes et Transports SeT Université de Technologie de Belfort-Montbéliard
Plus en détailAnalyse statistique de données qualitatives et quantitatives en sciences sociales : TP RÉGRESSION LOGISTIQUE (MODÈLES CHAPITRE 1)
Analyse statistique de données qualitatives et quantitatives en sciences sociales : TP RÉGRESSION LOGISTIQUE (MODÈLES CHAPITRE 1) Modèles de régression logistique à réaliser Une explicative catégorielle
Plus en détailAnalyse discriminante et régression logistique: application au cas de l innovation pour les entreprises du Canton du Tessin
Analyse discriminante et régression logistique: application au cas de l innovation pour les entreprises du Canton du Tessin Sandro Petrillo Université de Neuchâtel - Diplôme Postgrade en Statistique Projet
Plus en détailEncryptions, compression et partitionnement des données
Encryptions, compression et partitionnement des données Version 1.0 Grégory CASANOVA 2 Compression, encryption et partitionnement des données Sommaire 1 Introduction... 3 2 Encryption transparente des
Plus en détailTRAITEMENT DES DONNEES MANQUANTES AU MOYEN DE L ALGORITHME DE KOHONEN
TRAITEMENT DES DONNEES MANQUANTES AU MOYEN DE L ALGORITHME DE KOHONEN Marie Cottrell, Smaïl Ibbou, Patrick Letrémy SAMOS-MATISSE UMR 8595 90, rue de Tolbiac 75634 Paris Cedex 13 Résumé : Nous montrons
Plus en détailNON-LINEARITE ET RESEAUX NEURONAUX
NON-LINEARITE ET RESEAUX NEURONAUX Vêlayoudom MARIMOUTOU Laboratoire d Analyse et de Recherche Economiques Université de Bordeaux IV Avenue. Leon Duguit, 33608 PESSAC, France tel. 05 56 84 85 77 e-mail
Plus en détailUNIVERSITÉ DE MONTRÉAL DÉPARTEMENT DE SOCIOLOGIE ************* Cours de niveau gradué en méthodes quantitatives *************
************* Cours de niveau gradué en méthodes quantitatives ************* SOL 6210 - Analyse quantitative avancée Le séminaire d analyse quantitative avancée se donne en classe une fois par année. Chaque
Plus en détailEtude comparative de différents motifs utilisés pour le lancé de rayon
Etude comparative de différents motifs utilisés pour le lancé de rayon Alexandre Bonhomme Université de Montréal 1 Introduction Au cours des dernières années les processeurs ont vu leurs capacités de calcul
Plus en détailSONDAGE COMPARATIF SUR LA PERCEPTION DES QUÉBÉCOIS SUR LES HYDROCARBURES
www.som.ca MONTRÉAL 1180, rue Drummond Bureau 620 Montréal (Québec) H3G 2S1 T 514 878-9825 QUÉBEC 3340, rue de La Pérade 3 e étage Québec (Québec) G1X 2L7 T 418 687-8025 SONDAGE COMPARATIF SUR LA PERCEPTION
Plus en détailProbabilités Loi binomiale Exercices corrigés
Probabilités Loi binomiale Exercices corrigés Sont abordés dans cette fiche : (cliquez sur l exercice pour un accès direct) Exercice 1 : épreuve de Bernoulli Exercice 2 : loi de Bernoulli de paramètre
Plus en détailTP1 Méthodes de Monte Carlo et techniques de réduction de variance, application au pricing d options
Université de Lorraine Modélisation Stochastique Master 2 IMOI 2014-2015 TP1 Méthodes de Monte Carlo et techniques de réduction de variance, application au pricing d options 1 Les options Le but de ce
Plus en détailArbres binaires de décision
1 Arbres binaires de décision Résumé Arbres binaires de décision Méthodes de construction d arbres binaires de décision, modélisant une discrimination (classification trees) ou une régression (regression
Plus en détailEn 2014, comment mener à bien une enquête aléatoire en population générale par téléphone?
En 2014, comment mener à bien une enquête aléatoire en population générale par téléphone? Prémila Choolun 1, François Beck 2, Christophe David 1, Valérie Blineau 1, Romain Guignard 3, Arnaud Gautier 3,
Plus en détailTechniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit
Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit Adil Belhouari HEC - Montréal - Journées de l Optimisation 2005-09 Mai 2005 PLAN DE LA PRÉSENTATION
Plus en détailClasse de première L
Classe de première L Orientations générales Pour bon nombre d élèves qui s orientent en série L, la classe de première sera une fin d étude en mathématiques au lycée. On a donc voulu ici assurer à tous
Plus en détailSouad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/
Recherche opérationnelle Les démonstrations et les exemples seront traités en cours Souad EL Bernoussi Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/ Table des matières 1 Programmation
Plus en détailProduction des Services d Assurance non-vie selon le SCN 2008
REPUBLIQUE DU CAMEROUN Paix - Travail Patrie ---------- INSTITUT NATIONAL DE LA STATISTIQUE ---------- REPUBLIC OF CAMEROON Peace - Work Fatherland ---------- NATIONAL INSTITUTE OF STATISTICS ----------
Plus en détailAnalyse et interprétation des données
8 Analyse et interprétation des données Les données de l enquête peuvent être utilisées pour différents types d analyses aussi bien au niveau national qu au niveau international. Ce chapitre explique comment
Plus en détailNon-réponse et données manquantes. Sylvie Rousseau & Gilbert Saporta décembre 2011
Non-réponse et données manquantes Sylvie Rousseau & Gilbert Saporta décembre 2011 1 EXEMPLES DE TAUX DE RÉPONSE À CERTAINES ENQUÊTES Pour les enquêtes auprès des entreprises, le taux de non-réponse est
Plus en détailINF6304 Interfaces Intelligentes
INF6304 Interfaces Intelligentes filtres collaboratifs 1/42 INF6304 Interfaces Intelligentes Systèmes de recommandations, Approches filtres collaboratifs Michel C. Desmarais Génie informatique et génie
Plus en détailStockage de chaleur solaire par sorption : Analyse et contrôle du système à partir de sa simulation dynamique
Stockage de chaleur solaire par sorption : Analyse et contrôle du système à partir de sa simulation dynamique Kokouvi Edem N TSOUKPOE 1, Nolwenn LE PIERRÈS 1*, Lingai LUO 1 1 LOCIE, CNRS FRE3220-Université
Plus en détail