Consolidation de jeux de données pour la prospective : la génération d une population synthétique pour les communes de Belgique



Documents pareils
Fiche qualité relative à l enquête Santé et Itinéraire Professionnel 2010 (SIP) Carte d identité de l enquête

Sorties définitives de l emploi. Quels liens avec la santé, le parcours professionnel et les conditions de travail? Nicolas de Riccardis

L évolution des modes de communication, comment adapter les enquêtes en population générale? L expérience de l enquête KABP VIH/sida 2010

Personne de contact: Mme Hilde Van Dongen Secrétariat: +32 (0)

Cytise : une application web couplée à une base de données démographiques et socioéconomiques

Projet de mise en place de l Enquête Emploi du temps en Algérie

Sondage d opinion auprès des Canadiens Perception à l égard des couples de même sexe PROJET

Protection individuelle

CHAPITRE 2. Population, ménages et familles

Quel enseignement supérieur demain?

Lambotte J.-M. Géographe-Urbaniste. Chercheur au Lepur ULg. Semaine Universitaire Luxembourgeoise de l'environnement - Libramont

RGROSS R.GROSS 11/09/2007

NOTE SUR LA MODELISATION DU RISQUE D INFLATION

Famille multirésidence : recensement et sources alternatives

REVUE ET PERSPECTIVES DU MARCHÉ IMMOBILIER DE LA RÉGION DE MONTRÉAL

Description des variables de la base de données. a. Attractivité démographique pour les différents types de population

Enquête sur les indicateurs du paludisme

Qui fait quoi sur internet?

AIDE FINANCIÈRE POUR ATHLÈTES FINANCIAL ASSISTANCE FOR ATHLETES

L ATTITUDE DES FRANÇAIS A L EGARD DE

Chapitre 3. Les distributions à deux variables

Notre planète mobile : Canada

Article. Bien-être économique. par Cara Williams. Décembre 2010

REGARDS SUR L ÉDUCATION 2013 : POINTS SAILLANTS POUR LE CANADA

Exercices supplémentaires sur l introduction générale à la notion de probabilité

Chapitre 3 : INFERENCE

Sociologie des joueurs en ligne

Relation entre deux variables : estimation de la corrélation linéaire

,,ÉTUDES ET RECHERCHES SUR LA DISTRIBUTION, LA PROMOTION ET LA VALORISATION DES PRODUITS DE BOULANGERIE DANS LE MUNICIPE DE CONSTANŢA

TEST DE DÉPISTAGE DE L IMMUNITÉ CONTRE LE

jçíçêáë~íáçå=éí=ãçäáäáí =W=ÇÉë= ÅçãéçêíÉãÉåíë=éäìë=ê~íáçååÉäë=\==

Observatoire Gleeden de l infidélité

VI. Tests non paramétriques sur un échantillon

CECOP. Centre d études et de connaissances sur l opinion publique. Les Français, leur épargne et leur retraite

REFERENTIEL PROFESSIONNEL DES ASSISTANTS DE SERVICE SOCIAL

ELECTRICIEN (H/F) A CHACUN SON LOGIS COURCELLES

Vu la demande de la Banque Nationale de Belgique du 5 octobre 2005;

La nouvelle planification de l échantillonnage

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.

PHOTO ROYAUME DE BELGIQUE /KINDOM OF BELGIUM /KONINKRIJK BELGIE. Données personnelles / personal data

STA108 Enquêtes et sondages. Sondages àplusieurs degrés et par grappes

Cartographie des Hotspots Démographiques et du Changement Climatique: Pérou

Guide de mise à niveau pas à pas vers Windows 8 CONFIDENTIEL 1/53

Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34

Baromètre de conjoncture de la Banque Nationale de Belgique

L allocataire dans un couple : l homme ou la femme?

De la mesure à l analyse des risques

Sommaire. Rentabilité du retour d une franchise de baseball de la Ligue majeure de baseball à Montréal (les «Expos»)

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Recommandation de RECOMMANDATION DU CONSEIL. concernant le programme national de réforme du Luxembourg pour 2015

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

La mobilité professionnelle revêt

Dossier Le ménage. Le bonheur chez soi et le partage des tâches font bon ménage!

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

Statistiques Descriptives à une dimension

Sécurité et insécurité alimentaire chez les Québécois : une analyse de la situation en lien avec leurs habitudes alimentaires

données à caractère personnel (ci-après "la LVP"), en particulier les articles 31bis et 36bis ;

FORMULAIRE DE DÉCLARATION DE PATRIMOINE

ESSEC Cours Wealth management

INSCRIPTION MASTER / MASTER S APPLICATION

Les Français et le don d organes

La diffusion des résultats statistiques du recensement de la population

Étude de cas Assurance

La complémentaire santé : une généralisation qui

Questionnaire destiné aux parents Médiation

Calendrier du rhétoricien et des évènements d information

Probabilités conditionnelles Loi binomiale

Saint-Vallier-de-Thiey Bar-sur-Loup. Grasse. Grasse-sud

Burkina Faso Profil pays EPT 2014

Impact économique de l industrie canadienne du camping et analyse des tendances SOMMAIRE EXÉCUTIF.

COTE LAVAL. Cette méthode de calcul de la cote Laval est utilisée pour fin d admission depuis la session d automne 2010.

Les Français et la banque en ligne

Le calcul du barème d impôt à Genève

EVOLUTION SPATIO-TEMPORELLE DE L OCCUPATION DES ESPACES SUR LE TRIANGLE MARNAIS

013 2 luxembourg : fiscalité des personnes physiques F R

POPULATION ÂGÉE D UN AN ET PLUS AYANT DÉMÉNAGÉ UN AN AUPARAVANT

La confiance des chefs d entreprise continue de se renforcer en mai

Niveau de scolarité et emploi : le Canada dans un contexte international

L approche de régression par discontinuité. Thomas Lemieux, UBC Atelier de formation du Congrès de l ASDEQ Le 18 mai 2011

Charte d utilisation du site bluefactory

Baromètre de conjoncture de la Banque Nationale de Belgique

La classification automatique de données quantitatives

N.-B. 18 à 34 24,3 28,1 20,1 24,4. 35 à 54 36,7 23,0 31,6 49,3 55 à 64 18,7 18,7 21,3 16,9 65 et plus 20,3 30,2 26,9 9,4

Pratique de l analyse de données SPSS appliqué à l enquête «Identités et Capital social en Wallonie»

Fiche de projet pour les institutions publiques

Présentation: ez Publish 4.4. Sponsor principal:

TABLE DES MATIÈRES. 1.1 Introduction Profil des familles de Stanstead Nature de la politique 3. Volet 1 : Prendre racine à Stanstead

Adapté avec la permission du Ministère de l Éducation, Nouveau Brunswick

Définitions. Définitions sur le logement

Evolution de l équipement technologique des ménages Bretons entre 2008 et 2012 : Chiffres clés Emilie Huiban et Adrien Souquet, OPSIS, M@rsouin.

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

CLUB DE TENNIS CORTÉBERT

ECOLE NATIONALE DES AUXILIAIRES MEDICAUX (ENAM) DE LOME - TOGO PRESENTATION

L ANALYSE DU «PARC SOCIAL DE FAIT» PARISIEN EN 2003 : UNE ANALYSE TERRITORIALISÉE DES PROFILS D OCCUPATION DES PARCS ET DES QUARTIERS

Expériences des Universités européennes dans l enseignement de la Finance islamique. Zineb Bensaid, Senior Consultant ISFIN

VOLUME, REPARTITION SPATIALE ET STRUCTURE PAR SEXE ET AGE DES POPULATIONS AUTOCHTONES DU CONGO

Accès à l éducation postsecondaire : Comparaison entre l Ontario et d autres régions

Évaluation et recommandations

Le crédit, c est notre métier!

Transcription:

Consolidation de jeux de données pour la prospective : la génération d une population synthétique pour les communes de Belgique Philippe Toint (with J. Barthélemy) Centre de Recherche en Systèmes Complexes (NAXYS), FUNDP ( philippe.toint@fundp.ac.be ) IWEPS, Mai 2010

Introduction Contexte : la prospective prospective : association de contextes complémentaires en vue de prévisions intégrées à moyen/long terme requiert typiquement l utilisation simultanée de jeux de données différents (sources, méthodes, dates) Difficultés : Réconciliation des jeux de données? inconsistence entre données (légères fortes) contraintes légales (protection de la vie privée) Philippe Toint (Namur) Populations Synthétiques Mai 2010 2 / 17

Notre objectif : la population belge Notre problème : reconstruire une version synthétique de la population des 589 communes belges Mais... Tab. contingence Source Tot. Marginaux Prop. commune sexe age GéDAP, 2001 405.491 1,00 commune type mén. GéDAP, 2001 380.653 0,94 commune diplôme GéDAP, 2001 426.372 1,05 commune status GéDAP, 2001 396.594 0,97 arrond. type mén. age INS, 2001 357.884 0,88 arrond. diplôme INS, 2001 398.582 0,98 Exemples d incompatibilités pour l arrondissement de Charleroi Philippe Toint (Namur) Populations Synthétiques Mai 2010 3 / 17

Un peu plus précisement... But : Source 1 Source 2... Source n Générer une PS représentant les individus et les ménages au niveau communal (NUTS-5). Sources des données : Consolidation : Traitement des incohérences INS, GéDAP (UCL), MOBEL Génération de PS 2 niveaux d aggrégation : - communes (COM) - arrondissements (ARR) Philippe Toint (Namur) Populations Synthétiques Mai 2010 4 / 17

Génération de la population synthétique idée générale Philosophie du générateur Construire les individus et ménages synthétiques en tirant aléatoirement les caractéristiques / membres dans les distributions adéquates au niveau le + désaggrégé disponible tout en préservant les corrélations connues. Etapes du générateur 1 Estimer le pool d individus Ind, i.e. le tableau de contingence des caractéristiques des individus. 2 Estimer le tableau de contingence Men des variables ménages. 3 Construire les ménages synthétiques en tirant aléatoirement leurs membres dans Ind et en respectant la distribution conjointe calculée à l étape 2. ( Ind et Men ) Etapes 1 et 2 : Consolidation des données disponibles Philippe Toint (Namur) Populations Synthétiques Mai 2010 5 / 17

Génération de la population synthétique Création du pool d individus (1) Etape 1 : Estimation Individus caractérisés par M = N + K variables : tirage aléatoire Distrib N var. niveau COM Distrib K var. niveau ARR - de N M variables dans les distributions conjointes disponibles communal - des K caractéristiques manquantes dans les distributions conjointes au niveau de l arrondissement Construction d'un individu Mise à jour de Ind Philippe Toint (Namur) Populations Synthétiques Mai 2010 6 / 17

Génération de la population synthétique Création du pool d individus (2) Etape 2 : Corrections Totaux marginaux au niveau communal pour L K variables tirées au niveau de l arrondissement. Ind Tot. marginaux au niveau COM Modifications de variables pour certains individus afin de retrouver ces totaux marginaux. Correction Ind mis à jour Philippe Toint (Namur) Populations Synthétiques Mai 2010 7 / 17

Générateur de populations synthétiques Estimation de la distribution conjointe des ménages C I Source 1... Source k Source (k+1)... Source m Données compatibles et précises Données incompatibles et "imprécises" Estimation de Men C et I : contraintes pour l estimation de Men. mais problème sous-déterminé... Solution : optimisation d un critère de qualité pour l estimateur telle que C soit satisfait et I soit le plus satisfait possible. Critère choisi : maximisation de l entropie, i.e. i (x i lnx i x i ). Philippe Toint (Namur) Populations Synthétiques Mai 2010 8 / 17

Construction des ménages (étape 3) First household type Update Individuals Update Individuals Update Individuals Update Individuals Find the household head Find head's mate (if any) Find child (if any) Find adult (if any) Update Households Next household No Last household? Yes Next household type No Last household type? Yes STOP Génération des menages synthétiques pour une commune Philippe Toint (Namur) Populations Synthétiques Mai 2010 9 / 17

Application du générateur aux communes belges Caractéristiques des individus Choix des variables : Individus et ménages caractérisés par des variables influençant la mobilité Variable Valeurs possibles Sexe H ; F Classe d age 0-5 ; 6-17 ; 40-59 ; 60+ Diplôme aucun ; primaire ; secondaire ; supérieur Status socio-pro actif : inactif; étudiant Permis de conduire oui ; non Caractéristiques des individus Philippe Toint (Namur) Populations Synthétiques Mai 2010 10 / 17

Application du générateur aux communes belges Caractéristiques des ménages et communes Variable Valeurs possibles H célibataire seul F célibataire seul H avec enfant(s) (+ adultes) Type F avec enfant(s) (+ adultes) couple vivant seul couple avec enfant(s) (+ adultes) Nombre d enfants 0 à 5 Nombre d adultes (conjoint non compris) 0 à 2 Caractéristiques des ménages Variable Type d urbanisation Valeurs possibles urbain banlieue migratoire rural Niveau d aménagement du territoire par commune Philippe Toint (Namur) Populations Synthétiques Mai 2010 11 / 17

Application du générateur aux communes belges Résultats Erreur relative absolue (APD) : APD(x, y) = x y x où x = valeur désirée; y = valeur approchée / estimée. Ind Men Générateur de PS Ind' Men' Philippe Toint (Namur) Populations Synthétiques Mai 2010 12 / 17

Application du générateur aux communes belges Résultats (suite) Estimés Générés Différence APD Individus 11.060.573 10.638.112 422.461 0.039 Ménages 4.333.769 4.333.762 7 < 0.001 Population synthétique belge Distribution Min Max Ecart-type Moyenne Individus 0,000 0,065 0,013 0,020 Ménages 0,000 0,006 < 0,001 < 0,001 Statistiques de la moyenne des APD pour les types d agents (AAPD) Analyse plus fine des APD pour les individus Philippe Toint (Namur) Populations Synthétiques Mai 2010 13 / 17

Application du générateur aux communes belges Résultats (suite) Moyenne et écart-type des APD pour chaque type d individus Erreur acceptable en moyenne (< 20%) relativement stable (écart-type < 20%) Philippe Toint (Namur) Populations Synthétiques Mai 2010 14 / 17

Application du générateur aux communes belges Résultats (suite) : le cas de Tubize (le plus défavorable) Valeur Estimés 24.441 Générés 22.170 Différence 2.271 APD(Est.,Gén.) 0,093 AAPD(Ind ) 0,065 Agents de chaque type générés vs estimés Philippe Toint (Namur) Populations Synthétiques Mai 2010 15 / 17

Application du générateur aux communes belges Résultats (suite et fin) : Nombre de communes statistiquement similaires Test du χ 2 entre Ind et Ind (α = 0.05) 72, 8% de communes générées statistiquement similaires à leur estimation de départ. Philippe Toint (Namur) Populations Synthétiques Mai 2010 16 / 17

Conclusions Nouvelle approche de génération de populations synthétiques pour la fusion de données accepte données (modérement) incompatibles pas d échantillon représentatif au niveau le plus désaggrégé permet l incorporation de nouvelles variables respecte la vie privée requiert une mise à jour dans le temps premières expériences prometteuses... très nombreuses applications! Merci de votre attention! Philippe Toint (Namur) Populations Synthétiques Mai 2010 17 / 17