Quels usages des données massives pour les statistiques publiques? Enjeux, méthodes et perspectives

Documents pareils
DONNEES MASSIVES POUR LA STATISTIQUE

Introduction au Data-Mining

Introduction Big Data

STATISTIQUES. UE Modélisation pour la biologie

Enjeux mathématiques et Statistiques du Big Data

GENIE STATISTIQUE GESTION DES RISQUES ET INGENIERIE FINANCIERE MARKETING QUANTITATIF ET REVENUE MANAGEMENT

Introduction au Data-Mining

BIG DATA en Sciences et Industries de l Environnement

BIG Data et R: opportunités et perspectives

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Programmation parallèle et distribuée (Master 1 Info )

1 er Avril 2015 Data Science & Big Data Etat de l art Donner plus d intelligence aux données

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

Famille multirésidence : recensement et sources alternatives

Formation Actuaire Data Scientist. Programme au 24 octobre 2014

Introduction au datamining

Big Data? Big responsabilités! Paul-Olivier Gibert Digital Ethics

Panorama des solutions analytiques existantes

Les défis statistiques du Big Data

(VM(t i ),Q(t i+j ),VM(t i+j ))

Big Graph Data Forum Teratec 2013

Panorama des problématiques de traitement de l information. Larbi Aït Hennani, Fatma Bouali, Vincent Vandewalle

Les datas = le fuel du 21ième sicècle

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Formations EViews FORMATIONS GENERALES INTRODUCTIVES INTRO : INTRODUCTION A LA PRATIQUE DE L ECONOMETRIE AVEC EVIEWS

IBM Software Big Data. Plateforme IBM Big Data

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

Programmation parallèle et distribuée

Masses de données. 1. Introduction 2. Problématiques 3. Socle de formation (non présenté) 4. Liens avec Formation INSA

Big Data -Comment exploiter les données et les transformer en prise de décisions?

La nouvelle planification de l échantillonnage

Big- Data: Les défis éthiques et juridiques. Copyright 2015 Digital&Ethics

Conserver les Big Data, source de valeur pour demain

NewPoint IT Consulting BIG DATA WHITE PAPER. NewPoint Information Technology Consulting

Formation continue. Ensae-Ensai Formation Continue (Cepe)

Les risques liés à l activité de l entreprise : quels outils pour les identifier?

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars ans du SIAD -"Big Data par l'exemple" -Julien DULOUT

CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING

Vision prospective et obstacles à surmonter pour les assureurs

Transformez vos données en opportunités. avec Microsoft Big Data

MapReduce. Nicolas Dugué M2 MIAGE Systèmes d information répartis

BIG DATA : GESTION ET ANALYSE DES DONNÉES MASSIVES (BGD) Mastère Spécialisé. Appréhendez les challenges économiques et juridiques du Big Data

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Analyse de corrélation Étude des dépendances - Variables quantitatives

Couples de variables aléatoires discrètes

Etude des propriétés empiriques du lasso par simulations

Introduction. I Étude rapide du réseau - Apprentissage. II Application à la reconnaissance des notes.

Arbres binaires de décision


Collecter les 54 milliards d'euros de bénéfices issus des nouveaux usages de la donnée

FORUM NTIC BIG DATA, OPEN DATA Big Data: les challenges, les défis

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Système d'information agile pour les collectivités Collectif

Année : Team-War Jaafar AMRANI-MESBAHI Fabien GARCIA Abdelali NAIT BELKACEM Rahma NAKARA Philippe NGUYEN

Fouillez facilement dans votre système Big Data. Olivier TAVARD

Monitoring continu et gestion optimale des performances énergétiques des bâtiments

Ad-exchanges & RTB (avec la participation de Fabien Magalon, La place

Les technologies du Big Data

METHODOLOGIE GENERALE DE LA RECHERCHE EPIDEMIOLOGIQUE : LES ENQUETES EPIDEMIOLOGIQUES

Chapitre 3. Les distributions à deux variables

We make your. Data Smart. Data Smart

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

BIG DATA. Veille technologique. Malek Hamouda Nina Lachia Léo Valette. Commanditaire : Thomas Milon. Encadré: Philippe Vismara

Big Data On Line Analytics

Algèbre 40 Analyse Stat. 1 - IES : Probabilités discrètes et calcul intégral 29,5 6 Stat. 2 - IES : Probabilités générales 54 8 UE1-02 M-E-IS

Direction des Études et Synthèses Économiques Département des Comptes Nationaux Division des Comptes Trimestriels

Programmation parallèle et distribuée

DocForum 18 Juin Réussites d un projet Big Data Les incontournables

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Big Data et Graphes : Quelques pistes de recherche

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data.

Groupe de Discussion Big Data Aperçu des technologies et applications. Stéphane MOUTON

PREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE

IBM BigInsights for Apache Hadoop

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining.

Big data et données géospatiales : Enjeux et défis pour la géomatique. Thierry Badard, PhD, ing. jr Centre de Recherche en Géomatique

Extraction d informations stratégiques par Analyse en Composantes Principales

Acquisition des données - Big Data. Dario VEGA Senior Sales Consultant

Cours 02 : Problème général de la programmation linéaire

Surmonter les 5 défis opérationnels du Big Data

M2 GL UE DOC «In memory analytics»

MASTER ÉCONOMIE PARCOURS INGENIERIE ECONOMIQUE

RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/ Présentation. 1.2 Ressources

L ANALYSE DU «PARC SOCIAL DE FAIT» PARISIEN EN 2003 : UNE ANALYSE TERRITORIALISÉE DES PROFILS D OCCUPATION DES PARCS ET DES QUARTIERS

La classification automatique de données quantitatives

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Processus de Développement Logiciel

Processus de Développement Logiciel

Soutenance de stage Laboratoire des Signaux et Systèmes

Big Data. Les problématiques liées au stockage des données et aux capacités de calcul

DIALOGUE AVEC LES CONSTRUCTEURS DE VEHICULES

Gestion de la Relation Client (GRC)

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Pourquoi intégrer le Big Data à son organisa3on?

ManageEngine IT360 : Gestion de l'informatique de l'entreprise

Big Data. Concept et perspectives : la réalité derrière le "buzz"

Cycle de formation certifiante Sphinx

Anthropologue, ethnologue, géographe, historien de l'art, ingénieur, informaticiens, mathématicien, pédagogue, sociologue, Étudiants en tourisme

La géomatique en Nouvelle-Calédonie usages professionnels et potentiels économiques

Le BigData, aussi par et pour les PMEs

Transcription:

Quels usages des données massives pour les statistiques publiques? Enjeux, méthodes et perspectives Stéphanie Combes et Pauline Givord (DMCSI) INSEE-DMSCI 02/04/2015

Plan Qu'est-ce que le Big Data? Les Big Data pour la statistique publique? Opportunités et questions Quelles compétences pour les statisticiens face à des données massives? Outils statistiques pour de gros volumes, de grandes dimensions 2 Données massives et statistiques publiques 02/04/2015

Qu'est-ce que le Big Data? Pas de dénition xe mais on peut les caractériser par : Mode de génération : enregistrement automatiques d'activités Volume : élevé qui nécessite le développement d'outils et d'infrastructures adaptés Variété : peu ou pas structurées, diérents formats Vélocité : ux continus (en temps réels ) Origine : développement des objets connectés (mobile, capteurs...), acteurs du Web, données de gestion (données de caisse, PMSI) mais aussi Big science (génomique, astronomie) 3 Données massives et statistiques publiques 02/04/2015

Les données massives pour la statistique publique? Réexions des diérents INS sur la possibilité d'utiliser ces données dans leurs productions Quelques projets : Données de caisse (Insee) : améliorer la précision, produire des indices de prix localisés, des prix moyens par produits... Données de téléphonie mobile : compléter les statistiques sur le tourisme (Eurostat), la mesure des temps de trajets Recherches internet : améliorer la prévision conjoncturelle (note de conjoncture Insee mars 2015) ; données de réseaux sociaux : indicateur de conance des ménages (Statistics Netherlands) Imagerie satellite : statistiques agricoles (INS Australie) 4 Données massives et statistiques publiques 02/04/2015

Opportunités Disponibilité immédiate de l'information : réduire les temps de publication Nombre d'observations très élevé : publication à des échelles territoriales plus nes, des sous-populations, événéments rares Réduire la charge d'enquête : compléter les indicateurs existants Temps de transport, dépenses précises Réduire les coûts? Données plutôt complémentaires à la production actuelle (pauvres en caractéristiques sociodémographiques) 5 Données massives et statistiques publiques 02/04/2015

Dés Protection de la vie privée : Utilisation de données personnelles ; risque de réidentication augmenté par la tentation/nécessité d'appariement des données Accès aux données : coût, droit, reproductibilité, garantie d'indépendance Concurrence / positionnement de la statistique publique Qualité des données Représentativité des données Pertinence des outils statistiques utilisés? 6 Données massives et statistiques publiques 02/04/2015

Quelles compétences /outils pour les statisticiens? Les grands volumes ont conduit au développement d'infrastructures adaptées Données stockées sur des serveurs en parallèle, calculs distribués sur ces serveurs, mais l'interface est transparente pour l'utilisateur Utile d'avoir des notions de base pour faire des choix raisonnés objectif de cette (modeste) présentation 7 Données massives et statistiques publiques 02/04/2015

Quels outils pour gérer de gros volumes? Des données stockées sur des chiers distribués (Hadoop Distributed File System) Les calculs peuvent être menés en parallèle sur diérents serveurs (Map Reduce) 8 Données massives et statistiques publiques 02/04/2015

Paralléliser des calculs statistiques Tout n'est pas échelonnable! Demande de pouvoir découper les opérations sur des parties de la base Opération élémentaire comme MCO l'est : Cas où beaucoup d'observations (n grand) réparties sur plusieurs n uds (indicés par a), mais peu de variables (p << n) Estimateur MCO : (X X ) 1 X Y : inversion de la matrice X'X qui est seulement de taille (p, p) Terme générique de la matrice X X : X j X k = n X (a) k X i=1 i,kx i,j = a X (a) j Remarque : la plupart des logiciels stats (R, SAS) permettent de travailler sur des bases distribuées Ce n'est parce que c'est faisable que c'est optimal! 9 Données massives et statistiques publiques 02/04/2015

Quelles compétences pour le statisticien? Utiliser des technologies de stockage type Hadoop pas toujours optimal selon le volume Outils de type Map Reduce adaptés pour des tâches élémentaires, moins pour des tâches plus complexes Si les données sont très volumineuses, il peut être utile d'échantillonner pour utiliser des traitements plus complexes (exemple : algorithmes itératifs, validation croisée) Logiciels plus adaptés (ex Spark) à ces traitements sont en développement Réexion à avoir sur les méthodes les plus adaptées : dépend de la structure des données, de leur mode de stockage... mais aussi de la nature de la question 10 Données massives et statistiques publiques 02/04/2015

Quelles compétences pour le statisticien? Les données massives correspondent aussi à beaucoup de régresseurs potentiels (p grand) Enjeu principal de la statistique : extraire l'information pertinente Divers types d'outils qui répondent à des priorités diérentes : Datamining, prévision : identier les covariables essentielles pour minimiser l'erreur de prévision Econométrie : mettre en évidence des relations entre variables 11 Données massives et statistiques publiques 02/04/2015

Quelles compétences pour le statisticien? Nécessaire de dépasser ses réexes Intérêt des méthodes de réduction de la dimension face à des données massives (sélection des régresseurs pertinents, spécication non linéaire) Meme en prévision / data mining, l'endogénéité peut être un problème En grande dimension : la parallélisation peut introduire des problèmes pour la convergence/stabilité/réglage de certains algorithmes importance du choix de la méthode les problèmes classiques (erreurs d'estimations, endogénéité, sur apprentissage) peuvent être ampliés 12 Données massives et statistiques publiques 02/04/2015

Des problèmes ampliés par la grande dimension - des estimations bruitées Lorsque l'on estime simultanément un grand nombre de paramètres, les erreurs s'accumulent Illustration (issue de Fan, Han et Liu, 2014) : On génère deux classes d'observations, seules les dix premières variables sont réellement discriminantes X 1,..., X n N p (µ 1, I p ) et Y 1,..Y n N p (µ 2, I p ), p = 1000, n = 100 µ 1 = 0 et seules les dix premières composantes de µ 2 sont non nulles. Résultat d'une ACP selon qu'on utilise m=2, 40, 200, 1000 variables 13 Données massives et statistiques publiques 02/04/2015

Des problèmes ampliés par la grande dimension - des estimations bruitées 14 Données massives et statistiques publiques 02/04/2015

Des problèmes ampliés par la grande dimension - des estimations bruitées Réduire la dimension peut être une solution Hypothèse de sparsité (parcimonie) : parmi les très nombreux régresseurs, seul un nombre limité a un eet non nul Diérence par rapport à l'analyse économétrique standard : on ne sélectionne pas a priori la liste de ces régresseurs Estimation par des algorithmes de sélection de variables type LASSO : On introduit un terme de pénalisation, et on minimise : QL(β) + λ β 1 Conduit à forcer l'annulation de nombreux paramètres 15 Données massives et statistiques publiques 02/04/2015

Des problèmes ampliés par la grande dimension - corrélations et relations fortuites Corrélations fortuites : Si on calcule des corrélations sur un nombre important de variables, risque élevé d'obtenir une corrélation statistique par pur hasard Endogénéité incidente : sélection aveugle risque d'introduire un régresseur endogène, ce qui biaise l'inférence Sur-apprentissage : Une faible erreur d'estimation peut conduire à une grande erreur de prévision Risque peut être réduit par des méthodes de validation croisée, mais coûteux sur données volumineuses Discipline en formation... pas de conclusions dénitives 16 Données massives et statistiques publiques 02/04/2015

Conclusion L'Insee n'en est qu'au tout début de ses réexions sur le sujet Le projet Données de caisse déjà avancé, d'autres plus expérimentaux devraient se mettre en place Sur le plan des méthodes, demande un investissement dans d'autres outils (analyse textuelle, appariements complexes, visualisation...) que ceux évoqués ici Les enjeux ne sont évidemment pas que statistiques : nécessité d'une approche/ équipe pluridisciplinaire Data scientist : compétences statistiques, IT, juridique,... Réseaux : nécessité de développer des collaborations 17 Données massives et statistiques publiques 02/04/2015

Quels usages des données massives pour les statistiques publiques? Merci de votre attention! Contact : M. Stéphanie Combes et Pauline Givord (DMCSI) Tél. : 01 41 17 66 01 Courriel :pauline.givord@insee.fr Insee 18 bd Adolphe-Pinard 75675 Paris Cedex 14 www.insee.fr Informations statistiques : www.insee.fr/contacter l'insee 09 72 72 4000 (coût d'un appel local) du lundi au vendredi de 9h00 à 17h00