Les données de l'administration traitées par les outils Big Data (dans le cadre de la recherche) 20 mars 2012
Enjeux du bigdata Le Bigdata fait référence aux très gros volumes de données non structurées ou semi-structurées produites par le secteur privé ou le secteur public. Ces très gros volumes de données sont aujourd hui peu exploitées ou au moins sous-exploités Les technologies informatiques et de communication capables de les traiter/analyser en quasi-temps réel émergent aujourd hui Les enjeux financiers sont immenses (plusieurs centaines de milliards d euros) : C est le cas dans le secteur privé (marketing, commerce ) Mais pas uniquement : le secteur public est aussi très largement concerné
Secteurs publics prometteurs Dans le secteur de la sécurité : faire un suivi de la criminalité (alertes, vagues..) Dans le secteur de l alimentation : améliorer le suivi et la traçabilité des aliments Dans le secteur de la santé : suivi des données épidémiologiques Dans le secteur des transports : les données de circulation pour une meilleure régulation du trafic Dans le secteur de l énergie : la récupération et l analyse des données de compteurs électriques en temps réel (meilleure anticipation)
Secteurs prometteurs Un meilleur suivi des prix : exploitation des données de caisses et des données des ventes en ligne : Analyse des marchés et la consommation production d'indices des prix Suivi des imports/exports Données non structurées/ textuelle issues des réseaux sociaux : Etude de marché (tendances, opinions sur les produits ) / Marketing Mais limite de l analyse textuelle / émergence du web sémantique
D autres sources de données : Les données administratives et statistiques Ce sont d importants volumes de données semistructurées, fiables, vérifiées (qualité). Les données sont relatives à toutes les catégories d agents du monde économique et social : individus, des ménages, ou des entreprises et couvrent des informations aussi diverses que les revenus, emplois le patrimoine, la santé, les données à caractère social et démographiques, la localisation géographique
La sécurité de l exploitation des données Les gros volumes de données concernent souvent des informations à caractère personnel enjeu : Disposer d un dispositif hautement sécurisé pour Faire des analyses pointues sans lever l'anonymat Offrir toutes les garantie en matière de confidentialité Offrir toutes les garanties de sécurité : Non dissémination des données Authentification des personnes analysant ces données Avoir une traçabilité des données la loi de 1978 instaurant la CNIL encadre les traitements sur les données à caractère personnelles : «on ne peut pas faire n importe quoi avec ces données»
L outil développé par le GENES pour la recherche Le CASD : un équipement hautement sécurisé pour l'exploitation de données individuelles très détaillées garantissant : La non dissémination des données Une authentification forte Le CASD a été labélisé «équipement d excellence» par un jury international Le CASD permet aujourd hui : D analyser des volumes importants de données administratives et statistiques (fichiers plats) De fournir aux chercheurs des outils d analyse pour ces données : Le langage R pour faire des modèles prédictifs à partir de ces données Les logiciels d analyse statistiques (SAS, Stata) De fournir aux chercheurs des capacités importantes de stockage, de RAM, de processeurs
Les grands enjeux du CASD pour la recherche Offrir la possibilité de confronter les données non structurées (web, capteurs..) aux données structurées de l administration : Permettre des appariements sécurisé (dans le respect des lois) entre toutes ces sources de données créer des connecteurs d'acquisition sécurisée de données (ETL) en temps réel Exemple : Confronter les données socio-économiques aux données économiques (caisses, ventes en ligne) pour permettre une évaluation des politiques publiques au plan local Le secure cloud computing l'adaptation du CASD aux très grands volumes et au temps réel : un véritable challenge
Merci de votre attention