Big Data et Statistique Publique Miracle ou mirage? Matthieu Cornec Mission Innovation
Sommaire 1. Constat : Explosion des données 1. Constat 2. Exemples 2. Big Data : nouvelle révolution économique? 1. Cas d usage 2. Technologies : enjeux, panorama 3. Quels enjeux pour la Statistique publique? 1. Enjeux 2. Exemples : Prix, prix, emploi 3. La méthodologie de la Statistique Publique, avenir du Big Data Analysis? 2
1. Constat : Explosion des données 650 % de croissance des données dans les 5 ans à venir, dont 80% non structurées 3
1. Constat : Explosion des données 4
1. Exemples 150 millions de Tweets par jour 60 millions de mises à jour sur Facebook 180 millions de blogs 135 millions de comptes Linkedin 63,6 millions de tablettes vendues dans le monde en 2011 en France : 19 millions d'utilisateurs de smartphone, 20 millions d usagers Facebook, 20 millions de blogs, 3 millions de comptes sur Linkedin, 5 millions de comptes Viadeo 5
2. Discours marketing : Big Data is Big Money 3ème volet de la révolution marketing Pétrole du 21ème siècle Les entreprises de demain seront «data centric». 6
2. Cas d usage : Jeux vidéos JEUX EN LIGNE (IsCool Entertainment, PARIS) Détecter et classifier les comportements de joueurs : habitudes, addictions, fraudes... Traiter 50 Go de données par jour Données essentiellement dans le Cloud 7
2. Cas d usage : Transport PILOTAGE DE LOGISTIQUE EN TEMPS RÉEL FedEx suit en temps réel les commandes d expéditions. Utiliser le moyen de transport le plus économique à un instant donné. Détection des comportements commerciaux atypiques des clients. 8
2. Plusieurs acteurs de la distribution ont capturé de la valeur en utilisant le big data (source MacKinsey) Actions Battle and outcome Impact (index 1991 = 1) Walmart gained upper hand in negotiations with P&G by mining 600 terabytes of data for customer preferences and buying behavior Net profit 6 0 Launch of loyalty card and data-mining efforts Retail FMCG Tesco increased basket size by 28% and took U.K. share leadership by understanding consumer behavior and linking purchases to a loyalty card program Net profit 8 4 0 Loyalty card launches Tesco Sainsbury, M&S CapitalOne outgrew the competition by running 60,000 yearly product configuration experiments to understand consumer behavior and create new winning card offers Revenue 5 0 SAS partnership and analytics expansion Capital- One BofA JPM AmEx 9 Source: Datastream; PhoCusWright; NAR; Hitwise; press search; McKinsey 9
2. Technos : le discours marketing les 4V du Big Data Volume : les technologies actuelles sont inadaptées à cette croissance effrénée. Vélocité : L accès et le partage des données doit se faire en temps réel. Variété : l entreprise est confrontée à des données non structurées :emails, web, réseaux sociaux, son, image, video... Variabilité : On ne sait pas prévoir l évolution des types de données 10
3. Big Data : quelles technos? 11
4. Big Data et la Statistique Publique? Aujourd hui, sommes-nous dans le «Big Data» dans la Statistique Publique? Recensement + Sources fiscales +.< 1 To/an Non 12
4. Big Data et la Statistique Publique? «The sample survey, the most important invention of the social sciences in the 20th Century, is in trouble. ««Current practices are unsustainable». Robert Groves, directeur du U.S. Census Bureau 13
4. Les 4 promesses du Big Data pour la Statistique Publique Disponibilité Variété? Coût 14 Précision
4. La Statistique Publique, c est de la good data avant d être de la Big Data Disponibilité Pérennité de la collecte? Possibilité de comparer dans le temps? Entre régions? Variété? Coût 15 Beaucoup de données mais en dehors du périmètre de la Statistique Publique : audience, marketing,. Précision Ressources Infrastructures, et RH très importants Les données sont-elles représentatives de la population? Quels sont les biais de la mesure?
4. Stratégie Big Data pour la Statistique Publique Prouver le concept sur quelques exemples ciblés Sur les données, commencer par des indicateurs avancés plutôt que de la mesure Sur les logiciels, tester les technologies (Hadoop, ) Mettre en œuvre des partenariats public-privé 16
4. Big Data et la Statistique Publique : Prix 17 Source: bpp.mit.edu
4. Big Data et la Statistique Publique : Production 18
4. Big Data et la Statistique Publique : Production 19
4. Big Data et la Statistique Publique : Emploi 20
4. Big Data et la Statistique Publique : Emploi 21
4. La méthodologie de la Statistique Publique, avenir du Big Data Analysis? BIG DATA ANALYSIS (machine learning, modèle statistiques, ) Valeur? Mur de la complexité algorithmique? BIG DATA (Stockage To, Po, ) 22
4. La méthodologie de la Statistique Publique, avenir du Big Data Analysis? BIG DATA ANALYSIS (machine learning, modèle statistiques, ) Valeur Sondages, échantillons BIG DATA (Stockage To, Po, ) 23
4. Discussion 24