28/03/2014 Big Data Tendances, perspectives et cas d usage Jean-Michel Franco Directeur de l innovation et des solutions jean-michel.franco@businessdecision.com Twitter : @jmichel_franco
Définition Le «Big Data» vise à tirer un avantage concurrentiel au travers de méthodes de collecte, d analyse et d exploitation des données qu on ne pouvait utiliser jusqu à présent du fait des contraintes économiques, fonctionnelles et techniques liées aux volumétries, à la vitesse de traitement et à la variété des données à considérer. Source The 451 Group & Gartner Les challenges incluent la collecte, la curation, le stockage, l enrichissement, le croisement, la partage, l analyse et la visualisation. Source Wikipedia 2
Le Big data : une cible mouvante mais qui désormais nous concerne tous Transports 80 GB Banque 450 GB Retail 180 TB Medias 100 PB Medias 25 PB 100 Pétas 80 Pétas Assurances 600 MB Voyages 807 MB 60 Pétas 40 Pétas 20 Pétas 1950 1960 1970 1980 1990 2000 2010 1 Péta = 1.000.000.000.000.000 octets (10 15 ) = 1.000.000 Giga octets = 1000 téra octets 3
Popularité Notre enjeu : le principe de la longue traîne, appliqué à la gestion de l information La gestion de l information telle qu on la connait - capital informationnel constitué sur la base des SI internes de l entreprise - information exploitée transversalement uniquement en temps différé - information modélisée à priori La gestion de l information telle qu on la voudrait La gestion de l information telle qu on la connait + information générés par les humains + information gérée par les machines + information en «juste à temps» (vitesse) + information modélisable, assemblable, et extensible au fil de l eau (élasticité) Information disponible 4
Exemple d innovation dans la distribution: Au plus près du terrain et de la demande client La grande distribution a été pionnière dans la mise en œuvre de data warehouses d entreprise, notamment pour l analyse des données extraites des tickets de caisse. Mais il devient nécessaire de tirer encore plus de valeur de ces données, d approfondir les capacités d analyse et de les rendre «actionnables». Gestion plus fine et dynamique des prix de vente Personnalisation des offres pour les programmes de fidélité Gestion proactive des fraudes Ajustement de l offre et de la demande, par zone géographique Gestion du on line multi-canal (e-commerce, magasins, drive) 5
Exemple d innovation dans les utilities : Le «Smart Watering» En France, 25% de l eau injectée sur le réseau est perdue en fuites et fraudes ; Le manque à gagner pour les citoyens s élève à 2,4 milliards d euros par an. (*) Les canaux numériques et l Internet des objets ouvrent de nouvelles opportunités pour collecter/exploiter les données, et les mettre à disposition de tous (*) Source : SIA conseil Informations en temps réel sur les débits et la qualité de l eau Services à valeur ajoutée pour les consommateurs et les collectivités Détection au plus tôt des problèmes sur le réseau et en bout de chaine Engagement commun au principe de consommation responsable Automatisation du processus de collecte 6
Exemple d innovation dans le secteur des assurances : innover par de nouvelles offres Une start-up dédiée à l assurance des exploitations agricoles face aux aléas du climat. La collecte d un ensemble d informations à un niveau très fin sur les températures, l humidité, les précipitations Des offres personnalisées pour chaque agriculture en fonction des spécificités de son exploitation et de son environnement Gestion des sinistres totalement dématérialisés : paiement automatisé en fonction des conditions Un potentiel de déploiement sans limites géographiques, permettant d atteindre des marchés encore peu exploités 7
Exemple d innovation dans le secteur des utilities -> un «datalab» pour découvrir les données concurrence et les croiser avec les données internes Lyonnaise des Eaux est leader sur la qualité de l eau et cherche à conforter son leadership en se dotant d un outil de benchmark permettant l analyse de ses performances et la comparaison avec les autres délégataires et régies. Récupérer des données publiques à partir de sources de données non structurées et externe au S.I (site web http://www.sante.gouv.fr) Création d un «datalab» sur le cloud permettant à un «data scientist» de qualifier la qualité de données et de les rapprocher avec les données internes de l entreprise 8
De la BI telle qu on la connait au Big Data : à la recherche de la «longue traine» Systèmes transactionnels Etendre les principes fondateurs des concepts du Data Warehouse et l Information Management : Immédiateté Précision Agilité Data Warehouse Big Data Aller puiser la connaissance dans de nouvelles sources de données structurées Capteurs, Internet des objets Données externes Systèmes décisionnels d entreprise Exploiter et fédérer les données «non structurées» Documents, contenu numérique riche Données publiques du web et réseaux sociaux 9
Big Data : pour qui, pour quoi? Industrie Produit comme un service Qualité, innovation R&D Maintenance préventive Assurance Fraudes et risques Recommandation client Tarification à l usage, personnalisation Distribution Offres temps réel et service personnalisés Optimisation de l expérience magasin Pricing dynamique Santé Gestion des effets indésirables Traitements personnalisés. Amélioration des diagnostics Banques Parcours clients multicanaux Fraude, anti blanchiment Partage des données consommateurs pour personnalisation Transports, loisirs Planification et gestion des evts liés à la logistique Service client temps réel Economie d énergie Pricing dynamique Secteur public Services informationnels Fraudes, abus Sécurité publique Personnalisation de la relation citoyen Telecom Parcours clients multicanaux Partage de données de géo localisation Fraudes et analyse du comportement client Produits gde conso. Analyse de sentiments et retour produits Relation personnalisée avec le consommateur Produit comme un service Des arômes et ingrédients qui se déclinent dans tous les secteurs d activité 10
Le big data : Pour quoi faire? 0 10 20 30 40 50 60 Expérience client Efficacité des processus Innovation produit Marketing ciblé Réduction des coûts Gestion des risques Monétisation de l'information Governance et réglementations Sécurité Autres Sources : Gartner La relation client avant tout, puis l efficacité des processus et l innovation 11
Si l information devient un actif, alors il faut s organiser et se spécialiser en conséquence Sources : R Casonato/Gartner : Addressing the Big Data Skills Crisis 12
Vers un monde de plus en plus transparent pour le meilleur et pour le pire Définir au plus tôt son éthique vis-à-vis du big data Ne pas utiliser la donnée audelà d un périmètre bien délimité Traitez les autres comme vous accepteriez d être traités Solliciter le consentement, partagez les résultats et les bénéfices avec vos partenaires Source : F Buytendijk Institutions are becoming naked, and if you're going to be naked fitness is no longer optional. If you're going to be naked, you better get buff. Don Tapscott : four principles for the open world 13 03/2014 Big Data
Quelles technologies pour le Big Data? Sources : Ray Wang 14
La technologie phare du Big Data Hadoop est un framework Java qui permet de constituer une plateforme Big Data complète Adaptable sur des très gros volumes Tolérant aux pannes Open source Hardware «banalisé» CORE HADOOP COMPONENTS Hadoop Distributed File System (HDFS) File Sharing & Data Protection Across Physical Servers MapReduce Distributed Computing Across Physical Servers 03/2014 Big Data 15
Pourquoi Hadoop? Source : P Russom TDWI Best practices report ; Integrating Hadoop into BI & Data Warehousing 16
Hadoop : freins et axes d amélioration Source : P Russom TDWI Best practices report ; Integrating Hadoop into BI & Data Warehousing 17
Quelles évolutions pour Hadoop? Intégrer le temps réel (Fast Data) Base Colonne (Hbase) Spark (in memory) Storm-Yarn : Calculs en temps réel sur les données Gestion des données au fil de l eau (streams) Faciliter les accès aux données structurées et l interactivité avec SQL Impala (Cloudera) Drill (Mapr) Stinger (Hortonworks) Evolutions Hive, Hadapt Ecosytème «on top» autour de Hadoop Intégration de données (Talend, Syncsort, Revelytix ) Accès aux données (Datameer, Karmasphere ) Data mining ( R, Weka ) 18
Zoom sur un cas d usage détaillé de Big Data : Mémoriser, comprendre, optimiser et influencer le parcours client cross-canal cookie Numéro téléphone Site web vitrine Carte de crédit Portail client Retrait via distributeur N de compte Passage en agence Appel Centre de contact 19
Préparation du rendez vous par le conseiller Restitution des informations clients + suggestions de développement commercial Préparation du rendez vous Mr Durand Samedi 08/03/2014 11h à 12h Récapitulatif : Opportunités de développement commercial Mr Durand - Le client a utilisé le site Internet pour consulter des informations sur le crédit immobilier le 15/01/14 - Il a consulté la fiche produit Appétence Prêt à au taux Rappel fixe Immédiat (WebCallBack) 0.0102 - Il s est renseigné sur les Appétence produits à «la Assurance prise de rendez-vous Emprunteurs» et «Assurance 0.151 Habitation» - Il a demandé à vous rencontrer Appétence: suite avance à ses de consultations trésorerie 0.161 Appétence: crédit immobilier 1 Evaluation du projet de Mr Durand (basé sur 2 simulations réalisées) Appétence: produit d'assurance 0.762 - Projet : Achat maison dans l ancien Appétence: produit d'épargne 0.119 - Apport client : 50 000 Merci de confirmer l exactitude des Appétence: prêt à la consommation 0.0222 - Mensualité demandée : 1 500 / mois informations recueillies - 1 ère simulation Internet Nombre : 244 k de pages 15 ans vues taux 3,5% 26 Oui Non - 2 ème simulation Internet Risque : 270 k d'attrition 20 ans taux 4% 0.8 Temps depuis la dernière connexion au site web 33H Appétence mobile (optional) 0 Appétence web (optional) 1 Opportunités de proposition commerciales (* basé sur les données collectées) Si le score est inférieur à 0.2, ne pas proposer. Si le score est compris entre 0.2 et 0.6, faire une suggestion Si le score est supérieur à 0.6, faire la promotion des offres 20
27/03/2014 Big Data Tendances, perspectives et cas d usage Jean-Michel Franco Directeur de l innovation et des solutions jean-michel.franco@businessdecision.com Twitter : @jmichel_franco 21
27/03/2014 Table ronde Les cas d usage du Big Data Gestion de l information, Business Intelligence, Big Data : nouveaux rôles, nouvelles organisations 22
Table ronde : Big Data et industrie, services, retail Avec Cyril Amsellem Talend Etienne Cha Orange René Brégnard Qlik Pascal Courrier Orange Jean-Michel Franco Business & Decision Eric Gagnier Sas Nicolas Rouyer Orange Thierry Thépaut BiBoard 03/2014 Table ronde 23