1 er Avril 2015 Data Science & Big Data Etat de l art Donner plus d intelligence aux données
Votre interlocuteur Didier Gaultier Directeur Data Science Business & Decision Professeur de Statistique à l EPF et l ESCP (06) 80 96 68 90 didier.gaultier@businessdecision.com 2 01/04/2015 Etat de l Art du Big data
Agenda 1. Data Science, Big Data & analyse des données 2. Cas d usage 3. Zoom sur la Data Science 4. Organisation et Méthodologie 5. Conclusion 3 01/04/2015 Etat de l'art Big Data
Business & Decision aujourd hui Multi specialiste Une expertise forte Reconnu sur ses marchés Multi technologies Multi secteurs Maîtrisant les business processes Mondial Local 4 01/04/2015 Etat de l'art du Big data
Une présence dans le Monde, un maillage important en France 5 01/04/2015 Etat de l'art du Big data
Faits marquants sur des données 7 000 000 000 abonnement de mobiles dans le monde 1 320 000 000 utilisateurs Facebook 700 000 000 connexions mobiles à Facebook chaque mois x300 est le taux de croissance des données numériques prévu de 2005 à 2020 au niveau mondial 53 Go est le trafic annuel prévu par IP par habitant en 2016 (19 Go en 2011). 500 000 000 est le nombre de tweets par jour (soit presque 6 000 par seconde) 80 % des données ont été générées dans les deux dernières années 6
Pourquoi la Data Science et le Big Data Passage à la vitesse supérieure pour des besoins mal ou non couverts par la BI Capacité et nécessité, désormais, du fait du contexte de Big Data, d exploiter un grand volume de données qu il faut faire parler différemment et réussir à exploiter convenablement Les données de l entreprise sont désormais la plupart du temps accessibles via des entrepôts de données La puissance de calcul est devenue abordable Les méthodes et outils traditionnels atteignent leurs limites devant la multiplication des données et des besoins 1er Avril 2015 Etat de l'art Big Data 7
Le Big Data fonctionne avec des données Le stockage de données fournit à une organisation une mémoire (interne et externe) L analytique fournit à l'entreprise l'intelligence et l agilité 8 8
Le Big Data dans les entreprises des entreprises ont ou vont investir dans le Big Data dans les 2 ans à venir des entreprises ont déjà déployé des solutions Big Data Sept. 2014 06/10/2014 Etat de l'art du Big data 9
La (mauvaise) Définition du Big Data : les 5 V V comme Volume : en augmentation annuelle de plus 50%, le volume de données disponibles croit de manière exponentielle. Le croisement de ces données entre elles étant à la base de pertinence de l information générée, la volumétrie des données est explosive. V comme Variété : à la diversité des sources et des formats (Texte, Photo, Vidéo, Son, Log technique,..) s ajoute une grande variété de fournisseurs internes et externes, objets ou personnes... V comme Vitesse : À l obsolescence rapide d une partie de ces données issues du temps réel et des médias sociaux (données comportementales ou données exprimant un sentiment), s ajoute la nécessité d intégrer au plus vite d autres données pour générer une information de première fraîcheur. V comme Valeur : les données créatrices de valeur sont les plus intéressantes. La difficulté vient du fait que croiser plusieurs données apparemment sans valeur peut créer des données qui auront une grande valeur par la suite. V comme Véracité : Les données doivent avoir un certain niveau de fiabilité pour être exploitables. 10 10
Les (bons) Principaux concepts en Data Science et Big Data Analytique Data Science Descriptif Avancé Big Data Exploration DataViz Explicatif et prédictif BI Architecture Infrastructure traditionnelle 11
Positionnement de l Advanced Analytic Advanced Analytic Combinaisons de modèles Analyse supervisée Analyse multivariée Statistique très simple (Moyenne, totaux, ) 12
La matière première : La Donnée Définition de donnée Ce qui est donné (ou admis), connu (ou reconnu), déterminé dans l énoncé d un problème, et qui sert de base à un raisonnement, de point de départ pour la recherche de l inconnu Il en ressort que : La notion de donnée est liée à la notion de connaissance et de savoir Mais la donnée n est qu un morceau de connaissance ou d information partielle, voire extrêmement partielle (Une donnée prise seule et isolément ne sert à rien) Il peut servir de base à la reconstitution de la connaissance un peu à la manière d un puzzle ou de l information via la comparaison ces données Elle se positionne dans un contexte, et par rapport à un objectif Ne pas confondre informatique et information, support et données Chaque donnée prise dans son contexte peut être notée sur une échelle de justesse et de certitude 13
Les 3 disciplines de l Analyse de données Data Discovery Data Science Dataviz L analyse des données pour tous Apporter de l intelligence aux données Présenter les données pour mieux les partager - Outils dédiés à l analyse des données - Outils issus du monde du Datamining - Capacités graphiques avancées et innovantes - Facilité d utilisation pour tous les utilisateurs de la donnée - Dédiés à des utilisateurs statisticiens / data- Scientists - Support du Data- Storytelling ou des infographies - Fonctionnalités de Dataviz - Apport d une très forte valeur ajoutée sur les données - Présentation dynamique ou statique 1er Avril 2015 Etat de l'art Big Data 14
Discipline Data Discovery L analyse des données pour tous La discipline qui demande le moins de compétences aux utilisateurs Une forte maîtrise des données manipulées est nécessaire mais pas de compétence informatique ou mathématique nécessaire Data Discovery Discipline à la croisée des chemins Fonctionnalités de présentation avancées (Dataviz) Fonctionnalités de manipulation complexe des données L apport d intelligence sur ces outils est limitée et des traitements avancés prendront du temps à être réalisés Principales solutions : Acteurs traditionnels : Qlik, Tableau, Tibco Nouveaux acteurs nés du Big Data : Datameer, ZoomData Open- source Apache Elastic Search Kibana 1er Avril 2015 Etat de l'art Big Data 15
Discipline Data Science Apporter de l intelligence aux données La discipline des spécialistes (statisticiens, dataminers, data- Scientists) Data Science Une forte maîtrise des données manipulées est nécessaire Des connaissances avancées en statistiques sont nécessaires Les outils de Data- Science sont complexes à prendre en main (langage, interfaces utilisateurs limitées ) Par l élaboration de modèles avancés basés sur des combinaisons d algorithmes ces outils permettent de réaliser du Prédictif La majeure partie du temps de projets de Data Science est à consacrer à la préparation des données (recueil, nettoyage, tri, modélisation ), et à la caractérisation Principales solutions : Acteurs traditionnels : SAS, IBM SPSS, Dell Statistica, SAP Infinite Insight (ex KXEN), SPAD Open- source : R, KNIME, Rapid Miner 1er Avril 2015 Etat de l'art Big Data 16
Discipline Data Visualisation Présenter les données complexes de façon simple juste et attractive Cette discipline se concentre sur la présentation des données, le design des représentations Après avoir donné beaucoup d intelligence aux données, il faut un mode de représentation simple Pour véhiculer les bons messages ou donner les bons outils permettant d exploiter l intelligence apportée à des non- sachants Support du Data- Storytelling Dataviz Les fonctionnalités à rechercher sont : Modes de représentations innovants Dynamisme, capacité à interagir sur les informations présentées Principales solutions du marché : Librairies JavaScript : D3.js, CanvasJS, Highcharts Outils de la Data Discovery : Qlik, Tableau, Tibco Outils d infographisme : Adobe Photoshop, InDesign 1er Avril 2015 Etat de l'art Big Data 17
Exemple de Dataviz : l importance de l aspect visuel des Indicateurs 18
Agenda 1. Data Science, Big Data & analyse des données 2. Cas d usage 3. Zoom sur la Data Science 4. Organisation et Méthodologie 5. Conclusion 19
Le Big data pour optimiser l éco- conduite Véhiposte est l opérateur de la flotte de véhicules du Groupe La Poste Quelques chiffres 40 000 véhicules actifs (4 roues) Données détaillées au trajet (entre 2 arrêts) pour les véhicules électriques 45 000 immobilisations de véhicules d'au moins 1 journée sur les 4 dernières années Données des capteurs des véhicules électriques + Données déclaratives des véhicules thermiques Utiliser les techniques de l Advanced Analytics pour optimiser l éco- conduite Traitements de calculs avancés sur Hadoop (en Map/Reduce) Dataviz sur QlikView 1er Avril 2015 Etat de l'art Big Data Nov. 2014 BIG DATA - Etat de l'art 20
Projet «Le Smart Watering» En France, 25% de l eau injectée sur le réseau est perdue en fuites et fraudes Le manque à gagner pour les citoyens s élève à 2,4 milliards d euros par an. (Source SIA Conseil) Les canaux numériques et l Internet des objets ouvrent de nouvelles opportunités pour collecter/exploiter les données, et les mettre à disposition de tous Les Gains : Informations en temps réel sur les débits et la qualité de l eau Services à valeur ajoutée pour les consommateurs et les collectivités Détection au plus tôt des problèmes sur le réseau et en bout de chaine Engagement commun au principe de consommation responsable Automatisation du processus de collecte de la consommation 21 01/04/2015 Etat de l'art du Big data
Agenda 1. Data Science, Big Data & analyse des données 2. Cas d usage 3. Zoom sur la Data Science 4. Organisation et Méthodologie 5. Conclusion 22
Qu est ce que la Data Science? La Data Science propose plusieurs niveaux : De l analyse descriptive : Vise à identifier les causes d une situation donnée De la projection : Vise à projeter sur le futur les éléments du passé De l analyse prédictive : Vise à anticiper au plus juste ce qu il va se passer en basant sur des paramètres contextuels (Contraintes, variables, hypothèses, ) De l analyse prescriptive (Ou optimale) : Vise à identifier et anticiper les actions /décisions les plus optimales à prendre pour arriver à la situation voulue 23
Focus sur le prédictif L'analyse prédictive n'est pas nouvelle : Les entreprises emploient déjà la modélisation et le Data Mining depuis des années, notamment sur les métiers de la R&D Les fondements des statistiques ont été inventés dans les années 50 La discipline, connaît cependant un essor sans précédent grâce au marketing digital et au Big Data L analyse prédictive ou quantitative s appuie sur: D importants volumes de données Des méthodes statistiques Des hypothèses de fond Méthodes statistiques Les analyses prédictives et prescriptives reposent sur la capture des liens entre les variables explicatives et la variable à prédire Ces liens sont ensuite utilisés pour déterminer les valeurs de la variable à prédire sur les individus pour lesquels on ne dispose que des variables explicatives Données Hypothèses 24
Principaux concepts en Data Science et analytique avancé Data Science Descriptif Approche linéaire : Statistique Explicatif et prédictif Approche non linéaire : Machine learning 25
Analytique descriptif, explicatif et prédictif Approche descriptive : Lorsqu on recense les données disponibles, qu on analyse leur qualité, leur complétude, qu on essaye d identifier des indices de comportements (passés), des interactions entre différentes parties, quand on classifie, qu on établit des liens possibles, on est dans une approche descriptive. Approche explicative ou prédictive : Lorsqu on essaye d établir un lien entre des données passés ou présentes et des évènements, des comportements, des risques on est dans une approche explicative ou prédictive. Explicative si on cherche a expliquer une situation existante Prédictive, si elle n existe pas encore Evènements passés Evènements présents Evènements futurs Risques passés Risques présents Risques futurs Passé Présent Futur temps Descriptif Explicatif Prédictif 26
Analytique descriptif, explicatif et prédictif Descriptif Variables explicatives Analyse Informations et Connaissance Exemples : segmentation, typologie, classification, analyse dimensionnelle Explicatif et prédictif Variables explicatives Modèle Variable à prédire Exemple : ciblage de campagne, scoring 27
Lien entre données et raisonnement Les données et le raisonnement ont une relation étroite avec le savoir et la connaissance Les données sont la base de cette connaissance : Données justes + Raisonnement juste = Connaissance Données fausses + Raisonnement juste = Ignorance Données justes + Raisonnement faux = Ignorance Données fausses + Raisonnement faux = Ignorance 28
Très important : Corrélation ne vaut pas cause! Cause et l'effet (Hume, 1748) La cause et l'effet doit se produire dans une continuité de temps (contiguïté) La cause doit se produire avant l effet L'effet ne devrait jamais se produire sans présence de la cause. Condition d élimination (moulin, 1865) Un effet devrait être présent quand la cause est présente Quand la cause est absente l'effet devrait être absente également. Conditions du contrôle : la cause est absente. 29
Egalement très important : signaux Forts et signaux faibles Dans les bases de données il existe plusieurs sortes d information : Les signaux forts Ils sont repérables par le fait qu ils induisent des corrélations fortes Ils sont relativement constant sur une longue période de temps Ils peuvent évoluer sur le long terme mais ne se démentent pas Ils ont en quelque sorte valeur de «Loi» On parle aussi de données froides Exemple : le champ magnétique terrestre Les signaux faibles Ils sont beaucoup moins repérables et sont volatiles Ils induisent des corrélations faibles, parfois pas de corrélation du tout Ils évoluent très vite dans le temps Ils ont une durée de vie beaucoup plus courte On parle aussi de données chaudes Exemple : la détection du passage d un chasseur sur un radar La règle : il faut commencer par analyser les signaux forts avant d analyser les signaux faibles! 30
Data Mining et modes de raisonnement Nous nous basons sur trois modes de raisonnement principaux : Le raisonnement intuitif : Utile mais on ne peut pas se baser dessus pour prouver et démontrer Le raisonnement déductif : Mode usuel dans la vie courante Utile en particulier en «analyse descriptive» Le but est de représenter les données observées de sorte qu'on puisse les comprendre facilement, d'une manière synthétique : tables, graphiques Le raisonnement inductif : Mode utilisé en particulier en recherche scientifique et en Data Mining Généraliser dans certaines conditions les conclusions obtenues sur un aspect des données. Cette phase dépend d hypothèses, de leur vérification, et d un calcul de risque (erreur) qui peut être évalué. 31
Notions clés en Data Science Les deux indicateurs clés en statistique La robustesse du modèle : Aussi nommé «Sig» ou «P- Value» Est égal au pourcentage de chance que le modèle soit du au hasard (donc faux) Un modèle est dit acceptable si son «sig» ou sa p- value est inférieur(e) à 0,05 soit 5 %. La précision : Elle indique les pourcentage de la base expliqué par le modèle Une précision est considérée comme «bonne» à partir de 70 % (0,7). 32
Panorama des méthodes en Data Science 33
Agenda 1. Data Science, Big Data & analyse des données 2. Cas d usage 3. Zoom sur la Data Science 4. Organisation et Méthodologie 5. Conclusion 34
La démarche Data Mining CRISP- DM (1996) CRoss Industry Standard Process for Data Mining Compréhension de la problématique opérationnelle : Définir les objectifs et les prérequis en termes business et les traduire en problématique technique Datamining Compréhension des données Collecter des données, audit de qualité Préparation des données Construction des tables d analyse Modélisation Sélection du meilleur modèle sur des critères statistiques Evaluation Evaluation de la pertinence du modèle par rapports aux objectifs business initiaux Déploiement 35
CRISP- DM 36
Profils pour un projet d Analytique avancé Comme pour les autres projets basés sur les données, plusieurs acteurs sont à réunir pour le succès du projet : 37
Data Scientiste : de multiples dénominations Quel est le titre qui correspond le mieux à vos fonctions? Enquête REXER Advanced Analytics 2013 Ces multiples dénominations donnent à chaque fois un poids renforcé à l une ou l autre des 4 composantes du Data Scientist mais ont une composante commune, celle des Mathématiques et Statistiques 38
Constituer une Data Science Team Face à la pénurie de profils et à l incapacité d avoir l homme providentiel en interne, nous conseillons plutôt une approche «Data Science Team» Cette «Data Science Team» sera composée de profils complémentaires permettant de centraliser en un même lieu toutes les compétences pour l Advanced Analytics Cette Data Science Team devra tenir compte des différents métiers : Décideurs, AMOA, AMOE et Utilisateurs finaux! Le point commun des membres de l équipe : Connaissance de la Donnée Approche centrée sur l objectif à atteindre 39
Agenda 1. Data Science, Big Data & analyse des données 2. Cas d usage 3. Zoom sur la Data Science 4. Organisation et Méthodologie 5. Conclusion 40
Analyse des données : les 6 points clés à retenir 1. Deux phases : la phase de modélisation, et la phase d industrialisation 2. Les points de vigilance en phase de modélisation : a) Corrélation ne vaut pas cause b) Traitement différencié des signaux forts et des signaux faibles c) Le mode de raisonnement est essentiellement de type «inductif» 3. Importance d avoir un objectif : un objectif général vaut mieux que pas d objectif 4. La méthodologie dépend : a) Des Data b) De l infrastructure c) Des outils de modélisation utilisés 5. Les méthodes de machine learning et les méthodes statistiques marchent mieux ensemble 6. La méthodologie doit suite la méthode CRISP, qui est une démarche exploratoire 41
BIG DATA Des Questions? Didier Gaultier : didier.gaultier@businessdecision.com