1 er Avril 2015 Data Science & Big Data Etat de l art Donner plus d intelligence aux données



Documents pareils
Data 2 Business : La démarche de valorisation de la Data pour améliorer la performance de ses clients

Des données à la connaissance client. A la découverte de la plateforme de connaissance client knowlbox

Agenda de la présentation

Introduction Big Data

AXIAD Conseil pour décider en toute intelligence

Panorama des solutions analytiques existantes

Big Data -Comment exploiter les données et les transformer en prise de décisions?

We make your. Data Smart. Data Smart

BIG DATA et DONNéES SEO

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars ans du SIAD -"Big Data par l'exemple" -Julien DULOUT

L Information : Un des facteurs sinon le facteur clé de différenciation des entreprises et des organisations

Enjeux mathématiques et Statistiques du Big Data

Accélérer l agilité de votre site de e-commerce. Cas client

Comment valoriser votre patrimoine de données?

Big Data: comment passer de la stratégie à la mise en œuvre? Big Data Paris Mars 2015

Big Data et Marketing : les competences attendues

1 Actuate Corporation de données. + d analyses. + d utilisateurs.

DocForum 18 Juin Réussites d un projet Big Data Les incontournables

BIG DATA : une vraie révolution industrielle (1) Les fortes évolutions liées à la digitalisation

Spécificités, Applications et Outils

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data.

Introduction au datamining

Les 10 grands principes de l utilisation du data mining pour une gestion de la relation client réussie

BIGDATA AN 3 : UNE NOUVELLE ERE DE B.I.

Libérez votre intuition

SAN07 IBM Social Media Analytics:

Introduction au Data-Mining

Découvrez le portefeuille de produits IBM SPSS

Surmonter les 5 défis opérationnels du Big Data

Transformation IT de l entreprise ANALYTIQUE: L ÈRE WATSON

IBM SPSS Direct Marketing

La rencontre du Big Data et du Cloud

Analytics Platform. MicroStrategy. Business Intelligence d entreprise. Self-service analytics. Big Data analytics.

GT Big Data. Saison Bruno Prévost (Safran), Marc Demerlé (GDF SUEZ) CRiP Thématique Mise en œuvre du Big Data 16/12/14

LIVRE BLANC AMÉLIOREZ VOS PERFORMANCES MARKETING ET COMMERCIALES GRÂCE À UNE GESTION DE LEADS OPTIMISÉE

Big Data. Concept et perspectives : la réalité derrière le "buzz"

Location Analytics. Astrid GLADYS Thierry BABELAERE Pierre TEYSSENDIER. SIG 2013 Conférence Francophone 2 & 3 Octobre Versailles Atelier Technique

données en connaissance et en actions?

Les RH à l ère du Big Data: faites parler vos données! Mesurez et optimisez la performance de vos programmes RH 18 septembre 2013

Intelligence Inventive & Mapping des réseaux de Recherche. Expernova & Active Innovation Management GFII 5 Mars 2015

Formation continue. Ensae-Ensai Formation Continue (Cepe)

Webinar EBG Nouvelles perspectives d'exploitation des données clients avec le big data

Vision prospective et obstacles à surmonter pour les assureurs

IFT 6261: L Analytique Web. Fares Aldik, Consultant principal, Analytique Web et optimisation Bell Marchés Affaires services d expérience client

De la captation de données à la Datavisualisation

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

TOP. année promet d être BIG (Business Intelligence Growth) PRINCIPALES TENDANCES EN MATIÈRE DE SOLUTIONS DÉCISIONNELLES POUR 2013

La fonction Conformité dans l assurance

Pentaho Business Analytics Intégrer > Explorer > Prévoir

SÉRIE NOUVELLES ARCHITECTURES

SMARC La révolution des usages et des technologies : Quels impacts sur votre Stratégie Digitale. Mardi, le 21 avril 2015 SMARC G16

transformer en avantage compétitif en temps réel vos données Your business technologists. Powering progress

Business Intelligence Les 15 tendances clefs pour 2015

BI SWISS FORUM (ecom / SITB)

DEMANDE D INFORMATION RFI (Request for information)

Les datas = le fuel du 21ième sicècle

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining.

Les compétences clés en 2015 La révolution du Big Data souffle sur les métiers du commerce et du marketing

S e r v i r l e s clients actuels de maniè r e e f f ic a ce grâce a u «Co n s u m er Insight»

#BigData Dossier de presse Mai 2014

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Coheris est agréé organisme de formation, n d agrément

NEXITY. Nexity développe une stratégie d E-reputation à 360 sur la base des données sociales fournies par BuzzWatcher. CASE STUDY

Entreprise et Big Data

Stages ISOFT : UNE SOCIETE INNOVANTE. Contact : Mme Lapedra, stage@isoft.fr

DÉPLOIEMENT DE QLIKVIEW POUR DES ANALYSES BIG DATA CHEZ KING.COM

Les clients puissance cube

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

Travailler avec les télécommunications

Big Data Jean-Michel Franco

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

Le "tout fichier" Le besoin de centraliser les traitements des fichiers. Maitriser les bases de données. Historique

BIG DATA en Sciences et Industries de l Environnement

FORUM NTIC BIG DATA, OPEN DATA Big Data: les challenges, les défis

BI = Business Intelligence Master Data-Science

Big Data et Statistique Publique

Introduction. Informatique décisionnelle et data mining. Data mining (fouille de données) Cours/TP partagés. Information du cours

Alphonse Carlier, Intelligence Économique et Knowledge Management, AFNOR Éditions, 2012.

Le Web, l'entreprise et le consommateur. Françoise Soulié Fogelman

1. Qu'est-ce que Adobe Analytics?

Business Analytics pour le Big Data

Catalogue des stages Ercom 2013

Mesurer, collecter et monitorer pour agir

Transformez vos données en opportunités. avec Microsoft Big Data

S8 - INFORMATIQUE COMMERCIALE

Stratégie et Vision de SAP pour le secteur Banque- Assurance: Data-Management, BI, Mobilité

" # $ % % & ' ( ) * +,! '()*+ *, + ' +' + ' ' /0 / * 0 4 * 0 6! "##$ % &!

PLATEFORME MÉTIER DÉDIÉE À LA PERFORMANCE DES INSTALLATIONS DE PRODUCTION

QLIKVIEW POUR SALESFORCE

Ad-exchanges & RTB (avec la participation de Fabien Magalon, La place

Mobilités 2.0 : connaître pour mieux agir

POURQUOI LES DEPARTEMENTS INFORMATIQUES NE PEUVENT PAS SE PASSER DE QLIKVIEW

GÉRER La force de l image. Business Intelligence

Anticiper et prédire les sinistres avec une approche Big Data

Transformation IT de l entreprise DU CONCRET POUR TRANSFORMER LES BIG DATA EN VALEUR

BIG Data et R: opportunités et perspectives

PERSONNALISATION ENJEUX, STRATÉGIES & OUTILS

Transcription:

1 er Avril 2015 Data Science & Big Data Etat de l art Donner plus d intelligence aux données

Votre interlocuteur Didier Gaultier Directeur Data Science Business & Decision Professeur de Statistique à l EPF et l ESCP (06) 80 96 68 90 didier.gaultier@businessdecision.com 2 01/04/2015 Etat de l Art du Big data

Agenda 1. Data Science, Big Data & analyse des données 2. Cas d usage 3. Zoom sur la Data Science 4. Organisation et Méthodologie 5. Conclusion 3 01/04/2015 Etat de l'art Big Data

Business & Decision aujourd hui Multi specialiste Une expertise forte Reconnu sur ses marchés Multi technologies Multi secteurs Maîtrisant les business processes Mondial Local 4 01/04/2015 Etat de l'art du Big data

Une présence dans le Monde, un maillage important en France 5 01/04/2015 Etat de l'art du Big data

Faits marquants sur des données 7 000 000 000 abonnement de mobiles dans le monde 1 320 000 000 utilisateurs Facebook 700 000 000 connexions mobiles à Facebook chaque mois x300 est le taux de croissance des données numériques prévu de 2005 à 2020 au niveau mondial 53 Go est le trafic annuel prévu par IP par habitant en 2016 (19 Go en 2011). 500 000 000 est le nombre de tweets par jour (soit presque 6 000 par seconde) 80 % des données ont été générées dans les deux dernières années 6

Pourquoi la Data Science et le Big Data Passage à la vitesse supérieure pour des besoins mal ou non couverts par la BI Capacité et nécessité, désormais, du fait du contexte de Big Data, d exploiter un grand volume de données qu il faut faire parler différemment et réussir à exploiter convenablement Les données de l entreprise sont désormais la plupart du temps accessibles via des entrepôts de données La puissance de calcul est devenue abordable Les méthodes et outils traditionnels atteignent leurs limites devant la multiplication des données et des besoins 1er Avril 2015 Etat de l'art Big Data 7

Le Big Data fonctionne avec des données Le stockage de données fournit à une organisation une mémoire (interne et externe) L analytique fournit à l'entreprise l'intelligence et l agilité 8 8

Le Big Data dans les entreprises des entreprises ont ou vont investir dans le Big Data dans les 2 ans à venir des entreprises ont déjà déployé des solutions Big Data Sept. 2014 06/10/2014 Etat de l'art du Big data 9

La (mauvaise) Définition du Big Data : les 5 V V comme Volume : en augmentation annuelle de plus 50%, le volume de données disponibles croit de manière exponentielle. Le croisement de ces données entre elles étant à la base de pertinence de l information générée, la volumétrie des données est explosive. V comme Variété : à la diversité des sources et des formats (Texte, Photo, Vidéo, Son, Log technique,..) s ajoute une grande variété de fournisseurs internes et externes, objets ou personnes... V comme Vitesse : À l obsolescence rapide d une partie de ces données issues du temps réel et des médias sociaux (données comportementales ou données exprimant un sentiment), s ajoute la nécessité d intégrer au plus vite d autres données pour générer une information de première fraîcheur. V comme Valeur : les données créatrices de valeur sont les plus intéressantes. La difficulté vient du fait que croiser plusieurs données apparemment sans valeur peut créer des données qui auront une grande valeur par la suite. V comme Véracité : Les données doivent avoir un certain niveau de fiabilité pour être exploitables. 10 10

Les (bons) Principaux concepts en Data Science et Big Data Analytique Data Science Descriptif Avancé Big Data Exploration DataViz Explicatif et prédictif BI Architecture Infrastructure traditionnelle 11

Positionnement de l Advanced Analytic Advanced Analytic Combinaisons de modèles Analyse supervisée Analyse multivariée Statistique très simple (Moyenne, totaux, ) 12

La matière première : La Donnée Définition de donnée Ce qui est donné (ou admis), connu (ou reconnu), déterminé dans l énoncé d un problème, et qui sert de base à un raisonnement, de point de départ pour la recherche de l inconnu Il en ressort que : La notion de donnée est liée à la notion de connaissance et de savoir Mais la donnée n est qu un morceau de connaissance ou d information partielle, voire extrêmement partielle (Une donnée prise seule et isolément ne sert à rien) Il peut servir de base à la reconstitution de la connaissance un peu à la manière d un puzzle ou de l information via la comparaison ces données Elle se positionne dans un contexte, et par rapport à un objectif Ne pas confondre informatique et information, support et données Chaque donnée prise dans son contexte peut être notée sur une échelle de justesse et de certitude 13

Les 3 disciplines de l Analyse de données Data Discovery Data Science Dataviz L analyse des données pour tous Apporter de l intelligence aux données Présenter les données pour mieux les partager - Outils dédiés à l analyse des données - Outils issus du monde du Datamining - Capacités graphiques avancées et innovantes - Facilité d utilisation pour tous les utilisateurs de la donnée - Dédiés à des utilisateurs statisticiens / data- Scientists - Support du Data- Storytelling ou des infographies - Fonctionnalités de Dataviz - Apport d une très forte valeur ajoutée sur les données - Présentation dynamique ou statique 1er Avril 2015 Etat de l'art Big Data 14

Discipline Data Discovery L analyse des données pour tous La discipline qui demande le moins de compétences aux utilisateurs Une forte maîtrise des données manipulées est nécessaire mais pas de compétence informatique ou mathématique nécessaire Data Discovery Discipline à la croisée des chemins Fonctionnalités de présentation avancées (Dataviz) Fonctionnalités de manipulation complexe des données L apport d intelligence sur ces outils est limitée et des traitements avancés prendront du temps à être réalisés Principales solutions : Acteurs traditionnels : Qlik, Tableau, Tibco Nouveaux acteurs nés du Big Data : Datameer, ZoomData Open- source Apache Elastic Search Kibana 1er Avril 2015 Etat de l'art Big Data 15

Discipline Data Science Apporter de l intelligence aux données La discipline des spécialistes (statisticiens, dataminers, data- Scientists) Data Science Une forte maîtrise des données manipulées est nécessaire Des connaissances avancées en statistiques sont nécessaires Les outils de Data- Science sont complexes à prendre en main (langage, interfaces utilisateurs limitées ) Par l élaboration de modèles avancés basés sur des combinaisons d algorithmes ces outils permettent de réaliser du Prédictif La majeure partie du temps de projets de Data Science est à consacrer à la préparation des données (recueil, nettoyage, tri, modélisation ), et à la caractérisation Principales solutions : Acteurs traditionnels : SAS, IBM SPSS, Dell Statistica, SAP Infinite Insight (ex KXEN), SPAD Open- source : R, KNIME, Rapid Miner 1er Avril 2015 Etat de l'art Big Data 16

Discipline Data Visualisation Présenter les données complexes de façon simple juste et attractive Cette discipline se concentre sur la présentation des données, le design des représentations Après avoir donné beaucoup d intelligence aux données, il faut un mode de représentation simple Pour véhiculer les bons messages ou donner les bons outils permettant d exploiter l intelligence apportée à des non- sachants Support du Data- Storytelling Dataviz Les fonctionnalités à rechercher sont : Modes de représentations innovants Dynamisme, capacité à interagir sur les informations présentées Principales solutions du marché : Librairies JavaScript : D3.js, CanvasJS, Highcharts Outils de la Data Discovery : Qlik, Tableau, Tibco Outils d infographisme : Adobe Photoshop, InDesign 1er Avril 2015 Etat de l'art Big Data 17

Exemple de Dataviz : l importance de l aspect visuel des Indicateurs 18

Agenda 1. Data Science, Big Data & analyse des données 2. Cas d usage 3. Zoom sur la Data Science 4. Organisation et Méthodologie 5. Conclusion 19

Le Big data pour optimiser l éco- conduite Véhiposte est l opérateur de la flotte de véhicules du Groupe La Poste Quelques chiffres 40 000 véhicules actifs (4 roues) Données détaillées au trajet (entre 2 arrêts) pour les véhicules électriques 45 000 immobilisations de véhicules d'au moins 1 journée sur les 4 dernières années Données des capteurs des véhicules électriques + Données déclaratives des véhicules thermiques Utiliser les techniques de l Advanced Analytics pour optimiser l éco- conduite Traitements de calculs avancés sur Hadoop (en Map/Reduce) Dataviz sur QlikView 1er Avril 2015 Etat de l'art Big Data Nov. 2014 BIG DATA - Etat de l'art 20

Projet «Le Smart Watering» En France, 25% de l eau injectée sur le réseau est perdue en fuites et fraudes Le manque à gagner pour les citoyens s élève à 2,4 milliards d euros par an. (Source SIA Conseil) Les canaux numériques et l Internet des objets ouvrent de nouvelles opportunités pour collecter/exploiter les données, et les mettre à disposition de tous Les Gains : Informations en temps réel sur les débits et la qualité de l eau Services à valeur ajoutée pour les consommateurs et les collectivités Détection au plus tôt des problèmes sur le réseau et en bout de chaine Engagement commun au principe de consommation responsable Automatisation du processus de collecte de la consommation 21 01/04/2015 Etat de l'art du Big data

Agenda 1. Data Science, Big Data & analyse des données 2. Cas d usage 3. Zoom sur la Data Science 4. Organisation et Méthodologie 5. Conclusion 22

Qu est ce que la Data Science? La Data Science propose plusieurs niveaux : De l analyse descriptive : Vise à identifier les causes d une situation donnée De la projection : Vise à projeter sur le futur les éléments du passé De l analyse prédictive : Vise à anticiper au plus juste ce qu il va se passer en basant sur des paramètres contextuels (Contraintes, variables, hypothèses, ) De l analyse prescriptive (Ou optimale) : Vise à identifier et anticiper les actions /décisions les plus optimales à prendre pour arriver à la situation voulue 23

Focus sur le prédictif L'analyse prédictive n'est pas nouvelle : Les entreprises emploient déjà la modélisation et le Data Mining depuis des années, notamment sur les métiers de la R&D Les fondements des statistiques ont été inventés dans les années 50 La discipline, connaît cependant un essor sans précédent grâce au marketing digital et au Big Data L analyse prédictive ou quantitative s appuie sur: D importants volumes de données Des méthodes statistiques Des hypothèses de fond Méthodes statistiques Les analyses prédictives et prescriptives reposent sur la capture des liens entre les variables explicatives et la variable à prédire Ces liens sont ensuite utilisés pour déterminer les valeurs de la variable à prédire sur les individus pour lesquels on ne dispose que des variables explicatives Données Hypothèses 24

Principaux concepts en Data Science et analytique avancé Data Science Descriptif Approche linéaire : Statistique Explicatif et prédictif Approche non linéaire : Machine learning 25

Analytique descriptif, explicatif et prédictif Approche descriptive : Lorsqu on recense les données disponibles, qu on analyse leur qualité, leur complétude, qu on essaye d identifier des indices de comportements (passés), des interactions entre différentes parties, quand on classifie, qu on établit des liens possibles, on est dans une approche descriptive. Approche explicative ou prédictive : Lorsqu on essaye d établir un lien entre des données passés ou présentes et des évènements, des comportements, des risques on est dans une approche explicative ou prédictive. Explicative si on cherche a expliquer une situation existante Prédictive, si elle n existe pas encore Evènements passés Evènements présents Evènements futurs Risques passés Risques présents Risques futurs Passé Présent Futur temps Descriptif Explicatif Prédictif 26

Analytique descriptif, explicatif et prédictif Descriptif Variables explicatives Analyse Informations et Connaissance Exemples : segmentation, typologie, classification, analyse dimensionnelle Explicatif et prédictif Variables explicatives Modèle Variable à prédire Exemple : ciblage de campagne, scoring 27

Lien entre données et raisonnement Les données et le raisonnement ont une relation étroite avec le savoir et la connaissance Les données sont la base de cette connaissance : Données justes + Raisonnement juste = Connaissance Données fausses + Raisonnement juste = Ignorance Données justes + Raisonnement faux = Ignorance Données fausses + Raisonnement faux = Ignorance 28

Très important : Corrélation ne vaut pas cause! Cause et l'effet (Hume, 1748) La cause et l'effet doit se produire dans une continuité de temps (contiguïté) La cause doit se produire avant l effet L'effet ne devrait jamais se produire sans présence de la cause. Condition d élimination (moulin, 1865) Un effet devrait être présent quand la cause est présente Quand la cause est absente l'effet devrait être absente également. Conditions du contrôle : la cause est absente. 29

Egalement très important : signaux Forts et signaux faibles Dans les bases de données il existe plusieurs sortes d information : Les signaux forts Ils sont repérables par le fait qu ils induisent des corrélations fortes Ils sont relativement constant sur une longue période de temps Ils peuvent évoluer sur le long terme mais ne se démentent pas Ils ont en quelque sorte valeur de «Loi» On parle aussi de données froides Exemple : le champ magnétique terrestre Les signaux faibles Ils sont beaucoup moins repérables et sont volatiles Ils induisent des corrélations faibles, parfois pas de corrélation du tout Ils évoluent très vite dans le temps Ils ont une durée de vie beaucoup plus courte On parle aussi de données chaudes Exemple : la détection du passage d un chasseur sur un radar La règle : il faut commencer par analyser les signaux forts avant d analyser les signaux faibles! 30

Data Mining et modes de raisonnement Nous nous basons sur trois modes de raisonnement principaux : Le raisonnement intuitif : Utile mais on ne peut pas se baser dessus pour prouver et démontrer Le raisonnement déductif : Mode usuel dans la vie courante Utile en particulier en «analyse descriptive» Le but est de représenter les données observées de sorte qu'on puisse les comprendre facilement, d'une manière synthétique : tables, graphiques Le raisonnement inductif : Mode utilisé en particulier en recherche scientifique et en Data Mining Généraliser dans certaines conditions les conclusions obtenues sur un aspect des données. Cette phase dépend d hypothèses, de leur vérification, et d un calcul de risque (erreur) qui peut être évalué. 31

Notions clés en Data Science Les deux indicateurs clés en statistique La robustesse du modèle : Aussi nommé «Sig» ou «P- Value» Est égal au pourcentage de chance que le modèle soit du au hasard (donc faux) Un modèle est dit acceptable si son «sig» ou sa p- value est inférieur(e) à 0,05 soit 5 %. La précision : Elle indique les pourcentage de la base expliqué par le modèle Une précision est considérée comme «bonne» à partir de 70 % (0,7). 32

Panorama des méthodes en Data Science 33

Agenda 1. Data Science, Big Data & analyse des données 2. Cas d usage 3. Zoom sur la Data Science 4. Organisation et Méthodologie 5. Conclusion 34

La démarche Data Mining CRISP- DM (1996) CRoss Industry Standard Process for Data Mining Compréhension de la problématique opérationnelle : Définir les objectifs et les prérequis en termes business et les traduire en problématique technique Datamining Compréhension des données Collecter des données, audit de qualité Préparation des données Construction des tables d analyse Modélisation Sélection du meilleur modèle sur des critères statistiques Evaluation Evaluation de la pertinence du modèle par rapports aux objectifs business initiaux Déploiement 35

CRISP- DM 36

Profils pour un projet d Analytique avancé Comme pour les autres projets basés sur les données, plusieurs acteurs sont à réunir pour le succès du projet : 37

Data Scientiste : de multiples dénominations Quel est le titre qui correspond le mieux à vos fonctions? Enquête REXER Advanced Analytics 2013 Ces multiples dénominations donnent à chaque fois un poids renforcé à l une ou l autre des 4 composantes du Data Scientist mais ont une composante commune, celle des Mathématiques et Statistiques 38

Constituer une Data Science Team Face à la pénurie de profils et à l incapacité d avoir l homme providentiel en interne, nous conseillons plutôt une approche «Data Science Team» Cette «Data Science Team» sera composée de profils complémentaires permettant de centraliser en un même lieu toutes les compétences pour l Advanced Analytics Cette Data Science Team devra tenir compte des différents métiers : Décideurs, AMOA, AMOE et Utilisateurs finaux! Le point commun des membres de l équipe : Connaissance de la Donnée Approche centrée sur l objectif à atteindre 39

Agenda 1. Data Science, Big Data & analyse des données 2. Cas d usage 3. Zoom sur la Data Science 4. Organisation et Méthodologie 5. Conclusion 40

Analyse des données : les 6 points clés à retenir 1. Deux phases : la phase de modélisation, et la phase d industrialisation 2. Les points de vigilance en phase de modélisation : a) Corrélation ne vaut pas cause b) Traitement différencié des signaux forts et des signaux faibles c) Le mode de raisonnement est essentiellement de type «inductif» 3. Importance d avoir un objectif : un objectif général vaut mieux que pas d objectif 4. La méthodologie dépend : a) Des Data b) De l infrastructure c) Des outils de modélisation utilisés 5. Les méthodes de machine learning et les méthodes statistiques marchent mieux ensemble 6. La méthodologie doit suite la méthode CRISP, qui est une démarche exploratoire 41

BIG DATA Des Questions? Didier Gaultier : didier.gaultier@businessdecision.com