UN CHANGEMENT DE PARADIGME DANS LA PRÉPARATION DES DONNÉES L ANALYSE VISUELLE ET LE BIG DATA Bernard Blais Directeur Principal Analytique Haute Performance
CONTENU L ANALYSE VISUELLE ET LE BIG DATA Big Data - Une nouvelle définition de Big Data qui concerne tout le monde; Visualisation des Données - L utilisation de nouveaux outils de visualisation des données; Préparation des données - La préparation des données en vue d une exploration visuelle, dans une approche Big Data; Analyse En Amont - L utilisation de techniques d analyses avancées en amont, pour accélérer la préparation des données; Démocratisation de L Analytique - Augmenter la maturité analytique de l organisation Copyright 2012, SAS Institute Inc. All rights reserved.
BIG DATA UNE NOUVELLE DÉFINITION DE BIG DATA QUI CONCERNE TOUT LE MONDE
Quantité de Données BIG DATA LE DÉFI VOLUME VARIÉTÉ VÉLOCITÉ AUJOURD HUI DEMAIN
RETOUR SUR LA NOTION DE BIG DATA Copyright 2012, SAS Institute Inc. All rights reserved.
Notre Perspective Big Data est une notion RELATIVE et non pas ABSOLUE!!! Big Data Lorsque le volume, la vitesse ou la variété des données dépassent la capacité de traitement ou de stockage d une organisation, pour livrer à temps une information fiable et précise, afin de soutenir la prise des meilleures décisions. Copyright 2012, SAS Institute Inc. All rights reserved.
SAS ANALYTIQUES HAUTE PERFORMANCE GRANDE PRÉCISION AMPLITUDE ET PROFONDEUR MEILLEURE DÉCISIONS HAUTE PERFORMANCE
Liste de contrôle: Analytique pour le Big Data Une architecture flexible qui supporte plusieurs types de données et d utilisation Une utilisation en amont qui permet d optimiser la préparation et la pertinence des données Une exploration et une analytique visuelle permettant d accélérer la compréhension et le plan d action Une approche collaborative entre la technologie et les gens d affaires Copyright 2012, SAS Institute Inc. All rights reserved.
L APPROCHE SAS ANALYTIQUE AVANCÉE ET BIG DATA
L ESSENCE D UN ORDINATEUR Que ce soit un ordinateur personnel ou un serveur d entreprise, leurs architectures respectives comportent les mêmes trois composantes essentielles: RAM MÉMOIRE VIVE Disque STOCKAGE CPU CPU TRAITEMENT
TRAITEMENT DISTRIBUÉ Serveur VA Serveur Distribué Serveur Distribué Serveur Distribué Serveur SAS SAS LASR Analytic Server SAS LASR Analytic Server SAS LASR Analytic Server MÉMOIRE VIVE Serveur Web Données co-localisées Données co-localisées Données co-localisées STOCKAGE Métadonnées TRAITEMENT SGBD Non-relationnel ERP Hadoop Click Stream Fichiers PC STOCKAGE EXTERNE
TRAITEMENT DISTRIBUÉ Serveur VA Serveur SAS Serveur Distribué SAS LASR Analytic Server Serveur Distribué SAS LASR Analytic Server Serveur Web Données co-localisées Données co-localisées Métadonnées SGBD Non-relationnel ERP Hadoop Click Stream Fichiers PC
L APPROCHE SAS - RÉSUMÉ Données en mémoire Permet une lecture ultra-rapide Parallélisme Extrême Utilisation à pleine capacité de tous les cœurs des unités de traitement Distribution des Capacités Analytiques Exploitation de la mémoire *et* des unités de traitement distribuées
AUTRES AVANTAGES DE L APPROCHE SAS Très simple d ajouter de la mémoire et des ressources de traitement Limites extrêmes en matière de: Nombre de serveurs ( ** ) et d unités centrales de traitement Mémoire vive (RAM) et tables chargées Utilisateurs concurrentiels Performance est indépendante du stockage des données, du système de production ou de la source de données (base de données relationnelles, etc.) ( ** ) Client avec 200+ serveurs de type «blade»
VISUALISATION DES DONNÉES NOUVEAUX OUTILS DE VISUALISATION POUR LE BIG DATA
Janvier Février Mars Avril Mai Juin Juillet Août Septembre Octobre Novembre Décembre Domestique $1,983 $2,343 $2,593 $2,283 $2,574 $2,838 $2,382 $2,634 $2,938 $2,739 $2,983 $3,493 International $574 $636 $673 $593 $644 $679 $593 $139 $599 $583 $602 $690 $2,557 $2,979 $3,266 $2,876 $3,218 $3,517 $2,975 $2,773 $3,537 $3,322 $3,585 $4,183 $4,000 VERSUS $3,500 $3,000 $2,500 $2,000 $1,500 $1,000 $500 $- Janvier Février Mars Avril Mai Juin Juillet Août Septembre Octobre Novembre Décembre Domestique International
VISUALISATION DES DONNÉES VISUALISER LE BIG DATA
DÉMONSTRATION SAS VISUAL ANALYTICS VISUALISATION DE BIG DATA
PRÉPARATION DES DONNÉES OBJECTIF: TABLE ANALYTIQUE
PRÉPARATION TABLE ANALYTIQUE UN EXEMPLE Les données de départ: Peu d informations contextuelles; Viennent probablement d une BDR
PRÉPARATION TABLE ANALYTIQUE UN EXEMPLE Étape 1: Reformatter en une table analytique
PRÉPARATION TABLE ANALYTIQUE UN EXEMPLE Étape 2: Préparer les éléments qui peuvent être perçus différemment par les analystes (exemple: dates)
PRÉPARATION TABLE ANALYTIQUE UN EXEMPLE Étape 2: Préparer les éléments qui peuvent être perçus différemment par les analystes (exemple: hiérarchie de produits)
PRÉPARATION TABLE ANALYTIQUE ENRICHISSEMENT DES DONNÉES CRÉER DES OPPORTUNITÉS D ANALYSE Étape 3 : Ajouter des informations additionnelles Température locale au moment de la transaction Les coordonnées géographiques de chaque transaction Créer des sous-groupes (âge, revenu familial, ethnicité, ) Créer des opportunités de hiérarchies Exemple: pays province ville Etc
PRÉPARATION TABLE ANALYTIQUE UN EXEMPLE La table analytique finale: Dé-normalisée; Contient le plus possible de champs descriptifs pour chaque rangée
PRÉPARATION TABLE ANALYTIQUE EN RÉSUMÉ Ce qu on a accompli: Qualité des Données Pertinence des Données Données Dé-Normalisées Données Enrichies
L ANALYSE EN AMONT OBJECTIF: ACCÉLÉRER LA PRÉPARATION DES DONNÉES
ANALYSE EN AMONT BI TRADITIONNEL ETL CUBE BI ANALYTIQUE HAUTE PERFORMANCE
PROFILAGE DES DONNÉES SE FAMILIARISER AVEC LES DONNÉES À l ouverture du fichier, on devrait immédiatement avoir une idée: Des champs disponibles, du type (catégorie, date, numérique, etc.); De la cardinalité de chaque champ. Dans les pages suivantes nous couvrirons des exemples d exploration initiale.
PROFILAGE DES DONNÉES TEMPS DE TRANSACTIONS Percevoir la couverture de tout champ de date
PROFILAGE DES DONNÉES TEMPS DE TRANSACTIONS Détection immédiate de toute date hors normes Dans cet exemple, nous avons 24 enregistrement datés de 2012
PROFILAGE DES DONNÉES CONTENU DES CATÉGORIES Survol immédiat de la distribution de toute catégorie En changeant simplement le visuel désiré, on peut créer une liste des contenus uniques auquel on peut rapidement ajouter des mesures
PROFILAGE DES DONNÉES DISTRIBUTION DES DONNÉES Toute mesure numérique peut être vue en survol
PROFILAGE DES DONNÉES DISTRIBUTION DES DONNÉES PAR CATÉGORIE En utilisant la boîte à moustache, on peut voir immédiatement la distribution de certaines données par catégorie. Cela permet d identifier: Données aberrantes et hors-normes; Moyenne, médiane, déviation standard, minimum et maximum, Vérifier que mon code de groupe d âge est bien programmé ou la moyenne d âge de mes employés
EXPLORATION DES DONNÉES APPLYING FILTERS By applying filters, for any visual we can: See an overview of the data distribution Focus on segments of our data
ENRICHISSEMENT DES DONNÉES CRÉER DES OPPORTUNITÉS D ANALYSE Qualité des données: Retirer les données hors-normes (dates, outliers, ) Détecter et retirer les copies/duplicata Température locale au moment de la transaction? Les coordonnées géographiques de chaque transaction? Créer des sous-groupes (âge, revenu familial, ethnicité, ) Créer des opportunités de hiérarchies: Année Mois Semaine Jour heure; Groupe de produit sous-groupes SKUs Géographie
PRÉPARATION TABLE ANALYTIQUE EN RÉSUMÉ Ce qu on a accompli: Qualité des Données Pertinence des Données Données Dé-Normalisées Données Enrichies
DÉMOCRATISATION DE L ANALYTIQUE RENDRE ACCESSIBLE L ANALYTIQUE AVANCÉE
ANALYTIQUE AVANCÉE DÉMOCRATISER L ANALYTIQUE
DÉMONSTRATION SAS VISUAL ANALYTICS ANALYTIQUE AVANCÉE
ANALYTIQUE AVANCÉE DÉMOCRATISER L ANALYTIQUE Rendre disponible et accessible l analytique avancée Comprendre l impact pour les décisions d affaires Augmenter le niveau de maturité analytique de l organisation
CONTENU L ANALYSE VISUELLE ET LE BIG DATA Big Data - Une nouvelle définition de Big Data qui concerne tout le monde; Visualisation des Données - L utilisation de nouveaux outils de visualisation des données; Préparation des données - La préparation des données en vue d une exploration visuelle, dans une approche Big Data; Analyse En Amont - L utilisation de techniques d analyses avancées en amont, pour accélérer la préparation des données; Démocratisation de L Analytique - Augmenter la maturité analytique de l organisation
L APPROCHE SAS ANALYTIQUE HAUTE PERFORMANCE EXEMPLES CONCRETS
IMPLICATIONS EXEMPLES D AFFAIRES 1. Vente au détail analyse du panier d achat 2. Gouvernemental analyse des accidents de la route 3. Services publics consommation d électricité 4. Services conseils intelligence marketing
1. ANALYSE DU PANIER DE CONSOMMATION CONTEXTE: Analyse de la fréquence d achat d un produit particulier en fonction de la présence d autres produits dans un même «panier» Pour 100 catégorie de produits, une matrice de 10 000 interactions
1. ANALYSE DU PANIER DE CONSOMMATION Les résultats typiques d une interaction de régression: PROBLÉMATIQUE: Difficile à lire, à interpréter, à comprendre L analyse demeure la chasse gardée des experts/statisticiens
1. ANALYSE DU PANIER DE CONSOMMATION AVEC SAS VISUAL ANALYTICS SOLUTIONS: SAS Enterprise Miner et SAS Visual Analytics RÉSULTATS: Visualisation Immédiate de l ensemble des données, et cibler les relations les plus importantes Les gens d affaires peuvent maintenant explorer et analyser les résultats
1. ANALYSE DU PANIER DE CONSOMMATION AVEC SAS VISUAL ANALYTICS RÉSULTATS: Interagir avec les résultats, afin de cibler les catégories de produits les plus profitables
2. ANALYSE DES ACCIDENTS DE LA ROUTE CONTEXTE: Source: NHTSA (USA s National Highway Traffic Safety Administration) Information publique sur la sécurité routière aux États-Unis. Les données: 700,000 entrées sur des incidents / accidents routiers: Véhicules: marque et modèle, date de fabrication, date d achat, problèmes connus, kilométrage, nombre de cylindres, etc pour chaque véhicules Composantes (385): coussins gonflables, siège pour enfant, système électrique, moteur, etc Accidents: vitesse, endroit, blessures, décès, etc
2. ANALYSE DES ACCIDENTS DE LA ROUTE LES DONNÉES PROBLÉMATIQUE: Données non-structurées Classification peu fiable Données difficile à naviguer Aucun résultats précis
2. ANALYSE DES ACCIDENTS DE LA ROUTE FORAGE DE TEXTE Objectif: parfaire la catégorisation des éléments de chaque rapports d accidents 5½ HRS 82 SECONDS
2. ANALYSE DES ACCIDENTS DE LA ROUTE VISUAL ANALYTICS SOLUTIONS: SAS Text Analytics et SAS Visual Analytics RÉSULTATS: Catégorisation améliorée de 20% Visualisation immédiate des différents accidents et incidents, par type de véhicule, condition de la route et météo, facteur causant l accident, etc. Surfacer les éléments les plus troublants, trouver liens et dépendances
3. CONSOMMATION D ÉLECTRICITÉ CONTEXTE: Source: Oklahoma Gas & Electric Company (OG&E) 800 000 clients dans l Oklahoma et l ouest de l Arkansas. Gagnant du service Publique de l année (2011) PROBLÉMATIQUE: Prévision statistiques de l utilisation, en vue d optimiser la production et la distribution d électricité. 1 seule lecture par mois par client (800 000) limite du traitement de volume des données
3. CONSOMMATION D ÉLECTRICITÉ SOLUTIONS: SAS Analytics RÉSULTATS: En embrassant le Big Data, ils ont pu passer de 1 lecture par mois par client, à 1 lecture aux 15 minutes (3000 / mois). Le processus de prévision prenait 2-3 jours, maintenant se fait en quelques heures. L exactitude des prévisions a grimpé dramatiquement. 12 lectures 30,000 lectures
4. INTELLIGENCE MARKETING CONTEXTE: Source: SM marketing Convergence Inc. Production des coupons rabais et programmes de loyauté Analyse des données de plus de 500 entreprises commerciales et magasins > 200 millions de transactions / année PROBLÉMATIQUE: Volume, volume, volume trop de données à analyser entraîne un processus lourd de sélection des données, à partir des résultats escomptés.
4. INTELLIGENCE MARKETING SOLUTIONS: SAS Visual Analytics RÉSULTATS: Maintenant, la préparation des données est de beaucoup simplifiée: tout est chargé dans SAS Visual Analytics (tous les skus) Les utilisateurs sont maintenant plus curieux, perspicace et même audacieux dans l exploration des données. ( momentum of insight seeking - Bady Golangco, Président et CEO de SM-MCI)
CONCLUSION L Analytique haute performance Ce n est pas juste une question de GRANDE VITESSE ; CONFIANCE: travailler avec l ensemble des données, pas juste des échantillons ou des sommaires; EXACTITUDE: des modèles plus complexes, avec plus de variables; EFFICACITÉ: utiliser les cerveaux analytiques à faire des analyses; AGILITÉ: s adapter et réagir plus rapidement.