Fdil Fadila Bentayeb Lb Laboratoire ERIC Lyon 2 Big Data On Line Analytics ASD 2014 Hammamet Tunisie 1
Sommaire Sommaire Informatique décisionnelle (BI Business Intelligence) Big Data Big Data analytics Infonuagique (Cloud computing) Big data on line analytics : Enjeux Big data on line analytics : quelques verrous scientifiques / solutions Conclusion 2
Informatique décisionnelle Business intelligence BI : Informatique décisionnelle Ensemble des moyens, outils et méthodes qui permettent de collecter, consolider, modéliser et restituer les données d'une entreprise en vue : d offrir aux décideurs une aide à la décision de permettre à un décideur d avoir une vue d ensemble de l activité traitée Repose sur une architecture commune appelée : entreposage de données L'informatique décisionnelle s'attache à mesurer : un certain nombre d indicateurs ou de mesures (faits ou métriques) restitués selon les axes d'analyse (dimensions) 3
Informatique décisionnelle Systèmes d information décisionnels Sources de données Modélisation multidimensionnelle ETL Intégration de données complexes Entrepôt de données Analyse en ligne (OLAP) OLAP D é c i s i o n Personnalisation / Sécurité 4
Informatique décisionnelle ETL : Extract Transform Load Entreposage de données collecte : sélection et extraction des données transformation et intégration : homogénéisation chargement des données dans l entrepôt Modélisation multidimensionnelle i ll conforme aux besoins d analyse Exploitation de l entrepôt diffusion : mettre les données à disposition des utilisateurs présentation : utilisation d outils bureautiques, interfaces Web Administration : rafraichissement de l entrepôt, optimisation, sécurité 5
Informatique décisionnelle Définitioni i Entrepôt de données base de données multidimensionnelles regroupant une partie de l'ensemble des données fonctionnelles d'une entreprise base de données orientée analyse base centralisée contenant des données historisées, homogènes et non volatiles provenant de bases de données opérationnelles Modèles d entrepôts de données en étoile en flocons de neige en constellation 6
Informatique décisionnelle Exemple d entrepôt Activity activity key activity_name Fact Table #product_key #time_key #activity_key Profit margin Product product_key product_name category Time time_key Day Month Year 7
Informatique décisionnelle OLAP (On Line Analytical Processing) OLAP ensemble d opérateurs d exploration et de navigation dans les cubes de données Rollup : forage vers le haut Drilldown : forage vers le bas Slice & Dice : Sélection et projection permet de construire et de manipuler des cubes OLAP Cube de données structure multidimensionnelle les coordonnées sont les axes d analyse les cellules contiennent les indicateurs 8
Informatique décisionnelle Exemple de cube OLAP Suivi des différents indicateurs de performance pour améliorer la gestion quotidienne de l entreprise 9
Informatique décisionnelle Evolution ou révolution? Avènement des Big Data volumes de données de plusieurs pétaoctets données continues (datastreams) Limites des SGBD classiques Besoin d analyse en ligne à la demande Besoin d infrastructures, d outils logiciels et de modèles adaptés Big Data (On Line) Analytics 10
Big Data Avènement des big data Prolifération des données 90% des données dans le monde ont été créées au cours des deux dernières années seulement données produites principalement par le Web grands acteurs d Internet réseaux sociaux Type de données données structurées : bases de données relationnelles peu structurées : fichiers XML non structurées : textes, images, etc. Volumétrie des données grandes quantités de données données continues données de simulation 11
Big Data Dimensions des big data volume Twitter génère 7 teraoctets de données chaque jour et Facebook 10 teraoctets variété données au format relationnel, texte, image, pouvant être publiques (Open Data, Web des données) relevant de la propriété des consommateurs (profils) vélocité c est la fréquence à laquelle les données sont générées, capturées et partagées analyser en temps réel 50 millions d'enregistrements détaillés d'appels quotidiens 12
Big Data Exemples Capteurs utilisés pour collecter les informations climatiques Messages sur les sites de médias sociaux Images numériques et de vidéos publiées en ligne Enregistrements transactionnels d'achats en ligne Signaux GPS de téléphones mobiles 13
Big Data Données, technologies, gestion, analyse VOLUME BIG MANAGEMENT INFORMATION THECHNOLOGY BILLION DATA 14
Big Data Emergence de nouvelles applications Explosion de nouvelles sources de données diverses à granularité fine à faible latence Sources de données réseaux sociaux données issues de capteurs Besoin de stocker, gérer et analyser ces données Nouvelles gammes d applications métiers nouvelles opportunités commerciales nouveaux outils d analyse (prédire le comportement des clients) 15
Big data analytics Introduction Emergence de nouvelles architectures et technologies infrastructures cloud modèles NoSQL et la paradigme MapReduce Web Sémantique Nouveaux besoins traitement massif des données traitement de données en flux continu analyse des tendances prévisions prévention 16
Big data analytics Pistes de recherche Gestion des big data dans le Cloud utilisation de nouveaux modèles de données : NoSQL stockage des données dans le cloud analyse en ligne des big data OLAP à la demande analyse au besoin proche du client OLAP as a service OLAP proposé comme un service 17
Big data analytics Modèles de données Modèles relationnels limitation des bases de données classiques pour gérer les Big Data problème du passage à l échelle (petabyte : 10 puissance 15, zettabyte : 10 puissance 21) variété des données big data Emergence de nouveaux systèmes à forte scalabilité modèles NoSQL : Not Only SQL MongoDB Cassandra traitement parallèle de données paradigme MapReduce développé par Google et utilisé dans le framework Hadoop 18
Big data analytics Modèles de données NoSQL Bases de données Clé Valeur Bases de données Colonnes Bases de données Documents Bases de données Graphes 19
Big data analytics Stockage Cloud Computing l accès laccès se fait via le réseau les services sont accessibles à la demande et en libre service utilisation de ressources informatiques partagées et configurables exemple : microsoft Windows Azure Super calculateurs hybrides HPC : High Performance Computing Exemple : CEA (commissariat à l énergie atomique et aux énergies alternatives) 20
Big data analytics Programmes scientifiques Applications des Big Data Grandes entreprises IBM29,Amazon Web Services, BigQuery, SAP HANA, Entreprises spécialisées é Teradata, Jaspersoft30, Pentaho31, Open source Apache Hadoop, Infobright32, Talend33, Start up 21
Big data analytics Application des Big data Recherche scientifique décodage d du génome humain Politique analyse d opinions politiques de la population Secteur privé ié grande distribution : 1 million de transactions client par jour Facebook traite 50 milliards de photos 22
Big data analytics Enjeux stratégiques Modélisation de données modèles de données modèles de métadonnées modèles de sources de données modèles représentant des informations contextuelles sur les données modèles supportant l incertitude et la qualité des données Gestion de données analyser l ensemble des donnes et pas seulement un échantillon accélération des temps d analyse danalyse réponses pouvant être approximatives mais pouvant guider l analyste besoin de nouveaux outils de gestion et d analyse des big data 23
Infonuagique Un peu d histoire 1950 : systèmes centraux applications fonctionnant t sur ces systèmes accès via des terminaux à ces applications 2000 : hébergeurs Web premières applications Web 2.0 déployées en cloud computing courrier électronique outils collaboratifs Promotion du cloud computing public généralisation de l utilisation de l Internet par les particuliers et les entreprises augmentation de la puissance des équipements informatiques baisse du coût du stockage 24
Infonuagique Principes du cloud computing Définition cloud computing : un nuage informatique est un ensemble de matériel, de raccordements réseau et de logiciels qui fournit des services sophistiqués que les individus et les collectivités peuvent exploiter via des accès Internet Caractéristiques ressources en self service & élasticité : adaptation automatique à la demande ouverture : services mis à disposition sur l Internet, compatibles ordibnateurs, tablettes, téléphones mutualisation paiement à l usage 25
Infonuagique Principes du cloud computing Mécanisme du cloud computing les entreprises accèdent à des services en ligne d une infrastructure t proposée par un fournisseur les applications et les données se trouvent sur un nuage composé de serveurs distants interconnectés complexité des liaisons réseaux multiplicité des intervenants fournisseur d accès Internet, hébergeur, éditeur, revendeur, risque de diminution de la qualité de service problème de sécurité des données 26
Infonuagique Principes du cloud computing Technologies utilisées virtualisationdu it ti matériel informatique grilles de calcul architecture orientée services services Web Types de cloud public : jeu à la demande (gaming on demand cloud gaming) privé communautaire 27
Infonuagique Principes du cloud computing Services IaaS Infrastructure as a Sevice service de bas niveau accès à un parc informatique virtualisé le consommateur peut installer un système d'exploitation et des applications PaaS Platform as a Sevice le système d'exploitation et les outils d'infrastructure sont sous la responsabilité du fournisseur le consommateur a le contrôle des applications et peut ajouter ses propres outils SaaS Software as a Sevice des applications sont mises à la disposition des consommateurs le consommateur n'a pas à se soucier d'effectuer des mises à jour 28
Infonuagique Principes du cloud computing Avantages mutualisation des services pour un grand nombre de clients élasticité du nuage permet de fournir des services évolutifs montée en charge facile permet aux entreprises de faire des économies Inconvénients sécurité des données devenir des données dépendant de la qualité du réseau perte de la maîtrise de l implantation des données Conséquence développement des datacenters 29
Big data on line analytics : Enjeux Introduction Motivation identifier en continu des données exploitables enfouies dans les big data intégrer ces données dans l environnement de travail de l utilisateur lorsque c est nécessaire procéder à des analyses d exploration, de prédiction et de prospection prise de décisions plus pertinentes Nouvelles applications métiers basées sur l analyse analyse du panier de la ménagère optimisation des prix et du rendement gestion de la démarque des produits programme de fidélisation fdél de la clientèle analyse en fonction de la demande : prévision, comparaisons, 30
Big data on line analytics : Enjeux Usages possibles Mieux comprendre les modes d utilisation des usagers améliorer l offre de services Permettre la communication en temps réel d une organisation avec ses usagers Mieux comprendre les sentiments ou les besoins des citoyens à l aide des données des réseaux sociaux Anticiper jusqu à un certain degré de certitude les comportements les besoins des consommateurs Prévenir certaines maladies et améliorer le traitement des patients 31
Big data on line analytics : Enjeux Potentiel des analyses des big data Simplifier et adapter les services éducation en ligne : améliorer les enseignements en fonction des activités des élèves Extraire les informations enfouies données pertinentes données suspectes Prédire et prévenir anticiper sur des évènements futurs prévention des crimes : identifier les zones et les périodes sensibles Améliorer les performances de gestion faciliter l évaluation des services aide à la prise de décision permettre d économiser des ressources 32
Big data on line analytics : Enjeux Défis Mettre de l intelligence dans les big data Recueillir des millions de lignes de données données du commerce en ligne travailler sur des millions de données, en continu, en temps réel comment tirer profit de ces millions de données? Stocker les big dt data Analyser ayse les big bgdata Visualiser les résultats 33
Big data on line analytics : Enjeux Contexte Méthodes de conception ardues Outils de reportingrudimentaires i Données à croissance exponentielle Technologies de bases de données limitées et rigides Emergence de nouvelles applications initiatives métier stratégiques 34
Big data on line analytics : Problèmes Limitations des entrepôts classiques Au niveau stockage les entrepôts de données sont implémentés dans les SGBD traditionnels les SGBD traditionnels stockent des données numériques capacité de gestion des SGBD est limitée pour des données massives Au niveau modèle les modèles d entrepôts classiques sont limités les données massives sont peu ou pas structurées les données massives sont en flux continu Au niveau du processus ETL l ETL sert à extraire, transformer et charger les données des sources vers l entrepôt l ETL classique est limité pour des données massives et continues 35
Big data on line analytics : Problèmes Limitations des entrepôts classiques Au niveau analyse calcul préalable des agrégats dans les entrepôts traditionnels compenser la puissance de calcul limitée des SGBD traditionnels plusieurs jointures pour calculer les cubes OLAP Impact du pré calcul des agrégats sur les big data problème du chargement des données en flux continu problème de génération des rapports mis à jour en temps réel 36
Big data on line analytics : Démarche Vers de nouveaux entrepôts de données Utilisation de nouveaux modèles de données modèles de données NoSQL SGBD NoSQL (Cassandra) meilleure prise en compte des données peu ou pas structurées Utilisation des nouvelles plateformes et outils cloud computing capacité de stockage illimitée puissance de calcul Hadoop traitement parallèle des données gain de temps 37
Big data on line analytics : Démarche Vers de nouveaux entrepôts de données Entrepôt de données agile flexible réactif Vers une nouvelle façon de faire de l OLAP OLAP à la demande meilleure gestion des données arrivant en flux continu L analyse au sein des nouveaux SGBD créer les opérateurs OLAP au sein des SGBD NoSQL intégrer des opérateurs de prédiction, d analyse de tendances, dans les SGBD NoSQL 38
Big data on line analytics : Quelques résultats Analyse en ligne de textes Intégration de données textes texte: donnée peu ou pas structurée définir une démarche de prétraitement de données textes Entrepôts de textes comment stocker les données textes t quel modèle d entrepôt choisir? quel est le niveau de granularité (terme, paragraphe, document ) Text OLAP définir des mesures textuelles définir les opérateur Text OLAP construction de cubes de textes 39
Big data on line analytics : Quelques résultats Analyse en ligne de textes Intégration de données textes utilisation de techniques avérées de la recherche d information Indexation de documents segmentation thématique de textes Entrepôts de textes dimensions thématiques mesures textuelles : vecteur de poids des termes / dimensions Opérateurs d agrégation adaptées aux données texte classement de documents et navigation selon les dimensions thématiques catégorisation par mots clés 40
Big data on line analytics : Quelques résultats Cube de textes 41
Big data on line analytics : Quelques résultats Opérateur de classement de documents et navigation 42
Big data on line analytics : Quelques résultats Parallélisation du processus ETL Vers l intégration de données massives décomposition des tâches ETL en fonctionnalités de base répartition des fonctionnalités sur les différents nœuds du cluster Paradigme Map/Reduce fonctions s exécutent en plusieurs instances parallèles sur les différents nœuds du cluster Parallélisation des fonctions de base changing data capture data quality validation surrogate key slowly changing dimension 43
Big data on line analytics : Quelques résultats Vers l intégration de données massives MapReduce Partitionnement Map Reduce Données sources Parti. 0 Parti. 1 Résultat Parti. 2 ETL Données sources DW/Cubes Extraction Partitionnement Transformation Fusion Chargement 44
Big data on line analytics : Quelques résultats Entrepôts de données en colonnes Données entreposées stockées en colonnes mode de stockage plus adapté aux données multidimensionnelles utilisation d un dun SGBD NoSQL en colonnes Construction de cubes OLAP en colonnes accès aux seules colonnes sollicitées par la requête décisionnelle accès aux seuls blocs contenant ces colonnes Développement d applications décisionnelles dans le cloud 45
Big data on line analytics : Quelques résultats OLAP pour les entrepôts NoSQL Opérateur d agrégation CN Cube : Columnar NoSQL Cube operator appliqué sur des entrepôts en colonnes Etude de performance comparaison du temps de construction de cubes OLAP selon : environnement relationnel : Oracle environnement non relationnel : MonetDB Résultats CN Cube C plus performant que l opérateur Cube d Oracle facilité du passage à l échelle avec les entrepôts NoSQL 46
Big data on line analytics : Quelques résultats OLAP à la demande OLAP pour tous rendre accessible l OLAP aux PME/TPE projet décisionnel à coût réduit en mode «software as a service» (SAS) Projet décisionnel comme un service prise en main simplifiée du processus décisionnel phases d intégration et de modélisation multidimensionnelles masquées Navigation visuelle dans les cubes OLAP 47
Big data on line analytics : Quelques résultats OLAP à la demande Agrégation à la demande créer des agrégats en temps réel pas de mise à jour de cubes OLAP à faire gain de temps Création directe de nouveaux indicateurs clés de performance indicateurs non figés meilleure exploitation des données continues Définir les hiérarchies à la demande ne pas figer les hiérarchies de dimensions à lors de la conception de l entrepôt possibilité de changer de hiérarchie d une analyse à l autre 48
Big data on line analytics : Quelques résultats OLAP à la demande Analyse opérationnelle exploitation en continu des flux de données reporting opérationnel à faible latence Prise de décision rapide peu de temps entre l apparition d un évènement et la prise de décision prise de décision quasi en temps réel Exemple gestion d une campagne publicitaire réallouer les budgets de campagne en ligne aux sites les plus efficaces alors qu une campagne est en cours 49
Big data on line analytics : Quelques résultats OLAP à la demande Traitement des requêtes massives environnement cloudcomputing gestion rapide des accès concurrents étude de performance Analyse en ligne collaborative partage de cubes OLAP partage de résultats enrichissement des cubes 50
Big data on line analytics Conclusion Au delà de l effet de mode des big data grand intérêt lié aux analyses prévenir des catastrophes traiter des pathologies organiser des services Nécessité de l interopérabilité des données et des applications OLAP à la volée ne pas stocker les données (trop volumineuses) système de médiation données continues Il convient de réfléchir dès maintenant aux : risques liés à la confidentialité des données risques liés au respect de la vie privée 51
Big data on line analytics Conclusion Services Web Ontologies Modèles NoSQL Fouille RI Entrepôts Big Data Intégration ETL Modélisation orientée analyse Analyse en ligne Dans le nuage Actifs Personnalisés Sécurisés Cloud OLAP Décideur Utilisateur non expert Personnalisation Sécurité A la demande Service Personnalisé Sécurisé Profils Contextes 52
Fdil Fadila Bentayeb Merci! Lb Laboratoire ERIC Lyon 2 53