Le zoo du Big Data Comment apprivoiser les animaux

Le zoo du Big Data Comment apprivoiser les animaux La nécessité d'une plateforme intégrée pour les informations de l'entreprise Octobre 2012 Un livre blanc de Dr Barry Devlin, 9sight Consulting barry@9sight.com Le Big data est probablement l'évolution la plus importante dans l'utilisation des informations par les commerciaux et les informaticiens, cette dernière décennie. Elle révolutionne la manière dont les entreprises décident, fonctionnent, réussissent ou échouent. En exploitant les informations intelligemment, elle permet d'anticiper le changement et d'en tirer parti. Pour ce faire, l'équipe informatique doit regarder au-delà des technologies traditionnelles et faire appel à de nouveaux outils pour traiter des volumes plus importants de données hétérogènes, et ce, plus rapidement que jamais. L'analyse du zoo du Big Data a omis un point essentiel : que le volume soit petit ou gros, ce sont toujours des données. Il convient les gérer et les intégrer dans toute l'entreprise pour les valoriser pleinement et garantir leur utilisation cohérente. Apprivoiser le Big Data est une condition essentielle pour obtenir cette valeur. Ce livre blanc propose trois solutions : 1. La base pour extraire la valeur métier maximale des volumes massifs de données à leur source est une plateforme technologiquement diversifiée et étroitement intégrée pour toutes les informations (Big Data et transactions traditionnelles). 2. Une approche d'entreprise réunissant plateforme, produits et processus est indispensable pour préserver la qualité et l'utilisation à long terme du Big Data, conjointement avec les données provenant de systèmes de Business Intelligence et autres. Sommaire 3 La parabole des aveugles et de l'éléphant Le contexte du Big Data 5 Big Data et petits volumes vus du ciel 7 Une plateforme intégrée pour tous les types d'information 9 Mise en œuvre d'une plateforme d'informations intégrée 11 Conclusion 3. Le déploiement rapide des projets de Big Data est nécessaire pour tirer parti au plus tôt des nouvelles opportunités commerciales. Pour ce faire, il contient d'intégrer progressivement des fonctionnalités de Big Data dans l'infrastructure de gestion des données au sein de l'entrepôt de données.

Apprivoiser les animaux du Big Data est la prochaine étape dans la gestion des données. Parrainé par : International Business Machines www.ibm.com Copyright 2012, 9sight Consulting. Tous droits réservés. 2

S i le Big Data était un mammifère, ce serait un éléphant. Peut-être imaginezvous un petit éléphant jaune. Moi pas. J'imagine un grand éléphant gris, membre d'un troupeau. Je parle de quelque de plus grand que Hadoop. Je parle de tous les types de données que les entreprises collectent dans des quantités de plus en plus importantes. À cet égard et malgré sa nouveauté technique, le Big Data ressemble aux autres données : il faut le gérer et l'utiliser correctement à l'échelle de l'entreprise pour en extraire une valeur métier significative et obtenir l'impact durable annoncé. Si le Big Data était un reptile, ce serait un caméléon. Avant 2005, le Big Data était une expression utilisée par des scientifiques incapables de stocker ou d'analyser toutes les données produites par leurs expériences. C'est toujours le cas. Ensuite, le Big Data est devenu un terrain de jeu pour les chercheurs qui, au sein d'entreprises comme Google et Netflix, exploitaient des volumes massifs de données Web à leur disposition. C'est toujours le cas. En 2008, Hadoop est devenu un projet «Open Source» prioritaire d'apache, synonyme de Big Data. C'est toujours le cas. Avant 2010, même le magazine The Economist a publié un numéro spécial 1 sur le Big Data et les spécialistes du marketing ont commencé à tout renommer. Le Big Data englobe tout ceci et bien plus encore. Mais aujourd'hui, il est temps d'arrêter de triturer la forme. Désormais, le Big Data est au cœur d'une technologie de pointe, qui bouleverse la donne en profondeur : l'analyse métier ou Business Analytics. La vitesse d'exécution de cette technologie et les volumes qu'elle prend en charge sont tels que l'ancien paradigme consistant à tout copier et tout nettoyer dans un entrepôt de données est complètement obsolète. La majeure partie de cette analyse doit être effectuée sur des volumes massifs de données dans leur format natif, aussi proche que possible de leur source. Et nul besoin d'être un grand penseur pour savoir qu'une approche fédérée ou virtualisée réunissant l'entrepôt de données et le Big Data est indispensable. Le Big Data ouvre de nouvelles opportunités d'analyse et d'anticipation permettant aux entreprises de surclasser significativement leurs concurrents 2. En 2011, McKinsey estimait que le Big Data pourrait générer 300 milliards de dollars dans le secteur de la santé et 250 milliards de dollars dans le secteur public aux États-Unis 3. Clairement, les opportunités commerciales ne manquent pas et les premiers positionnés en tirent déjà parti. Ceci dit, tout n'est pas aussi simple. Parmi les prévisions de Gartner pour 2012 et au-delà 4, on pouvait lire : «En 2015, plus de 85 % des entreprises du classement Fortune 500 ne seront pas en mesure d'exploiter efficacement le Big Data à leur avantage» en raison de leur incapacité à relever les défis techniques et en matière de gestion. Ces défis concernent essentiellement l'informatique. Le Big Data n'est pas le seul élément de l'infrastructure. Pour un déploiement et une utilisation efficaces, il doit être intégré dans les processus métier existants. Il doit être et sera associé à tous les outils informationnels actuellement en place dans une plateforme d'entreprise complète. Idéalement, la mise en place du Big Data doit être progressive et, la plupart du temps, précoce pour être véritablement efficace. Pourtant, trois idées reçues perdurent sur le Big Data. Tout d'abord, il peut résoudre le problème de la faim dans le monde ou, du moins, garantir la réussite de chaque entreprise. Ensuite, il semble supplanter toutes les technologies traditionnelles de Business Intelligence et d'entrepôt de données. Enfin, tout le monde semble l'utiliser. Malheureusement, aucune de ces affirmations n'est vraie! Au final, le Big Data ressemble davantage à un virus qui apparaît et se propage comme une pandémie. La vérité est à la fois plus révolutionnaire et plus terre à terre. Le Big Data peut et va ouvrir des opportunités commerciales gigantesques mais uniquement si nous conservons nos racines : des processus de gestion des données efficaces et des technologies d'entreprise bien intégrées. Le Big Data ouvre de grandes opportunités, mais peu d'entreprises en tireront parti efficacement. Copyright 2012, 9sight Consulting. Tous droits réservés. 3

La parabole des aveugles et de l'éléphant Le contexte du Big Data «Six hommes d Hindoustan / très enclins à parfaire leurs connaissances, Allèrent voir un éléphant / (bien que tous fussent aveugles), Afin que chacun en l'observant / puisse satisfaire sa curiosité. 5 L a parabole des aveugles qui touchent différentes parties d'un éléphant et en tirent des conclusions fausses découvrant que toute vérité est relative illustre assez bien la situation actuelle du marché par rapport au Big Data. Chaque consultant et chaque fournisseur voient et décrivent le Big Data en fonction des parties qu'ils touchent sans parler des outils qu'ils possèdent ni des marchés qu'ils aspirent à conquérir. L'impression globale est celle d'une confusion que nous allons dissiper tout de suite. Chaque année, la quantité d'informations stockée et traitée augmente de plus de 50 %, Le Big Data se selon IDC 6. Cette caractéristique appelée à juste titre volume est à l'origine de l'expression développe «Big Data». La plupart des définitions du Big Data y ajoutent deux autres mots : la vitesse rapidement, mais le (le rythme de plus en plus rapide d'arrivée et de traitement des données) et la variété (la définir précisément n'est pas chose diversité croissante des structures de données à prendre en charge). IBM a récemment facile. introduit un quatrième aspect : la véracité, c'est-à-dire la nécessité de considérer comme fiables les données utilisées pour prendre des décisions stratégiques et opérationnelles. Certains analystes tiennent à ajouter la variabilité ; d'autres, la valeur, la viralité, la validité et la viscosité. Ces définitions ne sont ni satisfaisantes, ni cohérentes. En fait, le terme vague est probablement celui qui convient le mieux. Aucun de ces termes ne se prête à une mesure précise. Donc, comment de simples mortels peuvent-ils répondre à cette simple question : le Big Data est-il pour moi? L'approche la plus simple, suivie de manière pragmatique par les tout premiers sur le marché, consiste à examiner les utilisations commerciales du Big Data et à voir comment les mettre en œuvre. Bien sûr, cette approche ne peut pas être complète, car de nouvelles utilisations sont susceptibles d'être découvertes. Mais, le Big Data peut avoir son importance si votre entreprise travaille dans un ou plusieurs des secteurs suivants : 1. Le marketing utilise le contenu des médias sociaux, les informations sur les relations et les données collectées en interne sur les interactions avec les clients (comme les Le volume, la vitesse journaux des centres d'appels), pour mieux connaître les motivations des clients. et la variété ont Dans des secteurs tels que la vente au détail, les biens de consommation et les beaucoup moins télécommunications, où l'interaction avec un grand nombre de clients peut être d'importance que ce que vous faites avec directe ou indirecte, le Big Data permet une transition entre l'échantillonnage et le Big Data. l'analyse d'un jeu complet de données, entre des segments démographiques et des marchés très ciblés, et entre un suivi à long terme de données historiques et une réaction en temps réel à des nouveaux événements. Le but ultime étant la prévision du comportement des clients et la suggestion d'actions, comme une deuxième meilleure offre. 2. L'identification des fraudes et d'autres irrégularités dans les données des transactions financières porte sur des volumes croissants de transactions de petite valeur, sur des intervalles de temps de Copyright 2012, 9sight Consulting. Tous droits réservés. 4

plus en plus courts. Les techniques d'analyse de Big Data sur les flux de données avant ou sans stockage sur disque sont devenues la norme. 3. La prévision en temps réel devient possible car les services de distribution eau, électricité, télécommunications peuvent désormais suivre la consommation des clients individuellement, grâce à une technologie de capteurs omniprésents et à des processus de Big Data capables de traiter ces données. La valeur réside dans la capacité à prédire les pics et les creux de consommation, et dans une certaine mesure, à les lisser en influençant le comportement des clients. 4. Le suivi d'articles physiques (aliments, appareils électroménagers, colis ou conteneurs) par les fabricants, les producteurs et les distributeurs, depuis la distribution jusqu'à la mise au rebut, permet d'optimiser les processus métier et d'améliorer le taux de satisfaction des clients. Les personnes, en tant qu'entités physiques, peuvent aussi faire l'objet d'un suivi pour des motifs liés au commerce ou à la surveillance. 5. Le renouvellement des processus métier par une utilisation innovante des données générées par les capteurs permet de modifier des secteurs d'activité entiers. Par exemple, une compagnie d'assurance peut fixer le montant des primes en fonction du comportement réel des automobilistes et non d'un risque moyen calculé de manière statistique. Au-delà des questions éthiques, les données génomiques individuelles et les dossiers médicaux électroniques constituent des opportunités intéressantes pour les compagnies d'assurance santé. Il convient également de faire barrage à certaines idées fausses propagées par des soi-disant experts qui se focalisent trop sur chaque partie de l'éléphant. Le Big Data est bien plus que des flux de médias sociaux comme Twitter et Facebook. Ce type de données est important mais essentiellement pour des clients réels et des transactions économiques que nous enregistrons habituellement dans des systèmes opérationnels et que nous analysons avec des outils de BI (Business Intelligence). De même, une vision axée uniquement sur les données de capteurs, provenant de l'«internet des objets», omet que l'utilisation ou l'analyse de ces données doit, d'une façon ou d'une autre, s'intégrer dans les processus métier actuels ou repensés. De même, une équipe de scientifiques des données, travaillant de manière autonome, ne peut pas espérer changer les processus métier en exploitant une seule source de données sur une nouvelle plateforme technique. L'intégration des données de plusieurs sources traditionnelles ou nouvelles, à l'aide de multiples outils, est la première condition. La deuxième est un processus bien intégré, prenant en compte toutes les données pour pouvoir les valoriser pleinement. Autre idée reçue : la technologie du Big Data peut ou doit supplanter les bases de données relationnelles ou les entrepôts de données d'entreprise (EDW). Cette conception est excessivement simpliste. En fait, la technologie du Big Data est une extension et une intégration des techniques et outils existants, depuis le traitement séquentiel jusqu'aux systèmes de gestion de base de données. L'écosystème Hadoop, par exemple, traite en parallèle des fichiers volumineux l'un après l'autre. Les bases de données relationnelles et leurs outils se focalisent, entre autres, sur la gestion systématique des informations et la cohérence des données. À l'inverse, la technologie du Big Data met l'accent sur d'autres caractéristiques très prisées, comme la rapidité d'accès, la variabilité des schémas et, bien entendu, des volumes massifs de données. La vérité aujourd'hui, c'est que de nombreux processus métier très performants ont besoin d'allier ces deux caractéristiques. Certaines tâches nécessitent de la souplesse, des frontières mouvantes et des approches innovantes. D'autres requièrent de la certitude, un champ d'application délimité et un respect des règles. Les processus Les processus métier évolutifs requièrent des approches et des outils traditionnels, ainsi que des Copyright 2012, 9sight Consulting. Tous droits réservés. 5 approches et des outils de Big Data.

métier franchissent un seuil de complexité qui dépasse les capacités de traitement des systèmes traditionnels, mais qu'un système de Big Data caractérisé par le volume, la variété et la vitesse est incapable de prendre en charge. Nous avons besoin d'une plateforme et d'outils professionnels qui combinent les deux. Pour définir une telle plateforme, il faut admettre que nous assistons à une transition rapide entre un monde dominé par un type de données et un autre monde où trois types d'information ont une importance équivalente. Copyright 2012, 9sight Consulting. Tous droits réservés. 6

Big Data et petits volumes vus du ciel «L'éther entier est le domaine de l'aigle : La terre entière est la patrie d'un brave.» 7 E n adoptant le point de vue d'un aigle planant au-dessus de toutes les divisions et de tous les silos des organisations et systèmes existants, l'équipe informatique peut voir comment les informations et les processus interagissent. Fondamentalement, nous avons besoin d'une nouvelle représentation mentale des informations et de leurs trois composantes étroitement imbriquées : 1. Informations d'origine humaine * : toutes les informations sont créées par des individus. Elles constituent une vision éminemment subjective de nos expériences personnelles. Auparavant conservées dans des livres et des œuvres d'art, puis dans des photographies, des enregistrements sonores et des vidéos, les informations d'origine humaine sont aujourd'hui en grande partie numérisées et stockées électroniquement sous des formes aussi différentes que les tweets et les films. Elles ont une structure variable, ne sont pas contrôlées et peuvent même fausser la perception de la réalité, notamment pour les entreprises. La structuration et la standardisation notamment par la modélisation sont nécessaires pour définir une version commune de la vérité. Nous convertissons les informations d'origine humaine en données traitées par des processus, de plusieurs manières dont la plus simple est la saisie dans des systèmes d'enregistrement. 2. Données traitées par processus : chaque entreprise ou organisation met en œuvre des processus qui, entre autres, mémorisent et contrôlent des événements, comme l'enregistrement d'un client, la fabrication d'un produit ou la passation d'une commande. Ces données incluent des transactions, des tables de référence et des relations, ainsi que des métadonnées qui définissent le contexte, le tout dans un format très structuré. Traditionnellement, les données traitées par processus formaient l'essentiel de ce que l'informatique gérait et traitait, qu'il s'agisse de données opérationnelles ou de BI. Leur format très structuré et réglementé en fait un support idéal pour des tâches telles que la gestion des informations, la préservation de la qualité des données, etc. 3. Données générées par des machines : nous déléguons de plus en plus aux machines la mesurer et l'enregistrement des événements et des situations dont nous faisons l'expérience physique. Les données générées par des machines simples enregistrements de capteur ou journaux informatiques complexes sont bien structurées et considérées comme un reflet fiable de la réalité. Elles représentent une part croissante des informations stockées et traitées par de nombreuses entreprises. Leur volume est en constante augmentation car les capteurs prolifèrent. Bien que leur structure se prête bien aux opérations informatiques, leur taille et leur vitesse de circulation dépassent les capacités des systèmes traditionnels, comme l'edw, pour les données traitées par processus. Les tailles relatives et l'importance subjective de ces trois composantes ont évolué Les données métier traditionnelles sont le résultat d'expériences personnelles et de mesures effectuées par des machines ; le Big Data remet les processus métier en contact direct avec la réalité du monde. * Dans le contexte de ces trois composantes, les «données» sont bien structurées et/ou modélisées, et les «informations» sont peu structurées et centrées sur l'humain. Copyright 2012, 9sight Consulting. Tous droits réservés. 7

ces dix dernières années et devraient encore changer dans la décennie qui vient. Jusqu'à la fin du dernier millénaire, les données traitées par processus prédominaient. Les informations d'origine humaine et les données générées par des machines qui existaient sous forme numérique représentaient un volume relativement faible et étaient considérées comme négligeables par rapport aux données bien gérées des systèmes opérationnels et informationnels. La dernière décennie a été marquée par l'explosion du Big Data constitué d'informations d'origine humaine et de données générées par des machines. La dernière composante, sous la forme de données de médias sociaux, a cristallisé toute l'attention. Ces prochaines années, la croissance rapide de l'internet des objets va renforcer l'importance et le volume des données générées par des machines. Cependant, comme vous pouvez le voir dans la figure 1, les informations d'origine humaine et les données générées par des machines sont à l'origine des données traitées par processus qui sont au centre de nos préoccupations depuis longtemps, bien que seule une petite partie bien définie soit traitée par les processus métier traditionnels. Ces sources sont à la fois plus souples et plus rapides que les données traitées par processus traditionnelles. En fait, les processus métier qui créent des données traitées par processus sont conçus pour réduire la souplesse et la rapidité de circulation, afin de préserver la qualité et la cohérence des données obtenues. Ceci transparaît clairement dans les processus à l'œuvre dans l'edw, mais également dans les systèmes opérationnels où la validation et le nettoyage des données garantissent la véracité et la viabilité des données enregistrées. XAujourd'hui, le volume d'informations d'origine humaine et de données générées par des machines est beaucoup plus important. Leur rythme de changement et leur variabilité sont plus importants que ceux des données traitées par processus. Leur copie et leur transformation par les processus traditionnels sont de moins en moins commodes. De fait, une technologie spécialisée, baptisée Business Analytics, est souvent nécessaire pour traiter et exploiter les informations d'origine humaine et les données générées par des machines, aussi près de leurs sources et aussi rapidement que possible. Ceci dit, le flux de données traitées par processus et les métadonnées qui leur sont associées dans l'environnement de Business Analytics sont tout aussi importants pour créer du sens, du contexte et de la cohérence dans le processus d'analyse. Le Big Data et le Business Analytics complètent le processus d'information en boucle, qui a toujours été implicite dans les technologies de l'information. Les implications concrètes de ce modèle à trois composantes d'information sont significatives et multiples : Le traitement de Big Data, quelle que soit la technologie employée, s'appuie sur les données traitées par processus et les métadonnées traditionnelles pour créer le contexte et la cohérence indispensables à une utilisation pleinement pertinente. Figure 1 : Les trois composa ntes de l'information La technologie de Business Analytics traite le Big Data aussi près que possible de sa source pour une vitesse et une efficacité optimales. Copyright 2012, 9sight Consulting. Tous droits réservés. 8

Les résultats du traitement de Big Data doivent être retransmis aux processus métier traditionnels pour permettre à l'entreprise de changer et d'évoluer. Un environnement totalement cohérent, avec une plateforme intégrée, et une organisation à l'échelle de l'entreprise sont indispensables pour une mise en œuvre réussie. Face à la prévalence grandissante du Big Data, les commerciaux et les informaticiens doivent renoncer à l'ancienne dépendance vis-à-vis des données traitées par processus, et adopter ces composantes plus souples et plus évolutives d'informations sur le monde réel. La compréhension de la relation entre ces trois composantes d'information est essentielle pour utiliser le Big Data en toute sécurité et de manière productive au sein de l'entreprise. Pour définir et gérer cette relation, et rendre ces trois types d'information disponibles dans toute l'entreprise, il faut une plateforme d'informations intégrée. C'est ce que nous allons voir dans la section suivante. Les données traitées par processus et les métadonnées traditionnelles sont primordiales pour comprendre le contexte et gérer l'utilisation du Big Data. Copyright 2012, 9sight Consulting. Tous droits réservés. 9

Une plateforme intégrée pour tous les types d'information «L'aigle peut planer ; les castors construisent des barrages.» 8 S i les développeurs d'entrepôt de données étaient des animaux, ils seraient certainement des castors, travaillant sans relâche à réguler les flux de données et créant un référentiel complet d'informations métier cohérentes. Les entrepôts de données et les environnements de gestion de données d'entreprise associés, comme les systèmes de gestion de données de référence (MDM), sont des référentiels fiables de données traitées par processus qui sont bien gérées et bien contrôlées. En revanche, l'origine du mouvement du Big Data dans la science et les entreprises spécialistes du Web, comme Google et Yahoo!, très compétentes en ingénierie, a conduit à une approche fondée sur une technologie «Open Source» et une programmation personnalisée. Une telle approche met davantage l'accent sur l'adaptabilité, le volume et la vitesse que sur la qualité des données. Aujourd'hui, les entreprises ont besoin de ces deux volets, l'un ne pouvant remplacer l'autre. Une plateforme intégrée pour tous les types d'information (voir la figure 2) doit donc mobiliser plusieurs technologies d'analyse et de base de données. Optimisée pour un type particulier de traitement et d'accès, chacune constitue un pilier et est nommée en fonction de son rôle métier. 1. Au centre, le premier pilier Données métier essentielles correspond à des données cohérentes et fiables, stockées dans les systèmes EDW et MDM. Les bases de données relationnelles traditionnelles, comme IBM DB2, constituent la technologie de base. Souvent stockées dans les EDW aujourd'hui, les données de chaque application, servant à prendre des décisions et à créer des rapports, sont exclues. Figure 2 : La plateforme d'informatio ns intégrée 2. Le deuxième pilier, Données d'analyse et de création de rapports essentielles, contient les données exclues du pilier précédent. Idéalement, ce pilier est, lui aussi, une base de données relationnelle. Les plateformes d'entrepôt de données, comme IBM InfoSphere Warehouse, IBM Smart Analytics System et le nouvel IBM PureData System for Operational Analytics, ont toute leur place ici. Les entreprises qui ont besoin de performances de haut niveau pour les requêtes peuvent choisir un système d'analyse intégrant le traitement massivement parallèle (MPP), des bases de données en colonnes ou d'autres technologies de pointe comme le nouvel IBM PureData System for Analytics (mis en Copyright 2012, 9sight Consulting. Tous droits réservés. 10

œuvre par la technologie Netezza). 3. Le pilier Informations d'analyse détaillées requiert des capacités de traitement importantes et très souples, comme l'analyse statistique et l'exploration de textes, souvent mises en œuvre dans l'environnement Hadoop. 4. Le pilier Données d'analyse rapides requiert une technologie permettant d'analyser les données très rapidement, comme avec IBM InfoSphere Streams. Souvent générées par plusieurs sources, ces données doivent être analysées en continu et agrégées avec une latence quasi nulle pour générer des alertes et prendre des décisions en temps réel. 5. À l'intersection de la rapidité et de la flexibilité, le pilier Données d'analyse spécialisées effectue un traitement spécialisé (NoSQL, XML, graphique et autres bases/magasins de données). Il apparaît en double dans la plateforme, car il s'applique aux données générées par des machines et aux informations d'origine humaine. La figure 2 montre comment ces piliers sont répartis entre les trois composantes de l'information et place les systèmes d'enregistrement opérationnels traditionnels au cœur de la plateforme. Le pilier central de la plateforme ressemble beaucoup à l'architecture d'un entrepôt de données traditionnel, à cette différence près que dans les entrepôts utilisés pour l'analyse et la création de rapports, les données peuvent et souvent doivent provenir directement des systèmes opérationnels. La plateforme d'informations intégrée contient toutes les informations générées et utilisées par l'entreprise. Les métadonnées sont essentielles à cette nouvelle architecture pour contextualiser les informations et permettre une gouvernance appropriée. Dans les composantes traitées par processus et générées par des machines, les métadonnées sont explicites et, en général, stockées séparément. Dans la composante d'origine humaine, elles ont tendance à être implicites dans les informations ellesmêmes. Il est donc impératif d'élaborer de nouvelles approches pour modéliser, identifier et visualiser les sources internes et externes de données, ainsi que leurs relations comme dans les outils IBM Vivisimo d'optimisation des informations au sein de la plateforme. Parmi les fonctionnalités requises, l'intégration des données qui déplace, copie, nettoie et conditionne les données dans la plateforme (flèches noires), et la virtualisation des données (liens orange) jouent un rôle central. Bien entendu, les métadonnées sont incontournables dans ces deux fonctionnalités. L'intégration des données, également appelée ETL (pour Extract/Tranform/Load, littéralement extraction/transformation/chargement), existait déjà dans les entrepôts de données et remplit la même fonction dans la plateforme d'informations intégrée. Quant à la virtualisation des données, certains puristes des entrepôts de données la proscrivent. Ceci dit, contrairement à l'architecture EDW classique dans laquelle tous les flux de données traversent un même entrepôt instancié physiquement, la plateforme d'informations intégrée regroupe plusieurs entrepôts unifiés logiquement par les données métier et les métadonnées essentielles. La virtualisation des données permet aux utilisateurs et aux applications d'accéder aux données stockées dans des technologies hétérogènes et sur plusieurs sites via une couche sémantique. Elle offre une vue métier des informations, masque la complexité technique de l'accès et autorise une jonction en temps réel des résultats provenant de plusieurs sources. Les outils d'administration et de Business Analytics incluent toutes les fonctions que vous attendez : exploration, visualisation, identification, développement d'applications, gestion des systèmes, etc. Le Business Analytics couvre à la fois l'utilisation du Big Data et les fonctionnalités de BI traditionnelles. Copyright 2012, 9sight Consulting. Tous droits réservés. 11

Dans sa forme la plus aboutie, la plateforme intégrée contient toutes les informations générées et utilisées par l'entreprise. Ces informations proviennent des interactions La plateforme de l'entreprise avec des machines et des personnes, tant en interne qu'en externe, d'informations intégrée ainsi qu'avec d'autres organisations. C'est ce que montre la partie inférieure de la est l'unification virtuelle figure 2. En général, les événements sont enregistrés par des capteurs et des du Big Data et des machines. Les communications correspondent aux interactions entre les personnes. informations métier traditionnelles. Et les transactions désignent les interactions qui ont une importance financière pour l'entreprise. Ces transactions sont primordiales pour une entreprise, c'est pourquoi elles ont compté parmi les premiers à être informatisés, et les systèmes opérationnels effectuent un travail complet de contrôle qualité avant de les accepter. Elles constituent également la principale source de données métier essentielles. Les événements et les communications nécessitent un contrôle qualité moindre et peuvent donc être chargés directement dans les systèmes qui les utilisent et les analysent. Mise en œuvre d'une plateforme d'informations intégrée Comment mangez-vous un éléphant? Par petits morceaux C omme le Big Data, si les informations sous toutes leurs formes étaient un animal, elles seraient aussi un éléphant ou plus précisément un troupeau d'éléphants. Comme nous l'avons vu, pour régner sur ce troupeau, il faut une plateforme intégrée prenant en charge tous les types d'information. Bien que sa vision et sa portée soient complètes, cette plateforme existe déjà partiellement ou, plus souvent, en plusieurs morceaux. En fait, il s'agit d'un travail en cours qui a débuté dans de nombreuses organisations avec leur premier entrepôt, probablement dans les années 1990, lorsqu'elles ont commencé à créer des informations utilisables dans toute l'entreprise. L'un des principaux objectifs de l'architecture des premiers entrepôts de données 9 était la cohérence, première condition pour une utilisation globale des informations, quels que soient les volumes concernés. La plupart des méthodes et techniques utilisées dans la création d'un entrepôt s'appliquent au Big Data, comme bon nombre de technologies. L'important, c'est de ne pas croire que les nouvelles technologies sont si différentes qu'elles changent tout. Ce n'est pas le cas. Pour mettre en place une À partir de vos systèmes actuels et, en particulier, de vos entrepôts complets, plateforme intégrée de Big Data, appuyez-vous sur vous pouvez commencer par créer la plateforme d'informations intégrée l'infrastructure existante et les nécessaire pour extraire une valeur métier concrète des Big Data. Et vous outils de la gestion des pouvez dès maintenant profiter de certains avantages de cette plateforme : données, notamment Réutilisation des données et environnements existants dans la mesure l'entrepôt de données du possible d'entreprise. Possibilité d'ajouter de nouvelles technologies en cas de besoin Signification et utilisation cohérentes des informations entre les environnements Réduction du délai de rentabilisation et du retour sur investissement pour la technologie existante Copyright 2012, 9sight Consulting. Tous droits réservés. 12

Si vous cherchez à valoriser les informations d'origine humaine provenant du Web (comme les médias sociaux) ou de sources internes (comme les journaux de centres d'appels ou des archives de textes), créer un environnement de type «Sandbox» (littéralement «bac à sable») dans Hadoop est recommandé. Du point de vue technologique, il est primordial que ce nouvel environnement soit lié aussi étroitement que possible à votre système de BI pour permettre un transfert bidirectionnel d'informations : par exemple, envoi de données métier certifiées sur des clients ou des produits vers l'environnement Hadoop à des fins d'analyse, et envoi de données synthétiques issues des tâches d'analyse vers le système de BI pour créer des rapports et prendre des décisions. Du point de vue organisationnel, ce sont les scientifiques des données et leur rareté sur le marché qui ont fait l'objet de toutes les attentions. Véritables experts, ces scientifiques résolvent des problèmes de données complexes grâce à leurs compétences en collecte et nettoyage de données, en analyse statistique, en visualisation et à une connaissance approfondie du domaine. On oublie fréquemment que les utilisateurs expérimentés de systèmes de BI et de tableurs dans les services commerciaux qui utilisent des données à grande échelle, peuvent faire des scientifiques des données très compétents. Au sein du service de marketing, les utilisateurs qui ont le bon état d'esprit et sont habitués à analyser beaucoup de données et à en extraire du sens, constituent souvent d'excellents candidats. Ils peuvent avoir besoin d'une formation plus avancée en statistiques ou en programmation, mais ils connaissent le domaine et ont la bonne tournure d'esprit. Si vous recrutez des scientifiques des données, assurez-vous de l'implication de l'équipe de BI dans le nouvel environnement pour que ces nouvelles compétences s'intègrent bien au sein des équipes existantes. Par exemple, vous pouvez créer une équipe de deux ou trois personnes, avec un commercial qui comprend l'analyse et aime jouer au détective, et un informaticien de l'équipe de BI, capable d'accéder aux données de l'entrepôt et de les intégrer dans les nouvelles technologies de Big Data. Si votre entreprise cherche de nouvelles perspectives ou de nouveaux processus concernant les données collectées par des machines ou des capteurs, les possibilités qui s'offrent à vous sont multiples. Vous pouvez commencer par une base de données d'analyse, comme la nouvelle base IBM PureData System for Analytics, pour stocker et explorer ces données. Si vos besoins en analyse sont plus opérationnels, optez pour la nouvelle base de données IBM PureData System for Operational Analytics. Vous pouvez également utiliser Hadoop et IBM InfoSphere BigInsights si les volumes sont particulièrement massifs ou si les structures sont très variables. Dans l'éventualité où la vitesse de traitement est la priorité, une solution de flux, comme IBM InfoSphere Streams, est à envisager. Dans tous les cas, les impératifs technologiques et organisationnels sont les mêmes que ceux mentionnés ci-dessus : une intégration étroite dans l'environnement et l'équipe de BI. Au fur et à mesure que vous répondrez à d'autres besoins métier et que vous ajouterez des fonctionnalités, l'un des principaux avantages d'une plateforme transparaîtra rapidement : la réutilisation des ressources de l'infrastructure et des données. La même intégration des données et les mêmes métadonnées seront utilisées dans les différentes parties de la plateforme. Le travail de contrôle qualité effectué dans un composant se répercutera sur la qualité globale. Les commerciaux auront un accès élargi à différents types de données si leurs tâches l'exigent grâce à un jeu commun d'outils utilisés de manière cohérente et une meilleure contextualisation. À certains égards, le Big Data pose les mêmes types de problèmes de gestion des données Dans le cas de la BI, que les tableurs. La plupart des équipes en charge de la BI ou de la gouvernance de l'adhésion des données refusent obstinément d'utiliser des tableurs. Comme le dit Wayne Eckerson : commerciaux et le «Les tableurs sont hors de contrôle dans la plupart des organisations. Ils prolifèrent comme soutien de la direction du poison, étranglant lentement [les entreprises]...» 10. Le Big Data, tel qu'il est mis en sont les principaux œuvre aujourd'hui, est conforme à cette image : non contrôlé, non géré et centré autour critères de réussite pour la mise en œuvre Copyright 2012, 9sight Consulting. Tous droits réservés. du Big Data. 13

de quelques scientifiques des données, de leurs outils et de leurs jeux de données. La mise en place d'une plateforme intégrée constitue une étape importante pour endiguer cette prolifération. Combinée à une intégration étroite dans l'organisation de BI existante, cette approche peut transformer le Big Data en un puissant outil d'innovation et d'amélioration des processus, et non en une arme de destruction massive de valeur. Mais, l'étape la plus importante de la mise en œuvre consiste peut-être à emporter l'adhésion des commerciaux et le soutien de la direction. Ceci n'est pas nouveau pour les développeurs de BI. Mais attention! Certains fournisseurs de solutions de Big Data sont issus de communautés de programmation, Open Source et de développement Web, où le soutien de la direction est rare. Associer vos initiatives de Big Data à des initiatives d'entrepôt de données et de BI déjà couronnées de succès est certainement la meilleure solution pour emporter la confiance. Compte tenu des avantages métier considérables et très visibles du Big Data, le soutien de la direction au plus haut niveau peut être plus facile et plus rapide à obtenir que pour les initiatives d'entrepôt de données. Un tel enthousiasme peut et doit servir à faciliter la mise en place d'une plateforme d'informations intégrée. Et à tirer les leçons des expériences précédentes, grâce à une approche graduelle qui apporte des avantages métier à chaque étape. Copyright 2012, 9sight Consulting. Tous droits réservés. 14

Conclusion L e Big Data offre probablement les opportunités commerciales les plus importantes et les plus novatrices depuis l'apparition du commerce électronique à la fin des années 1990. Bien évidemment, le Big Data a fait l'objet d'une surmédiatisation, tout comme le commerce électronique. Mais, nous sommes aujourd'hui à un tournant. On assiste maintenant à un retour à la normale avec des fournisseurs de systèmes de gestion d'informations traditionnels qui s'impliquent davantage dans le marché et un centre de l'attention qui s'est déplacé des start-up Internet vers les entreprises bien établies. La mise en œuvre du Big Data est beaucoup plus efficace si elle s'inscrit dans des processus globaux de gestion des informations globaux, en place depuis longtemps, et si sa finalité reste d'améliorer les résultats de l'entreprise. Pourquoi? Parce que le Big Data, quel que soit son volume, sa vitesse ou sa variété, est composé de données métier qui requièrent une gestion appropriée et une intégration aux sources existantes. Seul, le Big Data peut générer des connaissances métier précieuses, mais pour que l'entreprise en retire un bénéfice durable, il doit être pleinement intégré aux processus traditionnels de gouvernance et de gestion des données. D'un statut de technique expérimentale, le Big Data est en passe de devenir une technologie de pointe. De plus en plus d'entreprises tirent parti des opportunités du Big Data pour repenser leurs principaux processus opérationnels et décisionnels. Le moteur de cette évolution, c'est la création d'une plateforme de Big Data prenant en charge de nombreux types de données dans un environnement professionnel intégré, avec une solution d'analyse métier qui exploite les données dans leur format natif, aussi proche que possible de leurs sources. Les avantages métier d'une telle plateforme intégrée sont les suivants : 1. Fournir des analyses prédictives pour l'avenir en analysant les médias sociaux et le comportement des clients à partir des données réelles et fiables que l'entreprise collecte depuis longtemps pour une utilisation quotidienne 2. Prendre des décisions opérationnelles en temps réel grâce aux informations fournies plus rapidement par des machines et des capteurs situés dans l'environnement externe, et utilisées conjointement avec les données transactionnelles traditionnelles 3. Réinventer les processus métier pour des modèles économiques plus rapides, plus innovants et plus efficaces en unifiant les activités informationnelles et opérationnelles Avec de tels avantages en vue, l'informatique doit et peut créer un système de Big Data rapidement et progressivement à partir de l'infrastructure de gestion des données existante. La plupart du temps, le point de départ est l'entrepôt de données ou l'environnement de BI. Voici quelques exemples, parmi d'autres : mise en œuvre de Hadoop pour prétraiter et analyser le contenu existant, comme des enregistrements de centres d'appels ; ajout d'une technologie de flux pour acheminer les données en temps réel dans l'entrepôt de données ; et modernisation de l'entrepôt de données existant pour que les sources de données des capteurs alimentent directement les bases de données servant à l'analyse. Les stratégies de mise en place de cette nouvelle plateforme ne manquent pas. Moyennant un investissement relativement limité en temps, en travail et en coût, elles permettent d'obtenir rapidement des avantages tangibles et de fournir à l'équipe informatique une base de travail. Copyright 2012, 9sight Consulting. Tous droits réservés. 15

Pour tirer parti de ces véritables opportunités, la collaboration entre le service commercial et l'équipe informatique est essentielle. Elle permet de commencer immédiatement à planifier et déployer une stratégie de Big Data complète et incrémentielle. Débuter modestement avec des méthodes de projet agiles permet de valoriser rapidement les données de l'entreprise et d'intégrer l'analyse et les scientifiques des données dans l'entreprise. Aujourd'hui, la technologie du Big Data a atteint une certaine maturité et s'intègre de plus en plus étroitement dans les plateformes de gestion de données actuelles. Le moment est donc idéal pour les entreprises innovantes de sortir du lot pour distancer rapidement et durablement la concurrence. Une plateforme d'informations intégrée constitue la première étape vers une mise en œuvre efficace du Big Data et l'obtention d'avantages métier réels et durables. Le Dr Barry Devlin est l'un des experts les plus reconnus en matière de Business Analytics et l'un des créateurs des entrepôts de données, dont il a décrit l'architecture dans un article publié en 1988. Il compte plus de 30 ans d'expérience en informatique, dont 20 chez IBM en tant qu'ingénieur émérite. Brillant analyste, consultant et conférencier, il est aussi l'auteur de l'ouvrage «Data Warehouse from Architecture to Implementation» et de nombreux livres blancs. Barry a créé et dirige 9sight Consulting. Il est spécialiste des implications humaines, organisationnelles et informatiques des solutions de Business Analytics qui combinent des environnements opérationnels, informationnels et collaboratifs. Il contribue régulièrement à BeyeNETWORK, Focus, SmartDataCollective et TDWI. Il vit à Cape Town, en Afrique du Sud, et travaille dans le monde entier. Les appellations et noms de produit mentionnés dans cet article sont des marques commerciales ou déposées d'ibm. Crédits des images : Éléphant africain : Barry Devlin Aveugles : C. M. Stebbins & M. H. Coolidge, «Golden Treasury Readers: Primer», American Book Co. (New York), 1909 [Wikipedia.com] Aigle : www.123rf.com/photo_5236964_american-bald-eagle-in-flight-blue-sky-on-background.html [LoonChild / 123RF.com] Castors : Willem Janszoon Blaeu : «Nova Belgica et Anglia Nova» (détail), 1635 [Wikipedia.com] Éléphants origami : Katherine Devlin Peintures de la grotte Chauvet : HTO [Wikipedia.com] 1 «Data, data everywhere A special report on managing information», The Economist, février 2010 2 «Outperforming in a data-rich, hyper-connected world», IBM Center for Applied Insights, mars 2012, http://bit.ly/mkxhhe 3 «Big data: The next frontier of innovation, competition and productivity», McKinsey Global Institute, mai 2011 4 «Gartner Reveals Top Predictions for IT Organizations and Users for 2012 and Beyond», Gartner, décembre 2011, http://bit.ly/s2mvgw 5 Extrait du poème «Les aveugles et l'éléphant» de John Godfrey Saxe (1816-1887) 6 «Expanding Digital Universe», International Data Corporation (IDC), 2007-2011, http://bit.ly/idc_digital_universe 7 Euripide, dramaturge grec (env. 480-406 av. J.-C.) 8 Joseph S. Nye, Jr. (1937-) 9 Devlin, B. A. et Murphy, P. T., «An architecture for a business and information system», IBM Systems Journal, Volume 27, Numéro 1, Page 60 (1988) http://bit.ly/ebis1988 10 Eckerson, W., «The Rise and Fall of Spreadmarts», DM Review, 2003 Copyright 2012, 9sight Consulting. Tous droits réservés. 16