WHITE PAPER
Table des matières Résultats de l enquête... 4 Stratégie d entreprise Big Data... 5 Intégration des Big Data... 8 Les défis liés à la mise en œuvre des Big Data... 10 Les technologies pour l implémentation des Big Data... 11 À PROPOS DE TALEND... 13 Nous Contacter... 13 2
Le Big Data représente une évolution significative des modèles technologiques de l entreprise et transformera probablement l entreprise moderne telle que nous la connaissons aujourd hui. Les données digitales sont omniprésentes et le volume global des informations augmente de 40% par an. Les entreprises brassent des trillions d octets d informations concernant leurs clients, leurs fournisseurs et leurs opérations, et des millions de capteurs reliés entre eux sont intégrés dans des dispositifs tels que les téléphones mobiles, les compteurs électriques et les automobiles. Cela a pour conséquence de générer et de communiquer des données de manière croissante au quotidien. Leur collecte et leur analyse permettent aux entreprises d accéder à de nouvelles opportunités d affaires et de mieux contrôler les risques inhérents. Mais que sont exactement les Big Data? Les Big Data comprennent un vaste et complexe ensemble de données diversifiées, structurées et non structurées, difficiles à traiter avec les approches et les outils classiques de gestion de données. Il se développe une volonté croissante de collecter les données fournies par les enregistrements d appels, les logs web, les réseaux de capteurs, les transactions financières, les média sociaux et le contenu internet, puis de les analyser au moyen des sources existantes. Les outils de gestion de données conventionnels n arrivent pas à intégrer, rechercher, et analyser ces importants volumes d informations, qui, pour l instant, vont de quelques téraoctets à plusieurs pétaoctets. À titre d exemple, Walmart traite chaque heure plus d un million de transactions clients, qui sont importées vers des bases de données dont le contenu est estimé à plus de 2,5 pétaoctets - à savoir 167 fois l équivalent des informations réunies dans tous les livres de la Bibliothèque du Congrès américain. Les nouvelles technologies basées sur la plate-forme Big Data Apache Hadoop apparaissent comme le moyen d analyser des masses importantes de données grâce à une technique connue sous le nom de MPP (massively parallel processing, traitement massivement parallèle). Comme il a été constaté dans tous les cas de nouveaux concepts, la courbe d adoption de la technologie commence avec les innovateurs et les premiers acheteurs, suivis par une majorité technologiquement réactive, puis par les retardataires, et enfin les réfractaires. Les premiers clients qui sont motivés par l avantage compétitif et par l innovation, prennent les risques les plus audacieux en vue de la réussite et utilisent des outils rudimentaires qu ils développent. Inversement, la majorité de retardataires et les réfractaires s efforcent d atteindre les gains en productivité dont les autres ont déjà bénéficié et assument moins de risques en adoptant une technologie ayant fait ses preuves et supportée solidement par des produits et des services. Dans cette course à «l armement informatique», les entreprises capables de collecter et d analyser des volumes accrus d information devraient être en mesure de prendre des décisions plus efficacement et plus rapidement que leurs concurrents. Cela se traduit par le ciblage de nouveaux marchés, l évaluation des raisons et des moments où certains clients sont susceptibles de passer à la concurrence, ou encore la prévention des fraudes. 3
Jusqu à présent, le débat sur les Big Data s est centré autour de leur technologie. La finalité de cette enquête et de ce livre blanc est de mettre en évidence les défis liés à l adoption des Big Data, les avantages et les objectifs métiers, ainsi que faire le point sur la technologie Big Data actuellement utilisée. Résultats de l enquête Pendant l été 2012, Talend a réalisé une enquête sur l adoption des Big Data en interrogeant 231 professionnels impliqués dans la mise en œuvre de solutions Big Data pour leur entreprise. Les participants à cette enquête, divisés en parties presque égales entre les États- Unis (49%) et les pays EMEA (51%), appartenaient pour 60% d entre eux à la direction informatique, contre 36% à d autres directions métiers de le l entreprise. Les 95 entreprises interrogées travaillant avec une stratégie Big Data formelle ont également répondu à une série supplémentaire de questions concernant leur expérience. Figure 1: L enquête par secteurs Les principales conclusions qui émergent de l enquête sont les suivantes : 41% des entreprises disposent d une stratégie d exploitation des Big Data, ce qui montre une adoption croissante des Big Data. 48% des initiatives de Big Data sont pilotées par des directions métiers, 39% par les directions informatiques et 13% par des directions transverses. Pour les structures qui ne disposent de stratégies Big Data, la raison principale (76%) est le manque de distinction entre les Big Data et les données d entreprise existantes. Le premier facteur de développement des Big Data, identifié par 68% des entreprises interrogées disposant d une stratégie ciblée, réside dans la volonté d accroître la 4
précision et la profondeur des analyses prédictives. En tenant compte de la définition actuelle de Big Data (> 10 téraoctets), 71% des entreprises sont confrontées au traitement des Big Data. 62% des entreprises ayant mis en œuvre des projets Big Data indiquent avoir obtenu des bénéfices métiers, le premier étant l optimisation des processus métiers (28%) et l amélioration des procédures de marketing et de vente (24%). 24 entreprises ont toutefois déclaré ne pas avoir obtenu de bénéfices métiers, ce qui prouverait la nécessité d améliorer la gestion, la gouvernance et l expertise des Big Data. Les typologies (inputs) de Big Data exploitées à ce jour incluent le web et les média sociaux (57% des interrogés), suivi par les données liées aux ventes (54%). 61% des entreprises considèrent que le principal défi lié aux Big Data consiste à allouer une quantité suffisante de temps, de budget et de ressources, et plus de la moitié (52%) signalent une absence d expertise interne en matière de Big Data. Les distributions open source Hadoop Apache et celles basées sur Hadoop représentent plus de 60% des technologies d implémentation des Big Data actuellement utilisées, ou prévues pour un usage futur. Stratégie d entreprise Big Data Il y a un peu plus de dix ans, Doug Laney de Meta Group (devenu Gartner) publiait un rapport 3 sur l augmentation croissante des volumes, de la rapidité et de la variété des données, et préconisait la nécessité pour les entreprises d élargir l horizon des approches classiques. Le modèle métier des premiers adeptes des Big Data, tels que Google et Facebook, nécessitait la conception d une stratégie pour collecter et analyser d importantes masses d informations qui soient en rapport avec leur activité. Certaines sociétés, pour qui la collecte et l analyse des Big Data est une évidence, ont mis en œuvre une stratégie Big Data séparée. D autres reconnaissent que les Big Data sont partie intégrante d une fonction plus vaste de gestion globale des données et intègrent des outils et des pratiques Big Data à tous les secteurs de l entreprise afin de traiter à la fois les Big Data, les données d entreprise et les données sensibles. En 2011, neuf entreprises offraient des produits basés sur des technologies Big Data (Apache Hadoop), alors qu aujourd hui il existe 120 fournisseurs, preuve irréfutable que le phénomène a pris de la vitesse. Les résultats de cette enquête (figure 2) montrent que 41% des entreprises disposent d une vraie stratégie d exploitation des Big Data, alors que 59% n en ont aucune. De plus, 71% de ces dernières ont répondu ne pas 5
savoir faire la distinction entre les Big Data et les pratiques de traitement de données d entreprise utilisées. Figure 2 : Est-ce que votre entreprise dispose d une stratégie pour l exploitation des Big Data? (231 réponses) Figure 3 : Si non, pourquoi? (136 réponses) Oui 41% Pas de distinction entre Big Data et données d entreprise existantes 76% Non 59% Autres raisons 24% Ce phénomène a dépassé la phase d adoption précoce, car, pour les entreprises (95) disposant d une stratégie dédiée, le projet Big Data est piloté par différentes fonctions (figure 4). En effet, 39% des entreprises déclarent que leurs initiatives de Big Data sont initiées par leur département informatique ou par une approche «bottom up» visant à améliorer l efficacité des processus de collecte et d analyse de données. 48% des initiatives de Big Data sont pilotées par des directions métiers, ce qui prouve l existence de motivations réelles à l origine de l adoption des Big Data, telles que par exemple l augmentation du chiffre d affaires, l accroissement de la satisfaction des clients ou une arrivée plus rapide sur le marché. Figure 4 : Les initiatives de Big Data sont pilotées principalement par : Les premiers résultats montrent que les Big Data font partie d initiatives plus vastes de gestion des données de l entreprise, et sont conduites majoritairement par les directions métiers plus que par les directions des services informatiques. 6
Facteurs de développement des Big Data et bénéfices obtenus Les exigences au niveau de l exploitation des données et les bénéfices attendus varient selon le secteur. Par exemple, les fournisseurs de services de communication, les gouvernements, les entreprises dans les domaines de la santé et de la distribution disposent de plus gros volumes de données non structurées, tels que fichiers texte, audio et vidéo qui peuvent tous bénéficier de la collecte et de l analyse des Big Data. L enquête révèle que le premier facteur de développement des Big Data, identifié par 68% des entreprises interrogées disposant d une stratégie de Big Data, réside dans la volonté d accroître la précision et la profondeur des analyses prédictives ou d analyser des données actuelles ou historiques afin de réaliser des prévisions. L optimisation des revenus (51%) et la génération de nouveaux revenus (48%) sont également citées au second et troisième rang. En effet, grâce à des analyses approfondies, les entreprises peuvent optimiser leur part de marché et de portefeuille clients, en améliorant par exemple leurs techniques de vente croisée. Figure 5 : Quels sont les éléments moteurs pour le développement des Big Data dans votre entreprise? (95 réponses) Pour celles qui ont mis en œuvre des projets de Big Data, 62% des entreprises indiquent avoir obtenu des bénéfices métiers (figure 6) : le premier étant l optimisation des processus métiers (28%) et le deuxième l amélioration des processus de marketing et de vente (24%). Les réponses négatives (38%) peuvent être expliquées, comme pour tout nouveau concept, par l absence d expertise interne et/ou de ressources disponibles, de qualité de données et de pilotage de projets de Big Data. 7
Figure 6 : À ce jour, avez-vous obtenu des bénéfices métiers avec les Big Data? (95 réponses) 1. Les bénéfices liés aux Big Data incluent l optimisation des processus métiers et des procédures marketing et ventes; toutefois, pour quelques projets, il est trop tôt pour tirer des conclusions. Intégration des Big Data Les cas d usage les plus répandus incluent l analyse de campagne marketing, les moteurs de recommandation, les analyses prédictives, la gestion des risques et la détection des fraudes. Le département informatique intègre des datawarehouses et des systèmes décisionnels existants avec divers jeux de données structurées et non structurées afin d approfondir leurs analyses. L enquête révèle que les applications les plus communément intégrées sont les transactions financières (48,2%), les données issues des média sociaux et d Internet (48,2%), suivis par les logs web (35,8%) et les CDR (call data records : 28,4%). En analysant les données issues des média sociaux et d Internet, les entreprises sont en mesure de comprendre qui sont les «moteurs» de tout réseau social ou toute communauté, c est-à-dire ceux qui exercent le plus d influence sur les autres utilisateurs des réseaux sociaux. Parallèlement, en corrélant des transactions financières et des CDR avec des données décrivant les parcours de navigation, elles peuvent générer une vue plus complète des comportements et des tendances d achat de leurs clients. 8
Figure 7: quels services pilotent les besoins en Big Data au sein de votre entreprise? (réponses multiples) De plus, le type de Big Data exploité à présent ou envisagé pour une utilisation future renforce la réponse précédente. En effet, 57% des entreprises interrogées utilisent actuellement Internet et les média sociaux, et 23% prévoient de le faire prochainement. Les données liées aux ventes se trouvent aujourd hui au deuxième rang (54%), et sont considérées comme un outil pour préparer l avenir (32%) car elles permettent d analyser les tendances d achat et d optimiser les techniques commerciales. Les données biométriques sont citées au dernier rang. Figure 8 : Par quel type de Big Data êtes-vous concerné actuellement ou quel type de Big Data considérez-vous pour votre (future) stratégie d entreprise? 2. Internet et les média sociaux sont au premier rang, les données liées aux ventes au deuxième. 9
Les défis liés à la mise en œuvre des Big Data Les défis techniques liés au traitement des Big Data concernent l intégration, la recherche et l analyse de volumes massifs de données. Cependant, comme pour tout nouveau paradigme, les entreprises doivent également trouver les bonnes compétences, obtenir une validation budgétaire, respecter leurs pratiques métiers et gérer les inconnues. Les Etats-Unis, pour ne citer que leur cas, sont confrontés à une carence de spécialistes, estimée à entre 140 à 190 000 experts dotés de compétences analytiques approfondies, ainsi que de 1,5 millions de managers et d analystes afin d exploiter les Big Data et de prendre des décisions en fonction des résultats de leurs analyses 1. De nombreux projets pionniers de Big Data s affranchissent de toute structure explicite de gestion de projets et avec le temps, les entreprises intégreront des normes et procédures comme elles l ont fait dans le passé avec leurs projets de gestion de données. Selon l enquête, 61% des entreprises considèrent que le principal défi lié aux Big Data consiste à allouer une quantité suffisante de temps, de budget et de ressources, et plus de la moitié (52%) signalent une absence d expertise interne en matière de Big Data. Par ailleurs, 48% indiquent des barrières liées à la qualité des données, et seulement 11% ont des difficultés pour obtenir l adhésion de la haute direction pour les projets de Big Data. Figure 9 : quels sont les obstacles les plus contraignants pour une implémentation réussie des Big Data dans votre entreprise? (réponses multiples) Les modalités d exploitation des Big Data varient selon l entreprise, le secteur et les outils de traitement des données. Si par Big Data on entend aujourd hui l analyse d informations qui vont de quelques téraoctets à plusieurs pétaoctets, il est certain que cette volumétrie ne fera que croître. En se basant sur la définition actuelle de Big Data (> téraoctets), 71% des entreprises (figure 10) ont des Big Data à gérer ; pour 46%, il s agit de plus de100 téraoctets, pour 12% plus de 2 pétaoctets. 1 Big Data: The next frontier for innovation, competition, and productivity McKinsey & Company, May 2011. 10
Figure 10 : quelle est la taille globale des données traitées au sein de votre entreprise? 3. La grande majorité des entreprises doit gérer plus de 10 téraoctets, mais les obstacles majeurs à l adoption des Big Data sont le manque de temps, de budget, d expertise et de ressources. Les technologies pour l implémentation des Big Data Nombreuses sont les technologies qui ont été développées pour intégrer, exploiter, gérer et analyser les Big Data. Une des questions de l enquête concernait les outils actuellement utilisés, ou prévus pour un usage futur, par les entreprises. Apache Hadoop a obtenu la majorité des réponses (28%) : il s agit d une infrastructure open source proposant des modules de base (système de fichiers, langage, et système distribué pour la gestion de volumes massifs de données) et incorporant MapReduce. Hadoop et les solutions basées sur Hadoop ont obtenu 62% des réponses, ce qui montre un engagement considérable envers la technologie open source. Le nombre important de réponses «Autre» (38%) correspond à un marché précoce et fragmenté qui a adopté des produits divers, tant pour les Big Data (par exemple Teradata, Netezza) que pour les bases de données NoSQL (Couchbase, MongoDB ). 11
Figure 11: Quelle est l implémentation de la technologie Big Data que vous considérez pour l avenir, ou que vous utilisez déjà? (n=95) Apache Hadoop et les distributions basées sur Hadoop en open source représentent plus de 60% des implémentations de Big Data actuellement en service, ou considérées pour une utilisation future. 12
À propos de Talend Talend fournit des solutions d intégration réellement évolutives. Des projets les plus simples jusqu aux déploiements d entreprise, la plate-forme d intégration de données, d applications et de processus hautes performances de Talend maximise la valeur des informations de l entreprise et optimise le retour sur investissement via un modèle de souscription. Optimisée pour les environnements de Big Data, l architecture flexible de Talend est prête pour les prochaines générations de plates-formes. Et une gamme d outils faciles à utiliser, commune à l ensemble des solutions de Talend, permet également aux équipes de maximiser les compétences des développeurs. Plus de 4000 entreprises dans le monde s appuient sur les solutions et services de Talend. La société est implantée en Amérique du Nord, Europe et Asie, et dispose d un réseau mondial de partenaires technologiques et fournisseurs de service. L approche open source de Talend, ainsi que sa plate-forme flexible d intégration pour le Big Data, permet aux utilisateurs de relier et d analyser facilement des données provenant de systèmes disparates pour contribuer à piloter et à améliorer la performance de l entreprise. Les composants Big Data de Talend s intègrent aux offres des éditeurs les plus importants dans le secteur, notamment Cloudera, Hortonworks, Google, Greenplum, Mapr, Teradata et Vertica, positionnant Talend comme le leader dans le traitement des Big Data. La mission de Talend est de démocratiser ce marché comme cela a été le cas avec l intégration et la qualité des données, le MDM, l ESB (Enterprise Service Bus) et la gestion des processus métier (BPM). En visitant www.talend.com vous pourrez obtenir de plus amples informations et télécharger gratuitement votre copie de Talend Open Studio for Big Data. Nous Contacter www.talend.com/contact info@talend.com partners@talend.com sales@talend.com Talend 2013 WP164-FR 13