Guide d'achat sur l'intégration du Big Data



Documents pareils
Chapitre 1 : Introduction aux bases de données

Pentaho Business Analytics Intégrer > Explorer > Prévoir

IBM Software Big Data. Plateforme IBM Big Data

ManageEngine IT360 : Gestion de l'informatique de l'entreprise

Intégration du Big Data aux processus métiers et aux systèmes d'entreprise

Inscriptions : Renseignements : 33 (0) education.france@sap.com

Simplifier la gestion de l'entreprise

En synthèse. HVR pour garantir les échanges sensibles de l'entreprise

Tableau Online Sécurité dans le cloud

Transformez vos données en opportunités. avec Microsoft Big Data

Accélérateur de votre RÉUSSITE

Prise en main du BusinessObjects XI R2 Service Pack 2/ Productivity Pack

IBM BigInsights for Apache Hadoop

Votre laisser-passer pour les. Big Data Guide visuel

Théories de la Business Intelligence

Analyse comparative entre différents outils de BI (Business Intelligence) :

SAP BusinessObjects Web Intelligence (WebI) BI 4

L'évolution de VISUAL MESSAGE CENTER Architecture et intégration

Gestion de la mobilité d'entreprise. L'équilibre parfait entre les besoins de l'utilisateur final et ceux de l'entreprise

TRANSFORMEZ VOTRE INFRASTRUCTURE DE BASE DE DONNEES

Business Intelligence avec SQL Server 2012

Guide de référence pour l achat de Business Analytics

ERP5. Gestion des Services Techniques des Collectivités Locales

Présentation de l'architecture QlikView. Livre blanc sur la technologie QlikView. Date de publication : octobre

Documentation de produit SAP Cloud for Customer (novembre 2013) Nouveautés de SAP Cloud for Customer pour les administrateurs

Fiche de l'awt Intégration des applications

À propos du Guide de l'utilisateur final de VMware Workspace Portal

Bénéficiez d'un large choix d'applications novatrices et éprouvées basées sur les systèmes d'exploitation i5/os, Linux, AIX 5L et Microsoft Windows.

DOSSIER SOLUTION : CA RECOVERY MANAGEMENT

Libérez votre intuition

NewPoint IT Consulting BIG DATA WHITE PAPER. NewPoint Information Technology Consulting

En savoir plus pour bâtir le Système d'information de votre Entreprise

MySQL Workbench. Guide de modélisation des données pour les développeurs et les DBA. Livre blanc MySQL pour l'entreprise. Copyright 2010, Oracle, Inc.

Introduction Big Data

Business & High Technology

Architecture d'entreprise : Guide Pratique de l'architecture Logique

L'ensemble de ces tendances présente de nouveaux challenges pour les départements IT de l'entreprise. Plus précisément :

KASPERSKY SECURITY FOR BUSINESS

La dernière base de données de Teradata franchit le cap du big data grâce à sa technologie avancée

Symantec Backup Exec.cloud

Concepts et définitions

Intelligence d affaires nouvelle génération

Suite IBM Tivoli IT Service Management : comment gérer le système d information comme une véritable entreprise

Enterprise Intégration

Business Intelligence avec SQL Server 2012

Pourquoi migrer vers NAV 2013?

Introduction : présentation de la Business Intelligence

Esri Location Analytics et Business Intelligence

Qu'est-ce que le BPM?

CA ARCserve Backup. Avantages. Vue d'ensemble. Pourquoi choisir CA

Utiliser Access ou Excel pour gérer vos données

Accélérez la transition vers le cloud

Business & High Technology

Guide de l'utilisateur de SAP BusinessObjects Web Intelligence Rich Client

Guide de démarrage de Business Objects Crystal Decisions

1 Introduction. Business Intelligence avec SharePoint Server 2010

InfraCenter Introduction

Big Data et l avenir du décisionnel

Microsoft Dynamics AX 2012 Une nouvelle génération de système ERP

Plans d'action pour une mise en œuvre réussie des Big Data

Chapitre 9 : Informatique décisionnelle

accompagner la transformation digitale grâce au Big & Fast Data Orange Business Services Confidentiel 02/10/2014

Guide Google Cloud Print

ÉCONOMIE ET GESTION LYCÉES TECHNOLOGIQUE ET PROFESSIONNEL

Guide de configuration de SQL Server pour BusinessObjects Planning

NOUVEAUTES de Microsoft Dynamics CRM 2011 REF FR 80342A

Technologie SDS (Software-Defined Storage) de DataCore

Guide de référence pour l achat de Business Analytics

Fiche technique: Archivage Symantec Enterprise Vault for Microsoft Exchange Stocker, gérer et rechercher les informations stratégiques de l'entreprise

SAP Lumira Version du document : Guide de l'utilisateur de SAP Lumira

Le "tout fichier" Le besoin de centraliser les traitements des fichiers. Maitriser les bases de données. Historique

IBM Cloudant Data Layer Local Edition

GOUVERNANCE DES IDENTITES ET DES ACCES ORIENTEE METIER : IMPORTANCE DE CETTE NOUVELLE APPROCHE

Annuaires LDAP et méta-annuaires

Département Génie Informatique

Des services bancaires numériques plus intelligents grâce au Big Data

Surveillance Haute Performance

Configurer son courrier électrique avec votre compte Abicom

Sage 50 Comptabilité. Solutions logicielles en nuage, sur place et hybrides : Qu'est-ce qui convient le mieux à votre petite entreprise?

Préparer la synchronisation d'annuaires

Modèle de maturité en analyse client et en analyse marketing

Clouds et plates-formes multiples

Symantec Protection Suite Enterprise Edition Protection éprouvée pour les terminaux, la messagerie et les environnements Web

Formation continue. Ensae-Ensai Formation Continue (Cepe)

BYOD Smart Solution. Mettre à disposition une solution qui peut être adaptée à des utilisateurs et appareils divers, à tout moment et en tout lieu

Enquête 2014 de rémunération globale sur les emplois en TIC

Programme détaillé. Administrateur de Base de Données Oracle - SQLServer - MySQL. Objectifs de la formation. Les métiers

Le rôle croissant de la mobilité dans l'espace de travail

ORACLE TUNING PACK 11G

transformer en avantage compétitif en temps réel vos données Your business technologists. Powering progress

Gestion de la mobilité en entreprise (EMM, enterprise mobility management)

portnox pour un contrôle amélioré des accès réseau Copyright 2008 Access Layers. Tous droits réservés.

Moderniser la protection des données grâce aux appliances de sauvegarde

Oracle Fusion Middleware Concepts Guide 11g Release 1 (11.1.1) Figure 1-1 Architecture Middleware

Modernisation et gestion de portefeuilles d applications bancaires

DÉPLOIEMENT DE QLIKVIEW POUR DES ANALYSES BIG DATA CHEZ KING.COM

Travail collaboratif à distance

Architecture des ordinateurs. Environnement Windows : sauvegarde

Transcription:

SEPTEMBRE 2013 Guide d'achat sur l'intégration du Big Data Commandité par

Sommaire Introduction 1 Les enjeux de l'intégration du Big Data : hier et aujourd'hui 1 Fonctionnalités nécessaires à l'intégration du Big Data 3 Architecture technologique privilégiée 6 Les fruits d'une intégration réussie du Big Data 7

1 Introduction Le phénomène de «Big Data», autrement dit l'émergence de nouveaux types de données dans des volumes toujours plus impressionnants, pousse les directeurs informatiques et les dirigeants à repenser leur portefeuille technologique. Plutôt que d'élaborer leur propre infrastructure, la plupart des entreprises préfèrent l'acheter. Mais comment faire le bon choix? Et comment obtenir un ensemble cohérent? La nécessité d'une nouvelle technologie représente le premier défi du Big Data. Cela ne signifie pas que tous les autres types de données et de technologies soient obsolètes. Hadoop, les bases de données NoSQL, les bases de données analytiques et les entrepôts de données cohabitent sans problème. Les analystes ne se soucient pas de l'origine des données : ils les passeront à la moulinette, quelle que soit leur source. L'intégration des données constitue le second défi. Comment faire en sorte que la nouvelle technologie de traitement du Big Data utilise les données et les technologies existantes? Comment améliorer les données et les technologies existantes en y ajoutant le Big Data? Et comment permettre aux nouvelles formes d'analytique et aux applications d'exploiter à la fois les nouvelles et les anciennes données? D'après, les directeurs informatiques et les dirigeants ont tout intérêt à intégrer le nouvel univers du Big Data avec l'ancien monde de la BI afin d'accélérer le progrès. Le présent guide d'achat vous aidera à acheter la technologie adéquate pour l'intégration du Big Data. Les enjeux de l'intégration du Big Data : hier et aujourd'hui Les passionnés de Big Data sont conscient des différences entre ce phénomène et les anciennes générations de données. Elles se résument souvent en trois mots, les «3 V» : volume, variété, vitesse. Ce concept a été introduit par Doug Laney, analyste chez Gartner, pour décrire le phénomène Big Data. La difficulté consiste à trouver un référentiel capable de traiter d'énormes volumes de données. L'analyse de flux de données issues de machines, de serveurs et d'appareils mobiles, parfois appelé «Internet des objets», est problématique. L'écosystème Hadoop a été conçu pour traiter le volume et la variété de ces données, mais de nombreux produits tels que Splunk sont également en mesure d'absorber de grandes quantités de Big Data orienté machine. De plus, les données générées automatiquement exigent souvent de nouvelles techniques d'exploration et d'analyse, ce qui représente un défi supplémentaire. La majeure partie du Big Data est non structurée. Par ailleurs, des documents en texte brut et des vidéos s'ajoutent aux types de données. L'apprentissage automatique, l'analyse de textes ou de vidéos et une multitude d'autres techniques, appliquées aux données dans Hadoop ou dans des bases de données NoSQL et analytiques permettent de donner du sens à des données désordonnées. Une fois ces défis relevés, les tâches liées à l'utilisation du Big Data ressemblent étrangement à celles qui concernaient les données existantes (voir «Défis communs au Big Data et aux données existantes»).

2 Défis communs au Big Data et aux données existantes Fusion de données provenant de sources distinctes Prise en charge de l'exploration Création d'une version unique et réutilisable de la vérité Q Q Structuration d'ensembles de données fusionnées pour une analytique plus exhaustive Développement de l'utilisation des données Création d'environnements analytiques avancés Prise en charge des applications Contrôle des accès Gestion du cycle de vie de l'analytique Q Mise en conformité L'équation applicable à la gestion du Big Data ressemble à ceci : (Référentiel pour le stockage et le traitement du Big Data) + (Nouvelles techniques d'analyse du Big Data) + (BI existante) = Environnement Big Data intégré S'il est certain que le Big Data révolutionne de nombreux aspects de la BI, celle-ci n'en devient pas obsolète pour autant. Autrement dit, la voie à suivre pour intégrer le Big Data consiste sans doute à recourir à des solutions d'intégration de données existantes qui ont été adaptées en vue d'incorporer le Big Data. De plus, il convient de différencier la validation d'un concept et l'opérationnalisation du Big Data. Une technologie d'intégration du Big Data doit non seulement permettre de réaliser une expérience scientifique, mais elle doit également gérer l'intégralité du cheminement vers la pleine utilisation du Big Data, conjointement avec les applications et systèmes de BI existants.

3 Du modèle en étoile à la chaîne d'approvisionnement de données Le mariage du Big Data avec la BI existante entraînera un changement conceptuel considérable. L'entrepôt de données ne sera plus au centre de l'univers. De nombreux référentiels spécialisés prendront en charge les applications ou les nouvelles formes d'analyse. En outre, les données proviendront de plus en plus souvent de sources externes à l'entreprise par l'intermédiaire d'api. Au lieu du modèle en étoile, au centre duquel se trouve l'entrepôt de données, l'infrastructure de traitement des données ressemblera davantage à une chaîne d'approvisionnement distribuée. Le Big Data est le principal moteur de ce nouveau modèle, et son intégration est la clé de son fonctionnement. Les directeurs informatiques et les dirigeants soucieux d'exploiter rapidement le Big Data et la BI existante ont tout intérêt à acquérir les fonctionnalités suivantes, qui formeront la base d'une nouvelle chaîne d'approvisionnement de données. Fonctionnalités nécessaires à l'intégration du Big Data Bien que la technologie d'intégration actuelle propose de nombreuses fonctionnalités permettant d'accéder aux données, de les déplacer et de les transformer, le Big Data introduit de nouvelles exigences. Pour opérer les bons choix quant à l'assemblage des composants d'un système d'intégration du Big Data, réfléchissez à ce dont vous avez besoin. La plupart des entreprises nécessitent les fonctionnalités suivantes pour prendre en charge l'intégration du Big Data. Connexion, transport et transformation L'accès aux données, leur déplacement et leur transformation sont au cœur de plusieurs générations de technologies d'intégration des données. L'intégration du Big Data change la donne. L'accès aux données via Hadoop ou via des bases de données NoSQL et analytiques doit être pris en charge. Il est primordial de pouvoir définir ou découvrir un schéma. La technologie moderne d'intégration de données doit être déployée à la fois dans des modèles Cloud et sur site. La synchronisation des données entre référentiels est indispensable à mesure que la chaîne d'approvisionnement des données se complexifie. La technologie d'intégration des données devra proposer des mécanismes de transfert capables de gérer les nouveaux volumes. Les informations issues de l'analyse du Big Data doivent être fournies aux applications afin que des modèles plus détaillés de la réalité soient disponibles. Par exemple, plutôt que de se limiter aux bases de données SQL, les données seront synchronisées à l'aide d'une technologie d'analytique en mémoire. La capacité à transformer les données demeure une fonctionnalité cruciale. Les outils doivent simplifier au maximum la conception et la mise en œuvre des transformations. Pour pouvoir remplir leurs fonctions, les analystes doivent être en mesure de combiner et d'extraire des données de sources très variées. Ce travail a lieu en grande partie dans la couche d'intégration des données. Les transformations doivent pouvoir être réutilisées et partagées. L'intégration du Big Data implique la possibilité de traiter des flux de données en temps réel en provenance de systèmes de messagerie, de bus de services d'entreprise et de fichiers journaux de serveurs.

4 Lors de l'évaluation d'une technologie d'intégration, assurez-vous que les données existantes et le Big Data sont facilement intégrables et stockables sous forme canonique. Votre technologie d'intégration du Big Data doit prendre en charge l'exploration à tous les niveaux de la chaîne d'approvisionnement des données, et proposer une découverte et une visualisation automatiques des schémas. Intégration et présentations canoniques Quels changements apportera le Big Data? Voici ce qui n'arrivera pas : toutes vos données et applications ne s'appuieront pas sur le Big Data et n'utiliseront pas la technologie propre au Big Data comme référentiel principal. Les données de BI et les entrepôts de données que vous avez créés ne perdront pas instantanément leur utilité. Enfin, le Big Data à lui seul ne répondra pas à toutes les questions stratégiques. Que peut-on en déduire? Tout simplement que dans la plupart des cas, les bonnes réponses proviennent de la fusion du Big Data avec les données principales et transactionnelles stockées dans des entrepôts. Le meilleur moyen d'exploiter pleinement le Big Data est de le combiner avec les données existantes. Cette forme d'intégration de données est essentielle à tous les niveaux de l'analyse, du nettoyage de données à la prise en charge de visualisations avancées, en passant par la création de référentiels spécialisés. Il est par conséquent indispensable que la technologie d'intégration de données combine le Big Data avec les formes de données existantes, généralement stockées dans des référentiels SQL. Autrement dit, il est important de choisir une technologie qui comprenne aussi bien le langage natif des sources de Big Data, comme Hadoop et les bases de données analytiques et NoSQL, que le langage SQL traditionnel. Ne réduisez pas le Big Data à un silo en créant une infrastructure, une équipe et des compétences distinctes. Pour combiner le Big Data aux données existantes, il convient de créer des formes canoniques de plusieurs types d'informations. Un des objectifs des systèmes de BI a toujours été de fournir un enregistrement client principal proposant une vue à 360 degrés du client. Dans l'ère du Big Data, des informations complémentaires comme l'activité sur les réseaux sociaux, les données d'applications mobiles, l'utilisation d'un site Web, etc. peuvent enrichir ces enregistrements. Il est également important de gérer les définitions canoniques de données dans un cycle de vie, afin de mieux contrôler les changements apportés aux formes standard de données. Exploration de données Lorsqu'une société exploite des données, il est primordial que tout le monde (analyste, utilisateur final, développeur et toute autre personne intéressée) puisse manipuler ces données et poser des questions. Cette approche pratique de l'examen et de la manipulation des données est nécessaire à tous les niveaux du système. Peu importe que les données résident dans un cluster Hadoop, dans une base de données NoSQL, dans un référentiel spécialisé, dans un environnement analytique en mémoire ou dans une application. Les meilleurs résultats seront obtenus lorsque n'importe qui pourra soumettre une question et voir si les données peuvent fournir la réponse. En ce qui concerne le Big Data, cela implique généralement l'utilisation d'un environnement d'exploration conjointement avec les référentiels. L'accès aux données dans ces derniers exigent souvent l'écriture de programmes ou l'utilisation de requêtes complexes. Toutefois, lorsque le Big Data est associé à d'autres données, il convient également de prendre en charge le besoin d'exploration. Alors que les analystes et les développeurs effectuent

5 leurs explorations dans des référentiels, les utilisateurs doivent également pouvoir explorer les données dans les applications et les environnements analytiques qu'ils utilisent. L'un des obstacles majeurs lors de la création d'environnements d'exploration pour le Big Data réside dans le fait que les données sont rarement structurées en lignes et en colonnes. En effet, chaque enregistrement peut être composé de nombreuses parties distinctes. Et plusieurs enregistrements peuvent former un groupe représentant un objet. La date de création de chaque enregistrement peut jouer un rôle important dans le regroupement. La technologie d'intégration du Big data doit favoriser une exploration rapide avec une structure flexible, en créant le schéma suggéré à la volée qui tente d'identifier des champs et des tendances. La visualisation peut constituer un accélérateur considérable en matière d'exploration de données. Depuis le milieu des années 2000, le monde de la Business Intelligence a enregistré des avancées majeures dans la création de visualisations séduisantes. Le meilleur de ces systèmes doit permettre aux analystes de voir les données sous une forme engageante, de poser des questions et d'apporter des réponses dans une démarche guidée par la curiosité. La technologie idéale d'intégration du Big Data permet d'explorer visuellement les données, quel que soit leur référentiel de stockage. En répondant aux besoins des analystes, à savoir nettoyer et filtrer les données à l'aide de l'apprentissage automatique puis partager les résultats, le processus de réponse aux questions, de création d'applications et de gestion des visualisations est accéléré. Prise en charge de l'analytique Les analystes, quel que soit leur domaine d'activité, le savent bien : 80 % des activités visant à obtenir une réponse ou à créer une application analytique sont réalisées en amont et consistent à nettoyer et à préparer les données. Les technologies d'intégration de données constituent depuis longtemps la bête de somme des analystes qui cherchent à accélérer le processus de nettoyage et d'épuration des données. Au pays du Big Data, cela signifie que toutes les fonctionnalités mentionnées précédemment doivent être présentes : mécanismes simples à utiliser pour la définition des transformations, possibilité de capturer et de réutiliser les transformations, capacité à créer et à gérer des magasins de données canoniques et possibilité d'exécuter des requêtes, de préférence en recourant aux visualisations. Bien entendu, ces fonctionnalités doivent exister pour les référentiels de Big Data et ceux qui combinent toutes formes de données. Toutefois, les analystes devront faire face à d'autres problèmes propres au Big Data. Comme nous l'avons mentionné plus haut, les données du Big Data sont souvent désordonnées et bruitées. L'apprentissage automatique est requis pour démasquer les signaux, mais ces techniques sont souvent difficiles à utiliser. La meilleure technologie d'intégration du Big Data doit offrir une expérience guidée dans laquelle un système d'apprentissage automatique propose des suggestions avant d'être orienté dans la bonne direction par les analystes. Cette approche guidée est indispensable dans la mesure où il existe une multitude de techniques d'apprentissage automatique et d'analytique avancée pour autant de types de données différents. Le système d'apprentissage employé pour créer des modèles prédictifs de données de diffusion est très différent de celui qui sert à catégoriser du texte non structuré. Lorsqu'un analyste a créé un ensemble de données nettoyé et pertinent, ces données peuvent être partagées et réutilisées de manière à démultiplier la valeur de ce travail. À l'heure actuelle, de nouveaux environnements favorisant le partage et la collaboration voient le jour. Certains prennent en charge le mélange structuré du Big Data à la source, de façon à faciliter l'utilisation du Big Data et d'en optimiser le stockage. Dans l'idéal, la technologie d'intégration du Big Data doit prendre en charge de tels environnements.

6 Architecture technologique privilégiée La technologie idéale d'intégration du Big Data doit réduire la complexité, se montrer pérenne en proposant des abstractions et inviter le plus grand nombre d'individus et de systèmes à exploiter les données. Le système idéal d'intégration du Big Data varie pour chaque entreprise. Les entreprises qui traitent de gros volumes de données nécessiteront probablement toutes les fonctionnalités mentionnées. La plupart n'auront besoin que de certaines d'entre elles pour commencer, puis elles en ajouteront au fil du temps. Le meilleur moyen d'obtenir les capacités d'intégration du Big Data est d'acquérir un nombre minimal de systèmes dotés des fonctions requises. La majorité des fonctionnalités énumérées sont plus performantes lorsqu'elles sont conçues pour fonctionner ensemble. Il est une autre certitude dans le monde de l'analyse de données : le changement est au coin de la rue. La technologie idéale vous isolera au maximum des changements. Il incombe au fournisseur non seulement de créer des abstractions puissantes et simples à utiliser, mais également de faire en sorte qu'elles s'inscrivent dans la durée. L'évolution des technologies du Big Data ne devrait pas être votre problème. Pas plus que la restructuration inévitable qui surviendra lorsque divers types de technologies et de fournisseurs disparaîtront. Cela peut s'apparenter à une sorte d'immobilisme. Mais après tout, n'est-il pas préférable de jeter son dévolu sur un niveau d'abstraction le plus élevé possible? En optant pour une technologie simple d'utilisation, il est possible d'éviter le goulot d'étranglement généré par un manque de compétences. Dans un environnement simplifié, un plus grand nombre d'individus peut interagir directement avec les données, ce qui donnera lieu à davantage de découvertes et de solutions autocréées. Un des principaux facteurs financiers à prendre en compte dans le choix de la technologie idoine, c'est le modèle de licence. Selon le mode de déploiement de vos logiciels et les compétences internes de votre personnel en termes de maintenance logicielle, le coût d'achat des diverses fonctionnalités peut varier énormément. Il est important de comprendre les avantages et les inconvénients des licences traditionnelles, du logiciel Open source et des différentes offres hybrides. Enfin, les meilleurs systèmes d'intégration du Big Data doivent être conçus pour être intégrés à d'autres environnements. Les formes simplifiées de transformation doivent pouvoir être orientées vers des sources de Big Data ou vers des référentiels SQL, et être exploitables depuis MapReduce ou toute application. Les visualisations doivent être affichables dans un navigateur Web ou dans les applications, et ainsi de suite.

7 Les fruits d'une intégration réussie du Big Data Les données ne sont d'aucune utilité si aucun être humain ne peut en tirer parti ou si elles ne sont pas exploitées dans un système automatisé conçu par des êtres humains. L'intégration du Big Data vise à simplifier autant que possible l'accès aux données, leur compréhension et leur exploitation. Les fruits d'une intégration réussie du Big Data sont les avantages issus de l'utilisation des données. Réduction des délais, élimination des goulots d'étranglement dus au manque de compétences et fluidité des interactions permettent aux entreprises de gagner en rapidité et en efficacité. En achetant des composants et des systèmes qui s'intègrent dans une vision cohérente, il est possible de minimiser les coûts sans transiger pour autant sur les fonctionnalités requises. Il devrait désormais être plus facile de répondre aux questions posées précédemment : Comment faire le bon choix? Optez pour un nombre minimal de systèmes dotés des fonctionnalités qui répondront à vos besoins présents et futurs. Ils doivent être simples d'utilisation et pérennes. Comment obtenir un ensemble cohérent? Votre vision de l'intégration du Big Data doit intégrer les formes et les sources existantes de données dans un nouveau système prenant en charge toutes les phases d'une chaîne d'approvisionnement de données. est une source d'informations, d'analyses, d'études et de connaissances pour les directeurs informatiques, les directeurs de la technologie, les professionnels des technologies de l'information et autres professionnels. dialogue avec son public afin de saisir les dernières tendances technologiques. Celles-ci sont recueillies, analysées et communiquées de manière élaborée pour aider les professionnels à résoudre des problèmes complexes liés à leur activité. Consultez notre site Web à l'adresse http://www.citoresearch.com Cet article a été créé par et commandité par Pentaho.