Une question fondamentale est "que faire avec les données massives". Il ne s'agit pas simplement de se dire "nous avons beaucoup de données, faisons

Documents pareils

Quels choix de base de données pour vos projets Big Data?

ManageEngine IT360 : Gestion de l'informatique de l'entreprise

13 conseils pour bien choisir son prestataire de référencement

Comment envoyer un en gardant les adresses de ses correspondants confidentielles!!!

DA MOTA Anthony - Comparaison de technologies : PhoneGap VS Cordova

RECOMMANDATION 27 EFFICACITE DE LA COMMUNICATION, ENTRE LES CANAUX DE DISTRIBUTION ET LES ASSUREURS, ET RECIPROQUEMENT.

5 bonnes pratiques pour solution décisionnelle mobile

MOTEUR DE WORKFLOW Mise en oeuvre d'openwfe Version septembre 2006

Prix d'un site Internet ou e-commerce professionnel

Le temps est venu d implanter un CRM et un système de gestion de la connaissance

TOP. année promet d être BIG (Business Intelligence Growth) PRINCIPALES TENDANCES EN MATIÈRE DE SOLUTIONS DÉCISIONNELLES POUR 2013

L'évolution de VISUAL MESSAGE CENTER Architecture et intégration

Économies d'échelle Aide à l'intégration Mises à niveau Infrastructure et sécurité de niveau international... 7

Sécurité d IPv6. Sécurité d IPv6. Stéphane Bortzmeyer AFNIC bortzmeyer@nic.fr. Stéphane Bortzmeyer AFNIC bortzmeyer@nic.fr

Chapitre 1 : Introduction aux bases de données

RAPPORT EXÉCUTIF DE LA FIRME DE CONSULTANTS GARTNER

Devenez expert. en trading d'or. Tout ce qu'il faut savoir pour trader l'or

SOCIAL CRM: DE LA PAROLE À L ACTION

Analyse hiérarchique de tâches (AHT)

Examen professionnel. Informatique, système d information. Réseaux et télécommunications

Fiche méthodologique Rédiger un cahier des charges

Big Data et entrepôt de données Cloud Exploitez-vous le potentiel de vos données?

Fiche de l'awt Intégration des applications

L OFFRE JDE CLOUD 9 CHEZ REDFAIRE

Conduite et Gestion de Projet - Cahier des charges

Domaine 1 : S approprier un environnement informatique de travail. Domaine 3 : Créer, produire, traiter et exploiter des données.

Architecture N-Tier. Ces données peuvent être saisies interactivement via l interface ou lues depuis un disque. Application

Atelier numérique Développement économique de Courbevoie

Onglet sécurité de Windows XP Pro et XP Home

Objectifs du cours d aujourd hui. Informatique II : Cours d introduction à l informatique et à la programmation objet. Complexité d un problème (2)

Transformez vos données en opportunités. avec Microsoft Big Data

SEO et Mobile, plus qu'une adaptation, un changement de point de vue

CLOUD PUBLIC, PRIVÉ OU HYBRIDE : LEQUEL EST LE PLUS ADAPTÉ À VOS APPLICATIONS?

Seagate Technology LLC S. De Anza Boulevard Cupertino, CA 95014, États-Unis

Atteindre la flexibilité métier grâce au data center agile

Installer une imprimante réseau.

TD n o 8 - Domain Name System (DNS)

Les Ressources Humaines à l heure du Big Data : progrès, perspectives et limites CORNERSTONE WHITEPAPER

LIVRET ENTREPRISE. Madame TEST Caroline. Entreprise. Nom Entreprise BORDEAUX Nom du tuteur : N de téléphone : Edité le 18/09/2013 à 10:17

Priorité au client : gestion de l expérience utilisateur

Les technologies du Big Data

BigData : la connaissance clients au service de votre conversion E-Commerce. Marc Schillaci #ECP14 TOUTES LES FORMULES DU COMMERCE CONNECTÉ

Les ressources numériques

LE PROBLEME DU PLUS COURT CHEMIN

Petit GUIDE. à l'attention des parents et des baby-sitters

transformer en avantage compétitif en temps réel vos données Your business technologists. Powering progress

LE BIG DATA. TRANSFORME LE BUSINESS Solution EMC Big Data

Hibernate vs. le Cloud Computing

Programmation parallèle et distribuée

Suite IBM Tivoli IT Service Management : comment gérer le système d information comme une véritable entreprise

Microsoft Dynamics AX 2012 Une nouvelle génération de système ERP

Ceci est un Chromebook, ton ordinateur!

Les enjeux de la dématérialisation en assurance

Le 09 et 10 Décembre 09

L IMPACT DES N.T.I.C. DANS LA FORMATION PROFESSIONNELLE DES CADRES DE L INSTITUTION MILITAIRE

Il faut maintenant enregistrer la naissance de bébé! Visitez notre kiosque d'enregistrement des naissances avant de quitter l'hôpital.

Analyse comparative entre différents outils de BI (Business Intelligence) :

Lisez ATTENTIVEMENT ce qui suit, votre avenir financier en dépend grandement...

CHAPITRE VIII : Les circuits avec résistances ohmiques

La sécurité des données

Transformation IT de l entreprise DU CONCRET POUR TRANSFORMER LES BIG DATA EN VALEUR

pour Une étude LES DÉFIS DES DSI Avril 2013

Les caractéristiques de la criminalité économique en Chine et les tendances de son développement

L apport des logiciels d optimisation des stocks multi-échelons

S'organiser pour ne plus se noyer dans l'information

Cours Bases de données

Chapitre 1 Régime transitoire dans les systèmes physiques

PROBLEMES D'ORDONNANCEMENT AVEC RESSOURCES

Communiqué de Lancement

REGLES DU TOURNOI POKER TEXAS HOLD EM GRAND CASINO BASEL. Airport Casino Basel AG Tournoi Poker. Version 2.0

Contrôle interne et organisation comptable de l'entreprise

Exemple d utilisation des outils MicroSave-Africa au Brésil

NewPoint IT Consulting BIG DATA WHITE PAPER. NewPoint Information Technology Consulting

Chapitre 7 - Relativité du mouvement

Stages ISOFT : UNE SOCIETE INNOVANTE. Contact : Mme Lapedra, stage@isoft.fr

SITE WEB E-COMMERCE ET VENTE A DISTANCE

INF2015 Développement de logiciels dans un environnement Agile. Examen intra 20 février :30 à 20:30

ADMINISTRATION, GESTION ET SECURISATION DES RESEAUX

D'UN THÉORÈME NOUVEAU

En route vers le succès avec une solution de BI intuitive destinée aux entreprises de taille moyenne

Contexte : «l e-business» TECHNIQUES DE MARKETING EN LIGNE. Contexte : «l e-business» Création de valeur 02/02/12

Petite définition : Présentation :

La solution IBM Rational pour une ALM Agile

MODULE 2 : L échange et le partage de fichiers numériques

UEO11 COURS/TD 1. nombres entiers et réels codés en mémoire centrale. Caractères alphabétiques et caractères spéciaux.

Mise en œuvre d une CRM : Choisir le meilleur partenaire pour votre centre d appel

Erreurs les plus classiques en Bourse. TradMaker.com Tous droits réservés Tel: CS@TRADMAKER.COM

Calculateur quantique: factorisation des entiers

Dans la série. présentés par le site FRAMASOFT

Guide d'achat sur l'intégration du Big Data

Est-ce que les parents ont toujours raison? Épisode 49

L E S M E S S A G E S S P A M & P H I S H I N G

Google fait alors son travail et vous propose une liste de plusieurs milliers de sites susceptibles de faire votre bonheur de consommateur.

L I V R E B L A N C P r o t ég e r l e s a p p l i c a t i o n s m ét i e r s c r i t i q u e s M a i n f r a m e, un b e s o i n c r u c i a l

Bulletin concurrence et antitrust

PRÉSENTE SES SERVEURS L ESPACE LE PLUS INNOVANT POUR FAIRE TRAVAILLER VOS DONNÉES EN TEMPS RÉEL

Transcription:

1

Le terme "big data" est très à la mode et naturellement un terme si générique est galvaudé. Beaucoup de promesses sont faites, et l'enthousiasme pour la nouveauté technologique et pour les nouvelles opportunités qui s'ensuivent tendent à faire passer les éventuelles limitations et contraintes au second plan. Quand on gratte un peu, beaucoup de technologies prometteuses viennent avec des limitations qu'on aurait tort d'ignorer. Cette présentation proposera une vue pratique du domaine du big data, en définissant le problème et en présentant d'une manière succincte les solutions existantes avec leurs qualités et leurs défauts. Avant tout, il faudra trouver une définition pour le "big data". Car en définitive, quand peut-on réellement parler de big data? Quand on parle de téraoctets, de peta-octets, d'exa-octets? Ou est-ce que certains projets de la taille du gigaoctet peuvent être qualifiés de "big data"? Et au fond, est-ce que la taille des données est le seul critère important? Est-ce même réellement un critère majeur? 2

Une question fondamentale est "que faire avec les données massives". Il ne s'agit pas simplement de se dire "nous avons beaucoup de données, faisons du big data". Plus sérieusement, beaucoup de projets big data ou pas sont lancés sans avoir une vision claire d'où on veut arriver. L'usage qu'on veut faire des données est une décision fondamentale pour lancer un projet big data. 3

Quoi qu'on en dise, il y a toujours un problème d'échelle. La technologie est encore loin de pouvoir résoudre des problèmes à la fois de complexité et de taille quelconques. Le "big data" a ses limites, on pourrait presque parler d'un "principe d'incertitude d'heisenberg": plus on a de données, plus la complexité de leur structure et du traitement qu'on en fait sera limitée en pratique. Les ordinateurs quantiques promettent de résoudre cette difficulté, mais on n'est pas encore tout-àfait prêts à les trouver dans un Apple store 4

La technologie impose actuellement une série de limitations pratiques aux solutions big data. Les solutions big data sont rarement entièrement transactionnelles au sens où on l'entend dans les bases de données disons "traditionnelles" (c'est-à-dire applicatives). Les bases de données applicatives restent pour l'instant le paradigme majeur en informatique (ERP, applications de comptabilité, applications spécifiques dans divers domaines ) Une base de données à transaction reportée n'est tout simplement pas envisageable dans un environnement applicatif traditionnel (qu'il soit client-serveur ou multi-tiers). Un autre problème typique est celui de la complexité des schémas de données. Pour un traitement efficace, la complexité (càd par exemple l'intégrité référentielle) limite la taille des données pouvant être traitées en pratique. Ces points et d'autres ne posent pas de difficultés pour certains types de problèmes typiquement traités par les projets big data mais empêchent ces solutions de prétendre à l'universalité. 5

La question qui vaut de l'or littéralement. Malgré une structuration et une codification de plus en plus poussée des données, 70 à 80% des données (en fonction des analystes: Gartner, IDC) restent non-structurées (texte libre, documents de type traitement de texte ou tableur, PDF, rapports en tous genres et en tous formats, etc.) ça représente une quantité énorme de données potentiellement utiles et utilisables (c'est-à-dire monnayables). 6

Quelques commentaires sur cette définition: - On aurait sans doute dû dire "massif ou complexe" massif et complexe est un bel idéal mais dans l'état actuel de la technologie, ces deux conditions sont rarement rencontrées toutes deux. En tout cas pas dans des temps de traitement courts. - "difficile à traiter au moyen d'outils classiques" n'implique pas nécessairement des volumes énormes, comme par exemple dans le cas des données non structurées. - La définition indique clairement que le big data implique l'utilisation d'outils dédiés l'implication est en réalité que ces outils ne prétendent pas à l'universalité, mais traitent des catégories de problèmes spécifiques avec des volumes et/ou complexités de données élevés. - La question du cadre d'application des solutions big data est fondamentale. 7

Une fameuse anecdote circule depuis quelques mois dans les milieux du Big Data, qui clairement fait des envieux. Aux Etats-Unis, une jeune femme reçoit un jour au courrier des coupons pour des produits pour bébés: langes, biberons, etc. Son père va se plaindre auprès de la société, parce que sa fille n'attend pas d'enfant. Une semaine plus tard, le père revient s'excuser: sa fille est en effet enceinte et (semble-t-il) elle ne le savait pas elle-même mais les outils big data, eux, l'avaient deviné sur base de ses habitudes de consommation (dont aucun n'échappe aux yeux acérés des outils big data!) Cette histoire et d'autres similaires ont fait prendre conscience à beaucoup de sociétés qu'elles sont (sans doute) assises sur un grand tas d'or inexploité. Cette prise de conscience a fait monter d'un cran et changé très significativement le jeu de la concurrence. Beaucoup craignent de laisser passer le train et de se retrouver largués. Nous n'allons pas ici entrer dans les détails de cette problématique de société, bien qu'elle soit très intéressante et au cœur du succès du big data. Ce que je désire évoquer dans cette présentation est l'aspect technique et organisationnel du Big Data. Peter Hinssen, l'analyste bien connu et réputé dans les domaine des technologies de l'information, l'a très bien formulé dans un ouvrage récent (disponible librement sur Internet, et que je vous recommande). Le big data, ce n'est pas (seulement) une question de volume. L'important, ce sont les choses "cool" qu'on peut faire avec ces grands volumes de données. 8

Bien sûr, le traitement de données massive échappe largement à la capacité humaine de traiter l'information avec le risque que les analyses (souvent heuristiques) produisent des effets de bords pervers ou soient utilisées abusivement par certaines sociétés (voire adaptées délibérément dans ce but). Si l'on met de coté les buts illégitimes, le recoupement de l'information devient primordial pour affiner les modèles par exemple le recoupement entre information structurée et nonstructurée peut se révéler très précieux. 9

10

11

12

13

Les bases de données "orientées graphe" permettent de stocker des relations complexes d'une manière persistante. Chaque nœud du graphe peut contenir des informations différentes (clé/valeur), et les arêtes du graphes peuvent aussi être associées à des propriétés quelconques (clé/valeur également). On voit dans ce petit exemple tout à la fois l'intérêt et la puissance expressive de ces systèmes et leur complexité potentielle. Si j'avais voulu modeler toutes les relations entre tous les personnages de la série "les Simpsons", j'aurais eu un graphe énorme, dont la gestion n'aurait pas été triviale. Ce genre de graphe est intéressant pour la recherche, peutêtre moins pour des bases de données opérationnelles. Ce genre de technologie est encore nouvelle et relativement peu utilisée dans l'industrie, l'avenir nous dira si cette complexité reste gérable dans l'utilisation pratique. 14

15

16

Le Cloud ne règle pas ce problème de la fragmentation. Il peut simplifier la maintenance et donc améliorer légèrement le problème cependant, le Cloud apporte également ses propres complexités. Il ne serait guère raisonnable de porter des données sur le Cloud sans s'inquiéter des questions de légalité (propriété des données), de disponibilité (SLA), financières (stabilité des coûts) et de sécurité (protection contre le vol de données), ou de provisionner des capacités supplémentaires sans s'inquiéter des coûts ou de l'impact sur la fonctionnalité ou la performance. Le Cloud rend peut-être certains problèmes caducs, mais il en crée d'autres qu'il convient de ne pas ignorer. 17

18

19

20

21