Le Concept «BIG DATA»

Dimension: px
Commencer à balayer dès la page:

Download "Le Concept «BIG DATA»"

Transcription

1 Le Concept «BIG DATA» Nouveaux enjeux technologiques par Jean-François Marcotorchino 8 Big Data : quelques questions à se poser Big Data : révolution ou évolution naturelle? L Le phénomène Big Data, par son intitulé simple et porteur, facilement englobant, génère un intérêt manifeste et a droit à une couverture médiatique tout à fait exceptionnelle surtout depuis 3 ou 4 ans. Ce buzz médiatique est encore plus fort que celui qui s est produit auparavant pour le Data Mining et le Cloud Computing, qui l ont précédé chronologiquement tout en lui étant collatéralement associés. Le Cloud Computing, par exemple, a été facilement considéré par les spécialistes des Systèmes d Information comme une rupture dans la façon dont ils allaient fonctionner désormais. Pourtant il repose sur un substrat technologique et technique paradoxalement plus facilement assimilable que celui qui caractérise l ensemble des approches Big Data, lesquelles sont complexes, multiformes et en voie de stabilisation au moins pour certaines d entre elles. Ceci augure-t-il une acceptation plus délicate pour le Big Data? Le Data Mining quant à lui, qui préexistait au Big Data, et peut donc y être associé plus directement encore, ne bénéficiait pas jusqu ici de structures d accès et de distribution des données suffisamment rapides et souples pour pouvoir donner pleinement la mesure de ses potentialités. Nous allons essayer de présenter, quelques indications sur ce qui caractérise ce phénomène Big Data et sur ce qui relève ou non de son appellation. Nous déclinerons ensuite quelques-uns de ses impacts et caractéristiques. Big Data : un nouveau phénomène de mode? Top 10 Strategic(*) Technologies (2012) (Source Gartner Group 2012) Media Tablets Mobile Centric Applications and Interfaces Contextual and Social User Experience Internet of Things Apps Stores and Marketplaces Next Generation Analytics Big Data In-Memory Computing Extreme low Energy Servers Cloud Computing (*)Strategic Technology: one with a significant impact in the next Three years Worldwide Data Collections: 7,9 ZETTABYTES by 2015 EQUIVALENT to 18 MILLION Libraries of Congress Le Big Data est-il un nouveau phénomène de mode? le besoin de ces approches est-il vraiment incontournable? Ces questions ont été abordées dès Juin 2011 par Mac Kinsey Global Institute (MKGI)» au travers d une étude Consulting détaillée sur le phénomène Big Data, ce document à visée marketing a été très largement diffusé, nous allons brièvement réinterpréter les conséquences qu il induit en essayant de sérier les problèmes qui en découlent. D autres instituts de conjonctures économiques comme le Gartner Group par exemple, (dont nous donnons ci-après la vision des 10 technologies les plus stratégiques pour 2012) ou IDC, ainsi que des laboratoires académiques d universités américaines et européennes célèbres (MIT, Stanford, Berkeley, Imperial College, Paris VI UPMC ainsi que de nombreux journaux d information professionnelle ou spécialisée ont publié des articles dédiés à cette thématique ou consacré des numéros spéciaux à ce nouveau paradigme (comme la Harvard Business Review). Même des journaux grand public comme le New York Times, ont largement contribué à la célébrité actuelle du phénomène Big Data par des articles et des rapports repris par la presse informatique spécialisée ou généraliste. Après lecture de ces articles, il apparait qu il en va du phénomène Big Data comme de beaucoup d autres phénomènes de nouvelles tendances technologiques qui l ont précédé : il y a de facto du progrès réel à attendre mais il y a aussi quelques exagérations qu il convient de modérer. Nous allons essayer de montrer les axes où nous pensons que ces progrès auront un impact sérieux sur notre façon de fournir des solutions à nos clients, tout en démystifiant, si nécessaire, certaines fausses bonnes idées. Avant d aller plus loin, revenons sur quelques définitions comme celles données ci-dessous qui sont traduites et extraites du rapport du Mac Kinsey Global Institute à propos des concepts reliés au Big Data, à commencer d ailleurs par la définition de ce que pourrait être la frontière des tailles relatives au Big Data. TELECOM n 169 / BIG DATA

2 1 Big data fait référence à des ensembles de données dont la taille va au-delà de la capacité actuelle des logiciels de gestion de base de données pour capturer / stocker / gérer et analyser. 1 Les problèmes liés au Big data ne sont pas seulement liés aux questions de volume des données, mais aussi aux questions de complexité de gestion de celles-ci (ex. grands graphes connectés dans le champs sémantique) (source: Mac Kinsey Global Institute) Le rapport du Mac Kinsey Global Institute (voir alinéa n 2 de l encart précédent) et le tableau des 10 Technologies clefs de 2012 du Gartner Group, insistent bien sur le fait que le Big Data et l Advanced Analytics (nouvelle génération d outils scalables, que certains appellent déjà le Big Analytics ) sont étroitement liés. Il s avère que le fait de manipuler de grandes quantités de données ne suffit pas à caractériser une application ou un traitement de Big Data, encore faut-il montrer que l on a besoin d être à la fois quasi exhaustif sur le traitement des données et que l on a réellement besoin de l analyse de toutes ces collections à la fois. Il est important de comprendre dans ce contexte nouveau, la dualité existante entre : les avancées réelles qu apportent le Big Data, au niveau du traitement d applications qui étaient totalement limitées et contraintes par des problématiques de scalabilité ou de possibilité de stockage, et qui deviennent, de ce fait, accessibles à l analyse. Et l extension de certains processus d analyse des données actuellement très répandus, qui utilisent des techniques anciennes ou éprouvées, mais qui bénéficieront à terme des nouvelles capacités, offertes par le contexte Big Data, ce qui permettra de les améliorer de façon très significative. Comment faisait-on avant l arrivée du concept Big Data? Voici d autres questions connexes : le besoin de ces approches est-il vraiment si crucial et si incontournable que cela? pourquoi ne pas pratiquer des sondages par échantillonnages 1 pour éviter d analyser de trop grands volumes de données? la notion de big sample (c est-à-dire un panel contenant jusqu à exemples extraits des bases de données globales 2 ) n est-il pas la panacée? Pourquoi les méthodes existantes issues du Business Intelligence ont-elles atteint leurs limites, même si elles sont utilisées de façon intensive aujourd hui, en particulier dans le secteur du Customer Relationship Management (CRM)? En fait, la vraie question qui les résume toutes pourrait être la suivante : en quoi l afflux massif de données nécessite-t-il une adaptation de rupture pour les méthodologies d analyse des données usuelles (data mining & data clustering, advanced & visual analytics)? Aboutissant de-facto à une prédéfinition du concept de Big Data partagée par la plupart des acteurs du domaine à savoir : 1 Le paradigme Big Data c est l association de collections extrêmement volumineuses de données à des algorithmes totalement dédiés permettant des exploitations allant bien au-delà de l application classique des processus et des méthodologies usuelles de l Analyse des données. Calcul Intensif (HPC) vs Big Data? On n a pas attendu les années actuelles pour manipuler des masses considérables de données dans des Centres dédiés et équipés de machines très puissantes. Il est opportun de bien différencier ce qui relève du Calcul Intensif ou ( HPC High Performance Computing), proprement dit, de ce qui relève de l appellation Big Data. En effet en France, par exemple, sous la houlette du GENCI (Grand Equipement National de Calcul Intensif), un certain nombre de Centres équipés de machines hyperpuissantes œuvrent pour l Etat au bénéfice d utilisateurs provenant essentiellement du milieu Scientifique et Recherche à vocation plutôt académiques et universitaires. Ainsi en est-t-il de l IDRIS (Institut du Développement et des Ressources en Informatique Scientifique) du CNRS, du CINES (Centre Informatique National de l Enseignement Supérieur) de Montpellier, du CCRT du CEA localisé sur le site de Bruyères-le-Châtel, et du CERFACS de Toulouse (Centre Européen de Recherche et de Formation Avancée en calcul Scientifique). Ces moyens de calcul servent à relever de grands défis scientifiques. Total (pour la sismique), EADS (pour l aérodynamique), EDF (pour ses plans de charge réseau électrique), METEO France (pour les modèles d analyses de prévision climatique) etc., utilisent ces grands centres de calcul dont l objectif est de développer des méthodes de simulation numérique avancées ainsi que les solutions algorithmiques qui adressent de grands problèmes scientifiques et techniques. Sur l ensemble de ces Centres on constate que la puissance de calcul est essentiellement dédiée à de grandes simulations dans le domaine de la physique ou dans les sciences de la vie (simulations moléculaires in vitro), plus rarement aux modèles financiers et quasiment pas aux modèles liés à l exploitation de données à valeur marchande. En conclusion ce qui différencie le HPC et l actuel phénomène Big Data c est d une part le type de problématiques (et donc de données) qui sont exploitées dans les quatre centres cités (données extrêmement spécialisées, adressés par des équipes multidisciplinaires sous forme de défis techniques), d autre part le fait que c est plus la difficulté des calculs que la masse des données à analyser qui, pose problème dans le cas du HPC (aspect combinatoire versus faisabilité calculatoire 2 ). En effet ce qui fait l intérêt du Big Data, c est une exploitation systématique de grandes bases de données, devenues accessibles à des acteurs qui ne pensaient pas possible leur exploitation, ou encore qui 9 [1] Un palliatif classique au couple Big Data /Big Analytics est le recours aux sondages. Ceci permet éviter l aspect «Big» du problème. Malheureusement pour pratiquer d excellents sondages encore faut-il bien sûr connaître à l avance (c est rarement le cas) la population mère sur laquelle on travaille (du fait du redressement par quota et stratifications comme pratiqué par l IFOP, le CSA, Gallup, Opinion Way, etc. qui s appuient eux sur le recensement INSEE pour faire leurs prévisions et c est pour cela qu elles sont bonnes). Enfin et c est souvent plus grave, dans des domaines comme le diagnostic médical, la détection de la fraude, l octroi de crédits etc. on passe à côté des «niches» au sein de la population dans l approche par sondages, or une niche c est souvent une «pépite» en tout cas une structure à comportement hors normes et à fort potentiel interprétatif et décisionnel (tant au niveau financier que des risques générés). [2] A titre d exemple, de cet aspect hautement combinatoire, non lié à la taille des données : le partionnement optimal de structures à N éléments est un problème hautement combinatoire, ainsi pour N=10000 Objets (ce qui n est pas un très grand nombre en soi), le nombre total de solutions possibles est de l ordre de (estimation obtenue grâce aux bornes de de Bruijn et Berendt-Tassa(2010), du nombre de Bell), nombre monstrueux par ailleurs. Même s agissant d heuristiques ad hoc (la solution exacte étant inenvisageable ici), l adéquation d une algorithmique puissante et de capacités de parallélisme permet d éviter l exploration systématique de toutes les solutions possibles. C est du «calcul intensif» mais pas de l analyse «Big Data». BIG DATA / TELECOM n 169

3 10 n avaient pas perçu le tropisme Data Driven Analytics (laisser parler les données) qui leur est associé. HPC n est donc pas synonyme de Big Data mais peut en faire partie si l on considère que la puissance des machines de traitement des données et les procédures de parallélisation des codes sont des composantes clés du processus. Ceci dit la taille importante des données ne caractérise pas forcément un projet Big Data. Désambigüisons cette idée en précisant ce que nous entendons par : Big Data par extension vs Big Data intrinsèque a) Le Big data par extension Il consiste à gérer pratiquement et concrètement les applications métier dont on a besoin sans être obligé, tout au moins à l heure actuelle, de faire de l exploitation exhaustive de toutes les données dont on dispose, même si celles-ci sont en très grand nombre. L apport des méthodologies Big Data pouvant être un facteur d amélioration considérable d un processus d analyse qui donne néanmoins déjà une certaine satisfaction. Pour illustrer ce point, considérons le cas du service Marketing d un grand opérateur du B2C qui veut segmenter sa clientèle pour adapter ses offres à des clients divers et qui désire les fidéliser dans un contexte de concurrence exacerbée et de guerre des prix. Pour se faire on ne travaille pas exhaustivement sur la base des profils de plusieurs millions de clients (pour certains opérateurs connus) que l on a renseignée mais sur un big sample représentatif des clients que l on possède. Sur ce big sample (qui peut aller jusqu à individus) on possède des renseignements traditionnellement présents dans les bases, plus des informations particulières sur ces clients tests, ce qui peut représenter des centaines de variables comportementales, biométriques et sociologiques. Parmi les exploitations basiques et très classiques de ces bases de données sample deux résultats sont attendus : une segmentation de clientèle gérable par les business lines (agences commerciales) et des programmes de cross selling 3 raffinés et efficaces. La segmentation de clientèle en CRM consiste à découper la population globale en segments typés dans lesquels les clients ont des profils (au sens de la base de données) voisins ou similaires. Cette segmentation globale consiste donc en un clustering (ou partionnement) de la base big sample en un nombre de classes que l on doit estimer et dont on cherche la pertinence (en l occurrence, dans ce cas, un compromis entre le fait d avoir des classes différenciées en nombre raisonnable et le fait d avoir des classes suffisamment homogènes). On aboutit, en général, à des segmentations 4 à une quarantaine de classes maximum, (information fondamentale sur la structure de la population étudiée), que l on va exploiter partiellement ou totalement. En effet, une fois validé un nombre de classes adéquat pour des objectifs fixés, on réaffecte l ensemble des clients de la base mère (celle des millions de clients) sur les segments trouvés, cette fonction de réaffectation par comparaison vectorielle aux profils représentatifs des classes est typiquement une opération Big Data, car elle porte sur l exhaustivité de la base. En effet, nous venons de le voir, on peut extraire par sondages simulés big sample, toutes les informations dont on a besoin. Nous sommes alors typiquement dans du Big Data par extension», puisque la taille certes monstrueuse des données ne conditionne nullement les traitements et l exploitation qui en est faite. Le Big Data par extension c est donc l existence d un potentiel d amélioration très conséquent au niveau de processus d analyse qui utilisent aujourd hui un certain nombre d artefacts méthodologiques comme palliatifs des incapacités ou limitations calculatoires. b) Le Big Data intrinsèque» Dans ce cas, contrairement au cas précédent, où il existe des échappatoires, on est confronté dès le départ à une complexité de la problématique à résoudre qui se situe simultanément au niveau de la taille des données à manipuler et au niveau de la combinatoire des calculs à effectuer. On ne peut gérer cet environnement sans faire appel à des algorithmes d exploitation ou de stockage qui tirent parti de la structure même des données qu on analyse. Pour comprendre pourquoi les méthodes actuelles d exploitation et d analyse des grandes bases de données sont limitées quant à leur potentialité d application sur ces très grands volumes de données spécifiques, prenons le cas, (exemple pratiquement d école), relatif à la recherche de communautés dans les réseaux sociaux. Ceci sert à plusieurs types d applications certaines relevant par exemple du Marketing ( ereputation, propagation de rumeurs, social marketing ) ou de la Sécurité du territoire (recherche de communautés de hackers en Cyber Sécurité, recherche de communautés de fraudeurs (aux paiements par carte en e-business, ou aux remboursements ou aux prestations étatiques : Sécurité Sociale, CNAV, CNAM etc.) ou encore recherche de communautés agissantes dans le domaine du COIN (Counter Insurrection), etc.). Posons alors clairement le problème : pour analyser les communautés qui pourraient éventuellement nous intéresser, encore faudrait-il les identifier, avant même d analyser le contenu de ce que ces communautés ont échangé ou sont en train d échanger entre leurs membres (par des techniques de traitement et d extraction sémantique de type TAL (Traitement Automatique du Langage) ce qui est l étape ultérieure du traitement et qui n est pas simple non plus. Donnons quelques chiffres sur quelques réseaux sociaux pour nous rendre compte de l immensité du champ d observation: Facebook (1,260 Billion Noeuds, 93 Billion liens, Twitter (0,400 Billion Noeuds), LinkedIn (0,205 Billion Noeuds) etc. Dans ce cas, nous sommes vraiment dans du Big Data à proprement parler ou Big Data intrinsèque, et la problématique consistant à délimiter les communautés les unes par rapport aux autres est un challenge si complexe que de nombreuses universités prestigieuses s y sont attaqué et continue à le faire (il s agit ici, côté américain : du MIT, de Stanford, de Cornell, etc. côté européen encore une fois : de l Imperial College de Londres, de l Université d Helsinski de l Université [3] Le «Cross Selling», recouvre le concept de la «vente croisée», outil fondamental du CRM en B2C, il se déroule en 3 étapes et consiste 1) à segmenter une grosse sous-population de clientèle puis 2) à qualifier chaque segment de clientèle trouvé, enfin, 3) à rechercher dans la population mère totale des individus ayant un profil voisin de celui des membres des segments qui ont déjà acheté un certain nombre des produits de cette compagnie. [4] Sur un échantillon de taille non négligeable, la segmentation de clientèles devient un problème non trivial si elle est pratiquée dans les règles de l art (voir la remarque de la note de bas de page n 3). C est la raison pour laquelle, certains utilisent la méthode des K-means (où l on fixe a l avance le nombre de classes) pour pratiquer la segmentation de clientèle sans complexe. Bien qu erronée cette approche est pourtant très largement pratiquée TELECOM n 169 / BIG DATA

4 de Louvain, du Laboratoire Complex Networks de l université Paris VI etc.). Le problème est tout à fait identifié et porte un nom très précis : il s agit de la modularisation de très grand graphes, dont nous donnons ci dessous une représentation illustrée : Modulariser un graphe c est faire apparaître automatiquement les clusters latents du graphes (en l occurrence dans le cas des réseaux sociaux : les communautés cachées). L analyse exhaustive devient une nécessité ici, car on ne connaît pas a priori le nombre et la nature des communautés. La découverte de ces clusters peut paraître un problème simple (quand il n y a que quelques centaines de sommets) mais il devient quasi insurmontable quand on s adresse au graphe du réseau de Twitter par exemple (avec ses 400 millions de nœuds et ses milliards de liens un lien [i,j] étant simplement le fait qu au moins une fois le nœud i et le nœud j se sont envoyé un tweet ). On voit tout de suite le challenge, il faut pouvoir stocker les données (et l on verra aux paragraphes suivants que ceci n est pas un challenge trivial, mais qu il existe déjà des architectures et des technologies de stockage qui tiennent compte de l aspect réticulaire des données positionnées sur les nœuds du réseau, exemple : InfinityGraph ou Neo4j). Mais il faut en même temps pouvoir découvrir les communautés (cliques du graphe) de façon automatique : pour cela il faut un critère de partitionnement en modules ou clusters qui soit efficace (en l occurrence il est impératif qu il soit linéaire à la fois globalement et localement à tous les niveaux du graphe, pour que l algorithme adéquat (forcément dans ce cas une heuristique ad hoc) puisse bénéficier de cette propriété de linéarité locale. Un tel critère existe, il a été introduit il y à 8 ans par deux physiciens américains : Mark Newman et Michelle Girvan. Une fois les communautés détectées, il importe si nécessaire de les analyser communauté par communauté, au niveau du contenu des échanges entre les membres de ces communautés. Pour se faire, on utilise des outils d analyse sémantique d extraction d entités nommées. Cet exemple montre ce qu est une vraie procédure d exploitation Big Data intrinsèque. Pourquoi l avènement du concept Big Data maintenant? Parmi les causes totalement intuitives de la montée en puissance du concept de Big Data ces toutes dernières années, l augmentation des collections de données, accessibles par de nombreuses industries qui ne pouvaient ou ne pensaient pas pensable le stockage de l information massive, est certainement l un des facteurs majeurs. Une seconde cause est fondamentalement l aspect de plus en plus multimodal et multiforme des données transmises, adressables ou échangées, (vidéos, images, sons etc. en plus du texte et des données numériques structurées). Les données de type images, vidéos sons et textes nécessitent des capacités de stockage beaucoup plus importantes que celles requises jadis par les données numériques structurées. Enfin bien entendu le développement du Cloud Computing, qui est intrinsèquement un générateur de problématiques Big Data. Le transfert d information multimodales extrêmement massives via les smart phones, les réseaux sociaux, mais aussi au travers des opérateurs du e-commerce est également à l origine du phénomène Big Data, ne serait ce que par rapport à la question cruciale mais évidente : comment stocker toute ces informations?. Toujours est-t-il que la tendance aux transmissions de données mobiles et dynamiques a coïncidé avec le démarrage des premiers articles consacrés au concept de Big Data, prônant d ailleurs au départ une rupture dans la façon de stocker les données. Une dépendance à la technologie? En effet, au départ des ruptures importantes se sont produites dans la façon de stocker l information, du fait du passage à l échelle internet. Ces ruptures ont été poussées par les acteurs fondamentaux du Net que sont Google, Yahoo, Amazon, Facebook, et, dans une moindre mesure, LinkedIn, Twitter, e-bay. Le contexte industriel particulier à ces entreprises est souvent sous-estimé. Elles ont comme point commun une culture d entreprise guidée par l innovation et n ont aucun état d âme à mettre en œuvre les transformations technologiques et organisationnelles nécessaires à la réussite de leur modèle. Ces ruptures se sont bâties en tenant compte de résultats de chercheurs éminents comme Eric Brewer de Berkeley (Théorème CAP 5 ) ou Jon Kleinberg de Cornell (Théorème CIA) qui ont été associés aux équipes de recherche de Google, Yahoo, Facebook et Amazon et qui tous, ont contribué à l essor, sous le vocable de NoSQL (Not Only SQL) d une nouvelle philosophie de stockage intelligent des données. Bref générant une plus grande souplesse de stockage des informations, permettant des requêtages accélérés, avec une capacité adaptation et une flexibilité fortes, liées aux structures de données elles mêmes: le contraire de la pensée unique SQL/MySQL imposée par le modèle des bases de données relationnelles. En résumé : une simplification des procédures d indexation associée à une affectation claire du type d architecture par grands domaines d activité (ainsi les approches massivement distribuées adossées aux structures fondées sur les bases de données orientées colonnes type Cassandra ou HBase sont-elles adaptées aux métiers des sites marchands du Web comme Amazon par exemple, d autres plutôt liées aux propagations arborescentes que l on rencontre dans les réseaux sociaux sont adaptées à l exploration des grands graphes du Net, telles : InfinityGraph, Neo4j etc.). Enfin des compromis entre disponibilité, Tolérance au Partitionnement des données et Consistency sont à trouver pour ne pas perdre les bonnes fonctionnalités des approches SQL (type 11 [5] En effet le «Théorème CAP» (Consistancy, Availability (disponibilité), Partition Tolerance (tolérance au Partitionnement), propose un cadre théorique structurant au domaine des grandes architectures de bases de données massivement partagées au travers des 3 propriétés suivantes dont seules 2 sont possiblement vérifiables en simultanéité : 1)Consistance (Consistency /C) : Tous les clients voient la même vue même lorsqu il y a des mises-à-jour, en fait il s agit du Atomicity des propriétés ACID des bases relationnelles. 2)Disponibilité (Availability /A) : L ensemble des clients peuvent trouver des données répliquées, même lorsqu une avarie survient quelque part. 3)Tolérance au Partitionnement (Partition-tolerance /P) : Le système est tolérant au partitionnement, c est-à-dire au découpage pré-établi des index. BIG DATA / TELECOM n 169

5 12 HIVE au dessus de Hadoop, permettant d utiliser Hadoop avec une syntaxe proche de SQL) vont sans doute se développer de façon plus intensive, dans une optique appelée BASE ( Basically Available, Soft state and Eventually consistant ). Le besoin initial est effectivement venu du Web Searching, via les des opérateurs du Net que sont Google, Amazon, Facebook pour faire de l exploration à partir d un mode de stockage plus adéquat que les approches par bases de données relationnelles, qui ne pouvaient satisfaire la contrainte de multi-colonnes non figées. Ces entreprises pionnières, fortement influencées par la culture Open Source Software (OSS), ont fini par mettre à disposition leurs bases de code : la base Cassandra a été transférée en 2008 par Facebook à la fondation Apache et a sans doute été le signal de départ d un mouvement d appropriation de ces outils par la communauté OSS et par ricochet a engendré un fort intérêt dans les domaines connexes tels que les bases orientées documents non-structurés et orientées graphe. Un exemple très simple et clair du principe d adéquation différenciant les approches par Web Search des stockages par Data Bases classiques (relationnelles, relevant de SQL) est celui donné par la liste de A. Deshpande de l Université du Maryland : 1 Databases Structures ensure ACID (Atomicity, Consistency, Isolation, Durability) 1 Web search engines don t care about most of those properties but must be aligned with the CAP Theorem constraints: 1 Brewer s CAP Theorem constraints==> Among Consistency, Availability, and tolerance to Partitions properties, you must choose Two. Verifying simultaneously those 3 constraints is impossible (ex: Databases structures choose essentially A &C whilst Web search engines choose essentially A & P or C&P 1 A compromise? the BASE concept: (Basically Available, Soft-state and Eventually consistent) ==> be flexible and accept not to fulfill entirely the explicit constraints Classification par catégorie de quelques architectures de stockage NoSQL : 1 BDD Orientées colonnes : (HBase, Hypertable ou Cassandra, etc.), elles sont fondées sur le concept de BigTable de Google 1 BDD fondées sur la théorie des graphes (Euler, implémentée par Neo4J, InfinityGraph, etc.). 1 BDD Orientées clé-valeur (Voldemort, Dynamo, Riak etc.). 1 BDD Orientées documents, comme (CouchDB. ou MongoDB.) Le besoin associé à la diversification du recueil de données Soit parce que la crainte de la non scalabilité de certains processus d analyse tend à disparaître, soit parce que certains types de données sont enfin recueillis et stockés en vue de futures exploitation, toujours est-il que l univers des possibles s agrandit du fait de la nouvelle capacité offerte d adresser des bases de données de tailles gigantesques en mode : Data driven (exploitation totale et exhaustive des bases) à l opposé de ce qui était pratiqué en général aujourd hui via des requêtages orientés, au travers de SQL ou de l OLAP ( On Line Analytical Process ) en mode : Hypothesis driven. Souvent, d ailleurs, au lieu d opposer ces deux approches devrait-on les considérer comme complémentaires. Un exemple du croisement du data driven mode et du hypothesis driven mode, est donné, par exemple, par la navigation dite par Intelligent Query (vous posez une question à une base de données et le système vous renvoie non seulement la réponse à votre requête mais également les réponses voisines en relaxant certaines contraintes de votre question). Une Complémentation de l offre logicielle classique par des extensions orientées Big Data Microsoft, Oracle et IBM ont investi au cours de la vague de rénovation IT démarrée en 2005 des milliards de dollars 6 en R&D, marketing, acquisitions et offres qu ils ont bien l intention de continuer à rentabiliser. L enjeu est pour eux double : continuer à supporter la base installée de leurs produits et prendre des parts de marché sur le segment en croissance du Big Data, quoi que cela veuille dire pour eux. Certaines d entre elles ont choisi de s appuyer sur Hadoop et MapReduce c est le cas d IBM et d Oracle. Mais elles doivent réagir vite et innover sous peine de lourdes déconvenues potentielles. Des technologies novatrices qui tirent le concept Big Data =>(le Big Analytics) Si l on s en réfère à la liste des techniques et technologies, telle qu elle apparaît dans le rapport MKGI, on est surpris de voir citées des approches qui ne sont pas directement associées de façon indiscutable avec le paradigme Big Data, et qui préexistaient avant son avènement. En passant en revue cette liste, qui a le mérite d exister et d être souvent citée par les consultants Big Data, nous en avons extrait quelquesunes qui relèvent intrinsèquement du paradigme Big Data, soit parce qu elles nécessitent des temps de calcul variant linéairement avec le nombre d items à analyser, soit parce qu elles sont assez facilement parallélisables. a) Les règles d association (affinity analysis) Cette technique est l une des rares de la liste MKGI qui relève vraiment du paradigme Big Data. Inventée par Rakesh Agrawal et Ramakrishnan Srikant en 1994, elle utilise le principe de matchings de listes vectoriels et de calculs de produits scalaires linéaires, elle produit des indices d affinité. Dans le cas où l on fait jouer le temps comme paramètre sous-jacent on appelle cette technique : Sequential Patterns discovery. En tout état de cause, elle relève tout à fait du processus Big Data en ce sens qu elle a été utilisée pour traiter des affinités dans l association d achat de produits à partir des bases de logs de magasins USA, sur plus de de tickets de caisse sur une nomenclature produits de items. Très rapide et efficace, elle permet des calculs optimisés en O(n). C est vraiment une solution algorithmique qui porte bien haut le label Big Analytics. b) Classification Le cas de la classification supervisée 7 (sauf dans la partie du processus où l on pro- [6] 16 Milliards de $ pour IBM par exemple TELECOM n 169 / BIG DATA

Groupe de Discussion Big Data Aperçu des technologies et applications. Stéphane MOUTON stephane.mouton@cetic.be

Groupe de Discussion Big Data Aperçu des technologies et applications. Stéphane MOUTON stephane.mouton@cetic.be Groupe de Discussion Big Data Aperçu des technologies et applications Stéphane MOUTON stephane.mouton@cetic.be Recherche appliquée et transfert technologique q Agréé «Centre Collectif de Recherche» par

Plus en détail

NoSQL. Introduction 1/23. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)

NoSQL. Introduction 1/23. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur) 1/23 2/23 Anne-Cécile Caron Master MIAGE - BDA 1er trimestre 2013-2014 I : Not Only SQL, ce n est pas du relationnel, et le contexte d utilisation n est donc pas celui des SGBDR. I Origine : recherche

Plus en détail

AVRIL 2014. Au delà de Hadoop. Panorama des solutions NoSQL

AVRIL 2014. Au delà de Hadoop. Panorama des solutions NoSQL AVRIL 2014 Panorama des solutions NoSQL QUI SOMMES NOUS? Avril 2014 2 SMILE, EN QUELQUES CHIFFRES 1er INTÉGRATEUR EUROPÉEN DE SOLUTIONS OPEN SOURCE 3 4 NOS EXPERTISES ET NOS CONVICTIONS DANS NOS LIVRES

Plus en détail

NoSQL. Introduction 1/30. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)

NoSQL. Introduction 1/30. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur) 1/30 2/30 Anne-Cécile Caron Master MIAGE - SGBD 1er trimestre 2014-2015 I : Not Only SQL, ce n est pas du relationnel, et le contexte d utilisation n est donc pas celui des SGBDR. I Origine : recherche

Plus en détail

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data.

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data. Big Data De la stratégie à la mise en oeuvre Description : La formation a pour objet de brosser sans concession le tableau du Big Data. Les participants repartiront de cette formation en ayant une vision

Plus en détail

Panorama des solutions analytiques existantes

Panorama des solutions analytiques existantes Arnaud LAROCHE Julien DAMON Panorama des solutions analytiques existantes SFdS Méthodes et Logiciels - 16 janvier 2014 - Données Massives Ne sont ici considérés que les solutions autour de l environnement

Plus en détail

CENTAI : Big Data & Big Analytics Réunion DGPN / Thales Octobre 2013

CENTAI : Big Data & Big Analytics Réunion DGPN / Thales Octobre 2013 www.thalesgroup.com CENTAI : Big Data & Big Analytics Réunion DGPN / Thales Octobre 2013 2 / Sommaire CENTAI : Présentation du laboratoire Plate-forme OSINT LAB Détection de la fraude à la carte bancaire

Plus en détail

NoSQL : hype ou innovation? Grégory Ogonowski / Recherches Octobre 2011

NoSQL : hype ou innovation? Grégory Ogonowski / Recherches Octobre 2011 NoSQL : hype ou innovation? Grégory Ogonowski / Recherches Octobre 2011 Sommaire Introduction Théorème CAP NoSQL (principes, mécanismes, démos,...) Ce que nous avons constaté Recommandations Conclusion

Plus en détail

Les bases de données relationnelles

Les bases de données relationnelles Bases de données NO SQL et SIG : d un existant restreint à un avenir prometteur CHRISTIAN CAROLIN, AXES CONSEIL CAROLIN@AXES.FR - HTTP://WWW.AXES.FR Les bases de données relationnelles constituent désormais

Plus en détail

Big data et données géospatiales : Enjeux et défis pour la géomatique. Thierry Badard, PhD, ing. jr Centre de Recherche en Géomatique

Big data et données géospatiales : Enjeux et défis pour la géomatique. Thierry Badard, PhD, ing. jr Centre de Recherche en Géomatique Big data et données géospatiales : Enjeux et défis pour la géomatique Thierry Badard, PhD, ing. jr Centre de Recherche en Géomatique Événement 25e anniversaire du CRG Université Laval, Qc, Canada 08 mai

Plus en détail

Hibernate vs. le Cloud Computing

Hibernate vs. le Cloud Computing Hibernate vs. le Cloud Computing Qui suis-je? Julien Dubois Co-auteur de «Spring par la pratique» Ancien de SpringSource Directeur du consulting chez Ippon Technologies Suivez-moi sur Twitter : @juliendubois

Plus en détail

FORUM NTIC BIG DATA, OPEN DATA Big Data: les challenges, les défis

FORUM NTIC BIG DATA, OPEN DATA Big Data: les challenges, les défis FORUM NTIC BIG DATA, OPEN DATA Big Data: les challenges, les défis Joseph Salmon Télécom ParisTech Jeudi 6 Février Joseph Salmon (Télécom ParisTech) Big Data Jeudi 6 Février 1 / 18 Agenda Contexte et opportunités

Plus en détail

Surmonter les 5 défis opérationnels du Big Data

Surmonter les 5 défis opérationnels du Big Data Surmonter les 5 défis opérationnels du Big Data Jean-Michel Franco Talend Connect 9 octobre 2014 Talend 2014 1 Agenda Agenda Le Big Data depuis la découverte jusqu au temps réel en passant par les applications

Plus en détail

Pentaho Business Analytics Intégrer > Explorer > Prévoir

Pentaho Business Analytics Intégrer > Explorer > Prévoir Pentaho Business Analytics Intégrer > Explorer > Prévoir Pentaho lie étroitement intégration de données et analytique. En effet, les services informatiques et les utilisateurs métiers peuvent accéder aux

Plus en détail

BIG Data et R: opportunités et perspectives

BIG Data et R: opportunités et perspectives BIG Data et R: opportunités et perspectives Guati Rizlane 1 & Hicham Hajji 2 1 Ecole Nationale de Commerce et de Gestion de Casablanca, Maroc, rguati@gmail.com 2 Ecole des Sciences Géomatiques, IAV Rabat,

Plus en détail

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars 2013. 20 ans du SIAD -"Big Data par l'exemple" -Julien DULOUT

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars 2013. 20 ans du SIAD -Big Data par l'exemple -Julien DULOUT 20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars 2013 20 ans du SIAD -"BigData par l'exemple" -Julien DULOUT Qui a déjà entendu parler du phénomène BigData? Qui a déjà

Plus en détail

DÉPLOIEMENT DE QLIKVIEW POUR DES ANALYSES BIG DATA CHEZ KING.COM

DÉPLOIEMENT DE QLIKVIEW POUR DES ANALYSES BIG DATA CHEZ KING.COM DÉPLOIEMENT DE QLIKVIEW POUR DES ANALYSES BIG DATA CHEZ KING.COM Étude de cas technique QlikView : Big Data Juin 2012 qlikview.com Introduction La présente étude de cas technique QlikView se consacre au

Plus en détail

Introduction Big Data

Introduction Big Data Introduction Big Data SOMMAIRE Rédacteurs : Réf.: SH. Lazare / F. Barthélemy AXIO_BD_V1 QU'EST-CE QUE LE BIG DATA? ENJEUX TECHNOLOGIQUES ENJEUX STRATÉGIQUES BIG DATA ET RH ANNEXE Ce document constitue

Plus en détail

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril 2010 1 / 15

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril 2010 1 / 15 MapReduce Malo Jaffré, Pablo Rauzy ENS 16 avril 2010 Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril 2010 1 / 15 Qu est ce que c est? Conceptuellement Données MapReduce est un framework de calcul distribué

Plus en détail

Introduction à MapReduce/Hadoop et Spark

Introduction à MapReduce/Hadoop et Spark 1 / 36 Introduction à MapReduce/Hadoop et Spark Certificat Big Data Ludovic Denoyer et Sylvain Lamprier UPMC Plan 2 / 36 Contexte 3 / 36 Contexte 4 / 36 Data driven science: le 4e paradigme (Jim Gray -

Plus en détail

Introduction au datamining

Introduction au datamining Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des

Plus en détail

Le BigData, aussi par et pour les PMEs

Le BigData, aussi par et pour les PMEs Parole d expert Le BigData, aussi par et pour les PMEs Stéphane MOUTON, CETIC Département Software and Services Technologies Avec le soutien de : LIEGE CREATIVE Le Big Data, aussi par et pour les PMEs

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Gilles Gasso, Stéphane Canu INSA Rouen -Département ASI Laboratoire LITIS 8 septembre 205. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles Gasso, Stéphane

Plus en détail

Big Data et Graphes : Quelques pistes de recherche

Big Data et Graphes : Quelques pistes de recherche Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de Lyon/Université Claude Bernard Lyon 1/Université

Plus en détail

BIG DATA. Veille technologique. Malek Hamouda Nina Lachia Léo Valette. Commanditaire : Thomas Milon. Encadré: Philippe Vismara

BIG DATA. Veille technologique. Malek Hamouda Nina Lachia Léo Valette. Commanditaire : Thomas Milon. Encadré: Philippe Vismara BIG DATA Veille technologique Malek Hamouda Nina Lachia Léo Valette Commanditaire : Thomas Milon Encadré: Philippe Vismara 1 2 Introduction Historique des bases de données : méthodes de stockage et d analyse

Plus en détail

QLIKVIEW ET LE BIG DATA

QLIKVIEW ET LE BIG DATA QLIKVIEW ET LE BIG DATA Livre blanc sur la technologie QlikView Juillet 2012 qlikview.com Introduction Le Big Data suscite actuellement un vif intérêt. En l exploitant dans un cadre opérationnel, nombre

Plus en détail

Fouillez facilement dans votre système Big Data. Olivier TAVARD

Fouillez facilement dans votre système Big Data. Olivier TAVARD Fouillez facilement dans votre système Big Data Olivier TAVARD A propos de moi : Cofondateur de la société France Labs Développeur (principalement Java) Formateur en technologies de moteurs de recherche

Plus en détail

Les datas = le fuel du 21ième sicècle

Les datas = le fuel du 21ième sicècle Les datas = le fuel du 21ième sicècle D énormes gisements de création de valeurs http://www.your networkmarketin g.com/facebooktwitter-youtubestats-in-realtime-simulation/ Xavier Dalloz Le Plan Définition

Plus en détail

Titre : La BI vue par l intégrateur Orange

Titre : La BI vue par l intégrateur Orange Titre : La BI vue par l intégrateur Orange Résumé : L entité Orange IT&L@bs, partenaire privilégié des entreprises et des collectivités dans la conception et l implémentation de SI Décisionnels innovants,

Plus en détail

Les technologies du Big Data

Les technologies du Big Data Les technologies du Big Data PRÉSENTÉ AU 40 E CONGRÈS DE L ASSOCIATION DES ÉCONOMISTES QUÉBÉCOIS PAR TOM LANDRY, CONSEILLER SENIOR LE 20 MAI 2015 WWW.CRIM.CA TECHNOLOGIES: DES DONNÉES JUSQU'À L UTILISATEUR

Plus en détail

Big Data et Graphes : Quelques pistes de recherche

Big Data et Graphes : Quelques pistes de recherche Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci http://liris.cnrs.fr/hamamache.kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de

Plus en détail

Technologies du Web. Ludovic DENOYER - ludovic.denoyer@lip6.fr. Février 2014 UPMC

Technologies du Web. Ludovic DENOYER - ludovic.denoyer@lip6.fr. Février 2014 UPMC Technologies du Web Ludovic DENOYER - ludovic.denoyer@lip6.fr UPMC Février 2014 Ludovic DENOYER - ludovic.denoyer@lip6.fr Technologies du Web Plan Retour sur les BDs Le service Search Un peu plus sur les

Plus en détail

TRAVAUX DE RECHERCHE DANS LE

TRAVAUX DE RECHERCHE DANS LE TRAVAUX DE RECHERCHE DANS LE DOMAINE DE L'EXPLOITATION DES DONNÉES ET DES DOCUMENTS 1 Journée technologique " Solutions de maintenance prévisionnelle adaptées à la production Josiane Mothe, FREMIT, IRIT

Plus en détail

Big Graph Data Forum Teratec 2013

Big Graph Data Forum Teratec 2013 Big Graph Data Forum Teratec 2013 MFG Labs 35 rue de Châteaudun 75009 Paris, France www.mfglabs.com twitter: @mfg_labs Julien Laugel MFG Labs julien.laugel@mfglabs.com @roolio SOMMAIRE MFG Labs Contexte

Plus en détail

La dernière base de données de Teradata franchit le cap du big data grâce à sa technologie avancée

La dernière base de données de Teradata franchit le cap du big data grâce à sa technologie avancée Communiqué de presse Charles-Yves Baudet Twitter: Les clients de Teradata Teradata Corporation peuvent dan.conway@teradata.com tirer parti de plusieurs + 33 1 64 86 76 14 + 33 (0) 1 55 21 01 48/49 systèmes,

Plus en détail

SÉRIE NOUVELLES ARCHITECTURES

SÉRIE NOUVELLES ARCHITECTURES SÉRIE NOUVELLES ARCHITECTURES Alerte au tsunami des données : les entreprises doivent prendre la vague maintenant! Quels sont les faits qui sous-tendent cette réalité? Quelles entreprises sont aujourd

Plus en détail

Le nouveau visage de la Dataviz dans MicroStrategy 10

Le nouveau visage de la Dataviz dans MicroStrategy 10 Le nouveau visage de la Dataviz dans MicroStrategy 10 Pour la première fois, MicroStrategy 10 offre une plateforme analytique qui combine une expérience utilisateur facile et agréable, et des capacités

Plus en détail

Les 10 grands principes de l utilisation du data mining pour une gestion de la relation client réussie

Les 10 grands principes de l utilisation du data mining pour une gestion de la relation client réussie Les 10 grands principes de l utilisation du data mining pour une gestion de la relation client réussie Découvrir les stratégies ayant fait leurs preuves et les meilleures pratiques Points clés : Planifier

Plus en détail

Quels choix de base de données pour vos projets Big Data?

Quels choix de base de données pour vos projets Big Data? Quels choix de base de données pour vos projets Big Data? Big Data? Le terme "big data" est très à la mode et naturellement un terme si générique est galvaudé. Beaucoup de promesses sont faites, et l'enthousiasme

Plus en détail

Business Intelligence

Business Intelligence avec Excel, Power BI et Office 365 Téléchargement www.editions-eni.fr.fr Jean-Pierre GIRARDOT Table des matières 1 Avant-propos A. À qui s adresse ce livre?..................................................

Plus en détail

transformer en avantage compétitif en temps réel vos données Your business technologists. Powering progress

transformer en avantage compétitif en temps réel vos données Your business technologists. Powering progress transformer en temps réel vos données en avantage compétitif Your business technologists. Powering progress Transformer les données en savoir Les données sont au cœur de toute activité, mais seules elles

Plus en détail

QlikView et Google Big Query : Une réponse simple, rapide et peu coûteuse aux analyses Big Data

QlikView et Google Big Query : Une réponse simple, rapide et peu coûteuse aux analyses Big Data QlikView et Google Big Query : Une réponse simple, rapide et peu coûteuse aux analyses Big Data Qui sommes-nous? Société de stratégie et de consulting IT spécialisée en ebusiness, Cloud Computing, Business

Plus en détail

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems

Plus en détail

Agenda de la présentation

Agenda de la présentation Le Data Mining Techniques pour exploiter l information Dan Noël 1 Agenda de la présentation Concept de Data Mining ou qu est-ce que le Data Mining Déroulement d un projet de Data Mining Place du Data Mining

Plus en détail

Le NoSQL - Cassandra

Le NoSQL - Cassandra Le NoSQL - Cassandra Thèse Professionnelle Xavier MALETRAS 27/05/2012 Ce document présente la technologie NoSQL au travers de l utilisation du projet Cassandra. Il présente des situations ainsi que des

Plus en détail

BIGDATA AN 3 : UNE NOUVELLE ERE DE B.I.

BIGDATA AN 3 : UNE NOUVELLE ERE DE B.I. BIGDATA AN 3 : UNE NOUVELLE ERE DE B.I. QUELLES PERSPECTIVES POUR LES 20 PROCHAINES ANNEES? 22 MARS 2013 CHARLES PARAT, DIR. INNOVATION adoption L ADOPTION DES EVOLUTIONS B.I. EST LENTE BIGDATA BUZZ MAINFRAME

Plus en détail

Programmation parallèle et distribuée

Programmation parallèle et distribuée Programmation parallèle et distribuée (GIF-4104/7104) 5a - (hiver 2015) Marc Parizeau, Département de génie électrique et de génie informatique Plan Données massives («big data») Architecture Hadoop distribution

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme

Plus en détail

En route vers le succès avec une solution de BI intuitive destinée aux entreprises de taille moyenne

En route vers le succès avec une solution de BI intuitive destinée aux entreprises de taille moyenne Présentation du produit SAP s SAP pour les PME SAP BusinessObjects Business Intelligence, édition Edge Objectifs En route vers le succès avec une solution de BI intuitive destinée aux entreprises de taille

Plus en détail

La rencontre du Big Data et du Cloud

La rencontre du Big Data et du Cloud La rencontre du Big Data et du Cloud Libérez le potentiel de toutes vos données Visualisez et exploitez plus rapidement les données de tous types, quelle que soit leur taille et indépendamment de leur

Plus en détail

Julien MATHEVET Alexandre BOISSY GSID 4. Rapport RE09. Load Balancing et migration

Julien MATHEVET Alexandre BOISSY GSID 4. Rapport RE09. Load Balancing et migration Julien MATHEVET Alexandre BOISSY GSID 4 Rapport Load Balancing et migration Printemps 2001 SOMMAIRE INTRODUCTION... 3 SYNTHESE CONCERNANT LE LOAD BALANCING ET LA MIGRATION... 4 POURQUOI FAIRE DU LOAD BALANCING?...

Plus en détail

Les clusters Linux. 4 août 2004 Benoît des Ligneris, Ph. D. benoit.des.ligneris@revolutionlinux.com. white-paper-cluster_fr.sxw, Version 74 Page 1

Les clusters Linux. 4 août 2004 Benoît des Ligneris, Ph. D. benoit.des.ligneris@revolutionlinux.com. white-paper-cluster_fr.sxw, Version 74 Page 1 Les clusters Linux 4 août 2004 Benoît des Ligneris, Ph. D. benoit.des.ligneris@revolutionlinux.com white-paper-cluster_fr.sxw, Version 74 Page 1 Table des matières Introduction....2 Haute performance (High

Plus en détail

Cartographie des solutions BigData

Cartographie des solutions BigData Cartographie des solutions BigData Panorama du marché et prospective 1 1 Solutions BigData Défi(s) pour les fournisseurs Quel marché Architectures Acteurs commerciaux Solutions alternatives 2 2 Quels Défis?

Plus en détail

Techniques d interaction dans la visualisation de l information Séminaire DIVA

Techniques d interaction dans la visualisation de l information Séminaire DIVA Techniques d interaction dans la visualisation de l information Séminaire DIVA Zingg Luca, luca.zingg@unifr.ch 13 février 2007 Résumé Le but de cet article est d avoir une vision globale des techniques

Plus en détail

Les quatre piliers d une solution de gestion des Big Data

Les quatre piliers d une solution de gestion des Big Data White Paper Les quatre piliers d une solution de gestion des Big Data Table des Matières Introduction... 4 Big Data : un terme très vaste... 4 Le Big Data... 5 La technologie Big Data... 5 Le grand changement

Plus en détail

Entreprise et Big Data

Entreprise et Big Data Entreprise et Big Data Christophe Favart Chef Architecte, SAP Advanced Development, Business Information Technology Public Juin 2013 Agenda SAP Données d Entreprise Big Data en entreprise Solutions SAP

Plus en détail

Transformation IT de l entreprise BIG DATA, MÉTIERS ET ÉVOLUTION DES BASES DE DONNÉES

Transformation IT de l entreprise BIG DATA, MÉTIERS ET ÉVOLUTION DES BASES DE DONNÉES Transformation IT de l entreprise BIG DATA, MÉTIERS ET ÉVOLUTION DES BASES DE DONNÉES M a l g r é s o n ca r act è r e en apparence multiforme un enjeu central s est progressivement affirmé en matière

Plus en détail

BIRT (Business Intelligence and Reporting Tools)

BIRT (Business Intelligence and Reporting Tools) BIRT (Business Intelligence and Reporting Tools) Introduction Cette publication a pour objectif de présenter l outil de reporting BIRT, dans le cadre de l unité de valeur «Data Warehouse et Outils Décisionnels»

Plus en détail

Suite Jedox La Business-Driven Intelligence avec Jedox

Suite Jedox La Business-Driven Intelligence avec Jedox Suite La Business-Driven Intelligence avec Une solution intégrée pour la simulation, l analyse et le reporting vous offre la possibilité d analyser vos données et de gérer votre planification selon vos

Plus en détail

Programmation parallèle et distribuée (Master 1 Info 2015-2016)

Programmation parallèle et distribuée (Master 1 Info 2015-2016) Programmation parallèle et distribuée (Master 1 Info 2015-2016) Hadoop MapReduce et HDFS Note bibliographique : ce cours est largement inspiré par le cours de Benjamin Renaut (Tokidev SAS) Introduction

Plus en détail

Travailler avec les télécommunications

Travailler avec les télécommunications Travailler avec les télécommunications Minimiser l attrition dans le secteur des télécommunications Table des matières : 1 Analyse de l attrition à l aide du data mining 2 Analyse de l attrition de la

Plus en détail

Ad-exchanges & RTB (avec la participation de Fabien Magalon, La place

Ad-exchanges & RTB (avec la participation de Fabien Magalon, La place En partenariat avec : Tout savoir sur le marketing à la performance Intervenants Hugo Loriot Directeur media technologie, Fifty Five Yann Gabay - Directeur général, Netbooster Fabien Magalon Directeur

Plus en détail

SOCIAL CRM: DE LA PAROLE À L ACTION

SOCIAL CRM: DE LA PAROLE À L ACTION LIVRE BLANC SOCIAL CRM: DE LA PAROLE À L ACTION Découvrez comment le Social CRM peut travailler pour vous LIVRE BLANC SOCIAL CRM: DE LA PAROLE À L ACTION 2 À PROPOS Au cours des dernières années, vous

Plus en détail

Bases de données documentaires et distribuées Cours NFE04

Bases de données documentaires et distribuées Cours NFE04 Bases de données documentaires et distribuées Cours NFE04 Cloud et scalabilité Auteurs : Raphaël Fournier-S niehotta, Philippe Rigaux, Nicolas Travers prénom.nom@cnam.fr Département d informatique Conservatoire

Plus en détail

Introduction à la B.I. Avec SQL Server 2008

Introduction à la B.I. Avec SQL Server 2008 Introduction à la B.I. Avec SQL Server 2008 Version 1.0 VALENTIN Pauline 2 Introduction à la B.I. avec SQL Server 2008 Sommaire 1 Présentation de la B.I. et SQL Server 2008... 3 1.1 Présentation rapide

Plus en détail

CNAM 2010-2011. Déploiement d une application avec EC2 ( Cloud Amazon ) Auteur : Thierry Kauffmann Paris, Décembre 2010

CNAM 2010-2011. Déploiement d une application avec EC2 ( Cloud Amazon ) Auteur : Thierry Kauffmann Paris, Décembre 2010 CNAM 2010-2011 Déploiement d une application avec EC2 ( Cloud Amazon ) Auteur : Thierry Kauffmann Paris, Décembre 2010 Déploiement d une application dans le cloud. 1. Cloud Computing en 2010 2. Offre EC2

Plus en détail

EVALUATION DE LA QUALITE DES SONDAGES EN LIGNE : CAS D UN SONDAGE D OPINION AU BURKINA FASO

EVALUATION DE LA QUALITE DES SONDAGES EN LIGNE : CAS D UN SONDAGE D OPINION AU BURKINA FASO EVALUATION DE LA QUALITE DES SONDAGES EN LIGNE : CAS D UN SONDAGE D OPINION AU BURKINA FASO Auteur Baguinébié Bazongo 1 Ingénieur Statisticien Economiste Chef de l Unité de recherche à l Institut national

Plus en détail

et les Systèmes Multidimensionnels

et les Systèmes Multidimensionnels Le Data Warehouse et les Systèmes Multidimensionnels 1 1. Définition d un Datawarehouse (DW) Le Datawarehouse est une collection de données orientées sujet, intégrées, non volatiles et historisées, organisées

Plus en détail

Livre. blanc. Solution Hadoop d entreprise d EMC. Stockage NAS scale-out Isilon et Greenplum HD. Février 2012

Livre. blanc. Solution Hadoop d entreprise d EMC. Stockage NAS scale-out Isilon et Greenplum HD. Février 2012 Livre blanc Solution Hadoop d entreprise d EMC Stockage NAS scale-out Isilon et Greenplum HD Par Julie Lockner et Terri McClure, Analystes seniors Février 2012 Ce livre blanc d ESG, qui a été commandé

Plus en détail

Assurer l avenir de votre activité grâce à l open marketing. Par David Mennie, Senior Director, Product Marketing, Acquia

Assurer l avenir de votre activité grâce à l open marketing. Par David Mennie, Senior Director, Product Marketing, Acquia Assurer l avenir de votre activité grâce à l open marketing Par David Mennie, Senior Director, Product Marketing, Acquia Table des matières Le Marketing à l ère de l ouverture 3 L émergence du marketeur

Plus en détail

July 1, 2013. Stéphan Clémençon (Télécom ParisTech) Mastère Big Data July 1, 2013 1 / 15

July 1, 2013. Stéphan Clémençon (Télécom ParisTech) Mastère Big Data July 1, 2013 1 / 15 Mastère Spécialisé Big Data Stéphan Clémençon Télécom ParisTech July 1, 2013 Stéphan Clémençon (Télécom ParisTech) Mastère Big Data July 1, 2013 1 / 15 Agenda Contexte et Opportunité Les grandes lignes

Plus en détail

Les clients puissance cube

Les clients puissance cube LETTRE CONVERGENCE Les clients puissance cube L intelligence artificielle au service du marketing des services N 28 To get there. Together. A PROPOS DE BEARINGPOINT BearingPoint est un cabinet de conseil

Plus en détail

À PROPOS DE TALEND...

À PROPOS DE TALEND... WHITE PAPER Table des matières Résultats de l enquête... 4 Stratégie d entreprise Big Data... 5 Intégration des Big Data... 8 Les défis liés à la mise en œuvre des Big Data... 10 Les technologies pour

Plus en détail

Transformation IT de l entreprise DU CONCRET POUR TRANSFORMER LES BIG DATA EN VALEUR

Transformation IT de l entreprise DU CONCRET POUR TRANSFORMER LES BIG DATA EN VALEUR Transformation IT de l entreprise DU CONCRET POUR TRANSFORMER LES BIG DATA EN VALEUR S elon IDC, la quantité d informations stockées et traitées continue d augmenter chaque année de plus 50%. Comment extraire

Plus en détail

Comment optimiser l utilisation des ressources Cloud et de virtualisation, aujourd hui et demain?

Comment optimiser l utilisation des ressources Cloud et de virtualisation, aujourd hui et demain? DOSSIER SOLUTION Solution CA Virtual Placement and Balancing Comment optimiser l utilisation des ressources Cloud et de virtualisation, aujourd hui et demain? agility made possible La solution automatisée

Plus en détail

Jean-François Boulicaut & Mohand-Saïd Hacid

Jean-François Boulicaut & Mohand-Saïd Hacid e siècle! Jean-François Boulicaut & Mohand-Saïd Hacid http://liris.cnrs.fr/~jboulica http://liris.cnrs.fr/mohand-said.hacid Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205

Plus en détail

Introduction à ORACLE WAREHOUSE BUILDER Cédric du Mouza

Introduction à ORACLE WAREHOUSE BUILDER Cédric du Mouza Introduction à ORACLE WAREHOUSE BUILDER Cédric du Mouza Avant de commencer à travailler avec le produit, il est nécessaire de comprendre, à un haut niveau, les problèmes en réponse desquels l outil a été

Plus en détail

Big Data et l avenir du décisionnel

Big Data et l avenir du décisionnel Big Data et l avenir du décisionnel Arjan Heijmenberg, Jaspersoft 1 Le nouveau monde des TI L entreprise en réseau de McKinsey McKinsey sur le Web 2.0 McKinsey Global Institute, décembre 2010 Emergence

Plus en détail

Le BIG DATA????? Big Buzz? Big Bang? Big Opportunity? Big hype? Big Business? Big Challenge? Big Hacking? Gérard Peliks planche 2

Le BIG DATA????? Big Buzz? Big Bang? Big Opportunity? Big hype? Big Business? Big Challenge? Big Hacking? Gérard Peliks planche 2 Le BIG DATA????? Big Bang? Big hype? Big Challenge? Big Buzz? Big Opportunity? Big Business? Big Hacking? Gérard Peliks planche 2 Les quatre paradigmes de la science en marche Paradigme 1 : L empirisme

Plus en détail

Performances. Gestion des serveurs (2/2) Clustering. Grid Computing

Performances. Gestion des serveurs (2/2) Clustering. Grid Computing Présentation d Oracle 10g Chapitre VII Présentation d ORACLE 10g 7.1 Nouvelles fonctionnalités 7.2 Architecture d Oracle 10g 7.3 Outils annexes 7.4 Conclusions 7.1 Nouvelles fonctionnalités Gestion des

Plus en détail

SAN07 IBM Social Media Analytics:

SAN07 IBM Social Media Analytics: SAN07 IBM Social Media Analytics: Vos clients partagent leurs connaissances Déployez une stratégie gagnante! Eric Martin Social Media Analytics Leader Europe IBM SWG, Business Analytics @Eric_SMA 1 Le

Plus en détail

Les ressources numériques

Les ressources numériques Les ressources numériques Les ressources numériques sont diverses et regroupent entre autres, les applications, les bases de données et les infrastructures informatiques. C est un ensemble de ressources

Plus en détail

Le Web, l'entreprise et le consommateur. Françoise Soulié Fogelman francoise@kxen.com

Le Web, l'entreprise et le consommateur. Françoise Soulié Fogelman francoise@kxen.com Le Web, l'entreprise et le consommateur Françoise Soulié Fogelman francoise@kxen.com Forum "Quel futur pour le Web" Lyon, mardi 21 septembre 2010 THE DATA MINING AUTOMATION COMPANY TM Agenda Le Web un

Plus en détail

L écosystème Hadoop Nicolas Thiébaud ni.thiebaud@gmail.com. Tuesday, July 2, 13

L écosystème Hadoop Nicolas Thiébaud ni.thiebaud@gmail.com. Tuesday, July 2, 13 L écosystème Hadoop Nicolas Thiébaud ni.thiebaud@gmail.com HUG France 250 membres sur la mailing liste 30 présentations 9 meetups organisés, de 20 à 100 invités Présence de Cloudera, MapR, Hortonworks,

Plus en détail

Filière Fouille de Données et Décisionnel FDD (Data Mining) Pierre Morizet-Mahoudeaux www.hds.utc.fr/~pmorizet pierre.morizet@utc.

Filière Fouille de Données et Décisionnel FDD (Data Mining) Pierre Morizet-Mahoudeaux www.hds.utc.fr/~pmorizet pierre.morizet@utc. Filière Fouille de Données et Décisionnel FDD (Data Mining) Pierre Morizet-Mahoudeaux www.hds.utc.fr/~pmorizet pierre.morizet@utc.fr Plan Motivations Débouchés Formation UVs spécifiques UVs connexes Enseignants

Plus en détail

Les dessous des moteurs de recommandation

Les dessous des moteurs de recommandation Les dessous des moteurs de recommandation La personnalisation est un enjeu majeur du e-commerce aujourd hui. Elle réveille l esprit commerçant dans les boutiques en ligne en remettant le visiteur au cœur

Plus en détail

Acquisition des données - Big Data. Dario VEGA Senior Sales Consultant

Acquisition des données - Big Data. Dario VEGA Senior Sales Consultant Acquisition des données - Big Data Dario VEGA Senior Sales Consultant The following is intended to outline our general product direction. It is intended for information purposes only, and may not be incorporated

Plus en détail

BUSINESS INTELLIGENCE. Une vision cockpit : utilité et apport pour l'entreprise

BUSINESS INTELLIGENCE. Une vision cockpit : utilité et apport pour l'entreprise BUSINESS INTELLIGENCE Une vision cockpit : utilité et apport pour l'entreprise 1 Présentation PIERRE-YVES BONVIN, SOLVAXIS BERNARD BOIL, RESP. SI, GROUPE OROLUX 2 AGENDA Définitions Positionnement de la

Plus en détail

Qu est ce qu un réseau social. CNAM Séminaire de Statistiques Appliquées 13/11/2013. F.Soulié Fogelman 1. Utilisation des réseaux sociaux pour le

Qu est ce qu un réseau social. CNAM Séminaire de Statistiques Appliquées 13/11/2013. F.Soulié Fogelman 1. Utilisation des réseaux sociaux pour le Qui je suis Innovation Utilisation des réseaux sociaux pour le data mining Business & Decision Françoise Soulié Fogelman francoise.soulie@outlook.com Atos KDD_US CNAM Séminaire de Statistique appliquée

Plus en détail

Analytics Platform. MicroStrategy. Business Intelligence d entreprise. Self-service analytics. Big Data analytics.

Analytics Platform. MicroStrategy. Business Intelligence d entreprise. Self-service analytics. Big Data analytics. Business Intelligence d entreprise MicroStrategy Analytics Platform Self-service analytics Big Data analytics Mobile analytics Disponible en Cloud Donner l autonomie aux utilisateurs. Des tableaux de bord

Plus en détail

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation Base de données S. Lèbre slebre@unistra.fr Université de Strasbourg, département d informatique. Présentation du module Contenu général Notion de bases de données Fondements / Conception Utilisation :

Plus en détail

Vos experts Big Data. contact@hurence.com. Le Big Data dans la pratique

Vos experts Big Data. contact@hurence.com. Le Big Data dans la pratique Vos experts Big Data contact@hurence.com Le Big Data dans la pratique Expert Expert Infrastructure Data Science Spark MLLib Big Data depuis 2011 Expert Expert Hadoop / Spark NoSQL HBase Couchbase MongoDB

Plus en détail

Stages 2014-2015 ISOFT : UNE SOCIETE INNOVANTE. Contact : Mme Lapedra, stage@isoft.fr

Stages 2014-2015 ISOFT : UNE SOCIETE INNOVANTE. Contact : Mme Lapedra, stage@isoft.fr Stages 2014-2015 ISOFT : UNE SOCIETE INNOVANTE Contact : Mme Lapedra, stage@isoft.fr ISoft, éditeur de logiciels, est spécialisé dans l informatique décisionnelle et l analyse de données. Son expertise

Plus en détail

X2BIRT : Mettez de l interactivité dans vos archives

X2BIRT : Mettez de l interactivité dans vos archives Présentation Produit Présentation Produit X2BIRT : Mettez de l interactivité dans vos archives L accès à l information est capital pour les affaires. X2BIRT, la dernière innovation d Actuate, prend le

Plus en détail

Change the game with smart innovation

Change the game with smart innovation Change the game with smart innovation Master Thesis 2013 2014 Faculty of Science engineering 12/08/2012 Master Thesis proposal for the academic year 2013. TABLE OF CONTENTS Section Un Introduction... 3

Plus en détail

Il y a tellement de hype autour du big data que Gartner étudie un nouveau modèle ;-) Talend 2012 2

Il y a tellement de hype autour du big data que Gartner étudie un nouveau modèle ;-) Talend 2012 2 Big Data: au delà du Buzz Yves de Montcheuil @ydemontcheuil Il y a tellement de hype autour du big data que Gartner étudie un nouveau modèle ;-) Talend 2012 2 Hype Cycle Gartner Talend 2012 3 Big Data

Plus en détail

Recherche et Diffusion de l Information dans les Réseaux. Philippe Robert. Le 8 avril 2014

Recherche et Diffusion de l Information dans les Réseaux. Philippe Robert. Le 8 avril 2014 Recherche et Diffusion de l Information dans les Réseaux Philippe Robert Le 8 avril 2014 Présentation Présentation Directeur de recherche à l INRIA Responsable de l équipe de recherche Réseaux, Algorithmes

Plus en détail

Introduction. Les articles de la presse spécialisée tendent à nous laisser penser que c est en effet le cas :

Introduction. Les articles de la presse spécialisée tendent à nous laisser penser que c est en effet le cas : Introduction Le CRM se porte-t-il si mal? Les articles de la presse spécialisée tendent à nous laisser penser que c est en effet le cas : «75 % de projets non aboutis» «La déception du CRM» «Le CRM : des

Plus en détail

Introduction Que s est-il passé en 2014? Qu attendre de 2015?

Introduction Que s est-il passé en 2014? Qu attendre de 2015? Les grandes tendances Data & Analytics 2015 L épreuve de la réalité janvier 2015 Introduction Que s est-il passé en 2014? Qu attendre de 2015? 2014 a confirmé l intérêt croissant pour la donnée au sein

Plus en détail

Guide de référence pour l achat de Business Analytics

Guide de référence pour l achat de Business Analytics Guide de référence pour l achat de Business Analytics Comment évaluer une solution de décisionnel pour votre petite ou moyenne entreprise : Quelles sont les questions à se poser et que faut-il rechercher?

Plus en détail