SR04 ETUDE : Les réseaux dans le big data

Dimension: px
Commencer à balayer dès la page:

Download "SR04 ETUDE : Les réseaux dans le big data"

Transcription

1 UNIVERSITÉ DE TECHNOLOGIE DE COMPIÈGNE SR04 ETUDE : Les réseaux dans le big data Jaafar EL ALAMY, Nabil BOUABDALLAH, Frédéric CUNI, Meddy DECOUTURE 17 décembre 2015 Jaafar EL ALAMY, Nabil BOUABDALLAH, Frédéric CUNI, Meddy DECOUTURE - A15 1

2 Table des matières 1 Naissance et évolution du Big Data Naissance du Big Data Les technologies liées au Big Data Les avantages du Big Data Business Intelligence et Business Analytics Business Intelligence jusqu à aujourd hui Business Intelligence de demain Batch Vs Real-time SPARK Spark Streaming et enjeux What is Spark? Spark Architecture Les réseaux pour le Big Data : besoins et limitations Solutions et techniques avancées IBM et le Big Data Analysez des volumes massifs de données Utilisation des compétences et solutions SQL existantes Switched Fabric les solutions reseau du point de vue de Juniper Networks Cloud Computing Big Data Scalability (HDFS) Écriture d un fichier Lecture d un fichier Big Data requests (Map/Reduce) DataWarehouse d aujourd hui Base de données non relationnelles Pourquoi le NoSQL? Les familles de NoSQL Solutions à la problématique Big Data Solutions à la problématique Big Data : Cassandra Le modèle de données Réseaux SDN Comment fait-on? NAS FCoE SAN iscsi leaf-spine (leaf-spine architecture) Jaafar EL ALAMY, Nabil BOUABDALLAH, Frédéric CUNI, Meddy DECOUTURE - A15 2

3 Introduction Aujourd hui nous parlons de volumes de données en exaoctets, ce qui représente indubitablement une très haute volumétrie de «data». Les prévisions annoncent qu à l horizon 2020 nous parlerons de zétaoctets : nous assistons à une vraie explosion. L évolution rapide du volume des données provient de la multiplicité des objets connectés, en constante croissance, allant de pair avec l accès de plus en plus massif à l information et des échanges de toutes ces données. Le terme de Big Data a été évoqué par le cabinet d études Gartner en 2008 mais des traces de la genèse de ce terme remontent à 2001 et ont été évoquées par le cabinet Meta Group. Dans un premier temps, nous allons étudier la naissance et l évoluton du Big Data, les besoins auxquels il répond et dans quel cadre il est utilisé. Par la suite, nous allons évoquer les besoins materiels et les limitations intrinsèques aux réseaux dans le cadre du Big Data. Enfin, nous allons nous intéresser aux éventuelles solutions et techniques avancées. Jaafar EL ALAMY, Nabil BOUABDALLAH, Frédéric CUNI, Meddy DECOUTURE - A15 3

4 1 Naissance et évolution du Big Data 1.1 Naissance du Big Data La multiplication des objets connectés générant des données massives, ainsi que la démocratisation indubitable des outils d analyse de données font du Big Data une véritable révolution dans de nombreux domaines tels que l analyse des comportements et des prévisions que ce soient pour des applications grand public ou industrielles.voici des chiffres représentatifs du volume des données : - En 2011 : 1,2 trillion GB de données. Ce chiffre va être multiplié par 50 à l horizon de Chaque minute Google reçoit plus de de requêtes - 72 heures de vidéos sont mises sur Youtube chaque minute. - Il y a 217 nouveaux utilisateurs de l Internet Mobile chaque minute. - Les utilisateurs de Twitter envoient plus de Tweets chaque minute. Ce qui représente plus de 140 millions par jour. - Les entreprises et organisations reçoivent en moyenne plus de «Likes» chaque minute sur les réseaux sociaux. Les entreprises ont accès à de vastes «pools» de données, collectées, notamment dans le cas des opérateurs téléphoniques, depuis les terminaux de leurs abonnés. Les entreprises ont ainsi accès à des bases de données gigantesques historiques très peu exploitées, organisées en silo. Le Big Data intervient comme une solution miracle pour exploiter le potentiel enfoui. Avec les données inutilisées, peuvent se dégager des lignes de revenus sur un marché en constante évolution et de plus en plus sous pression et concurrence. Concrètement, le Big Data met en exergue la collection et l analyse de grands ensembles de données qui peuvent potentiellement contenir de l intelligence (user data, sensor data, machine data). Le Big Data va donc apporter des avantages compétitifs certains, suggérer de nouvelles perspectives en terme de business et permettre d explorer de nouveaux marchés. Le Big Data découle directement du très grand volume de données, en croissance exponentielle, structurées ou non, inondant les entreprises quotidiennement. Ce ne sont pas les données intrinsèquement qui posent la problématique du Big Data mais l utilisation des ces données massives et la nécessité de croiser de l information. En effet, il est important de comprendre les 3V du Big Data Volume, Vitesse et Variété pour se rendre compte de l importance et du poids de ce paradigme. Jaafar EL ALAMY, Nabil BOUABDALLAH, Frédéric CUNI, Meddy DECOUTURE - A15 4

5 Volume Le volume est relatif à la très grande quantité de données générées par des entreprises ou des personnes. Le Big Data est généralement associé à la volumétrie des données. Les entreprises, tous secteurs d activité confondus, manifestent de plus en plus le besoin de trouver des moyens pour de la gestion de volumes de données quotidiennement en constante augmentation. Il n est pas sans être très fréquent d avoir des entreprises dotées de catalogues de plus de 15 millions de produits et d un volume de données relatives à des clients pouvant aisément dépasser le téraoctet de données. Vitesse La vitesse est relative à la fréquence à laquelle les données sont générées, capturées et partagées. Les évolutions technologiques récentes mettent en exergue que les consommateurs mais aussi les entreprises génèrent de plus en plus de données dans des temps bien plus courts. À ces vitesses, les entreprises ne peuvent pas capitaliser sur ces données, à moins qu elles soient collectées et partagées en Real-Time. C est exactement à ce stade que de nombreux systèmes d analyse, de CRM, de personnalisation, de point de vente ou autres, échouent malheureusement. Ils ne peuvent traiter les données que par lots, à des intervalles de quelques heures, dans le meilleur des cas de figure. Or, ces données n ont alors déjà plus de valeur puisque le cycle de génération de nouvelles données a dors et déjà commencé. Variété La prolifération de types de données provenant de différentes sources comme les social networks, les terminaux mobiles, les différents objets connectés et autres, crée une très grande diversité au-delà des données transactionnelles traditionnelles. Les nouveaux types de données incluent contenus, données géo spatiales, points de données matériels, données de géolocalisation, données de connexion, données générées par des machines, données de mesures, données mobiles, points de données physiques, processus, données RFID, données issues de recherches, données de confiance, données de flux, données issues des médias sociaux, données texte, données issues du Web et d autres... Jaafar EL ALAMY, Nabil BOUABDALLAH, Frédéric CUNI, Meddy DECOUTURE - A15 5

6 FIGURE 1.1 Les 3V du Big Data Aujourd hui nous éprouvons le besoin de structurer les données et de les rendre facilement accessible. Le big Data introduit la notion de valeur de la donnée (certains parlent de 4eme V pour Valeur). En effet, l hétérogénéité des données sous entend qu il faut être capable d adresser de nouvelles sources, d exploiter les logs de sites web, de déterminer des centres d intérêts d utilisateurs et bien d autres choses. Toutefois, il faut garder a l esprit que les données ont une qualité et que toutes ne sont pas porteuses d informations utiles. Les données sont incertaines, il faut s assurer de la cohérence, de la fiabilité, de la qualité et de la prédictibilité des données. International Data Corporation (IDC) prévoit que le marché des technologies et services du Big Data atteindra plus de $16.9 milliards en fin En effet, penser Big Data implique de reconsidérer les technologies de bases de données, la mise en place de systèmes tels qu Hadoop ou MapReduce, la prise en compte des capacités des serveurs, et des mémoires à disposition et de reconsidérer également l infrastructure des réseaux Des cas d utilisation du Big Data : Les entreprises du domaine de la finance utilisent le Big Data pour améliorer leur capacité à analyser leurs clients dans le but de déterminer l éligibilité pour un crédit par exemple. Les entreprises de transports utilisent le Big Data dans le but d avoir un tracking de la consommation du fuel, en fonction des «traffic patterns», en real time pour améliorer l utilisation des véhicules dans le but de réduire les coûts autant que faire se peut. Dans le monde médical, le Big Data permet d évaluer précisément l efficacité des médicaments. Les entreprises utilisent de plus en plus le Big Data pour une meilleure compétitivité face à la concurrence, pour prédire la production et la croissance d un produit donné ou encore pour satisfaire au mieux les clients. Jaafar EL ALAMY, Nabil BOUABDALLAH, Frédéric CUNI, Meddy DECOUTURE - A15 6

7 1.2 Les technologies liées au Big Data L infrastructure accompagnant le Big Data propose une autre conception de la façon avec laquelle les systèmes, le stockage mémoire et l infrastructure logicielle sont connectés et mis en place. Contrairement aux solutions qui existaient, en terme de Business Analytics, les solutions qui accompagnent le Big Data permettent d exploiter des données très volumineuses en Real-Time. Ceci constitue indubitablement un avantage de taille pour les entreprises. En effet, la manière et la vitesse de prise de décisions decision making au sein des entreprises changent considérablement avec le Big Data. Dans le but d analyser les hautes volumétries de données hétérogenes, les technologies sont de trois type : une accélération matérielle à l aide de mémoires dynamiques DRAM ou Flash, le recours à des bases de données massivement parallèles (Massively Parallel Processing) ou encore des solutions utilisant des formats de bases de données non relationnelles basées sur NoSQL. Toutefois, pour reussir le challenge du Big Data, il y a deux axes a joindre : Axe Technologique : Mise en place d infrastructures massivement paralleles, de grandes capacités de mémoire/ de stockage, un empilement de serveurs... A cela s ajoute une capacité des data warehouses (entrepots de données) a absorber les redondances d informations (interdite dans les bases de données usuelles) Axe Métier : Bien organiser les données de maniere sémantique. En effet, les designers chez Renault par exemple, parlent de toits de voiture sachant que les ingénieurs mécaniciens parlent de pavillons. Un des apports du big data est de justement chercher ces croisements afin de traiter la donnée «toit» et «pavillon» de la meme maniere. Le role de l ingénieur Data est primordial pour que les technologies soient utilisées efficacement. Il choisit la bonne solution au bon moment : Picking the right tool for the right usecase. Nous parlons alors de Polyglot Persistence. Jaafar EL ALAMY, Nabil BOUABDALLAH, Frédéric CUNI, Meddy DECOUTURE - A15 7

8 1.3 Les avantages du Big Data Le Big Data est désormais perçu comme étant une révolution Data-Centric du mode organisationnel des entreprises. En effet, le partage croissant d informations liées aux habitudes, aux préférences ou aux attentes des consommateurs a donné naissance au Big Data. Cette masse de données peut être mise à profit par les entreprises pour mieux répondre à leurs clients. Elle peut présenter un important avantage concurrentiel entres autres. Enormément utilisé par les professionnels du marketing, le Big Data à un pouvoir d attraction de plus en plus important sur les entreprises. Elles l intègrent peu à peu dans leurs stratégies BtoC ou BtoB. La demande d information est telle que les entreprises doivent pouvoir accéder rapidement aux données et mener en temps réel les analyses qui leur offriront une meilleure chance de réagir à l évolution des tendances. 1.4 Business Intelligence et Business Analytics Business Intelligence jusqu à aujourd hui La Business Intelligence (l informatique décisionnelle) est une méthode, très utilisée en entreprise, qui aide à la prise de décision. Traditionnellement centrée sur les questions comptables, (consolidation et planification budgétaire), le champ de la BI s est petit à petit étendu à l ensemble des grands domaines de l entreprise, de la gestion de la relation client à la gestion de la chaîne logistique en passant par les ressources humaines. En effet, toutes les données structurées provenant du système transactionnel sont collectées, nettoyées et stockées dans des bases de données multidimensionnels (datawarehouse), par le biais d outil ETL (Extract, Transform, Load), qui assurent la centralisation des données en provenance des différentes sources de l entreprise. Ces informations sont ensuite structurées, historiées et organisées. Elles sont éventuellement rangées au sein de datamarts, c est-à-dire de sous-référentiels de données ou vues par métier de l entreprise (service client, etc.). Ces divers traitements permettent aux outils d analyse d accéder ensuite au datawarehouse plus facilement. De là découle l analyse des données qui va permettre de comprendre le passé et analyser le présent dans le but de devenir plus compétitif et d avoir une valeur ajoutée supérieur que précédemment. Pour se faire, les données sont analysées selon différents moyens : reporting : présentation périodique de rapports et bilans analytiques sur les activités et résultats d une entreprise, cube : une vue restreinte (du point de vue des dimensions) mais intelligente des données de l entreprise, donnant toutes les combinaisons possibles pour les dimensions concernées. data-mining : méthodes d analyses permettant de mettre en exergue les corrélations possibles et d en expliquer la raison Jaafar EL ALAMY, Nabil BOUABDALLAH, Frédéric CUNI, Meddy DECOUTURE - A15 8

9 L expertise métier chargée d analyser ces données est communement appelée Business Analytics. Cette discipline consiste à utiliser les données de l entreprise pour informer les prises de décisions stratégiques et optimiser les processus de l entreprise en produisant des indicateurs de performance et de compréhension. FIGURE 1.2 Processus global de traitement des données d un système décisionnel Business Intelligence de demain Avec l arrivée imminente du Big Data, cette version de la Business Intelligence tend a être révolue et à devoir s adapter. En effet, cette version n inclue pas les données semistructurées ou non-structurées fournis par le Big Data, dans la mesure où l on pensait que les données structurées suffisaient dans la prise de décision. Ces données non-structurées ou semi-structurées ont une importance majeure de nos jours. Ils peuvent correspondre au fichiers de Logs, au Blogs, au réseaux sociaux, aux articles de presses,... Tant d éléments primordiaux à prendre en compte, et qui ne le sont pas avec la Business Intelligence d aujourd hui. Par conséquent, le volume de données à analyser en entreprise est en croissance exponentielle et on ne peut plus se contenter de les stocker dans un entrepôt de données. On a alors vu apparaître de nouvelles technologies telles que Hadoop, qui permet le traitement d un très grand nombre de données sur un cluster, composé de beaucoup de machines. HDFS (Hadoop Distributed File System) est un système de fichiers Java utilisé pour stocker des données structurées ou non sur un ensemble de serveurs distribués. Les fichiers vont être au préalable diviser par paquets avec d être stockés. On peut également citer MapReduce qui est un framework permettant l exécution d un calcul (requête) distribuée. Jaafar EL ALAMY, Nabil BOUABDALLAH, Frédéric CUNI, Meddy DECOUTURE - A15 9

10 De nouveaux entrepôts de données ont vus le jour comme Apache Hive, qui permet d interroger et d analyser des ensembles de données volumineux stockés dans des fichiers Hadoop ; ainsi que des bases de données NoSQL c est à dire non relationnelle tel que Hbase(coeur d Hadoop), MongoDB Une nouvelle structure de la Business Intelligence adaptée au Big Data est alors mise en place. FIGURE 1.3 Business Intelligence traditionnelle et adaptée au Big Data Jaafar EL ALAMY, Nabil BOUABDALLAH, Frédéric CUNI, Meddy DECOUTURE - A15 10

11 1.5 Batch Vs Real-time Dans le domaine du big data, nous différencions deux types de traitements. Les traitements dits en batch et ceux en real-time. Les traitements en real-time comme le nom l indique sont des traitements que des données qui arrivent en temps réelles. En ce qui concerne les traitements en batch, ce sont ceux réalisés sur des données statiques, accumulées dans le temps. 1.6 SPARK Spark Streaming et enjeux La plupart des systèmes à l échelle de l Internet ont des exigences de données en temps réel autant que des exigences en traitement de données batch. Spark streaming est conçu dans le but de fournir des traitement en temps réel avec environ une seconde de latence. Parmi les applications les plus couramment utilisées avec de telles exigences nous pouvons citer les statistiques de sites Web / analyse, les systèmes de détection d intrusion, et filtres anti-spam What is Spark? Afin de comprendre Spark Streaming, il est important d avoir une bonne compréhension sur Spark lui-même Spark Architecture Spark est un système informatique de cluster open source développé dans l UC Berkeley Lab AMP. Le système vise à fournir des calculs rapides, écritures rapides, et des requêtes hautement interactives. Spark surpasse considérablement Hadoop MapReduce pour certaines classes de problèmes et fournit une interface interpréteur Ruby simple. Voir la figure ci dessous. Spark bat Hadoop en fournissant des primitives pour faire des calculs en mémoire ; évitant ainsi le goulot d étranglement d Entrée/sortie entre les jobs individuels d un flux de travail de MapReduce itératif, qui effectue plusieurs reprises des calculs sur le même jeu de données. Spark nous met à disposition une API en langage Scala, qui permet de manipuler des jeux de données distribuée comme s ils étaient des collections locales et assure le Jaafar EL ALAMY, Nabil BOUABDALLAH, Frédéric CUNI, Meddy DECOUTURE - A15 11

12 développement rapide et des tests à travers son interpréteur interactif (similaire à Python ou Ruby). Spark a également été élaboré pour soutenir l exploration de données de manière interactive, (en plus de l utilité évidente pour les algorithmes itératifs). Au-delà de ces spécificités Spark est bien adapté pour la plupart des opérations et des calculs de transformation sur des données. En outre, Spark est conçu pour tourner sur le dessus du gestionnaire de cluster Mesos Apache. Cela permet à Spark de fonctionner sur un cluster côte-à-côte avec d autres applications telles que Hadoop, Message Passing Interface (MPI), Hypertable, et bien d autres. Cela permet aux entreprises de développer des workflows hybrides qui peuvent bénéficier de deux modèles de flux de données, avec les coûts, la gestion, et les problèmes d interopérabilité qui seraient aussi important que si on utilisait des clusters indépendants. Jaafar EL ALAMY, Nabil BOUABDALLAH, Frédéric CUNI, Meddy DECOUTURE - A15 12

13 1.7 Les réseaux pour le Big Data : besoins et limitations Tout au long des 20 dernières années, l infrastructure des data centers a était conçue tel qu il y ait un accès aux données sécurisé et de très haute performance. L existence de tels silos de données et l infrastructure réseau associée, ont permis d avoir un bon acheminement du volume de données tout au long du «north-south traffic», ce qui correspond à un traffic full stack : de l utilisateur final, via son application, au système de stockage des données. Il s agit de ce que l on appelle l architecture trois-tiers. Ces dernières années, on parle de machine-to-machine network ou encore d «east-west traffic» dans le cadre du Big Data. En effet, on considère la distribution des données comme étant «horizontale» entre les nœuds du réseau. FIGURE 1.4 Traditional Data VS Big Data Contrairement aux grands ensembles de données qui étaient stockés et analysés, souvent dans des data warehouses, Big Data met en scène des données qui s ajoutent et se modifient en temps réel. Le fonctionnement des OLTP, online transaction processing, ou les outils d analyses SQL traditionnels n est pas adéquat dans le cadre du Big Data. En effet, le Big Data nécessite ce qu on appelle la Scalability, ou la Scalabilité. Cette notion désigne la capacité à s adapter au changement d ordre de grandeur tout en maintenant ses fonctionnalités et ses performances. Le Big data va de pair avec le facteur d échelle et l évolutivité. Hadoop va répondre, entre autres, à ce besoin de Scalability. La problématique du Big Data est la circulation et la collection de gros volumes de données, mais aussi son usage et l efficacité de son usage. Le Big Data répond à un besoin hypothétique : le besoin n est pas encore nécessairement présent, mais on espère pouvoir utiliser les données pour répondre à des besoins futurs. Un problème majeur du Big Data est donc d être capable de collecter ce grand volume de données, mais aussi dêtre capable de réstituer une information pertinente et répondant au problème futur de manière efficace, dans un temps raisonnable. Dû à la variété et la nature hétérogène des données collectées, avoir des automates et algorithmes capables d évoluer avec la nature des données est un des défis posés par le Big Data. Compte tenu du fait que les technologies de base ne suffisent pas, de grandes entreprises telles qu IBM, CISCO ou JUNIPER developpent continuellement des solutions technologiques avancées pour repondre aux besoins que souleve le Big Data. Nous allons donc voir les solutions et les techniques avancées dans le cadre du Big Data. Jaafar EL ALAMY, Nabil BOUABDALLAH, Frédéric CUNI, Meddy DECOUTURE - A15 13

14 2 Solutions et techniques avancées 2.1 IBM et le Big Data Analysez des volumes massifs de données IBM InfoSphere BigInsights offre un ensemble riche de fonctions d analyse avancées qui permettent aux entreprises d analyser à moindre coût des volumes massifs de données structurées et non structurées dans leur format natif. Le logiciel combine la solution open source Apache Hadoop avec des produits innovants d IBM, tels que l analyse de texte sophistiquée, IBM BigSheets pour l exploration des données et toute une gamme de fonctions de gestion de la performance, de la sécurité et d administration. Le résultat est une solution économique et conviviale pour l analyse complexe de volumes massifs de données Utilisation des compétences et solutions SQL existantes Les applications existantes dépendent de SQL pour l accès aux données stockées, et SQL constitue de facto le langage utilisé pour la recherche de données structurées ; par conséquent, les entreprises possèdent pour la plupart de solides compétences SQL. Les clients IBM souhaitent pouvoir utiliser leurs compétences SQL avec Hadoop afin de faciliter la mise en œuvre de leur projet, ainsi que l interopérabilité avec les outils et applications orientés SQL dont ils disposent. IBM permet donc d atteindre cet objectif grâce à IBM Big SQL, un système d entreposage de données pour Hadoop utilisé pour la synthèse, l interrogation et l analyse de données stockées dans InfoSphere BigInsights 2.1. Big SQL utilise les pilotes JDBC ou ODBC pour l accès aux données stockées dans InfoSphere BigInsights, de la même façon que les utilisateurs accèdent aux bases de données à partir de leurs applications d entreprise. Il est alors possible d utiliser le serveur Big SQL pour exécuter les requêtes SQL standard, et pour exécuter plusieurs requêtes simultanément Jaafar EL ALAMY, Nabil BOUABDALLAH, Frédéric CUNI, Meddy DECOUTURE - A15 14

15 Big SQL permet une prise en charge des requêtes ad hoc volumineuses, grâce à l utilisation du parallélisme MapReduce et des requêtes de point (qui renvoient rapidement les informations demandées grâce à leur faible latence, ce qui diminue le temps de réponse et offre un accès optimisé aux données). Le serveur Big SQL est multithread. Par conséquent, l évolutivité est uniquement limitée par les performances et le nombre d UC que compte l ordinateur exécutant le serveur. Si l on souhaite exécuter des requêtes plus volumineuses, nous pouvons augmenter les performances matérielles de l ordinateur (serveur) sur lequel fonctionne Big SQL, ou constituer une chaîne de serveurs Big SQL afin d augmenter les résultats obtenus. Big SQL permet à toute personne possédant des compétences SQL de devenir immédiatement opérationnelle, ce qui minimise les délais des projets et diminue l investissement financier associé. Grâce à Big SQL, toutes les données sont accessibles, ce qui permet de choisir le format de stockage le plus adapté à une application donnée. 2.2 Switched Fabric Switched Fabric fait référence à une topologie réseau dans laquelle les nœuds sont raccordés via des switchs ou commutateurs. L intérêt principal est que les switchs fabrics offrent souvent un débit global supérieur à ceux des réseaux traditionnels. Le terme «Fabric» est très récurrent dans le domaine des télécommunications et à plus forte raison dans le domaine des réseaux de stockage SAN en protocole Fibre Channel, ainsi que dans les réseaux haut-débit dont Infiniband. Le principe de Switched Fabric vient en fait en opposition à celui de l Ethernet et son principe historique de broadcasting. Il se définit également en opposition aux réseaux en anneaux. Une des forces de Fabric est en fait que le traffic est étendu sur de multiples liens physiques. Une des plus grande évolution dans l industrie du Networking est l introduction de réseaux Fabric point à point. Tout d abord, l architecture Fabric met en place une connexion point à point entre des nœuds à travers une logique de «single hop», ce qui réduit clairement la latence inter-nœuds. Par ailleurs, pour pouvoir obtenir de grandes performances avec un management du switching relativement facile, la virtualisation du Fabric est essentielle dans le sens où elle permet à plusieurs composants du réseau de se comporter comme un seul et unique composant. Jaafar EL ALAMY, Nabil BOUABDALLAH, Frédéric CUNI, Meddy DECOUTURE - A15 15

16 FIGURE 2.1 Switched Fabric 2.3 les solutions reseau du point de vue de Juniper Networks Relever les défis du Big Data imposent aux technologies et aux réseaux de prêter attentions aux paramètres suivant : Elasticité : il faut être capable de gérer des croissances très fortes en termes d utilisateurs et de données avec parfois une faible prédictibilité sans surinvestir dans de nouvelles infrastructures. Vitesse : il faut créer et mettre à jour des applications et des services en quelques jours ou semaines et non plus en mois ou années sans pour autant augmenter proportionnellement le personnel. Périmètre : il faut coordonner de nombreuses applications et sources de données provenant d environnements divers (environnements informatiques traditionnels, cloud privé hébergé ou non) parfois dans différentes régions sans sacrifier performance et intégrité des données. Le réseau doit s adapter pour offrir plus de performance comme il a pu le faire dans le passé mais il doit lui aussi opérer sa révolution. Il doit être de plus en plus programmable et automatisé afin de s aligner sur les cycles d innovation et de développement des applications. Il doit également progresser en qualité de service pour garantir le bon niveau d exécution à des applications métier. Enfin il faut que les solutions technologiques utilisent au mieux les infrastructures existantes et tirent ainsi parti des investissements passés. Dans une première phase, les fournisseurs se sont concentrés sur la virtualisation des serveurs tout en répondant à la croissance exponentielle des données stockées avec souvent pour conséquence une prolifération d environnements de stockage hétérogènes. Les premières initiatives de virtualisation du stockage ont été principalement dictées par une réduction des coûts d infrastructure et une augmentation des taux d utilisation. Actuellement sous l effet de la généralisation de la virtualisation des serveurs et des initiatives Cloud, l accent est porté sur l optimisation des infrastructures : les fournisseurs de Cloud les plus avancés (très fort taux de virtualisation des serveurs et forte croissance des Jaafar EL ALAMY, Nabil BOUABDALLAH, Frédéric CUNI, Meddy DECOUTURE - A15 16

17 volumes de données) prévoient que le taux de virtualisation du stockage dépassera 65% en Sous l effet de l évolution des métiers et de l augmentation des données stockées, les surfaces dédiées aux datacenters évolueront profondément avec des incidences très fortes sur les infrastructures réseaux intra-datacenter et inter-datacenters. Ainsi 62% des fournisseurs de Cloud (principalement les fournisseurs ayant plus de 100 serveurs physiques) ont des projets d augmentation de la surface dédiée à leurs datacenters. L initiative la plus plébiscitée est le recours à des offres de colocation qui offre des bénéfices certains en terme de flexibilité pour des investissements moindres comparés à la construction de datacenters en propre. Néanmoins, des projets lourds de construction de nouvelles infrastructures en région ou de consolidation ne sont pas mineurs. Une évolution nécessaire du réseau des datacenters Progresser en fiabilité : La fiabilité et la qualité au service des directions métiers et des clients est un critère essentiel de différentiation par rapport à la concurrence. Or la gestion de réseau en environnement cloud avec des taux très élevés de virtualisation est devenue extrêmement difficile : les trafics inter-serveurs deviennent très importants et peuvent générer des temps de latence pénalisants pour des applications critiques. De plus la sécurité en environnement cloud devient plus complexe et nécessite une attention toute particulière contre les dénis de services, la compromission de systèmes et les attaques contre les couches d abstraction. Améliorer le Time to Market et contribuer à l innovation : actuellement le provisionning de ressources informatiques (CPU, stockage, machines virtuelles..) peut s effectuer en quelques minutes alors que les délais pour la partie réseau peuvent se compter en semaines. Or le développement de solutions cloud, d applications mobiles et le lancement de projets Big Data utilisant souvent des méthodes agiles requièrent une meilleure réactivité de la part du réseau. Rendre la gestion opérationnelle du réseau plus efficace et plus simple : La gestion du réseau selon des méthodes traditionnelles se révèle trop statique et nécessite des procédures manuelles souvent complexes et longues. Qui plus est, les fournisseurs de Cloud ont souvent accumulé des couches de logiciels de gestion en fonction des cycles d investissements pour leurs datacenters et des équipements réseaux hétérogènes. Optimiser les investissements : Afin de répondre à des besoins en perpétuelle croissance et souvent difficiles à anticiper en environnement virtualisé, les responsables d infrastructures ont tendance à sur-dimensionner les ressources réseau. Une meilleure allocation permettrait d effectuer de meilleurs arbitrages financiers et de dégager des moyens pour d autres projets et usages. Jaafar EL ALAMY, Nabil BOUABDALLAH, Frédéric CUNI, Meddy DECOUTURE - A15 17

18 2.4 Cloud Computing Avec l émergence du Big Data de nos jours, on a tendance à lié cet notion avec la notion de Cloud Computing. Cependant, elle ne sont pas directement lié et l absence de l in n empêche pas l utilisation de l autre. Le Cloud Computing est une solution en vogue, de stockage massive de données sur internet, avec l abstraction de savoir où le traitement est effectué ou de se préoccuper des capacités de traitement. Ceci est géré le service proposant le Cloud et l utilisateur bénéficie des même espace de visualisation des données que s il s agissait d un disque dur interne. Les données sont simplement stockés au travers de l Internet sur des serveurs distants, permettant aux entreprises de faire abstraction des Datas Centers et ainsi dépenser moins d argent. En contre-partie, le Cloud ne permet pas de faire du Big Data, c est à dire d analyser un volume massive de données présent sur celui-ci. Les temps de calculs et d analyse seront trop élevés et il sera impossible d en tirer une satisfaction. Il faut donc prévoir un système de stockage qui permet de stocker les données ingénieusement dans le but d obtenir des traitements d analyse très rapide, actuellement impossible avec le Cloud.On peut parler de HDFS (Hadoop Distributed File System), explicité ci-dessous, comme moyen de réaliser ceci. Le Cloud serait par conséquent une source pour HDFS qui va utiliser les fichiers présents pour les partitionner sur plusieurs machine (cluster). Jaafar EL ALAMY, Nabil BOUABDALLAH, Frédéric CUNI, Meddy DECOUTURE - A15 18

19 2.5 Big Data Scalability (HDFS) Comme évoqué dans la partie 1, Business Intelligence, HDFS (Hadoop Distributed File System) est un système de fichiers Java utilisé pour stocker des données structurées ou non sur un ensemble de serveurs distribués. En d autres thermes, lorsque HDFS recueille une donnée ou un fichier, il la fragmente en plusieurs paquets, de taille imposé par Hadoop, et est distribué sur plusieurs nœuds du cluter(ensemble de machine). Chaque fragment est par conséquent copier sur un nœud du cluster, mais également sur d autres. Ainsi une copie est toujours a disposition dans l éventualité d une panne d un nœud. HDFS est développé pour supporter les applications avec de grands volumes de données, comme les fichiers individuels dont la quantité peut se compter en teraoctets. Il s adosse à une architecture maître / esclave, chaque cluster comprenant un NameNode unique sur le cluster. Il Stocke les informations relative aux noms de fichiers et à leurs caractéristiques de manière centralisée. Le NameNode supporte également les DataNodes qui stocke le contenu des fichiers fragmentés en blocs (64KB par défaut) Jaafar EL ALAMY, Nabil BOUABDALLAH, Frédéric CUNI, Meddy DECOUTURE - A15 19

20 Chaque DataNode sert de bloc de données sur le réseau en utilisant un protocole spécifique au HDFS. Le système de fichiers utilise la couche TCP/IP pour la communication. Les clients utilisent le Remote Procedure Call pour communiquer entre eux. FIGURE 2.2 Méthodologie HDFS HDFS permet ainsi le traitement en parallèle, c est à dire que lors de l exécution d une requête par exemple, chaque nœud va l exécuter avec ses données à disposition. Il permet notamment, la gestion des données Big Data, plus précisément le stockage d un grand nombres de données, en les répartissant par fragments, au sein d un cluster de plusieurs machines, en supportant les applications analytiques. Il permet l abstraction de l architecture physique de stockage, afin de manipuler un système de fichiers distribué comme s il s agissait d un disque dur unique. HDFS est, comme dit précédemment, insensible aux pannes de noeuds, car les framents de données sont copier sur plusieurs noeuds du cluster. Par défaut Hadoop impose que la données soit présent sur troix nœuds du cluster, donc met à disposition trois copies Écriture d un fichier Comme évoqué précédemment, lorsque le client souhaite créer un fichier sur HDFS, il doit contacter le NameNode, qui s occupe de la répartition et connait tous les fichiers présents sur le cluster, en lui indiquant la taille et le nom du fichier à écrire. Le NameNode confirme la demande et indique au client de fragmenter le fichier en blocs, et d envoyer tel ou tel bloc à tel ou tel DataNode. Le client envoie les fragments aux Data- Node. Les DataNodes assurent ensuite la réplication des blocs. Jaafar EL ALAMY, Nabil BOUABDALLAH, Frédéric CUNI, Meddy DECOUTURE - A15 20

21 FIGURE 2.3 Principe d écriture d un fichier dans HDFS Lecture d un fichier Pour la lecture d un fichier, le client contacte le NameNode du cluster, en indiquant le fichier qu il souhaite obtenir. Le NameNode lui indique la taille en blocs du fichier, et pour chaque bloc une liste de DataNodes susceptibles de lui fournir. Le client contacte ensuite les DataNodes en question pour obtenir les blocs, qu il reconstitue sous la forme du fichier.en cas de DataNode inaccessible/autre erreur pour un bloc, le client contacte un DataNode alternatif de la liste pour l obtenir. FIGURE 2.4 Principe de lecture d un fichier dans HDFS Jaafar EL ALAMY, Nabil BOUABDALLAH, Frédéric CUNI, Meddy DECOUTURE - A15 21

22 2.6 Big Data requests (Map/Reduce) MApReduce est un framework permettant de lire, écrire et traiter un grand volume de données stockés, par exemple, selon HDFS expliqué précédemment. Dans HDFS, nous avons vu que les données étaient distribuées sur plusieurs nœuds, avec trois copies disponible sur trois nœuds différents. MapReduce utilise se principe. La requête, ou tâche map/reduce, demandée est initialisée dans le nœud maître défini par HDFS, appelé NameNode dans ce-dernier et JobTracker dans MapReduce. Le JobTracker reçoit les tâches map/reduce à exécuter (sous la forme d une archive Java.jar) et organise leur exécution sur le cluster en envoyant la tâche demandée ou job aux noeuds TaskTracker. Il est en communication permanente avec HDFS, sait où sont les données d entrée du programme map/reduce et où doivent être stockées les données de sortie. Il peut ainsi optimiser la distribution des tâches selon les données associées. Les TaskTracker vont chacun exécuté le travail map/reduce sur les données dont ils disposent. On obtiendra ainsi un ensemble de résultat, qui est le principe de la fonction Map. Ensuite les différents résultats seront ensuite agrégés au niveau de chaque nœuds, on parle alors de reducer. Chaque reducer va ensuite envoyé son résultat au noeud maître, qui va se charger de les agréger et de donner en sortie le résultat de la requête. C est la fonction reduce. Le résultat est écris dans un fichier au sein d HDFS. FIGURE 2.5 Méthodologie MapReduce Dans un traitement Map/Reduce, il y a quatres étapes distinctes. Découper (split) les données d entrée en plusieurs fragments Mapper chacun de ces fragments pour obtenir des couples (clef ; valeur) Grouper (shuffle) ces couples (clef ; valeur) par clef Réduire (reduce) les groupes indexés par clef en une forme finale, avec une valeur pour chacune des clefs distinctes Jaafar EL ALAMY, Nabil BOUABDALLAH, Frédéric CUNI, Meddy DECOUTURE - A15 22

23 Prenons l exemple de recherche du nombre d itération de mots contenu dans un texte. Ce texte est fragmenter sur plusieurs noeuds par bloc, mais le principe Map/Reduce est le même sur tous les noeuds. Premièrement, une méthode de découpe consisterait à découper les données d entrées, présent dans le bloc, ligne par ligne. Vient ensuite la fonction Map qui parcoure le fragment d entrée et, pour chacun des mots, génère un couple clef/valeur (Mot ; 1). L opération de groupement est ensuite effectué qui groupe tous les couples par clef commune ((Mot1 ; 1))((Mot2 ; 1)(Mot2 ; 1)). Puis la fonction reduce qui additionne toutes les valeurs liées à la clef spécifiée. (Mot1 : 1)(Mot2 : 2). Ces valeurs sont ensuite retournées au nœud maître, le JobTracker, qui va additionner toutes les valeurs retournées par tous les nœuds et écrire un résultat dans HDFS. 2.7 DataWarehouse d aujourd hui Comme evoqué précédemment, Hadoop HDFS permet le stockage massive de données sur un cluster de machines. Map/Reduce permet d effectuer des requêtes très dynamiques sur les fichiers présent dans HDFS et permet un gain de rapidité et d efficacité grâce à son architecture. Cependant, Map/Reduce nécessite des développement bas niveau qui sont difficiles à maintenir et à réutiliser. C est la raison pour laquelle Apache a créé un outil Hive qui permet de palier à cette problématique. Hive est un entrepôt de donnée (DataWarehouse) qui propose un langage de haut niveau, le HSQL pour interagir avec un cluster Hadoop, ou des données provenant de bases de données externes, dans le but réaliser des analyses sur une masse importante de données. L utilisateur peut ainsi utiliser un langage proche du SQL pour effectuer des requêtes Map/Reduce, des opérations de sélections de jointure,... Hive permet ainsi de construire un DataWarehouse provenant d un nombre élevé de donnée contenu dans HDFS ou autre, et permet également de réaliser des opérations analytiques telles que le Reporting, le Data Mining la détection de Spam ou encore faire de l optimisation. Une alternative à Hive est Pig, un DataWarehouse également, se rapprochant plus d un ETL où l on part d un ou plusieurs flux de données que l on transforme étape par étape jusqu à atteindre le résultat souhaité. Les différentes étapes de la transformation sont exprimés dans un langage procédural (Pig Latin). Il est plus adapté à l univers de l informatique décisionnelle où dominent les représentations orientées flux de données couplées à un processus d élaboration par étape. 2.8 Base de données non relationnelles Une émergence des bases de données non relationnelles (NoSQL), tels que MongoDb ou Hbase, est au cœur de la thématique du Big Data. Les bases nosql permettent l abstraction du modèle relationnel et la rende plus performante. Nous avons vus que Hive est un DataWarehouse permettant le traitement et l analyse de Jaafar EL ALAMY, Nabil BOUABDALLAH, Frédéric CUNI, Meddy DECOUTURE - A15 23

24 données dans un cluster HDFS ou dans des bases de données (relationnelles ou non). Les bases NoSQL servent ici, à la construction de Datamarts à partir de Hive ou HDFS directement lorsque l on n utilise pas Hive, mais également la possibilité de faire des cubes. Ce sont des outils d analyses très performants qui seront pré-visualiser des indicateurs de conclusion ou de prévision sur des données Big Data Pourquoi le NoSQL? Le NoSQL est apparu afin de contrer la dominance des bases de données relationnelles dans le domaine de l internet. En effet, un des problème récurrent des bases de données relationnelles est la perte de performance lorsque l on doit traiter un très gros volume de données. De plus, la multiplication des architectures distribués a apporté le besoin de disposer de solution s adaptant nativement aux mécanismes de réplication des données et de gestion de la charge Les familles de NoSQL Le NoSQL regroupe 4 grandes familles de base de données qui permettent d offrir une représentation différentes des données, chacune dispose d avantages et d inconvénients en fonction du contexte dans lequel on souhaite l utiliser. Parmi celle-ci on trouve les bases de données clé-valeur. La représentation en clé-valeur est la plus simple et est très adaptée aux caches ou aux accès rapides aux informations. Cette représentation permet en général d atteindre des performances bien supérieures dans la mesure où les lectures et écritures sont réduites à un accès disque simple. On trouve 3 différentes implémentations : Riak, Redis et Voldemort. Il existe ensuite les bases de données orientées colonnes. Le réprésentation orientée colonnes est celle qui se rapproche le plus des tables dans une base de données relationnelles. Elles permettent d être beaucoup plus évolutive et flexible puisqu on peut disposer de colonnes différentes pour chaque ligne. On trouve 2 types d implémentations : HBase et Cassandra. Il y a ensuite les bases de données orientées document. Jaafar EL ALAMY, Nabil BOUABDALLAH, Frédéric CUNI, Meddy DECOUTURE - A15 24

25 La représentation orientée document est plus adaptée au monde de l internet. Cette représentation est très proche de la représentation clé-valeur à l exception faite que la valeur est représentée sous la forme d un document. On peut retrouver dans ce document les données organisées de manière hiérarchique comme ce que l on trouve dans un fichier XML ou JSON. On trouve 2 types d implémentations : CouchDB et MongoDB. Pour finir il existe les bases de donées orientées graphe. La représentation orientées graphe est pour palier à des problèmes impossibles à résoudre avec des BDD relationnelles. Le cas d utilisation typique est bien sur les réseaux sociaux où l aspect graphe prend tout son sens, mais aussi où des relations complexes entre les acteurs ont besoin d être décrits. On trouve 3 implémentations différentes : Neo4j, HypergraphDB et FlockDB. 2.9 Solutions à la problématique Big Data Nous avons vus précédemment plusieurs solutions qui permettent traiter la problématique Big Data. Nous avons d abord HDFS, qui permet le stockage distribué de données sur un cluster. Des fonctions Map/Reduce vont permettrent d analyser le grand volume de données contenus dans HDFS ou dans des bases de données extérieurs. Cependant Map/Reduce est un langage assez compliquer à mettre en oeuvre, c est pourquoi on à la création de Hive ou Pig, des DataWarehouse permettant d écrire des fonctions Map/Reduce en langage de haut niveau, de faire des opérations de sélection, jointure,..., et de stocker ces informations dans un DataWarehouse. Des bases de données non-relationnelles permettant une analyse de données très performante sur des données présentent dans Hive ou directement dans HDFS. Jaafar EL ALAMY, Nabil BOUABDALLAH, Frédéric CUNI, Meddy DECOUTURE - A15 25

26 FIGURE 2.6 Schéma de solution Big Data 2.10 Solutions à la problématique Big Data : Cassandra Cassandra est une base de données NoSQL appartenant à la famille des bases de données orientées colonnes. Cassandra est un projet lancé par Facebook en 2007 qui avait atteint les limites des bases de données relationnalles, c est pour cela qu ils ont décidé de créer leur propre base de données répondant à leurs besoins. Après 2 ans de développement, ils ont décidé de l offrir au monde du libre c est donc devenu un projet open source appartenent à la fondation Apache en Cassandra reprend les conceptes de 2 bases de données existantes. La première BigTable, créé par Google, pour son modèle de données orienté colonne et son mécanisme de persistance sur disque, et la seconde Dynamo, créé par Amazon, pour son achitecture distribuée sans noeud maître. Plusieurs grandes sociétés utilisent Cassandra pour leur application grand public. C est le cas de Facebook, Twitter, Digg, Cisco WebEx, IBM, etc. Cassandra est très rapide pour manipuler un volume important de données. Elle permet d avoir des schémas de données flexible grâce à sa représentation en colonnes. De plus son achitecture lui permet d évoluer sans problème dans un environnement distribué, elle intégre des mécanismes de réplication de données et la possibilité de mettre en cluster plusieurs serveurs Cassandra. Jaafar EL ALAMY, Nabil BOUABDALLAH, Frédéric CUNI, Meddy DECOUTURE - A15 26

27 Pour ses accès disque, Cassandra privilégie toujours les accès séquentiels aux accès aléatoires, ce qui permet d éviter une partie des latences importantes dues aux mécaniques des disques durs. Ainsi, lors d une écriture, les données ne sont pas écrites directement sur disque mais stockées dans une table en mémoire ; un ajout dans un commitlog se comportant en append-only (et donc de manière séquentielle) permet d assurer la durabilité de l écriture. Lorsque la table en mémoire est pleine, elle est écrite sur le disque. La principale limitation concernant les tailles des colonnes et des super-colonnes, toutes les données pour une valeur de clé, doivent tenir sur le disque d une seule machine. Parce que la valeur des clés seules détermine les noeuds responsable de la réplication des données, la quantité de données associées à une clé a cette limitation Le modèle de données Présentation Pour bien comprendre le modèle de données utilisé par Cassandra il est important de définir un certain nombre de termes utilisés par la suite. Tout d abord lekeyspace s apparente à un namespace c est en général le nom donné à votre application. Ensuite, les Column Familly est ce que ressemble le plus aux tables en SQL. Une Key est une clé qui va représenter une ligne. Les Column représente une valeur, elles disposent de 3 champs : son nom, sa valeur et un timestamp représentant la date à laquelle a été inséré cette valeur. Et pour finir, les Super Column qui contiennent une liste de colonnes. Afin de comprendre au mieux la représentation j utiliserai dans la suite des illustrations avec des exemples concrèts d insertion d information en base. Pour cela je me baserai sur une implémentation en JAVA non complète mais qui permet d avoir une bonne vision du modèle de représentation. Les colonnes Les données sont représentées en colonne comme le montre l image ci-dessous. Dans une colonne on trouve 3 champs, son nom, sa valeur associée et un entier représenter la date à laquelle la donnée a été inséré dans la colonne. Jaafar EL ALAMY, Nabil BOUABDALLAH, Frédéric CUNI, Meddy DECOUTURE - A15 27

L écosystème Hadoop Nicolas Thiébaud ni.thiebaud@gmail.com. Tuesday, July 2, 13

L écosystème Hadoop Nicolas Thiébaud ni.thiebaud@gmail.com. Tuesday, July 2, 13 L écosystème Hadoop Nicolas Thiébaud ni.thiebaud@gmail.com HUG France 250 membres sur la mailing liste 30 présentations 9 meetups organisés, de 20 à 100 invités Présence de Cloudera, MapR, Hortonworks,

Plus en détail

Cartographie des solutions BigData

Cartographie des solutions BigData Cartographie des solutions BigData Panorama du marché et prospective 1 1 Solutions BigData Défi(s) pour les fournisseurs Quel marché Architectures Acteurs commerciaux Solutions alternatives 2 2 Quels Défis?

Plus en détail

Les technologies du Big Data

Les technologies du Big Data Les technologies du Big Data PRÉSENTÉ AU 40 E CONGRÈS DE L ASSOCIATION DES ÉCONOMISTES QUÉBÉCOIS PAR TOM LANDRY, CONSEILLER SENIOR LE 20 MAI 2015 WWW.CRIM.CA TECHNOLOGIES: DES DONNÉES JUSQU'À L UTILISATEUR

Plus en détail

Labs Hadoop Février 2013

Labs Hadoop Février 2013 SOA - BRMS - ESB - BPM CEP BAM - High Performance Compute & Data Grid - Cloud Computing - Big Data NoSQL - Analytics Labs Hadoop Février 2013 Mathias Kluba Managing Consultant Responsable offres NoSQL

Plus en détail

HADOOP ET SON ÉCOSYSTÈME

HADOOP ET SON ÉCOSYSTÈME HADOOP ET SON ÉCOSYSTÈME Mars 2013 2012 Affini-Tech - Diffusion restreinte 1 AFFINI-TECH Méthodes projets Outils de reporting & Data-visualisation Business & Analyses BigData Modélisation Hadoop Technos

Plus en détail

Bases de données documentaires et distribuées Cours NFE04

Bases de données documentaires et distribuées Cours NFE04 Bases de données documentaires et distribuées Cours NFE04 Cloud et scalabilité Auteurs : Raphaël Fournier-S niehotta, Philippe Rigaux, Nicolas Travers prénom.nom@cnam.fr Département d informatique Conservatoire

Plus en détail

NoSQL. Introduction 1/23. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)

NoSQL. Introduction 1/23. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur) 1/23 2/23 Anne-Cécile Caron Master MIAGE - BDA 1er trimestre 2013-2014 I : Not Only SQL, ce n est pas du relationnel, et le contexte d utilisation n est donc pas celui des SGBDR. I Origine : recherche

Plus en détail

Panorama des solutions analytiques existantes

Panorama des solutions analytiques existantes Arnaud LAROCHE Julien DAMON Panorama des solutions analytiques existantes SFdS Méthodes et Logiciels - 16 janvier 2014 - Données Massives Ne sont ici considérés que les solutions autour de l environnement

Plus en détail

AVRIL 2014. Au delà de Hadoop. Panorama des solutions NoSQL

AVRIL 2014. Au delà de Hadoop. Panorama des solutions NoSQL AVRIL 2014 Panorama des solutions NoSQL QUI SOMMES NOUS? Avril 2014 2 SMILE, EN QUELQUES CHIFFRES 1er INTÉGRATEUR EUROPÉEN DE SOLUTIONS OPEN SOURCE 3 4 NOS EXPERTISES ET NOS CONVICTIONS DANS NOS LIVRES

Plus en détail

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars 2013. 20 ans du SIAD -"Big Data par l'exemple" -Julien DULOUT

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars 2013. 20 ans du SIAD -Big Data par l'exemple -Julien DULOUT 20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars 2013 20 ans du SIAD -"BigData par l'exemple" -Julien DULOUT Qui a déjà entendu parler du phénomène BigData? Qui a déjà

Plus en détail

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data.

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data. Big Data De la stratégie à la mise en oeuvre Description : La formation a pour objet de brosser sans concession le tableau du Big Data. Les participants repartiront de cette formation en ayant une vision

Plus en détail

Programmation parallèle et distribuée

Programmation parallèle et distribuée Programmation parallèle et distribuée (GIF-4104/7104) 5a - (hiver 2015) Marc Parizeau, Département de génie électrique et de génie informatique Plan Données massives («big data») Architecture Hadoop distribution

Plus en détail

Big Data Concepts et mise en oeuvre de Hadoop

Big Data Concepts et mise en oeuvre de Hadoop Introduction 1. Objectif du chapitre 9 2. Le Big Data 10 2.1 Introduction 10 2.2 Informatique connectée, objets "intelligents" et données collectées 11 2.3 Les unités de mesure dans le monde Big Data 12

Plus en détail

NoSQL. Introduction 1/30. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)

NoSQL. Introduction 1/30. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur) 1/30 2/30 Anne-Cécile Caron Master MIAGE - SGBD 1er trimestre 2014-2015 I : Not Only SQL, ce n est pas du relationnel, et le contexte d utilisation n est donc pas celui des SGBDR. I Origine : recherche

Plus en détail

Programmation parallèle et distribuée (Master 1 Info 2015-2016)

Programmation parallèle et distribuée (Master 1 Info 2015-2016) Programmation parallèle et distribuée (Master 1 Info 2015-2016) Hadoop MapReduce et HDFS Note bibliographique : ce cours est largement inspiré par le cours de Benjamin Renaut (Tokidev SAS) Introduction

Plus en détail

Fouillez facilement dans votre système Big Data. Olivier TAVARD

Fouillez facilement dans votre système Big Data. Olivier TAVARD Fouillez facilement dans votre système Big Data Olivier TAVARD A propos de moi : Cofondateur de la société France Labs Développeur (principalement Java) Formateur en technologies de moteurs de recherche

Plus en détail

Introduction à MapReduce/Hadoop et Spark

Introduction à MapReduce/Hadoop et Spark 1 / 36 Introduction à MapReduce/Hadoop et Spark Certificat Big Data Ludovic Denoyer et Sylvain Lamprier UPMC Plan 2 / 36 Contexte 3 / 36 Contexte 4 / 36 Data driven science: le 4e paradigme (Jim Gray -

Plus en détail

Introduction Big Data

Introduction Big Data Introduction Big Data SOMMAIRE Rédacteurs : Réf.: SH. Lazare / F. Barthélemy AXIO_BD_V1 QU'EST-CE QUE LE BIG DATA? ENJEUX TECHNOLOGIQUES ENJEUX STRATÉGIQUES BIG DATA ET RH ANNEXE Ce document constitue

Plus en détail

Programmation parallèle et distribuée

Programmation parallèle et distribuée Programmation parallèle et distribuée (GIF-4104/7104) 5a - (hiver 2014) Marc Parizeau, Département de génie électrique et de génie informatique Plan Mégadonnées («big data») Architecture Hadoop distribution

Plus en détail

Big Data. Cyril Amsellem Consultant avant-vente. 16 juin 2011. Talend 2010 1

Big Data. Cyril Amsellem Consultant avant-vente. 16 juin 2011. Talend 2010 1 Big Data Cyril Amsellem Consultant avant-vente 16 juin 2011 Talend 2010 1 Big Data Architecture globale Hadoop Les projets Hadoop (partie 1) Hadoop-Core : projet principal. HDFS : système de fichiers distribués

Plus en détail

Groupe de Discussion Big Data Aperçu des technologies et applications. Stéphane MOUTON stephane.mouton@cetic.be

Groupe de Discussion Big Data Aperçu des technologies et applications. Stéphane MOUTON stephane.mouton@cetic.be Groupe de Discussion Big Data Aperçu des technologies et applications Stéphane MOUTON stephane.mouton@cetic.be Recherche appliquée et transfert technologique q Agréé «Centre Collectif de Recherche» par

Plus en détail

Big data et données géospatiales : Enjeux et défis pour la géomatique. Thierry Badard, PhD, ing. jr Centre de Recherche en Géomatique

Big data et données géospatiales : Enjeux et défis pour la géomatique. Thierry Badard, PhD, ing. jr Centre de Recherche en Géomatique Big data et données géospatiales : Enjeux et défis pour la géomatique Thierry Badard, PhD, ing. jr Centre de Recherche en Géomatique Événement 25e anniversaire du CRG Université Laval, Qc, Canada 08 mai

Plus en détail

Big Data : utilisation d un cluster Hadoop HDFS Map/Reduce HBase

Big Data : utilisation d un cluster Hadoop HDFS Map/Reduce HBase Big Data : utilisation d un cluster cluster Cécile Cavet cecile.cavet at apc.univ-paris7.fr Centre François Arago (FACe), Laboratoire APC, Université Paris Diderot LabEx UnivEarthS 14 Janvier 2014 C. Cavet

Plus en détail

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril 2010 1 / 15

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril 2010 1 / 15 MapReduce Malo Jaffré, Pablo Rauzy ENS 16 avril 2010 Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril 2010 1 / 15 Qu est ce que c est? Conceptuellement Données MapReduce est un framework de calcul distribué

Plus en détail

Les bases de données relationnelles

Les bases de données relationnelles Bases de données NO SQL et SIG : d un existant restreint à un avenir prometteur CHRISTIAN CAROLIN, AXES CONSEIL CAROLIN@AXES.FR - HTTP://WWW.AXES.FR Les bases de données relationnelles constituent désormais

Plus en détail

Le BigData, aussi par et pour les PMEs

Le BigData, aussi par et pour les PMEs Parole d expert Le BigData, aussi par et pour les PMEs Stéphane MOUTON, CETIC Département Software and Services Technologies Avec le soutien de : LIEGE CREATIVE Le Big Data, aussi par et pour les PMEs

Plus en détail

DÉPLOIEMENT DE QLIKVIEW POUR DES ANALYSES BIG DATA CHEZ KING.COM

DÉPLOIEMENT DE QLIKVIEW POUR DES ANALYSES BIG DATA CHEZ KING.COM DÉPLOIEMENT DE QLIKVIEW POUR DES ANALYSES BIG DATA CHEZ KING.COM Étude de cas technique QlikView : Big Data Juin 2012 qlikview.com Introduction La présente étude de cas technique QlikView se consacre au

Plus en détail

Déploiement d une architecture Hadoop pour analyse de flux. françois-xavier.andreu@renater.fr

Déploiement d une architecture Hadoop pour analyse de flux. françois-xavier.andreu@renater.fr Déploiement d une architecture Hadoop pour analyse de flux françois-xavier.andreu@renater.fr 1 plan Introduction Hadoop Présentation Architecture d un cluster HDFS & MapReduce L architecture déployée Les

Plus en détail

Formation Cloudera Data Analyst Utiliser Pig, Hive et Impala avec Hadoop

Formation Cloudera Data Analyst Utiliser Pig, Hive et Impala avec Hadoop Passez au niveau supérieur en termes de connaissance grâce à la formation Data Analyst de Cloudera. Public Durée Objectifs Analystes de données, business analysts, développeurs et administrateurs qui ont

Plus en détail

Ricco Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours/cours_programmation_r.html. R.R. Université Lyon 2

Ricco Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours/cours_programmation_r.html. R.R. Université Lyon 2 Ricco Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours/cours_programmation_r.html 1 Plan de présentation 1. L écosystème Hadoop 2. Principe de programmation MapReduce 3. Programmation des fonctions

Plus en détail

Hadoop, les clés du succès

Hadoop, les clés du succès Hadoop, les clés du succès Didier Kirszenberg, Responsable des architectures Massive Data, HP France Copyright 2015 Hewlett-Packard Development Company, L.P. The information contained herein is subject

Plus en détail

BIG DATA. Veille technologique. Malek Hamouda Nina Lachia Léo Valette. Commanditaire : Thomas Milon. Encadré: Philippe Vismara

BIG DATA. Veille technologique. Malek Hamouda Nina Lachia Léo Valette. Commanditaire : Thomas Milon. Encadré: Philippe Vismara BIG DATA Veille technologique Malek Hamouda Nina Lachia Léo Valette Commanditaire : Thomas Milon Encadré: Philippe Vismara 1 2 Introduction Historique des bases de données : méthodes de stockage et d analyse

Plus en détail

Document réalisé par Khadidjatou BAMBA

Document réalisé par Khadidjatou BAMBA Comprendre le BIG DATA Document réalisé par Khadidjatou BAMBA 1 Sommaire Avant propos. 3 Historique du Big Data.4 Introduction.....5 Chapitre I : Présentation du Big Data... 6 I. Généralités sur le Big

Plus en détail

Chapitre 9 : Informatique décisionnelle

Chapitre 9 : Informatique décisionnelle Chapitre 9 : Informatique décisionnelle Sommaire Introduction... 3 Définition... 3 Les domaines d application de l informatique décisionnelle... 4 Architecture d un système décisionnel... 5 L outil Oracle

Plus en détail

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation Base de données S. Lèbre slebre@unistra.fr Université de Strasbourg, département d informatique. Présentation du module Contenu général Notion de bases de données Fondements / Conception Utilisation :

Plus en détail

Livre. blanc. Solution Hadoop d entreprise d EMC. Stockage NAS scale-out Isilon et Greenplum HD. Février 2012

Livre. blanc. Solution Hadoop d entreprise d EMC. Stockage NAS scale-out Isilon et Greenplum HD. Février 2012 Livre blanc Solution Hadoop d entreprise d EMC Stockage NAS scale-out Isilon et Greenplum HD Par Julie Lockner et Terri McClure, Analystes seniors Février 2012 Ce livre blanc d ESG, qui a été commandé

Plus en détail

BIG DATA en Sciences et Industries de l Environnement

BIG DATA en Sciences et Industries de l Environnement BIG DATA en Sciences et Industries de l Environnement François Royer www.datasio.com 21 mars 2012 FR Big Data Congress, Paris 2012 1/23 Transport terrestre Traçabilité Océanographie Transport aérien Télémétrie

Plus en détail

À PROPOS DE TALEND...

À PROPOS DE TALEND... WHITE PAPER Table des matières Résultats de l enquête... 4 Stratégie d entreprise Big Data... 5 Intégration des Big Data... 8 Les défis liés à la mise en œuvre des Big Data... 10 Les technologies pour

Plus en détail

Offre formation Big Data Analytics

Offre formation Big Data Analytics Offre formation Big Data Analytics OCTO 2014 50, avenue des Champs-Elysées 75008 Paris - FRANCE Tél : +33 (0)1 58 56 10 00 Fax : +33 (0)1 58 56 10 01 www.octo.com 1 Présentation d OCTO Technology 2 Une

Plus en détail

Les quatre piliers d une solution de gestion des Big Data

Les quatre piliers d une solution de gestion des Big Data White Paper Les quatre piliers d une solution de gestion des Big Data Table des Matières Introduction... 4 Big Data : un terme très vaste... 4 Le Big Data... 5 La technologie Big Data... 5 Le grand changement

Plus en détail

QLIKVIEW ET LE BIG DATA

QLIKVIEW ET LE BIG DATA QLIKVIEW ET LE BIG DATA Livre blanc sur la technologie QlikView Juillet 2012 qlikview.com Introduction Le Big Data suscite actuellement un vif intérêt. En l exploitant dans un cadre opérationnel, nombre

Plus en détail

Pentaho Business Analytics Intégrer > Explorer > Prévoir

Pentaho Business Analytics Intégrer > Explorer > Prévoir Pentaho Business Analytics Intégrer > Explorer > Prévoir Pentaho lie étroitement intégration de données et analytique. En effet, les services informatiques et les utilisateurs métiers peuvent accéder aux

Plus en détail

Big Data. Concept et perspectives : la réalité derrière le "buzz"

Big Data. Concept et perspectives : la réalité derrière le buzz Big Data Concept et perspectives : la réalité derrière le "buzz" 2012 Agenda Concept & Perspectives Technologies & Acteurs 2 Pierre Audoin Consultants (PAC) Pierre Audoin Consultants (PAC) est une société

Plus en détail

Guide de référence pour l achat de Business Analytics

Guide de référence pour l achat de Business Analytics Guide de référence pour l achat de Business Analytics Comment évaluer une solution de décisionnel pour votre petite ou moyenne entreprise : Quelles sont les questions à se poser et que faut-il rechercher?

Plus en détail

INTERSYSTEMS CACHÉ COMME ALTERNATIVE AUX BASES DE DONNÉES RÉSIDENTES EN MÉMOIRE

INTERSYSTEMS CACHÉ COMME ALTERNATIVE AUX BASES DE DONNÉES RÉSIDENTES EN MÉMOIRE I N T E RS Y S T E M S INTERSYSTEMS CACHÉ COMME ALTERNATIVE AUX BASES DE DONNÉES RÉSIDENTES EN MÉMOIRE David Kaaret InterSystems Corporation INTERSySTEMS CAChé CoMME ALTERNATIvE AUx BASES de données RéSIdENTES

Plus en détail

La dernière base de données de Teradata franchit le cap du big data grâce à sa technologie avancée

La dernière base de données de Teradata franchit le cap du big data grâce à sa technologie avancée Communiqué de presse Charles-Yves Baudet Twitter: Les clients de Teradata Teradata Corporation peuvent dan.conway@teradata.com tirer parti de plusieurs + 33 1 64 86 76 14 + 33 (0) 1 55 21 01 48/49 systèmes,

Plus en détail

Transformation IT de l entreprise BIG DATA, MÉTIERS ET ÉVOLUTION DES BASES DE DONNÉES

Transformation IT de l entreprise BIG DATA, MÉTIERS ET ÉVOLUTION DES BASES DE DONNÉES Transformation IT de l entreprise BIG DATA, MÉTIERS ET ÉVOLUTION DES BASES DE DONNÉES M a l g r é s o n ca r act è r e en apparence multiforme un enjeu central s est progressivement affirmé en matière

Plus en détail

BI dans les nuages. Olivier Bendavid, UM2 Prof. A. April, ÉTS

BI dans les nuages. Olivier Bendavid, UM2 Prof. A. April, ÉTS BI dans les nuages Olivier Bendavid, UM2 Prof. A. April, ÉTS Table des matières Introduction Description du problème Les solutions Le projet Conclusions Questions? Introduction Quelles sont les défis actuels

Plus en détail

Organiser vos données - Big Data. Patrick Millart Senior Sales Consultant

Organiser vos données - Big Data. Patrick Millart Senior Sales Consultant Organiser vos données - Big Data Patrick Millart Senior Sales Consultant The following is intended to outline our general product direction. It is intended for information purposes only, and may not be

Plus en détail

Catherine Chochoy. Alain Maneville. I/T Specialist, IBM Information Management on System z, Software Group

Catherine Chochoy. Alain Maneville. I/T Specialist, IBM Information Management on System z, Software Group 1 Catherine Chochoy I/T Specialist, IBM Information Management on System z, Software Group Alain Maneville Executive I/T specialist, zchampion, IBM Systems and Technology Group 2 Le défi du Big Data (et

Plus en détail

Quels choix de base de données pour vos projets Big Data?

Quels choix de base de données pour vos projets Big Data? Quels choix de base de données pour vos projets Big Data? Big Data? Le terme "big data" est très à la mode et naturellement un terme si générique est galvaudé. Beaucoup de promesses sont faites, et l'enthousiasme

Plus en détail

X2BIRT : Mettez de l interactivité dans vos archives

X2BIRT : Mettez de l interactivité dans vos archives Présentation Produit Présentation Produit X2BIRT : Mettez de l interactivité dans vos archives L accès à l information est capital pour les affaires. X2BIRT, la dernière innovation d Actuate, prend le

Plus en détail

Tables Rondes Le «Big Data»

Tables Rondes Le «Big Data» Tables Rondes Le «Big Data» 2012-2013 1 Plan Introduc9on 1 - Présenta9on Ingensi 2 - Le Big Data c est quoi? 3 - L histoire 4 - Le monde du libre : Hadoop 5 - Le système HDFS 6 - Les algorithmes distribués

Plus en détail

API04 Contribution. Apache Hadoop: Présentation et application dans le domaine des Data Warehouses. Introduction. Architecture

API04 Contribution. Apache Hadoop: Présentation et application dans le domaine des Data Warehouses. Introduction. Architecture API04 Contribution Apache Hadoop: Présentation et application dans le domaine des Data Warehouses Introduction Cette publication a pour but de présenter le framework Java libre Apache Hadoop, permettant

Plus en détail

Les datas = le fuel du 21ième sicècle

Les datas = le fuel du 21ième sicècle Les datas = le fuel du 21ième sicècle D énormes gisements de création de valeurs http://www.your networkmarketin g.com/facebooktwitter-youtubestats-in-realtime-simulation/ Xavier Dalloz Le Plan Définition

Plus en détail

CENTAI : Big Data & Big Analytics Réunion DGPN / Thales Octobre 2013

CENTAI : Big Data & Big Analytics Réunion DGPN / Thales Octobre 2013 www.thalesgroup.com CENTAI : Big Data & Big Analytics Réunion DGPN / Thales Octobre 2013 2 / Sommaire CENTAI : Présentation du laboratoire Plate-forme OSINT LAB Détection de la fraude à la carte bancaire

Plus en détail

Acquisition des données - Big Data. Dario VEGA Senior Sales Consultant

Acquisition des données - Big Data. Dario VEGA Senior Sales Consultant Acquisition des données - Big Data Dario VEGA Senior Sales Consultant The following is intended to outline our general product direction. It is intended for information purposes only, and may not be incorporated

Plus en détail

IBM Software Big Data. Plateforme IBM Big Data

IBM Software Big Data. Plateforme IBM Big Data IBM Software Big Data 2 Points clés Aide les utilisateurs à explorer de grands volumes de données complexes Permet de rationaliser le processus de développement d'applications impliquant de grands volumes

Plus en détail

Transformez vos données en opportunités. avec Microsoft Big Data

Transformez vos données en opportunités. avec Microsoft Big Data Transformez vos données en opportunités avec Microsoft Big Data 1 VOLUME Augmentation du volume de données tous les cinq ans Vélocité x10 4,3 Nombre d appareils connectés par adulte VARIÉTÉ 85% Part des

Plus en détail

Surmonter les 5 défis opérationnels du Big Data

Surmonter les 5 défis opérationnels du Big Data Surmonter les 5 défis opérationnels du Big Data Jean-Michel Franco Talend Connect 9 octobre 2014 Talend 2014 1 Agenda Agenda Le Big Data depuis la découverte jusqu au temps réel en passant par les applications

Plus en détail

FINI LA RÉCRÉ PASSONS AUX MÉGADONNÉES

FINI LA RÉCRÉ PASSONS AUX MÉGADONNÉES 1 FINI LA RÉCRÉ PASSONS AUX MÉGADONNÉES «Dans le concret, projets de transformation vers le BigData» V1-10/03/15 ABED AJRAOU CONNAISSEZ-VOUS PAGESJAUNES? CONNAISSEZ-VOUS PAGESJAUNES? LES MEGADONNEES RÉPONDENT

Plus en détail

transformer en avantage compétitif en temps réel vos données Your business technologists. Powering progress

transformer en avantage compétitif en temps réel vos données Your business technologists. Powering progress transformer en temps réel vos données en avantage compétitif Your business technologists. Powering progress Transformer les données en savoir Les données sont au cœur de toute activité, mais seules elles

Plus en détail

DEMARRER UN PROJET BIGDATA EN QUELQUES MINUTES GRACE AU CLOUD

DEMARRER UN PROJET BIGDATA EN QUELQUES MINUTES GRACE AU CLOUD DEMARRER UN PROJET BIGDATA EN QUELQUES MINUTES GRACE AU CLOUD BIGDATA PARIS LE 1/4/2014 VINCENT HEUSCHLING @VHE74! 1 NOUS 100% Bigdata Infrastructure IT + Data Trouver vos opportunités Implémenter les

Plus en détail

Technologies du Web. Ludovic DENOYER - ludovic.denoyer@lip6.fr. Février 2014 UPMC

Technologies du Web. Ludovic DENOYER - ludovic.denoyer@lip6.fr. Février 2014 UPMC Technologies du Web Ludovic DENOYER - ludovic.denoyer@lip6.fr UPMC Février 2014 Ludovic DENOYER - ludovic.denoyer@lip6.fr Technologies du Web Plan Retour sur les BDs Le service Search Un peu plus sur les

Plus en détail

Ecole des Hautes Etudes Commerciales HEC Alger. par Amina GACEM. Module Informatique 1ière Année Master Sciences Commerciales

Ecole des Hautes Etudes Commerciales HEC Alger. par Amina GACEM. Module Informatique 1ière Année Master Sciences Commerciales Ecole des Hautes Etudes Commerciales HEC Alger Évolution des SGBDs par Amina GACEM Module Informatique 1ière Année Master Sciences Commerciales Evolution des SGBDs Pour toute remarque, question, commentaire

Plus en détail

11/01/2014. Le Big Data Mining enjeux et approches techniques. Plan. Introduction. Introduction. Quelques exemples d applications

11/01/2014. Le Big Data Mining enjeux et approches techniques. Plan. Introduction. Introduction. Quelques exemples d applications Plan Le Big Data Mining enjeux et approches techniques Bernard Dousset Professeur des universités Institut de Recherche en Informatique de Toulouse UMR 5505 Université de Toulouse 118, Route de Narbonne,

Plus en détail

Kick Off SCC 2015 Comment faire de votre infrastructure de stockage une source d économie? Vers de nouveaux horizons

Kick Off SCC 2015 Comment faire de votre infrastructure de stockage une source d économie? Vers de nouveaux horizons Kick Off SCC 2015 Comment faire de votre infrastructure de stockage une source d économie? Vers de nouveaux horizons cloud analytics mobile social 2015 Alain Cézard Alain.cezard@fr.ibm.com Comment faire

Plus en détail

1 Actuate Corporation 2012. + de données. + d analyses. + d utilisateurs.

1 Actuate Corporation 2012. + de données. + d analyses. + d utilisateurs. 1 Actuate Corporation 2012 + de données. + d analyses. + d utilisateurs. Actuate et BIRT Actuate est l Editeur spécialiste de la Business Intelligence et le Reporting qui a créé le projet Open Source BIRT

Plus en détail

Monétisation des données : comment identifier de nouvelles sources de revenus au sein des Big data?

Monétisation des données : comment identifier de nouvelles sources de revenus au sein des Big data? Monétisation des données : comment identifier de nouvelles sources de revenus au sein des Big data? Dr Wolfgang Martin Analyste et adhérant du Boulder BI Brain Trust Les Big data Démystifier les Big data.

Plus en détail

Big Data On Line Analytics

Big Data On Line Analytics Fdil Fadila Bentayeb Lb Laboratoire ERIC Lyon 2 Big Data On Line Analytics ASD 2014 Hammamet Tunisie 1 Sommaire Sommaire Informatique décisionnelle (BI Business Intelligence) Big Data Big Data analytics

Plus en détail

WD et le logo WD sont des marques déposées de Western Digital Technologies, Inc, aux États-Unis et dans d'autres pays ; absolutely WD Re, WD Se, WD

WD et le logo WD sont des marques déposées de Western Digital Technologies, Inc, aux États-Unis et dans d'autres pays ; absolutely WD Re, WD Se, WD WD et le logo WD sont des marques déposées de Western Digital Technologies, Inc, aux États-Unis et dans d'autres pays ; absolutely WD Re, WD Se, WD Xe, RAFF et StableTrac sont des marques de Western Digital

Plus en détail

Cassandra chez Chronopost pour traiter en temps réel 1,5 milliard d événements par an

Cassandra chez Chronopost pour traiter en temps réel 1,5 milliard d événements par an Cassandra chez Chronopost pour traiter en temps réel 1,5 milliard d événements par an Qui suis-je? Alexander DEJANOVSKI Ingénieur EAI Depuis 15 ans chez Chronopost @alexanderdeja Chronopost International

Plus en détail

Anticiper et prédire les sinistres avec une approche Big Data

Anticiper et prédire les sinistres avec une approche Big Data Anticiper et prédire les sinistres avec une approche Big Data Julien Cabot Directeur Big Data Analytics OCTO jcabot@octo.com @julien_cabot OCTO 2013 50, avenue des Champs-Elysées 75008 Paris - FRANCE Tél

Plus en détail

Suite Jedox La Business-Driven Intelligence avec Jedox

Suite Jedox La Business-Driven Intelligence avec Jedox Suite La Business-Driven Intelligence avec Une solution intégrée pour la simulation, l analyse et le reporting vous offre la possibilité d analyser vos données et de gérer votre planification selon vos

Plus en détail

DOSSIER SOLUTION CA ERwin Modeling. Comment gérer la complexité des données et améliorer l agilité métier?

DOSSIER SOLUTION CA ERwin Modeling. Comment gérer la complexité des données et améliorer l agilité métier? DOSSIER SOLUTION CA ERwin Modeling Comment gérer la complexité des données et améliorer l agilité métier? CA ERwin Modeling fournit une vue centralisée des définitions de données clés afin de mieux comprendre

Plus en détail

Bases de Données Avancées

Bases de Données Avancées 1/26 Bases de Données Avancées DataWareHouse Thierry Hamon Bureau H202 - Institut Galilée Tél. : 33 1.48.38.35.53 Bureau 150 LIM&BIO EA 3969 Université Paris 13 - UFR Léonard de Vinci 74, rue Marcel Cachin,

Plus en détail

CNAM 2010-2011. Déploiement d une application avec EC2 ( Cloud Amazon ) Auteur : Thierry Kauffmann Paris, Décembre 2010

CNAM 2010-2011. Déploiement d une application avec EC2 ( Cloud Amazon ) Auteur : Thierry Kauffmann Paris, Décembre 2010 CNAM 2010-2011 Déploiement d une application avec EC2 ( Cloud Amazon ) Auteur : Thierry Kauffmann Paris, Décembre 2010 Déploiement d une application dans le cloud. 1. Cloud Computing en 2010 2. Offre EC2

Plus en détail

BUSINESS INTELLIGENCE. Une vision cockpit : utilité et apport pour l'entreprise

BUSINESS INTELLIGENCE. Une vision cockpit : utilité et apport pour l'entreprise BUSINESS INTELLIGENCE Une vision cockpit : utilité et apport pour l'entreprise 1 Présentation PIERRE-YVES BONVIN, SOLVAXIS BERNARD BOIL, RESP. SI, GROUPE OROLUX 2 AGENDA Définitions Positionnement de la

Plus en détail

Cassandra et Spark pour gérer la musique On-line

Cassandra et Spark pour gérer la musique On-line Cassandra et Spark pour gérer la musique On-line 16 Juin 2015 @ Paris Hammed RAMDANI Architecte SI 3.0 et BigData mramdani@palo-it.com +33 6 80 22 20 70 Appelez-moi Hammed ;-) (Sidi Mo)Hammed Ramdani @smramdani

Plus en détail

Les cinq raisons majeures pour déployer SDN (Software-Defined Networks) et NFV (Network Functions Virtualization)

Les cinq raisons majeures pour déployer SDN (Software-Defined Networks) et NFV (Network Functions Virtualization) Les cinq raisons majeures pour déployer SDN (Software-Defined Networks) et NFV (Network Functions Virtualization) Préparé par : Zeus Kerravala Les cinq raisons majeures pour déployer SDN et NFV NetworkWorld,

Plus en détail

Cette première partie pose les enjeux de la BI 2.0 et son intégration dans le SI de l entreprise. De manière progressive, notre approche situera le

Cette première partie pose les enjeux de la BI 2.0 et son intégration dans le SI de l entreprise. De manière progressive, notre approche situera le Partie I BI 2.0 Cette première partie pose les enjeux de la BI 2.0 et son intégration dans le SI de l entreprise. De manière progressive, notre approche situera le SI classique avec l intégration de la

Plus en détail

Big Data et l avenir du décisionnel

Big Data et l avenir du décisionnel Big Data et l avenir du décisionnel Arjan Heijmenberg, Jaspersoft 1 Le nouveau monde des TI L entreprise en réseau de McKinsey McKinsey sur le Web 2.0 McKinsey Global Institute, décembre 2010 Emergence

Plus en détail

BIG Data et R: opportunités et perspectives

BIG Data et R: opportunités et perspectives BIG Data et R: opportunités et perspectives Guati Rizlane 1 & Hicham Hajji 2 1 Ecole Nationale de Commerce et de Gestion de Casablanca, Maroc, rguati@gmail.com 2 Ecole des Sciences Géomatiques, IAV Rabat,

Plus en détail

SQL Server 2012 et SQL Server 2014

SQL Server 2012 et SQL Server 2014 SQL Server 2012 et SQL Server 2014 Principales fonctions SQL Server 2012 est le système de gestion de base de données de Microsoft. Il intègre un moteur relationnel, un outil d extraction et de transformation

Plus en détail

Business Intelligence, Etat de l art et perspectives. ICAM JP Gouigoux 10/2012

Business Intelligence, Etat de l art et perspectives. ICAM JP Gouigoux 10/2012 Business Intelligence, Etat de l art et perspectives ICAM JP Gouigoux 10/2012 CONTEXTE DE LA BI Un peu d histoire Premières bases de données utilisées comme simple système de persistance du contenu des

Plus en détail

Présentation du module Base de données spatio-temporelles

Présentation du module Base de données spatio-temporelles Présentation du module Base de données spatio-temporelles S. Lèbre slebre@unistra.fr Université de Strasbourg, département d informatique. Partie 1 : Notion de bases de données (12,5h ) Enjeux et principes

Plus en détail

Les journées SQL Server 2013

Les journées SQL Server 2013 Les journées SQL Server 2013 Un événement organisé par GUSS Les journées SQL Server 2013 Romain Casteres MVP SQL Server Consultant BI @PulsWeb Yazid Moussaoui Consultant Senior BI MCSA 2008/2012 Etienne

Plus en détail

Prototypage et évaluation de performances d un service de traçabilité avec une architecture distribuée basée sur Hadoop

Prototypage et évaluation de performances d un service de traçabilité avec une architecture distribuée basée sur Hadoop Julien Gerlier Siman Chen Rapport de projet de fin d étude ASR 2010/2011 Prototypage et évaluation de performances d un service de traçabilité avec une architecture distribuée basée sur Hadoop Encadrants

Plus en détail

Echapper légalement à l impôt sur les données

Echapper légalement à l impôt sur les données Echapper légalement à l impôt sur les données L IMPOT SUR LES DONNEES EST UN IMPOT SUR LE VOLUME... 3 L IMPOT SUR LES DONNEES EST UN IMPOT SUR LA DIVERSITE... 4 L IMPOT SUR LES DONNEES EST IMPREVISIBLE...

Plus en détail

Introduction à la B.I. Avec SQL Server 2008

Introduction à la B.I. Avec SQL Server 2008 Introduction à la B.I. Avec SQL Server 2008 Version 1.0 VALENTIN Pauline 2 Introduction à la B.I. avec SQL Server 2008 Sommaire 1 Présentation de la B.I. et SQL Server 2008... 3 1.1 Présentation rapide

Plus en détail

Stephan Hadinger, Sr. Mgr Solutions Architecture, AWS. Salon du Big Data 11 mars 2015

Stephan Hadinger, Sr. Mgr Solutions Architecture, AWS. Salon du Big Data 11 mars 2015 Stephan Hadinger, Sr. Mgr Solutions Architecture, AWS Salon du Big Data 11 mars 2015 Accélération de l innovation +500 +280 Amazon EC2 Container Service +159 AWS Storage Gateway Amazon Elastic Transcoder

Plus en détail

Systèmes Répartis. Pr. Slimane Bah, ing. PhD. Ecole Mohammadia d Ingénieurs. G. Informatique. Semaine 24.2. Slimane.bah@emi.ac.ma

Systèmes Répartis. Pr. Slimane Bah, ing. PhD. Ecole Mohammadia d Ingénieurs. G. Informatique. Semaine 24.2. Slimane.bah@emi.ac.ma Ecole Mohammadia d Ingénieurs Systèmes Répartis Pr. Slimane Bah, ing. PhD G. Informatique Semaine 24.2 1 Semestre 4 : Fev. 2015 Grid : exemple SETI@home 2 Semestre 4 : Fev. 2015 Grid : exemple SETI@home

Plus en détail

M2 GL UE DOC «In memory analytics»

M2 GL UE DOC «In memory analytics» M2 GL UE DOC «In memory analytics» Alexandre Termier 2014/2015 Sources Travaux Amplab, U.C. Berkeley Slides Ion Stoica Présentations Databricks Slides Pat McDonough Articles de M. Zaharia et al. sur les

Plus en détail

Guide de référence pour l achat de Business Analytics

Guide de référence pour l achat de Business Analytics Guide de référence pour l achat de Business Analytics Comment évaluer une solution de décisionnel pour votre petite ou moyenne entreprise : Quelles sont les questions à se poser et que faut-il rechercher?

Plus en détail

Big Graph Data Forum Teratec 2013

Big Graph Data Forum Teratec 2013 Big Graph Data Forum Teratec 2013 MFG Labs 35 rue de Châteaudun 75009 Paris, France www.mfglabs.com twitter: @mfg_labs Julien Laugel MFG Labs julien.laugel@mfglabs.com @roolio SOMMAIRE MFG Labs Contexte

Plus en détail

NoSQL : hype ou innovation? Grégory Ogonowski / Recherches Octobre 2011

NoSQL : hype ou innovation? Grégory Ogonowski / Recherches Octobre 2011 NoSQL : hype ou innovation? Grégory Ogonowski / Recherches Octobre 2011 Sommaire Introduction Théorème CAP NoSQL (principes, mécanismes, démos,...) Ce que nous avons constaté Recommandations Conclusion

Plus en détail

Bases de données documentaires et distribuées Cours NFE04

Bases de données documentaires et distribuées Cours NFE04 Bases de données documentaires et distribuées Cours NFE04 Introduction du cours Auteurs : Raphaël Fournier-S niehotta, Philippe Rigaux, Nicolas Travers prénom.nom@cnam.fr Département d informatique Conservatoire

Plus en détail

Hadoop dans l entreprise: du concept à la réalité. Pourquoi et comment?

Hadoop dans l entreprise: du concept à la réalité. Pourquoi et comment? Hadoop dans l entreprise: du concept à la réalité. Pourquoi et comment? Jean-Marc Spaggiari Cloudera jms@cloudera.com @jmspaggi Mai 2014 1 2 Avant qu on commence Agenda -Qu est-ce que Hadoop et pourquoi

Plus en détail

Tirez plus vite profit du cloud computing avec IBM

Tirez plus vite profit du cloud computing avec IBM Tirez plus vite profit du cloud computing avec IBM Trouvez des solutions de type cloud éprouvées qui répondent à vos priorités principales Points clés Découvrez les avantages de quatre déploiements en

Plus en détail

Exploration des Big Data pour optimiser la Business Intelligence

Exploration des Big Data pour optimiser la Business Intelligence Intel IT Meilleures pratiques IT Business Intelligence Juillet 2012 Exploration des Big Data pour optimiser la Business Intelligence Vue d ensemble La capacité à extraire et analyser les Big Data permet

Plus en détail