Bases de données documentaires et distribuées Cours NFE04



Documents pareils
Bases de données documentaires et distribuées Cours NFE04

Bases de données documentaires et distribuées Cours NFE04

AVRIL Au delà de Hadoop. Panorama des solutions NoSQL

Groupe de Discussion Big Data Aperçu des technologies et applications. Stéphane MOUTON

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data.

Cartographie des solutions BigData

NoSQL. Introduction 1/23. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)

Big Data. Les problématiques liées au stockage des données et aux capacités de calcul

Bases de données documentaires et distribuées Cours NFE04

Cassandra chez Chronopost pour traiter en temps réel 1,5 milliard d événements par an

NoSQL. Introduction 1/30. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)

Le BigData, aussi par et pour les PMEs

Big Data Concepts et mise en oeuvre de Hadoop

Programmation parallèle et distribuée

Les technologies du Big Data

NoSQL : hype ou innovation? Grégory Ogonowski / Recherches Octobre 2011

CNAM Déploiement d une application avec EC2 ( Cloud Amazon ) Auteur : Thierry Kauffmann Paris, Décembre 2010

NoSQL. Etat de l art et benchmark

Les bases de données relationnelles

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars ans du SIAD -"Big Data par l'exemple" -Julien DULOUT

Document réalisé par Khadidjatou BAMBA

Fouillez facilement dans votre système Big Data. Olivier TAVARD

Quels choix de base de données pour vos projets Big Data?

Cloud et SOA La présence du Cloud révolutionne-t-elle l approche SOA?

Programmation parallèle et distribuée

Hibernate vs. le Cloud Computing

Cloud Computing : Utiliser Stratos comme PaaS privé sur un cloud Eucalyptus

Sommaire. 3. Les grands principes de GFS L architecture L accès de fichier en lecture L accès de fichier en écriture Bilan

Labs Hadoop Février 2013

Le NoSQL - Cassandra

Déploiement d une architecture Hadoop pour analyse de flux. françois-xavier.andreu@renater.fr

Jean-Daniel Cryans École de technologie supérieure, Montréal septembre 2009

Acquisition des données - Big Data. Dario VEGA Senior Sales Consultant

MapReduce. Nicolas Dugué M2 MIAGE Systèmes d information répartis

BIG DATA. Veille technologique. Malek Hamouda Nina Lachia Léo Valette. Commanditaire : Thomas Milon. Encadré: Philippe Vismara

Ricco Rakotomalala R.R. Université Lyon 2

11/01/2014. Le Big Data Mining enjeux et approches techniques. Plan. Introduction. Introduction. Quelques exemples d applications

Windows Server 2012 R2 Failover de serveurs DHCP

Marché Public en procédure adaptée : Infrastructure Informatique régionale hébergée CAHIER DES CHARGES ET DES CLAUSES TECHNIQUES

Augmenter la disponibilité des applications JEE grâce au clustering : Le projet open source JShaft

Chapitre 4: Introduction au Cloud computing

Bases de Données NoSQL

Centres informatiques

Prototypage et évaluation de performances d un service de traçabilité avec une architecture distribuée basée sur Hadoop

WebSphere MQ & Haute Disponibilité

Prototypage et évaluation de performances d un service de traçabilité avec une architecture distribuée basée sur Hadoop

FAMILLE EMC VPLEX. Disponibilité continue et mobilité des données dans et entre les datacenters AVANTAGES

Bases de données documentaires et distribuées Cours NFE04

Mise en œuvre d une infrastructure de virtualisation au CNRGV

BI dans les nuages. Olivier Bendavid, UM2 Prof. A. April, ÉTS

Sauvegarde collaborative en pair-à-pair

Le Cloud Open-Mind! Emilien Macchi

DREAL proposition DNS et hébergement. magazine le 14 septembre 2011 DREAL comparatif hébergement


Technologies du Web. Ludovic DENOYER - ludovic.denoyer@lip6.fr. Février 2014 UPMC

NoSQL : les meilleures

Culture numérique Cloud computing

HADOOP ET SON ÉCOSYSTÈME

Cassandra et Spark pour gérer la musique On-line

Cloud Computing Maîtrisez la plate-forme AWS - Amazon Web Services

Monter une infrastructure web pour 1 million de visites par jour :

L AVENIR DU NoSQL. Quel avenir pour le NoSQL?

Haute disponibilité avec Microsoft SQL Server

La Virtualisation Windows chez CASINO. Philippe CROUZY Responsable Infrastructure Equipes Systèmes -Stockage

Bases de Données. Stella MARC-ZWECKER. Maître de conférences Dpt. Informatique - UdS

Haute disponibilité avec PostgreSQL

Unitt Zero Data Loss Service (ZDLS) La meilleure arme contre la perte de données

L I V R E B L A N C P r o t ég e r l e s a p p l i c a t i o n s m ét i e r s c r i t i q u e s M a i n f r a m e, un b e s o i n c r u c i a l

Introduction aux applications réparties

FAMILLE EMC VPLEX. Disponibilité continue et mobilité des données dans et entre les datacenters

Mise en place d un cluster. De basculement. Et DHCP Failover. Installation. Préparation. Vérification

Architectures haute disponibilité avec MySQL. Olivier Olivier DASINI DASINI - -

Organiser vos données - Big Data. Patrick Millart Senior Sales Consultant

Qu est ce que le Cloud Computing?

IBM Cloudant Data Layer Local Edition

ORACLE 10g Découvrez les nouveautés. Jeudi 17 Mars Séminaire DELL/INTEL/ORACLE

Cloud Computing & PHP

PROCEDURE ESX & DHCP LINUX

Haute-disponibilité et bases de données

La Continuité d Activité

FUJITSU WORLD TOUR 2014 Paris

Architecture NoSQL et réponse au Théorème CAP

Square-IT-Consulting. Présentation

CloudBees AnyCloud : Valeur, Architecture et Technologie cloud pour l entreprise

Stephan Hadinger, Sr. Mgr Solutions Architecture, AWS. Salon du Big Data 11 mars 2015


Rapport d étude sur le Big Data

WD et le logo WD sont des marques déposées de Western Digital Technologies, Inc, aux États-Unis et dans d'autres pays ; absolutely WD Re, WD Se, WD

Big Data. SRS Day Ali FAWAZ Etienne CAPGRAS. Membres du groupe : Coaché par :

NFE204 Bases de données avancées

IaaS à la sauce Portails Focus sur. Pierre Aubert Orange Portails OF/DMGP/Portails/DOP 1 er Juillet 2013

Projet d'infrastructure de stockage mutualisée

Défi de l infonuagique en éducation

Benjamin Cornu Florian Joyeux. Les choses à connaître pour (essayer) de concurrencer Facebook.

Système de Stockage Sécurisé et Distribué

Hadoop, les clés du succès

Un peu de culture : Bases N osql L 1

Livre blanc Haute disponibilité sous Linux

INSTALLATION ET CONFIGURATION DE HYPER V3

Hébergement MMI SEMESTRE 4

Transcription:

Bases de données documentaires et distribuées Cours NFE04 Cloud et scalabilité Auteurs : Raphaël Fournier-S niehotta, Philippe Rigaux, Nicolas Travers prénom.nom@cnam.fr Département d informatique Conservatoire National des Arts & Métiers, Paris, France

Introduction Infrastructures cloud Nous nous penchons maintenant sur le problème de la gestion de données massives. Qu est-ce que c est? Les données sont massives quand elles dépassent les capacités d une seule machine. en mémoire RAM : quelques dizaines de GOs ; en mémoire persistante : quelques TOs. Qui dit données massives dit donc système distribué. Point communs (le seul?) des systèmes dits NoSQL. De fait : l infrastructure est constituée de grappes de serveurs, avec des machines à bas coût (commodity servers), la possibilité d en ajouter/retirer en quelques minutes (élasticité), des environnements logiciels spécialisés. Nous appellerons l ensemble un cloud (un peu réducteur).

Cloud et données massives Vision générale

Cloud et données massives Serveurs et baies Dans un centre de données, les serveurs sont empilés dans des baies.

Bases de données documentaires et distribuées Cours NFE04 Cloud et données massives Infrastructures cloud Une baie contient environ 40 serveurs. Un centre de données contient quelques centaines de baies. Ordre de grandeur : quelques milliers de serveurs par centre. Combien des centres chez Google, Facebook, Amazon...? Des millions de serveurs.

Cloud et données massives La virtualisation Prenez une machine avec 64GOs de mémoire, 12 disques de 3 TO chacun. Découpez-là en sous-machines virtuelles. 1 18 serveurs virtuels avec 4 GO de RAM chacun (2 TO de disques) ; 2 8 serveurs virtuels avec 8 GO de RAM chacun (3 TO de disques) ; 3 etc... Permet d attribuer des serveurs à la demande, optimise l utilisation des machines. Pour le client : 0 coût installation, maintenance, amortissement. Cf. Amazon EC2, OVH, Gandi (français), etc.

Cloud et données massives Les pannes Choix essentiel : on augmente la puissance du système par ajout de machines à bas coût (scalabilité horizontale), et pas par l augmentation des capacités d une machine (scalabilité verticale). Conséquence essentielle : des pannes tout le temps! panne de disque ; redémarrage serveur (panne logicielle/matérielle) coupure réseau. Méthode générale : réplication des données ; redondance des services. Les systèmes (NoSQL) disposent d une reprise sur panne (failover) automatique.

Systèmes distribués Systèmes distribués Système distribué = ensemble de composants logiciels, ou nœuds, répartis sur une grappe de serveurs, coopérant pour une tâche précise. Ces nœuds communiquent par envoi de messages (aucun partage de mémoire). Chaque nœud est en écoute sur un port réseau (ex., le 80 pour le Web, 27017 pour Mongodb). On peut avoir un système distribué (mais pas scalable) sur une seule machine! En général, un nœud par machine.

Systèmes distribués Le client, les maîtres et les esclaves Deux organisations principales. La première (plus courante) est dite maître-esclave. Rôle essentiel du maître (mais aussi single point of failure).

Systèmes distribués Autre topologie C est la démocratie! Il n y a que des maîtres (master-master, ou aussi multi-nœuds). Plus robuste en théorie, mais soulève des problèmes compliqués (donc, moins courant).

Systèmes distribués Gestion des pannes, ou failover Un système distribué peut s appuyer des centaines, des milliers de serveurs : il y a des pannes tout le temps. Caractéristique d un bon système : tolérant aux pannes, assure une disponibilité 24/7. surveillance automatisée de tous les nœuds participants (heartbeat, messages toutes les n secondes). méthode de reprise sur panne (failover) basée sur la redondance/réplication. Un cas particulièrement épineux : le partitionnement réseau.

Le NoSQL Le NoSQL, qu est-ce que c est Tout et n importe quoi. Ma définition. Systèmes NoSQL Un système NoSQL est un système distribué dont la tâche est la gestion de données persistantes dans un environnement cloud. Il fournit les fonctionnalités suivantes : Recherche et mise à jour de données Adaptation automatique aux ressources matérielles : équilibrage, élasticité. Performances "scalables" (voir plus loin). Reprise sur panne automatisée. Beaucoup de modèles différents ("documents", ou simplement (clé, valeur), graphes...). Deux types principaux : Systèmes temps réel : accès en millisecondes aux unités d information. Systèmes analytiques : traitements appliqués à tout ou partie d une collection.

Le NoSQL Petit historique : systèmes analytiques Quelques publications de Google : Google File System (2003), MapReduce (2004), BigTable (2006). Clonés par des systèmes Open Source dans l environnement Hadoop : HDFS, MapReduce, HBase. Autres successeurs : Cassandra, maintenant Spark, Flink, etc. Applications : construction d index, analyses de données massives.

Le NoSQL Petit historique : systèmes temps réels Publication majeure d Amazon : le système Dynamo (2007). Application : gestion robuste, distribuée, scalable de centaines de millions de comptes client, produits, transactions. Cloné par le système Voldemort ; principes repris par Mongodb, CouchDB, Riak, beaucoup d autres NB : précédé par beaucoup de recherche et de systèmes distribués bien sûr.

Le NoSQL Ce qu il faut retenir Environnement dit cloud = grappes de serveurs à bas coût, stockés dans des centres de données. Très "élastique" car facile d ajouter/supprimer une ressource = scalabilité horizontale. Très sujet aux pannes, de disque, de réseau, de logiciels. Système distribué (NoSQL) : système exploitant au mieux les ressources du cloud, tolérant aux pannes.