Limites des systèmes classiques de gestion de bases de données

Documents pareils
NoSQL. Introduction 1/23. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)

Ecole des Hautes Etudes Commerciales HEC Alger. par Amina GACEM. Module Informatique 1ière Année Master Sciences Commerciales

NoSQL. Introduction 1/30. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)

BIG DATA. Veille technologique. Malek Hamouda Nina Lachia Léo Valette. Commanditaire : Thomas Milon. Encadré: Philippe Vismara

Transformation IT de l entreprise BIG DATA, MÉTIERS ET ÉVOLUTION DES BASES DE DONNÉES

Master I Génie Logiciel

Les bases de données relationnelles

Programmation parallèle et distribuée

Optimisations des SGBDR. Étude de cas : MySQL

Cours Bases de données

Big Graph Data Forum Teratec 2013

Evolution et architecture des systèmes d'information, de l'internet. Impact sur les IDS. IDS2014, Nailloux 26-28/05/2014

Architectures d'intégration de données

INTRODUCTION AUX BASES de DONNEES

Bases de données avancées Introduction

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation

Sauvegarde collaborative entre pairs Ludovic Courtès LAAS-CNRS

Présentation du module Base de données spatio-temporelles

Les technologies du Big Data

Programmation parallèle et distribuée

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data.

Évaluation d une architecture de stockage RDF distribuée

Bases de Données. Stella MARC-ZWECKER. Maître de conférences Dpt. Informatique - UdS

Bases de données documentaires et distribuées Cours NFE04

HADOOP ET SON ÉCOSYSTÈME

Big Data. Cyril Amsellem Consultant avant-vente. 16 juin Talend

Catalogue des formations Edition 2015

SQL Server 2012 et SQL Server 2014

Le NoSQL - Cassandra

et les Systèmes Multidimensionnels

Cartographie des solutions BigData

AVRIL Au delà de Hadoop. Panorama des solutions NoSQL

Université de Liège Faculté des Sciences Appliquées Institut Montefiore ETUDE DES FRAMEWORK DISTRIBUÉS DE GRILLES DE DONNÉES

Business Intelligence, Etat de l art et perspectives. ICAM JP Gouigoux 10/2012

NoSQL : hype ou innovation? Grégory Ogonowski / Recherches Octobre 2011

SQL SERVER 2008, BUSINESS INTELLIGENCE

Groupe de Discussion Big Data Aperçu des technologies et applications. Stéphane MOUTON

CESI Bases de données

Big Data et Graphes : Quelques pistes de recherche

Le Web de Données Dan VODISLAV Université de Cergy-Pontoise Master Informatique M2 Plan

XML par la pratique Bases indispensables, concepts et cas pratiques (3ième édition)

Information utiles. webpage : Google+ : digiusto/

Dossier I Découverte de Base d Open Office

Architecture N-Tier. Ces données peuvent être saisies interactivement via l interface ou lues depuis un disque. Application

Architectures d implémentation de Click&DECiDE NSI

Big Data On Line Analytics

INTERSYSTEMS CACHÉ COMME ALTERNATIVE AUX BASES DE DONNÉES RÉSIDENTES EN MÉMOIRE

NFA 008. Introduction à NoSQL et MongoDB 25/05/2013

Le "tout fichier" Le besoin de centraliser les traitements des fichiers. Maitriser les bases de données. Historique

WEA Un Gérant d'objets Persistants pour des environnements distribués

11/01/2014. Le Big Data Mining enjeux et approches techniques. Plan. Introduction. Introduction. Quelques exemples d applications

Séance 1 Introduction aux bases de données

WEB & DÉVELOPPEMENT LES BASES DU WEB LE LANGAGE HTML FEUILLES DE STYLES CSS HISTORIQUE D INTERNET ET DU WEB LES DIFFÉRENTS LANGAGES

Introduction Big Data

UE 8 Systèmes d information de gestion Le programme

Hashtag Twitter #datatuesday

NFE204 Bases de données avancées

Document réalisé par Khadidjatou BAMBA

Structure fonctionnelle d un SGBD

Datalift. + + Architecture Modularité Déploiements. d j = 09/04/2015 Laurent BIHANIC

Introduction aux Bases de Données Relationnelles Conclusion - 1

SQL. Oracle. pour. 4 e édition. Christian Soutou Avec la participation d Olivier Teste

Module BDR Master d Informatique (SAR)

Intégration de systèmes

LES TECHNOLOGIES DU WEB APPLIQUÉES AUX DONNÉES STRUCTURÉES

Oracle 11g Optimisez vos bases de données en production (ressources matérielles, stockage, mémoire, requêtes)

CAHIER DES CHARGES D IMPLANTATION

Bases de données relationnelles : Introduction

Développement de base de données Microsoft SQL Server Durée : 5 jours Référence : DPSQL12. Contenu

Bases de données Cours 1 : Généralités sur les bases de données

Du Datacenter au Cloud Quels challenges? Quelles solutions? Christophe Dubos Architecte Microsoft

Table des matières. Avant-propos

Architectures haute disponibilité avec MySQL. Olivier Olivier DASINI DASINI - -

FAMILLE EMC VPLEX. Disponibilité continue et mobilité des données dans et entre les datacenters AVANTAGES

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN

NoSQL. Etat de l art et benchmark

Sommaire. 3. Les grands principes de GFS L architecture L accès de fichier en lecture L accès de fichier en écriture Bilan

Big Data et Graphes : Quelques pistes de recherche

Conception des systèmes répartis

Introduction aux Bases de Données

Bases de données cours 1

Mise en œuvre des serveurs d application

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars ans du SIAD -"Big Data par l'exemple" -Julien DULOUT

FINI LA RÉCRÉ PASSONS AUX MÉGADONNÉES

Libérez votre intuition

CYCLE CERTIFIANT ADMINISTRATEUR BASES DE DONNÉES

Introduction aux SGBDR

Technologies Web. Ludovic Denoyer Sylvain Lamprier Mohamed Amine Baazizi Gabriella Contardo Narcisse Nya. Université Pierre et Marie Curie

Rappel sur les bases de données

Gestion de données incertaines et de leur provenance

FAMILLE EMC VPLEX. Disponibilité continue et mobilité des données dans et entre les datacenters

SQL Server 2012 Implémentation d'une solution de Business Intelligence (Sql Server, Analysis Services...)

//////////////////////////////////////////////////////////////////// Administration bases de données

L A B U S I N E S S. d a t a g i n f o r m a t i o n g a c t i o n

WD et le logo WD sont des marques déposées de Western Digital Technologies, Inc, aux États-Unis et dans d'autres pays ; absolutely WD Re, WD Se, WD

Les bases de données Page 1 / 8

Devenez un véritable développeur web en 3 mois!

Titre : La BI vue par l intégrateur Orange

ViSaGe. Virtualisation du Stockage dans les Grilles. Informatiques. RenPar 16, 6-8 Avril 2005 Thiebolt François

Transcription:

Fondamentaux pour le Big Data c Télécom ParisTech 1/5 classiques de gestion de bases

classiques Fondamentaux pour le Big Data c Télécom ParisTech 2/5 Basés sur le modèle relationnel Un langage de requêtes standard : SQL Données stockées sur disque Relations (tables) stockées ligne par ligne Système centralisé, avec possibilités limitées de distribution

Forces des classiques Fondamentaux pour le Big Data c Télécom ParisTech 3/5 Indépendance entre : modèle et structures de stockage requêtes déclaratives et exécution

Forces des classiques Fondamentaux pour le Big Data c Télécom ParisTech 3/5 Indépendance entre : modèle et structures de stockage requêtes déclaratives et exécution Requêtes complexes

Forces des classiques Fondamentaux pour le Big Data c Télécom ParisTech 3/5 Indépendance entre : modèle et structures de stockage requêtes déclaratives et exécution Requêtes complexes Optimisation très fine des requêtes, index permettant un accès rapide aux données

Forces des classiques Fondamentaux pour le Big Data c Télécom ParisTech 3/5 Indépendance entre : modèle et structures de stockage requêtes déclaratives et exécution Requêtes complexes Optimisation très fine des requêtes, index permettant un accès rapide aux données Logiciels mûrs, stables, efficaces, riches en fonctionnalités et en interfaces

Forces des classiques Fondamentaux pour le Big Data c Télécom ParisTech 3/5 Indépendance entre : modèle et structures de stockage requêtes déclaratives et exécution Requêtes complexes Optimisation très fine des requêtes, index permettant un accès rapide aux données Logiciels mûrs, stables, efficaces, riches en fonctionnalités et en interfaces Contraintes d intégrité permettant d assurer des invariants sur les données

Forces des classiques Fondamentaux pour le Big Data c Télécom ParisTech 3/5 Indépendance entre : modèle et structures de stockage requêtes déclaratives et exécution Requêtes complexes Optimisation très fine des requêtes, index permettant un accès rapide aux données Logiciels mûrs, stables, efficaces, riches en fonctionnalités et en interfaces Contraintes d intégrité permettant d assurer des invariants sur les données Gestion efficace de grands volumes (gigaoctet, voire téraoctet)

Forces des classiques Fondamentaux pour le Big Data c Télécom ParisTech 3/5 Indépendance entre : modèle et structures de stockage requêtes déclaratives et exécution Requêtes complexes Optimisation très fine des requêtes, index permettant un accès rapide aux données Logiciels mûrs, stables, efficaces, riches en fonctionnalités et en interfaces Contraintes d intégrité permettant d assurer des invariants sur les données Gestion efficace de grands volumes (gigaoctet, voire téraoctet) Transactions (ensembles d opérations élémentaires) garantissant la gestion de la concurrence, l isolation entre utilisateurs, la reprise sur panne

Propriétés ACID Fondamentaux pour le Big Data c Télécom ParisTech 4/5 Les transactions des classiques respectent les propriétés ACID :

Propriétés ACID Fondamentaux pour le Big Data c Télécom ParisTech 4/5 Les transactions des classiques respectent les propriétés ACID : Atomicité : L ensemble des opérations d une transaction est soit exécuté en bloc, soit annulé en bloc

Propriétés ACID Fondamentaux pour le Big Data c Télécom ParisTech 4/5 Les transactions des classiques respectent les propriétés ACID : Atomicité : L ensemble des opérations d une transaction est soit exécuté en bloc, soit annulé en bloc Cohérence : Les transactions respectent les contraintes d intégrité de la base

Propriétés ACID Fondamentaux pour le Big Data c Télécom ParisTech 4/5 Les transactions des classiques respectent les propriétés ACID : Atomicité : L ensemble des opérations d une transaction est soit exécuté en bloc, soit annulé en bloc Cohérence : Les transactions respectent les contraintes d intégrité de la base Isolation : Deux exécutions concurrentes de transactions résultent en un état équivalent à l exécution sérielle des transactions

Propriétés ACID Fondamentaux pour le Big Data c Télécom ParisTech 4/5 Les transactions des classiques respectent les propriétés ACID : Atomicité : L ensemble des opérations d une transaction est soit exécuté en bloc, soit annulé en bloc Cohérence : Les transactions respectent les contraintes d intégrité de la base Isolation : Deux exécutions concurrentes de transactions résultent en un état équivalent à l exécution sérielle des transactions Durabilité : Une fois une transaction confirmée, les données correspondantes restent durablement dans la base, même en cas de panne

Faiblesses des classiques Fondamentaux pour le Big Data c Télécom ParisTech 5/5 Incapable de gérer de très grands volumes (de l ordre du péta-octet)

Faiblesses des classiques Fondamentaux pour le Big Data c Télécom ParisTech 5/5 Incapable de gérer de très grands volumes (de l ordre du péta-octet) Impossible de gérer des débits extrêmes (plus que quelques milliers de requêtes par seconde)

Faiblesses des classiques Fondamentaux pour le Big Data c Télécom ParisTech 5/5 Incapable de gérer de très grands volumes (de l ordre du péta-octet) Impossible de gérer des débits extrêmes (plus que quelques milliers de requêtes par seconde) Le modèle relationnel est parfois peu adapté au stockage et à l interrogation de certains types (données hiérarchiques, faiblement structurées, semi-structurées)

Faiblesses des classiques Fondamentaux pour le Big Data c Télécom ParisTech 5/5 Incapable de gérer de très grands volumes (de l ordre du péta-octet) Impossible de gérer des débits extrêmes (plus que quelques milliers de requêtes par seconde) Le modèle relationnel est parfois peu adapté au stockage et à l interrogation de certains types (données hiérarchiques, faiblement structurées, semi-structurées) Les propriétés ACID entraînent de sérieux surcoûts en latence, accès disques, temps CPU (verrous, journalisation, etc.)

Faiblesses des classiques Fondamentaux pour le Big Data c Télécom ParisTech 5/5 Incapable de gérer de très grands volumes (de l ordre du péta-octet) Impossible de gérer des débits extrêmes (plus que quelques milliers de requêtes par seconde) Le modèle relationnel est parfois peu adapté au stockage et à l interrogation de certains types (données hiérarchiques, faiblement structurées, semi-structurées) Les propriétés ACID entraînent de sérieux surcoûts en latence, accès disques, temps CPU (verrous, journalisation, etc.) Performances limitées par les accès disque

NoSQL Fondamentaux pour le Big Data c Télécom ParisTech 1/5 No SQL ou Not Only SQL SGBD avec d autres compromis que ceux faits par les systèmes classiques Écosystème très varié Fonctionnalités recherchées : modèle différent, passage à l échelle, performances extrêmes Fonctionnalités abandonnées : ACID, (parfois) requêtes complexes

Systèmes avec modèle différent Fondamentaux pour le Big Data c Télécom ParisTech 2/5 Requêtes complexes, modèle non relationnel Type Organisation Requêtes Exemples de systèmes

Systèmes avec modèle différent Fondamentaux pour le Big Data c Télécom ParisTech 2/5 Requêtes complexes, modèle non relationnel Type Organisation Requêtes Exemples de systèmes XML Données arborescentes, hiérarchiques XQuery

Systèmes avec modèle différent Fondamentaux pour le Big Data c Télécom ParisTech 2/5 Requêtes complexes, modèle non relationnel Type Organisation Requêtes Exemples de systèmes XML Objet Données arborescentes, hiérarchiques Données complexes, avec propriétés et méthodes XQuery OQL, VQL

Systèmes avec modèle différent Fondamentaux pour le Big Data c Télécom ParisTech 2/5 Requêtes complexes, modèle non relationnel Type Organisation Requêtes Exemples de systèmes XML Objet Graphe Données arborescentes, hiérarchiques Données complexes, avec propriétés et méthodes Graphe avec nœuds, arêtes, propriétés XQuery OQL, VQL Cypher, Gremlin

Systèmes avec modèle différent Fondamentaux pour le Big Data c Télécom ParisTech 2/5 Requêtes complexes, modèle non relationnel Type Organisation Requêtes Exemples de systèmes XML Objet Graphe Triplets Données arborescentes, hiérarchiques Données complexes, avec propriétés et méthodes Graphe avec nœuds, arêtes, propriétés Triplets RDF du Web sémantique XQuery OQL, VQL Cypher, Gremlin SPARQL

Systèmes clef-valeur Fondamentaux pour le Big Data c Télécom ParisTech 3/5 Requêtes très simples : get récupère la valeur associée à une clef put ajoute un nouveau couple clef/valeur Accent mis sur le passage à l échelle transparent, une faible latence, un débit très élevé Exemple d implémentation : table de hachage distribuée Chord MemcacheDB

Systèmes orientés document Fondamentaux pour le Big Data c Télécom ParisTech 4/5 Requêtes toujours très simples : get récupère le document (JSON, XML, YAML...) associé à une clef put ajoute un nouveau document associé à une clef Des index additionnels permettant de récupérer les documents contenant tel mot-clef, ayant telle propriété, etc. Documents organisés en collections, gestion de méta-données (versions, dates), etc. Accent mis sur la simplicité de l interface, la facilité de manipulation dans un langage de programmation

Systèmes orientés colonnes Fondamentaux pour le Big Data c Télécom ParisTech 5/5 Au lieu de stocker les données ligne par ligne, les stocker colonne par colonne Organisation plus riche que dans les systèmes clef-valeur (plusieurs colonnes par objet stocké) Rend plus efficace l agrégation ou le parcours des valeurs d une même colonne Distribution transparente, passage à l échelle grâce à des arbres de recherche distribués ou des tables de hachages distribuées BigTable

NewSQL Fondamentaux pour le Big Data c Télécom ParisTech 1/2 Certaines applications nécessitent : des langages de requêtes riches (jointure, agrégation) une conformité aux propriétés ACID mais des performances supérieures à celles des SGBD classiques

NewSQL Fondamentaux pour le Big Data c Télécom ParisTech 1/2 Certaines applications nécessitent : des langages de requêtes riches (jointure, agrégation) une conformité aux propriétés ACID mais des performances supérieures à celles des SGBD classiques Solutions possibles : Se débarasser des goulots d étranglement classiques des SGBD : verrous, journalisation, gestion des caches Bases en mémoire vive, avec copie sur disque asynchrone Une gestion de concurrence sans verrou (MVCC) Une architecture distribuée sans partage d information (shared nothing) et avec équilibrage de charge transparent Spanner

Dans quels cas choisir un SGBD non classique? Fondamentaux pour le Big Data c Télécom ParisTech 2/2 Quand on a des besoins de latence ou de débit extrêmes

Dans quels cas choisir un SGBD non classique? Fondamentaux pour le Big Data c Télécom ParisTech 2/2 Quand on a des besoins de latence ou de débit extrêmes Quand on a des volumes extrêmes

Dans quels cas choisir un SGBD non classique? Fondamentaux pour le Big Data c Télécom ParisTech 2/2 Quand on a des besoins de latence ou de débit extrêmes Quand on a des volumes extrêmes Quand le modèle relationnel et SQL se prêtent mal au stockage et à l accès aux données (pas si fréquent!)

Dans quels cas choisir un SGBD non classique? Fondamentaux pour le Big Data c Télécom ParisTech 2/2 Quand on a des besoins de latence ou de débit extrêmes Quand on a des volumes extrêmes Quand le modèle relationnel et SQL se prêtent mal au stockage et à l accès aux données (pas si fréquent!) Quand, après tests détaillés, les performances des SGBD classiques se révèlent insuffisantes

Dans quels cas choisir un SGBD non classique? Fondamentaux pour le Big Data c Télécom ParisTech 2/2 Quand on a des besoins de latence ou de débit extrêmes Quand on a des volumes extrêmes Quand le modèle relationnel et SQL se prêtent mal au stockage et à l accès aux données (pas si fréquent!) Quand, après tests détaillés, les performances des SGBD classiques se révèlent insuffisantes Savoir ce qu on perd : ACID (suivant les cas), possibilité d interrogations complexes, stabilité de logiciels bien établis...

Dans quels cas choisir un SGBD non classique? Fondamentaux pour le Big Data c Télécom ParisTech 2/2 Quand on a des besoins de latence ou de débit extrêmes Quand on a des volumes extrêmes Quand le modèle relationnel et SQL se prêtent mal au stockage et à l accès aux données (pas si fréquent!) Quand, après tests détaillés, les performances des SGBD classiques se révèlent insuffisantes Savoir ce qu on perd : ACID (suivant les cas), possibilité d interrogations complexes, stabilité de logiciels bien établis... Les bases NoSQL et NewSQL répondent à de vrais besoins... mais les besoins sont souvent surestimés