Bases de données documentaires et distribuées Cours NFE04



Documents pareils
Bases de données documentaires et distribuées Cours NFE04

Bases de données documentaires et distribuées Cours NFE04

Bases de données documentaires et distribuées Cours NFE04

Bases de données documentaires et distribuées Cours NFE04

NoSQL. Introduction 1/23. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)

NFE204 Bases de données avancées

Bases de données - Modèle relationnel

NoSQL. Introduction 1/30. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)

BIG DATA. Veille technologique. Malek Hamouda Nina Lachia Léo Valette. Commanditaire : Thomas Milon. Encadré: Philippe Vismara

NFA 008. Introduction à NoSQL et MongoDB 25/05/2013

AVRIL Au delà de Hadoop. Panorama des solutions NoSQL

Un peu de culture : Bases N osql L 1

Bases de données Cours 1 : Généralités sur les bases de données

Cartographie des solutions BigData

Initiation aux bases de données (SGBD) Walter RUDAMETKIN

Hibernate vs. le Cloud Computing

Cassandra chez Chronopost pour traiter en temps réel 1,5 milliard d événements par an

Bases de données documentaires et distribuées Cours NFE04

CESI Bases de données

Exemple accessible via une interface Web. Bases de données et systèmes de gestion de bases de données. Généralités. Définitions

Cours de bases de données. Philippe Rigaux

NoSQL : hype ou innovation? Grégory Ogonowski / Recherches Octobre 2011

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data.

Groupe de Discussion Big Data Aperçu des technologies et applications. Stéphane MOUTON

XML par la pratique Bases indispensables, concepts et cas pratiques (3ième édition)

les techniques d'extraction, les formulaires et intégration dans un site WEB

Systèmes d information et bases de données (niveau 1)

Les bases de données relationnelles

Dr YAO Kouassi Patrick

Bases de Données. Stella MARC-ZWECKER. Maître de conférences Dpt. Informatique - UdS

Information utiles. webpage : Google+ : digiusto/

Cours Base de données relationnelles. M. Boughanem, IUP STRI

Introduction aux bases de données Cours 1 : Généralités sur les bases de données

Présentation du module Base de données spatio-temporelles

Transformation IT de l entreprise BIG DATA, MÉTIERS ET ÉVOLUTION DES BASES DE DONNÉES

Les bases de données

Introduction à ElasticSearch

Ecole des Hautes Etudes Commerciales HEC Alger. par Amina GACEM. Module Informatique 1ière Année Master Sciences Commerciales

SGBDR. Systèmes de Gestion de Bases de Données (Relationnelles)

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation

Quels choix de base de données pour vos projets Big Data?

Webinar. Découvrez Rubedo, la première solution CMS open-source tirant profit des atouts de Zend Framework et du NoSQL. avec la participation de

Chapitre VIII. Les bases de données. Orientées Objet. Motivation

Faculté des sciences de gestion et sciences économiques BASE DE DONNEES

Mercredi 15 Janvier 2014

Big Data. Cyril Amsellem Consultant avant-vente. 16 juin Talend

Technologies du Web. Ludovic DENOYER - ludovic.denoyer@lip6.fr. Février 2014 UPMC

Utiliser Access ou Excel pour gérer vos données

Séance 1 Introduction aux bases de données

Les bases de données Page 1 / 8

Rappel sur les bases de données

Content Manager

IFT3030 Base de données. Chapitre 1 Introduction

Magasins et entrepôts de données (Datamart, data warehouse) Approche relationnelle pour l'analyse des données en ligne (ROLAP)

Introduction à. Oracle Application Express

Modélisation : Entité-Association Pattes de corbeau Relationnel. Plan BD4 : A.D., S.B Des systèmes d'information. Pourquoi?

Pentaho Business Analytics Intégrer > Explorer > Prévoir

Le NoSQL - Cassandra

Langage SQL (1) 4 septembre IUT Orléans. Introduction Le langage SQL : données Le langage SQL : requêtes

11/01/2014. Le Big Data Mining enjeux et approches techniques. Plan. Introduction. Introduction. Quelques exemples d applications

Dossier I Découverte de Base d Open Office

Bases de Données. Plan

Institut d Informatique & d Initiative Sociale

Bases de données élémentaires Maude Manouvrier

A QUOI SERVENT LES BASES DE DONNÉES?

IT203 : Systèmes de gestion de bases de données. A. Zemmari zemmari@labri.fr

BD et XML : Exercices

CHAPITRE 1. Introduction aux bases de données

Cours Bases de données

INITIATION AUX BASES DE DONNEES MODELISATION et LANGAGE SQL

Méthodologie de conceptualisation BI

Fournir un accès rapide à nos données : agréger au préalable nos données permet de faire nos requêtes beaucoup plus rapidement

Développement d applications Internet et réseaux avec LabVIEW. Alexandre STANURSKI National Instruments France

XML et Bases de données. Les bases de données XML natives.

Bases de données cours 1

Chapitre 1 : Introduction aux bases de données

Bases de Données NoSQL

SCI6052 Information documentaire numérique École de bibliothéconomie et des sciences de l information

BASES DE DONNÉES. CNAM Centre associé de Clermont-Ferrand Cycle A Année J. Darmont I. INTRODUCTION II. LES SYSTÈMES HIÉRARCHIQUES

il est mettre en valeur vos classe, de Modifiez de l arrière-plan images.

Les technologies du Big Data

CATALOGUE FORMATIONS DOMAINE Bases de données

NoSQL. Etat de l art et benchmark

2 Serveurs OLAP et introduction au Data Mining

Projet Business Object

Architectures web/bases de données

EUDONET EN 2014 QUI SOMMES NOUS? 800 RÉFÉRENCES CLIENTS ÉDITEUR ET INTÉGRATEUR DE EUDONET + 14 ANS D EXPÉRIENCE

Performances Veille. Système d Information. Semaine 25 du 18 au 24 juin Numéro 228

Présentation Alfresco

Introduction aux bases de données

Acquisition des données - Big Data. Dario VEGA Senior Sales Consultant

Conception d une base de données

BASES DE DONNÉES CONCEPTS ET PROGRAMMATION. Antoine Cornuéjols. AgroParisTech, Spécialité Informatique ( ) Version du 19 octobre 2009

Bases de données avancées Introduction

Labs Hadoop Février 2013

BES WEBDEVELOPER ACTIVITÉ RÔLE

Bases de données relationnelles : Introduction

Atelier 1. Portails documentaires : BioLib et Cemadoc

Business & High Technology

Transcription:

Bases de données documentaires et distribuées Cours NFE04 Bases documentaires Auteurs : Raphaël Fournier-S niehotta, Philippe Rigaux, Nicolas Travers prénom.nom@cnam.fr Département d informatique Conservatoire National des Arts & Métiers, Paris, France

Objectifs Qu est-ce qu une base de données documentaire (ou base de données orientée documents)? Pour quels documents une telle base de donnée est-elle appropriée? Peut-elle remplacer une base relationnelle?

BD documentaire, pourquoi? Les exercices précédents nous ont permis de produire des documents (DocBook, SVG) en format XML. Ces documents représentent du contenu structuré et ce indépendamment de toute application. On peut donc construire des systèmes d information : une bibliothèque numérique, un moteur de recherche, une application Web, des chaînes de publication, etc. Question Quand on passe à l échelle de milliers ou de millions de documents, comment les gérer?

Rôle d une BD documentaire Un système de gestion de bases documentaires fournit les services suivants. Stockage, préservation, sécurité des accès. Accès partagé et distant. Interrogation, recherche par contenu. Outils de traitement, de transformation. Passage à l échelle par distribution.

Petit panorama C est la galaxie des systèmes NoSQL... Format XML BaseX, exist, Oracle XML DB Format JSON MongoDB CouchDB, autres... Pas de format du tout (clé, valeur) Riak, MemCache HBase, Cassandra...

Plan de la présentation

Prenons l exemple de notre base de films Artiste Internaute id nom prénom Réalise 0..1 0..* * Donne une note * note email nom prénom annéenaissance 0..* Joue 0..* Film id titre année motdeppasse annéenaissance rôle genre résumé Pays * 1..1 code nom langue

En relationnel Exemple avec associations 1 à plusieurs et plusieurs à plusieurs. Movie (id, title, year, genre, summary, id_director, country) Artist (id, first_name, last_name, birth_date) Role (idmovie, idartist, role) Caractéristique du relationnel : il faut faire des jointures pour reconstituer l information. Dans les bases documentaires : on essaie de créer des unités d information autonomes pour éviter d avoir à faire des jointures. Intuition Les systèmes NoSQL sont conçus pour passer à l échelle par distribution. C est en grande partie incompatible avec les jointures.

Représentation totalement autonome : films Aucune référence à un autre document. { }, { }, { } ] "_id": "movie:57", "title": "Jackie Brown", "year": "1997", "director": { "_id": "artist:37", "last_name": "Tarantino", "first_name": "Quentin", "birth_date": "1963" "actors": [ "_id": "artist:167", "first_name": "Robert", "last_name": "De Niro", "birth_date": "1943", "role": "Luis Gara" "_id": "artist:168", "first_name": "Pam", "last_name": "Grier", "birth_date": "1949", "role": "Jackie Brown"

Représentation totalement autonome : acteurs { "_id": "artist:167", "first_name": "Robert", "last_name": "De Niro", "birth_date": "1943", "movies": [ {"title": "Taxi Driver", "year": "1976", "genre": "crime", "director": { "last_name": "Tarantino", "first_name": "Quentin", "birth_date": "1963" } }, {"title": "Jackie Brown", "year": "1997", "genre": "drame", "director": { "last_name": "Scorcese", "first_name": "Martin", "birth_date": "1942" } },... ] }

Représentation avec références et uniquement avec des références.. { "_id": "movie:57", "title": "Jackie Brown", "year": "1997", "director": "artist:37", "actors": [ "artist:167", "artist:168", "artist:169", "artist:170", "artist:212"] ] } Concis, mais nécessite beaucoup de jointures (un peu moins qu en relationnel). Comment faire avec MongoDB (à suivre)?

Discussion Quand utiliser (ou pas) une base documentaire? quand les documents contiennent peu ou pas de références ; ou quand on peut se permettre la redondance (peu de MaJ), totale ou partielle ; quand les chemins liant les documents sont très court (1, 2 max). contre-exemple : artiste -> film -> réalisateur -> pays ->... exemple : excel sheet -> auteur. on veut traiter de très gros volumes de manière scalable. Conditions non remplies : un système relationnel est toujours une option à considérer. Conclusion C est du cas par cas en fonction de l application. Décision basée sur une réflexion préalable approfondie.

Quelques éléments de réflexion Fait : Les données d une base relationnelle peuvent être représentées par un document textuel. Toujours se poser (au moins) les questions suivantes : S agit-il de représenter une structure régulière (p.e. une table)? Dans ce cas il n est pas nécessaire d intégrer la structure et le contenu.

Quelques éléments de réflexion Fait : Les données d une base relationnelle peuvent être représentées par un document textuel. Toujours se poser (au moins) les questions suivantes : S agit-il de représenter une structure régulière (p.e. une table)? Dans ce cas il n est pas nécessaire d intégrer la structure et le contenu. Doit-je introduire des références à des entités identifiables? Les modèles documentaires ne sont pas adaptés à un contenu ayant une forte densité de références à des entités.

Quelques éléments de réflexion Fait : Les données d une base relationnelle peuvent être représentées par un document textuel. Toujours se poser (au moins) les questions suivantes : S agit-il de représenter une structure régulière (p.e. une table)? Dans ce cas il n est pas nécessaire d intégrer la structure et le contenu. Doit-je introduire des références à des entités identifiables? Les modèles documentaires ne sont pas adaptés à un contenu ayant une forte densité de références à des entités. La structure d un document est-elle fixe et prévisible? Contre-exemple : le rapport écrit. Si réponse «oui» à l une de ces questions Bien méditer sur les avantages / inconvénients du recours à une base de données non conventionnelle (NoSQL).

Ce qu il faut retenir Base de données documentaires = des fonctionnalités "bases de données" pour des unités d information autonomes et peu/pas structurées. Valable pour les documents "multimédia" au sens larges : rapports, images, vidéos. Pas valable pour des données fortement structurées. La notion d autonomie (pas d association entre documents) est essentielle. Autonomie? On peut mettre en œuvre un passage à l échelle par distribution. Typique des systèmes NoSQL. Pas d autonommie : un jour ou l autre il faudra faire des jointures ; les systèmes NoSQL ne sont pas bon pour ça. Ne pas oublier : les schémas, le langage de requêtes, l optimisation, la concurrence d accès, ça compte beaucoup! À vous de jouer...