Bases de données documentaires et distribuées Cours NFE04



Documents pareils
Bases de données documentaires et distribuées Cours NFE04

NFE204 Bases de données avancées

Bases de données documentaires et distribuées Cours NFE04

Bases de données documentaires et distribuées Cours NFE04

Bases de données documentaires et distribuées Cours NFE04

Fouillez facilement dans votre système Big Data. Olivier TAVARD

AVRIL Au delà de Hadoop. Panorama des solutions NoSQL

Technologies Web. Ludovic Denoyer Sylvain Lamprier Mohamed Amine Baazizi Gabriella Contardo Narcisse Nya. Université Pierre et Marie Curie

Les technologies du Big Data

NoSQL. Introduction 1/23. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)

CESI Bases de données

IBM Cloudant Data Layer Local Edition

Ecole des Hautes Etudes Commerciales HEC Alger. par Amina GACEM. Module Informatique 1ière Année Master Sciences Commerciales

NFA 008. Introduction à NoSQL et MongoDB 25/05/2013

Bases de données Cours 1 : Généralités sur les bases de données

Devenez un véritable développeur web en 3 mois!

Introduction aux Bases de Données Relationnelles Conclusion - 1

Offres de stages 2011/2012

Extensions, Documentation, Tutoriels, Astuces

INF 1250 INTRODUCTION AUX BASES DE DONNÉES. Guide d étude

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data.

A5.2.4 Étude d une technologie, d'un composant, d'un outil

Soutien technique en informatique

WINDOWS AZURE ET LES ÉDITEURS DE LOGICIELS

Technologies du Web. Ludovic DENOYER - ludovic.denoyer@lip6.fr. Février 2014 UPMC

Groupe de Discussion Big Data Aperçu des technologies et applications. Stéphane MOUTON

Avantic Software Présentation de solutions GED pour mobiles (Gestion Electronique de Documents)

Quels choix de base de données pour vos projets Big Data?

Rédiger : le numérique dans la préparation de la thèse

Design. Search. Cloud AMOA ECM. Intégration. IT Solutions. Formation. Développement. Mobilité. Open source. Infogérance. Ergonomie

Présentation du module Base de données spatio-temporelles

Gestion collaborative de documents

Sélection d un moteur de recherche pour intranet : Les sept points à prendre en compte

Bases de Données. Stella MARC-ZWECKER. Maître de conférences Dpt. Informatique - UdS

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation

Introduction aux Bases de Données

PROSOP : un système de gestion de bases de données prosopographiques

HADOOP ET SON ÉCOSYSTÈME

FileMaker Server 11. Publication Web personnalisée avec XML et XSLT

UE 8 Systèmes d information de gestion Le programme

NoSQL. Introduction 1/30. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)

Transformation IT de l entreprise BIG DATA, MÉTIERS ET ÉVOLUTION DES BASES DE DONNÉES

PostgreSQL. Formations. SQL avancé Calendrier... 18

Introduction à ElasticSearch

FORUM NTIC BIG DATA, OPEN DATA Big Data: les challenges, les défis

INFORMATIQUE & WEB. PARCOURS CERTIFICAT PROFESSIONNEL Programmation de sites Web. 1 an 7 MODULES. Code du diplôme : CP09

Webinar. Découvrez Rubedo, la première solution CMS open-source tirant profit des atouts de Zend Framework et du NoSQL. avec la participation de

Les bases de données relationnelles

BIG DATA. Veille technologique. Malek Hamouda Nina Lachia Léo Valette. Commanditaire : Thomas Milon. Encadré: Philippe Vismara

Technologies du Web. Créer et héberger un site Web. Pierre Senellart. Page 1 / 26 Licence de droits d usage

Magasins et entrepôts de données (Datamart, data warehouse) Approche relationnelle pour l'analyse des données en ligne (ROLAP)

Le S.I.M. Le S.I.M. Définition a. S.I.M. ou S.I.C. S.I.M. S.I.C. Le S.I.M. Définition a. S.I.M. ou S.I.C. Définition

La dernière base de données de Teradata franchit le cap du big data grâce à sa technologie avancée

Le stockage local de données en HTML5

Développement de base de données Microsoft SQL Server Durée : 5 jours Référence : DPSQL12. Contenu

Cartographie des solutions BigData

Présentation Alfresco

Bases de données avancées Introduction

Sécurité des applications Retour d'expérience

Le NoSQL - Cassandra

Introduction à. Oracle Application Express

M2 SIAW - Exemples de stages réalisés. Gabriella Salzano - Document de travail - 28/1/2015

Formation : Langues : Types d Intervention et Secteurs d Activité :

Pentaho Business Analytics Intégrer > Explorer > Prévoir

Le "tout fichier" Le besoin de centraliser les traitements des fichiers. Maitriser les bases de données. Historique

Intégration, Interface, Importation de données : Mtv et autres systèmes, données et documents

Documentation d information technique spécifique Education. PGI Open Line PRO

Programmation Web. Madalina Croitoru IUT Montpellier

Programme ASI Développeur

Initiation aux bases de données (SGBD) Walter RUDAMETKIN

Content Management System V.3.0. BlackOffice CMS V3.0 by ultranoir 1

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril / 15

Cours Bases de données

THÉMATIQUES. Comprendre les frameworks productifs. Découvrir leurs usages. Synthèse

CNAM Déploiement d une application avec EC2 ( Cloud Amazon ) Auteur : Thierry Kauffmann Paris, Décembre 2010

OFFRE MDB Service & Architecture Technique. MyDataBall Saas (Software as a Service) MyDataBall On Premise

Gestion du parc informatique matériel et logiciel de l Ensicaen. Rapport de projet. Spécialité Informatique 2 e année. SAKHI Taoufik SIFAOUI Mohammed

La solution pour gérer vos connaissances techniques et scientifiques

Atelier 1. Portails documentaires : BioLib et Cemadoc

accueil Ecole Supérieure du Numérique de Normandie

Bases de données cours 1

Bureautique Initiation Excel-Powerpoint

Formation Cloudera Data Analyst Utiliser Pig, Hive et Impala avec Hadoop

SQL Server 2012 et SQL Server 2014

Cassandra chez Chronopost pour traiter en temps réel 1,5 milliard d événements par an

Alfresco et TYPO3 Présenté par Yannick Pavard dans le cadre des rencontres WebEducation Février 2008

THEME PROJET D ELABORATION D UNE BASE DE DONNEES SOUS LE SERVEUR MYSQL

Panorama des solutions analytiques existantes

LEA.C5. Développement de sites Web transactionnels

GPC Computer Science

Big Graph Data Forum Teratec 2013

Introduction Big Data

Drive your success. «Un écosystème complexe implique une capacité de gestion temps réel des aléas»

Ressources pour le lycée général et technologique

Elasticité logicielle pour optimiser l empreinte énergétique

transformer en avantage compétitif en temps réel vos données Your business technologists. Powering progress

SQL SERVER 2008, BUSINESS INTELLIGENCE

11/01/2014. Le Big Data Mining enjeux et approches techniques. Plan. Introduction. Introduction. Quelques exemples d applications

Hibernate vs. le Cloud Computing

BIG Data et R: opportunités et perspectives

Transcription:

Bases de données documentaires et distribuées Cours NFE04 Introduction du cours Auteurs : Raphaël Fournier-S niehotta, Philippe Rigaux, Nicolas Travers prénom.nom@cnam.fr Département d informatique Conservatoire National des Arts & Métiers, Paris, France

Sujet du cours Plan de la présentation 1 Sujet du cours 2 Objectifs 3 Prérequis 4 Organisation 5 Les ressources

Sujet du cours Le sujet, en bref Documents et bases de documents Comprendre ce qu est une base de données constituée de documents et savoir évaluer les méthodes, outils et systèmes pour les gérer. Problématiques associées : notion de document, structuré, semi-structuré, non structuré ; représentation et interrogation, et aussi mise à jour et transactions. distribution, élasticité pour gérer de très grands volumes de données. Question transversale : base relationnelle ou base NoSQL? Quand, pourquoi, comment? Des mots-clés à comprendre (et à critiquer) : données structurées/non structurées, bases NoSQL, Cloud, BigData, moteurs de recherche, etc.

Sujet du cours Bases relationnelles Les bases relationnelles sont utilisées dans toutes les applications gérant des informations structurées et régulières : applications de gestion, applications Web, applications mobiles. Des fonctionnalités extrêmement fortes Une modélisation (quasi-) normalisée. Un langage (SQL) très bien défini, normalisé lui aussi. De très bonnes performances, obtenues automatiquement Une gestion robuste de la concurrence d accès Attention à bien apprécier ce qu on gagne / perd en passant au "NoSQL" Révisions nécessaires? Mieux vaut s en apercevoir maintenant. Révisions sur http://www.bdpedia.fr

Sujet du cours Problématique 1 : La notion de document Document = unité d information autonome ou quasi-autonome. Peu ou pas de référence à d autres documents. Peu ou pas de structure ; ou une structure très flexible. Un contenu souvent à orientation multimédia. Examples (1) : documents textuels, types documents Web. Examples (2) : images, documents audios, vidéos ; pas de structure explicite, production de descripteurs synthétiques pour tenter de les indexer. Examples (3) : jeux en ligne : artifacts graphiques, objets 3D, actions utilisateur. Examples (4) : tous les fichiers de votre ordinateur... Défi Impose de repenser la notion de schéma et de représentation.

Sujet du cours Problématique 1 : bases documentaires Soit un ensemble (important) de documents, comment les gérer? Dans un système de fichier? Pourquoi pas, mais Manipulations laborieuses ; aucun contrôle de contenu ; peu sécurisé ; fonction de recherche primitive. Vraiment pas pratique pour construire des applications. Dans une base relationnelle? Pourquoi pas, mais Sous-utilisation du système (stockage par BLOB, SQL inutilisable, transactions élémentaires). Peu de gains. Dans un système orienté-document? Un système de Gestion Electronique de Documents (GED), type Alfresco. Une base documentaire = des fonctionnalités BD, spécialisées documents.

Sujet du cours Problématique 2 : la recherche Dans les bases documentaires, peu ou pas de structure fixe, SQL inadapté. Recherche «exacte» souvent insatisfaisante. La recherche s effectue souvent par similarité on fournit un document requête" le système recherche les documents proches du document-requête. implique une notion de distance, et donc un classement du résultat. Par exemple, quand on recherche sur le Web : on fournit un ensemble de mots-clés : c est le document requête le moteur de recherche trouve les documents les plus proches (on verra comment) le classement (et sa pertinence) sont des éléments essentiels.

Sujet du cours Problématique 3 : données à très grande échelle On atteint facilement des volumes de données extrêmement importants. les moteurs de recherche qui collectent des documents disponibles sur le Web. les applications utilisées à l échelle du Web ; commerce électronique (Amazon) ; réseaux sociaux (Facebook). données gérées par les jeux en ligne. Les collections occupent typiquement des centaines de Gigaoctets, voire des Téraoctets. Solution Nouveaux systèmes, dits NoSQL pour gérer de vastes collections de documents de manière scalable pour les accès temps réel ; pour les traitements analytiques (MapReduce et au-delà).

Objectifs Plan de la présentation 1 Sujet du cours 2 Objectifs 3 Prérequis 4 Organisation 5 Les ressources

Objectifs Objectifs du cours Le cours vise à vous transmettre, dans un context pratique, deux types de connaissances. Connaissances fondamentales Représentation de documents textuels : les formats XML et JSON ; les langages de manipulation ; Recherche dans les bases documentaires : principes, techniques, moteurs de recherche, index, algorithmes. Stockage, gestion, et scalabilité par distribution. L essentiel sur les systèmes distribués ; le cas des systèmes NOSQL.

Objectifs Objectifs du cours Le cours vise à vous transmettre, dans un context pratique, deux types de connaissances. Connaissances fondamentales Représentation de documents textuels : les formats XML et JSON ; les langages de manipulation ; Recherche dans les bases documentaires : principes, techniques, moteurs de recherche, index, algorithmes. Stockage, gestion, et scalabilité par distribution. L essentiel sur les systèmes distribués ; le cas des systèmes NOSQL. Connaissances pratiques Des systèmes "NoSQL" orientés «documents» ; pour JSON (MongoDB, CouchDB) pour XML (BaseX). Des moteurs de recherche (Solr, ElasticSearch) basés sur un index inversé (Lucene). Etude, en pratique, de quelques systèmes NoSQL distribués : MongoDB (temps réel), ElasticSearch (indexation), Hadoop/Flink (analytique à grande échelle).

Prérequis Plan de la présentation 1 Sujet du cours 2 Objectifs 3 Prérequis 4 Organisation 5 Les ressources

Prérequis Prérequis Les connaissances suivantes sont requises pour suivre ce cours. Compréhension des bases relationnelles, soit au moins la conception d un schéma, SQL, ce qu est un index et des notions de base sur les transactions. si nécessaire, des rappels seront effectués en cours. Une aisance minimale dans un environnement de développement. Editer un fichier, lancer une commande, ne pas paniquer devant un nouvel outil, savoir résoudre un problème avec un minimum de tenacité, etc. Vous devez reproduire les exemples donnés. La connaissance de langage de programmation comme Java ou PHP vous aidera. La réalisation de quelques fonctionnalités vous permettra de consolider vos nouvelles connaissances.

Prérequis Environnement de travail Environnement matériel et logiciel Le cours repose beaucoup sur la mise en pratique. Vous avez besoin d un ordinateur pour travailler. au Cnam, tout vous est fourni ; Cnam à distance, ou en auditeur libre, il vous faut une machine raisonnablement puissante et dotée d au moins 8 GO de mémoire : tous les systèmes sont possibles : Linux, Mac/OS ou Windows.

Prérequis Environnement de travail Environnement matériel et logiciel Le cours repose beaucoup sur la mise en pratique. Vous avez besoin d un ordinateur pour travailler. au Cnam, tout vous est fourni ; Cnam à distance, ou en auditeur libre, il vous faut une machine raisonnablement puissante et dotée d au moins 8 GO de mémoire : tous les systèmes sont possibles : Linux, Mac/OS ou Windows. Tous les logiciels utilisés sont libres de droits. Nous travaillons essentiellement avec Lucene et Solr, mais aussi ElasticSearch pour l indexation de documents. MongoDB et plusieurs autres outils NoSQL. Flink et Spark et quelques autres. L installation de ces outils (et leur utilisation) est couverte dans le cours.

Organisation Plan de la présentation 1 Sujet du cours 2 Objectifs 3 Prérequis 4 Organisation 5 Les ressources

Organisation Organisation du cours Le cours est découpé en chapitres, couvrant un sujet bien déterminé, et en sessions. L unité de travail est la session. Nous essayons de structurer les sessions pour qu elles ne demandent environ 2 heures de travail personnel (bien sûr, cela dépend également de vous).

Organisation Organisation du cours Le cours est découpé en chapitres, couvrant un sujet bien déterminé, et en sessions. L unité de travail est la session. Nous essayons de structurer les sessions pour qu elles ne demandent environ 2 heures de travail personnel (bien sûr, cela dépend également de vous). Pour assimiler une session vous pouvez combiner les ressources suivantes : La lecture du support en ligne, également disponible en PDF ou en epub. Le suivi du cours, en vidéo ou en présentiel. Le test des exemples de code fournis dans chaque session. La réalisation des exercices proposés en fin de session. La réalisation des exercices est essentielle pour vérifier que vous maîtrisez le contenu.

Organisation Mener votre travail personnel Vous devez maîtriser le contenu des sessions dans l ordre où elles sont proposées. Commencez par lire le support, jusqu à ce que les principes vous paraissent clairs. Reproduisez les exemples de code. Tous les exemples donnés sont testés et doivent donc fonctionner. Cherchez à résoudre les problèmes par vous-mêmes au besoin : c est le meilleur moyen de comprendre. Finissez par les exercices. Faites les vous-mêmes, avant de regarder la solution. Répondez au Quiz proposé en fin des principaux chapitres.

Organisation Mener votre travail personnel Vous devez maîtriser le contenu des sessions dans l ordre où elles sont proposées. Commencez par lire le support, jusqu à ce que les principes vous paraissent clairs. Reproduisez les exemples de code. Tous les exemples donnés sont testés et doivent donc fonctionner. Cherchez à résoudre les problèmes par vous-mêmes au besoin : c est le meilleur moyen de comprendre. Finissez par les exercices. Faites les vous-mêmes, avant de regarder la solution. Répondez au Quiz proposé en fin des principaux chapitres. Nous sommes là pour vous aider Si vous êtes inscrits au Cnam, nous sommes là pour vous ; sinon, nous vous assisterons dans la mesure de nos disponibilités.

Les ressources Plan de la présentation 1 Sujet du cours 2 Objectifs 3 Prérequis 4 Organisation 5 Les ressources

Les ressources Ressources Contact avec les enseignants : Raphaël Fournier-S niehotta et Philippe Rigaux (prénom.nom@cnam.fr). Généralités sur le cours et documents complémentaires : http://www.bdpedia.fr/bases-documents Présentations (slides) Liens vers les vidéos Autres ressources Support de cours en HTML : http://b3d.bdpedia.fr/ Support de cours en PDF : http://b3d.bdpedia.fr/files/b3d.pdf Support de cours en epub : http://b3d.bdpedia.fr/files/b3d.epub Pour ceux/celles qui suivent le cours au Cnam : http://lecnam.net.