BIG DATA. Veille technologique. Malek Hamouda Nina Lachia Léo Valette. Commanditaire : Thomas Milon. Encadré: Philippe Vismara



Documents pareils
NoSQL. Introduction 1/23. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)

NoSQL. Introduction 1/30. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)

Groupe de Discussion Big Data Aperçu des technologies et applications. Stéphane MOUTON

AVRIL Au delà de Hadoop. Panorama des solutions NoSQL

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data.

Ecole des Hautes Etudes Commerciales HEC Alger. par Amina GACEM. Module Informatique 1ière Année Master Sciences Commerciales

Les bases de données relationnelles

11/01/2014. Le Big Data Mining enjeux et approches techniques. Plan. Introduction. Introduction. Quelques exemples d applications

Cartographie des solutions BigData

Quels choix de base de données pour vos projets Big Data?

NoSQL : hype ou innovation? Grégory Ogonowski / Recherches Octobre 2011

Introduction Big Data

Big Data On Line Analytics

Le BigData, aussi par et pour les PMEs

HADOOP ET SON ÉCOSYSTÈME

Bases de données documentaires et distribuées Cours NFE04

Document réalisé par Khadidjatou BAMBA

BIGDATA AN 3 : UNE NOUVELLE ERE DE B.I.

NewPoint IT Consulting BIG DATA WHITE PAPER. NewPoint Information Technology Consulting

Bases de Données. Stella MARC-ZWECKER. Maître de conférences Dpt. Informatique - UdS

Le NoSQL - Cassandra

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars ans du SIAD -"Big Data par l'exemple" -Julien DULOUT

Bases de Données Avancées

Les quatre piliers d une solution de gestion des Big Data

Big Graph Data Forum Teratec 2013

Les technologies du Big Data

Cassandra chez Chronopost pour traiter en temps réel 1,5 milliard d événements par an

NoSQL. Etat de l art et benchmark


Les Entrepôts de Données

Big data* et marketing

Bases de données documentaires et distribuées Cours NFE04

Bases de données documentaires et distribuées Cours NFE04

Enjeux mathématiques et Statistiques du Big Data

Un peu de culture : Bases N osql L 1

MapReduce. Nicolas Dugué M2 MIAGE Systèmes d information répartis

Mesures DNS à l ère du Big Data : outils et défis. JCSA, 9 juillet 2015 Vincent Levigneron, Afnic

Introduction à MapReduce/Hadoop et Spark

Labs Hadoop Février 2013

Programmation parallèle et distribuée

Bases de données relationnelles : Introduction

FINI LA RÉCRÉ PASSONS AUX MÉGADONNÉES

2 e édition. et le Big Data. Comprendre et mettre en oeuvre. NoSQL. Rudi Bruchez. Les bases de données

Big data et données géospatiales : Enjeux et défis pour la géomatique. Thierry Badard, PhD, ing. jr Centre de Recherche en Géomatique

BIG DATA en Sciences et Industries de l Environnement

Benjamin Cornu Florian Joyeux. Les choses à connaître pour (essayer) de concurrencer Facebook.

SGBDR. Systèmes de Gestion de Bases de Données (Relationnelles)

Big Data : utilisation d un cluster Hadoop HDFS Map/Reduce HBase

Les datas = le fuel du 21ième sicècle

LA DIVULGATION INTELLIGENTE DES DONNEES A L'HEURE DES BIG DATA

À PROPOS DE TALEND...

FORUM NTIC BIG DATA, OPEN DATA Big Data: les challenges, les défis

Acquisition des données - Big Data. Dario VEGA Senior Sales Consultant

CESI Bases de données

Votre laisser-passer pour les. Big Data Guide visuel

SQL Server 2012 et SQL Server 2014

Structure fonctionnelle d un SGBD

Rapport d étude sur le Big Data

Offre formation Big Data Analytics

Optimisations des SGBDR. Étude de cas : MySQL

L écosystème Hadoop Nicolas Thiébaud Tuesday, July 2, 13

Hibernate vs. le Cloud Computing

Fouillez facilement dans votre système Big Data. Olivier TAVARD

Protection des données personnelles : Vers un Web personnel sécurisé

BI dans les nuages. Olivier Bendavid, UM2 Prof. A. April, ÉTS

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation

Jean-François Boulicaut & Mohand-Saïd Hacid

Quelques patterns pour la persistance des objets avec DAO DAO. Principe de base. Utilité des DTOs. Le modèle de conception DTO (Data Transfer Object)

LES ENJEUX DU BIG DATA

Introduction au Data-Mining

L AVENIR DU NoSQL. Quel avenir pour le NoSQL?

BI = Business Intelligence Master Data-ScienceCours 3 - Data

Architectures d'intégration de données

Vos experts Big Data. Le Big Data dans la pratique

Prototypage et évaluation de performances d un service de traçabilité avec une architecture distribuée basée sur Hadoop

NFA 008. Introduction à NoSQL et MongoDB 25/05/2013

IT203 : Systèmes de gestion de bases de données. A. Zemmari zemmari@labri.fr

INTRODUCTION AUX BASES de DONNEES

Le potentiel et les défis du Big Data. Mardi 2 et Mercredi 3 Juillet 2013

Bases de données Cours 1 : Généralités sur les bases de données

CNAM Déploiement d une application avec EC2 ( Cloud Amazon ) Auteur : Thierry Kauffmann Paris, Décembre 2010

BIG Data et R: opportunités et perspectives

BUSINESS INTELLIGENCE. Une vision cockpit : utilité et apport pour l'entreprise

Programmation parallèle et distribuée (Master 1 Info )

Formation Cloudera Data Analyst Utiliser Pig, Hive et Impala avec Hadoop

Exploration des Big Data pour optimiser la Business Intelligence

Nouvelles opportunités pour les données fortement interconnectées : La base de graphe Neo4j

CENTAI : Big Data & Big Analytics Réunion DGPN / Thales Octobre 2013

Fouille de données massives avec Hadoop

Atelier 1. Portails documentaires : BioLib et Cemadoc

Le "tout fichier" Le besoin de centraliser les traitements des fichiers. Maitriser les bases de données. Historique

Sommaire. 3. Les grands principes de GFS L architecture L accès de fichier en lecture L accès de fichier en écriture Bilan

Programme CREATION SITE INTERNET (CMS Wordpress)

Plan 1/9/2013. Génération et exploitation de données. CEP et applications. Flux de données et notifications. Traitement des flux Implémentation

Programmation parallèle et distribuée

Big Data. SRS Day Ali FAWAZ Etienne CAPGRAS. Membres du groupe : Coaché par :

Mercredi 15 Janvier 2014

Big Data. Concept et perspectives : la réalité derrière le "buzz"

Transcription:

BIG DATA Veille technologique Malek Hamouda Nina Lachia Léo Valette Commanditaire : Thomas Milon Encadré: Philippe Vismara 1

2 Introduction Historique des bases de données : méthodes de stockage et d analyse 1960 1970 1980 1985 2000 2012 Organisation classique en fichier Premier SGBD 2 ème génération des SGBD: Les systèmes relationnels 3 ème génération des SGBD: Les systèmes orientés objets. Entrepôt de données Explosion du volume de données Méthodes d analyses statistiques classiques 1 er méthode d analyse chimiométrique multivariée : Exploratoires (ACP,AFCM) Régression(PCR, PLS) Fouille de données. Méthodes pas assez puissante pour traiter et analyser toutes ces données

3 Introduction Volume Vitesse Variété à Big Data Ensemble de données trop volumineuses et variées pour être stockées ettraitées avec des outils classiques de gestion de base de données. Problèmatique: Comment stocker et analyser ces données?

4 Introduction Qui est concerné par le Big Data q Web, internet et objet communicant : e-journaux, réseaux sociaux, e- commerce, stockage de document, RFID, réseaux de capteurs q Sciences : génomique, astronomie, climatologie q Données commerciales, personnelles, publiques. (Historique de transaction dans une chaine de supermarchés, Dossier médicaux, Open data ) Fournisseurs de solutions Leader du web Le secteur scientifique Les grands acteurs de logiciel et système d entreprises

5 Plan Formes de stockage des données Méthode de traitement Conclusion et perspectives

Modèle classique : BD relationnelle 6 I. Quelles formes de stockage? Interrogation par requête SQL Techniquement impossible sur du big data Modèle NoSQL (not only SQL)

Le modèle NoSQL I. Quelles formes de stockage? Base du NoSQL : structure «clé-valeur» distribuée 7 Clé Malek Valeur Etudiante Léo 23 Nina Bruno France Enseignant Clé Nina Valeur agrotic Malek Léo Tunisie Etudiant Simplifier les BD : Supprimer les relations entre tables Transférer l intelligence des requêtes SQL vers l applicatif qui interroge la BD Pouvoir répartir la BD sur plusieurs serveurs

I. Quelles formes de stockage? 8 Base de donnée clé-valeur AVANTAGES Stocker un grand nombre de données et de nature variée Effectuer des requêtes rapides Augmentation de la capacité de calcul et de stockage en ajoutant de nouveaux serveurs INCONVENIENTS Pas de requêtes complexes Transactionnel limité (atomicité, cohérence, isolation, durabilité) Apprendre une nouvelle approche de technologie de base de données

9 I. Quelles formes de stockage? Les différents types de NoSQL

I. Quelles formes de stockage? 10 Les différents types de NoSQL APPLICATIONS : Données semi-persistantes cache, pour conserver les sessions d'un site web stockage pour des files d'attentes, accumuler des événements bruts en vue d'en agréger des statistiques EXEMPLES : Memcached CouchBase Redis

Les types de NoSQL BigTable et dérivés Clé (ID message) Valeur (destinataire) 11 I. Quelles formes de stockage? Tag temps (heure envoie) APPLICATIONS : BD de tous les produits Google (Gmail, Reader, gmaps, Earth, blogger, youtube, ) sur Bigtable BD de Twitter sur Cassandra BD de Facebook sur HBase

12 Les types de NoSQL BD orientées documents I. Quelles formes de stockage? Clé (id document) Doc001 Valeur (information structurée de manière hiérarchique type XML,JSON) {promo: agrotic2012, groupe : Malek, Nina, Leo, travail : veille techno, date : 19/12/2012, body:, } APPLICATIONS : Accélérateur de particules du CERN, banque Barclays sur MongoDB Ubuntu One et la banque suisse sur CouchDB Mozilla, AOL sur Riak

Les types de NoSQL BD orientées graphes Clé Valeur 3 {Statut: étudiante, Etat: souriante } 13 I. Quelles formes de stockage? Bruno Id: 1 Statut : enseignant 103 {label: enseigne à } Nina Id: 103 label : enseigne à Id: 2 Statut : étudiante Id: 203 label : est amie avec Malek Id: 3 Statut : étudiante État : souriante APPLICATIONS : Deutsche Telekom et Viadeo sur NEO4J

14 Plan Formes de stockage des données Méthode de traitement Conclusion et perspectives

15 II. Méthode de traitement Une Nouvelle façon d interroger les données Architecture traditionnelle Architecture BigData Division en clusters à Une méthode de programmation d analyses en parallèle à Grande quantité de données, traitement à grande vitesse Source: http://static.slidesharecdn.com/

16 II. Méthode de traitement Le principe en exemple Compter le nombre de lettres contenus dans un fichier Fichier source (Base de données NoSQL) Splitting Découpage en blocs Mapping Fonction d analyse parallèle Shuffling Tri Reducing Agrégation des informations Résultat A, 3 B, 1 C, 3 D, 2 à Répartition du travail à Efficace sur des tera octets de données

17 II. Méthode de traitement Source: http://static.slidesharecdn.com/swf/ssplayer2.swf?doc=bigdata1-111109113624-phpapp02&stripped_title=big-data-par-mfglabs&username=benjamingans

18 II. Méthode de traitement Projet Apache Open Source

19 II. Méthode de traitement PARALLELISATION DES PROCESSUS Volume de donnée Vitesse de traitement augmentée Les traitements en temps réel Quelques exemples Publicité Transactions financières Gérer des flux de données énormes en temps réel

Conclusion: 20 Principes: Travail en parallèle et structuration simplifiée de la donnée. Le Big Data ne s applique que dans des cas particuliers, pour des besoins particuliers. A quand un BigDat Agricole?

21 Autres informations: Conférence à Paris (Défense)au CNIT le 3 et 4 avril 2013 sur le BIG DATA. 1 er master en France, ouvre en 2013 à Telecom Paris Tech sur BIG DATA : gestion et analyse des données massives.

22

23 Risques: Protection des données à caractères personnelle: Mot de passe, liberté de circulation,géolocalisation des personnes à partir des smartphones (photos et les publications). De contrôle permanent de la pars des autorités.

Bibliographie (articles scientifique, conférences, livres, cours ) 24 Conférence du 20/21 mars 2012 sur les Big Data à la Cité universitaire à Paris http://www.digora.com/blog/big-data-connaissez-vous-hadoop/ http://123opendata.com/blog/le-lexique/#ixzz2fohd8rrn (lexique de l Open Data) http://www.telecom-paristech.fr/big-data-dossier-presse.html#c9999 http://www.telecom-paristech.fr/formation-continue/les-entretiens-detelecom-paristech/dec-2012-big-data-big-value/avis-experts.html#c10129 http://nosql.mypopescu.com/post/9621746531/a-definition-of-big-data http://france.emc.com/microsites/bigdata/index.htm http://eric.univ-lyon2.fr/~jdarmont/docs/old/sise-bd.pdf Journal : O Reilly, article Big Data Now. Edition 2012. Big Data Spectrum, Connect Architecture, Infosis. Big Data et Open source, une convergence inévitable, Mars 2012 Stéphane Fermier.

25 II. Nouveau mode de traitement des flux de données «Stream Processing». Utilité: permet d effectuer plus facilement et plus rapidement le calcul parallèle. Pourquoi? : Les données en entrée sont trop rapide pour les stocker dans leur intégralités La réponse doit être immédiate. (en temps réel) Quelques exemples.

Annexes 26

Annexes 27