Jean-François Boulicaut & Mohand-Saïd Hacid



Documents pareils
Big Data et Graphes : Quelques pistes de recherche

Big Data et Graphes : Quelques pistes de recherche

Groupe de Discussion Big Data Aperçu des technologies et applications. Stéphane MOUTON

Big Data et la santé

NoSQL. Introduction 1/23. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)

Masses de données. 1. Introduction 2. Problématiques 3. Socle de formation (non présenté) 4. Liens avec Formation INSA

Entreprise et Big Data

UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY

Présentation du module Base de données spatio-temporelles

Business Intelligence avec Excel, Power BI et Office 365

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation

Ecole des Hautes Etudes Commerciales HEC Alger. par Amina GACEM. Module Informatique 1ière Année Master Sciences Commerciales

IBM Software Big Data. Plateforme IBM Big Data

TRAVAUX DE RECHERCHE DANS LE

Comment valoriser votre patrimoine de données?

Les enjeux du Big Data Innovation et opportunités de l'internet industriel. Datasio 2013

Big Data : utilisation d un cluster Hadoop HDFS Map/Reduce HBase

Emergence du Big Data Exemple : Linked Open Data

Les défis statistiques du Big Data

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data.

Bases de données Cours 1 : Généralités sur les bases de données

NoSQL. Introduction 1/30. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril / 15

e-biogenouest CNRS UMR 6074 IRISA-INRIA / Plateforme de Bioinformatique GenOuest yvan.le_bras@irisa.fr Programme fédérateur Biogenouest co-financé

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars ans du SIAD -"Big Data par l'exemple" -Julien DULOUT

Utilisation du Cloud StratusLab dans le cadre d application astroparticule à l APC

Mastodons. Une Approche Interdisciplinaire des Big Data. Mokrane Bouzeghoub CNRS / INS2I & MI !"#$%&%'()*%+,$-.'."$%%

Big data et données géospatiales : Enjeux et défis pour la géomatique. Thierry Badard, PhD, ing. jr Centre de Recherche en Géomatique

Le BigData, aussi par et pour les PMEs

SQL Server 2012 et SQL Server 2014

Formation Cloudera Data Analyst Utiliser Pig, Hive et Impala avec Hadoop

Le monitoring de flux réseaux à l'in2p3 avec EXTRA

Magasins et entrepôts de données (Datamart, data warehouse) Approche relationnelle pour l'analyse des données en ligne (ROLAP)

Pentaho Business Analytics Intégrer > Explorer > Prévoir

Big Graph Data Forum Teratec 2013

ISC Système d Information Architecture et Administration d un SGBD Compléments SQL

BIG DATA et EDISCOVERY

Le langage SQL Rappels

Retour d expérience en Astrophysique : utilisation du Cloud IaaS pour le traitement de données des missions spatiales

BIG DATA en Sciences et Industries de l Environnement

Organiser vos données - Big Data. Patrick Millart Senior Sales Consultant

BUSINESS INTELLIGENCE. Une vision cockpit : utilité et apport pour l'entreprise

DOSSIER DE PARTENARIAT

Big data et sciences du Vivant L'exemple du séquençage haut débit

La dernière base de données de Teradata franchit le cap du big data grâce à sa technologie avancée

Emergence du Big Data Exemple : Linked Open Data

Big Data. Concept et perspectives : la réalité derrière le "buzz"

Big Data On Line Analytics

QUICK GUIDE #1. Guide du pilotage par la performance pour les distributeurs automobiles

Présentation de la Grille EGEE

Évaluation et optimisation de requêtes

Big Data? Big responsabilités! Paul-Olivier Gibert Digital Ethics

TP2_1 DE BUSINESS INTELLIGENCE ISIMA ZZ3 F3

Stephan Hadinger, Sr. Mgr Solutions Architecture, AWS. Salon du Big Data 11 mars 2015

Bases de données relationnelles : Introduction

Big Data -Comment exploiter les données et les transformer en prise de décisions?

BIG DATA. Veille technologique. Malek Hamouda Nina Lachia Léo Valette. Commanditaire : Thomas Milon. Encadré: Philippe Vismara

parée e avec C. Germain, B. Kegl et M. Jouvin CS de l Université Paris Sud

1. LA GESTION DES BASES DE DONNEES RELATIONNELLES

CESI Bases de données

Business Intelligence

SGBDR. Systèmes de Gestion de Bases de Données (Relationnelles)

Anticiper et prédire les sinistres avec une approche Big Data

BIG Data et R: opportunités et perspectives

Introduction Big Data

Hébergement MMI SEMESTRE 4

2 Serveurs OLAP et introduction au Data Mining

Performances. Gestion des serveurs (2/2) Clustering. Grid Computing

Bases de Données. Stella MARC-ZWECKER. Maître de conférences Dpt. Informatique - UdS

VirtualScale L expert infrastructure de l environnement Open source HADOOP Sofiane Ammar sofiane.ammar@virtualscale.fr

CATALOGUE DE FORMATIONS BUSINESS INTELLIGENCE. Edition 2012

Transformez vos données en opportunités. avec Microsoft Big Data

<Insert Picture Here> Exadata Storage Server et DB Machine V2

SQL. Oracle. pour. 4 e édition. Christian Soutou Avec la participation d Olivier Teste

Open Data. Enjeux et perspectives dans les télécommunications

M2 GL UE DOC «In memory analytics»

Exploiter les statistiques d utilisation de SQL Server 2008 R2 Reporting Services

SQL Server 2012 Implémentation d'une solution de Business Intelligence (Sql Server, Analysis Services...)

Analytics Platform. MicroStrategy. Business Intelligence d entreprise. Self-service analytics. Big Data analytics.

SÉRIE NOUVELLES ARCHITECTURES

Chapitre 1. Infrastructures distribuées : cluster, grilles et cloud. Grid and Cloud Computing

Programmation parallèle et distribuée

FORUM NTIC BIG DATA, OPEN DATA Big Data: les challenges, les défis

Vers le Big Data? Exemple de la gestion des données astronomiques au Centre de Données astronomiques de Strasbourg

Programmation parallèle et distribuée

Introduction à MapReduce/Hadoop et Spark

La problématique de la Préservation des Bases de Données. Olivier ROUCHON CINES Groupe PIN Jeudi 7 Octobre

Utiliser Access ou Excel pour gérer vos données

Les Entrepôts de Données

1 Actuate Corporation de données. + d analyses. + d utilisateurs.

La rencontre du Big Data et du Cloud

WD et le logo WD sont des marques déposées de Western Digital Technologies, Inc, aux États-Unis et dans d'autres pays ; absolutely WD Re, WD Se, WD

Conserver les Big Data, source de valeur pour demain

Pascale Borla-Salamet Consultante Avant Vente Oracle France. Oracle Exadata Performance et Optimisation de votre Datawarehouse

Les bases de données

De l Etudiant à SBA à l Enseignant Chercheur à l ENSMA

Initiation aux bases de données (SGBD) Walter RUDAMETKIN

Le Big Data est-il polluant? BILLET. Big Data, la déferlante des octets VIVANT MATIÈRE SOCIÉTÉS UNIVERS TERRE NUMÉRIQUE TERRE (/TERRE)

Exploration des Big Data pour optimiser la Business Intelligence

Des solutions sur mesure à partir de modules fonctionnels & CRM associés à un studio de customisation.

Transcription:

e siècle! Jean-François Boulicaut & Mohand-Saïd Hacid http://liris.cnrs.fr/~jboulica http://liris.cnrs.fr/mohand-said.hacid Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de Lyon/Université Claude Bernard Lyon 1/Université Lumière Lyon 2/Ecole Centrale de Lyon Université Claude Bernard Lyon 1, bâtiment Nautibus 43, boulevard du 11 novembre 1918 F-69622 Villeurbanne cedex http://liris.cnrs.fr

e siècle! Partie 1 Mohand-Saïd Hacid mohand-said.hacid@liris.cnrs.fr http://liris.cnrs.fr/mohand-said.hacid Accu

Big Data? 1 million characters 1 megabyte 1,000 megabytes 1 gegabyte 1,000 gegabytes 1 terabyte 1,000 terabytes 1 petabyte 1,000 petabytes 1 exabyte Information contenue dans le génome humain Production littéraire annuelle dans le monde Toutes les bibliothèques académiques américaines 2/3 de la production Source: http://www.jisc.ac.uk/publications/briefingpapers/2004/pub_datadeluge.aspx

BIG DATA Volume, Variété, Vélocité, Valeur + Véracité, Validation, Vérification, Vivification Plus de données: Nouvelles et meilleurs solutions (pour des problèmes anciens!) Plus de précisions

IDC International Data Corporation http://www.idc.com/ Décembre 2012 130 EB (2005) 40,000 EB (2020) De 2012 à 2020: numérique doublera chaque année Infrastructure (matériel, logiciel, services, télécommunications, personnel) augmentera de 40% entre 2012 et 2020 par GB passera de 2.00$ à 0.20$ (2012-2020) Investissements liés à la gestion du stockage, sécurité, Cloud: augmenteront de façon significative

Une petite fraction de numérique est explorée à des fins. 2020, 33% de numérique contiendra des informations utiles à analyser. En 2020: 40% de de numérique sera accessible via le Cloud Protection des données: 1/3 en 2010 plus de 40% en 2020

Economie dirigée par les données 2009: Google a contribué à hauteur de 54 M$ à américaine Les moteurs de recherche transforment la façon à Nouvelle économie: Google, Yahoo!, Microsoft, Information sur le Web formater pour les rendre utilisables Nouveaux services: Images satellites, systèmes recherche par le contenu,

Wall-Mart/HP: entrepôt de données de 4 PB 267 millions de transactions/jour 6000 magasins Application de techniques pour un meilleur impact : Des stratégies des prix Des campagnes publicitaires

escience Science dirigée par les données Géoscience: seulement 0.5% de toutes les données collectées ont été examinées. Quelques études: http://www.dphep LSST LHC (accélérateur de particules) - comprendre le fonctionnement de 60 TB/jour 15 PB/an (15 millions de GB) Très gros volumes de données Analyse (semi-)automatique LSST (Large Synoptic Survey Telescope) in optical astronomy: http://www.lsst.org/ LHC (Large Hadron Collider) in HEP (High Energy Physics): http://home.web.cern.ch/about/accelerators/large-hadron-collider

Technologie Big Data Capteurs: télescopes, caméras, IRM, puces ADN, individus, organisations, Réseaux Supports de stockage Disque 1 TB (< 100 ) Contenu des livres de la bibliothèque du congrès: 20 TB Clusters (configuration matérielle choisie) Des milliers de (plusieurs disques et processeurs par machine) Verrous algorithmiques

Cloud Algorithmes de données Beaucoup de données analyse (semi-)automatique Difficulté: algorithmique Nouvelle forme de calcul Combiner statistique, optimisation et raisonnement

Défis! Infrastructure de gestion Distribution Optimisation de requêtes (cas des réseaux de capteurs) traitement parallèle Indexation intelligente Traitement de flux de données Qualité des données (aspects, probabilistes, incomplétude ) Sémantique des données Visualisation et interaction intelligentes Outils de données Intégration de calcul symbolique, de la fouille et de

PB Générer des échatillons qui peuvent tenir en données

Outils statistiques SAS, Excel, : utilisables seulement si des gros volumes de données sont réduits à des résumés pouvant tenir en mémoire Conséquence: maintenir des schémas relationnels normalisés et complexes peut difficile et coûteux Orientation ensembliste de SQL Interfaces bas niveau ODBC/JDBC Barrières pour les analystes pour utiliser les bases de données Nouveaux langages et modèles qui traduisent naturellement Analyses deviennent plus complexes Reproductibilité de workflows analytiques et leurs résultats devient très important!

PetaSky Gestion et exploration des grandes masses de données scientifiques issues http://com.isima.fr/petasky LIMOS ( des Systèmes, http://limos.isima.fr/) LIRIS (Laboratoire http://liris.cnrs.fr) LPC (Laboratoire de Physique Corpusculaire, http://clrwww.in2p3.fr/index.php/) APC (AstroParticule et Cosmologie, http://www.apc.univparis7.fr/apc_cs/) http://www.lal.in2p3.fr/) CC-IN2P3 (http://cc.in2p3.fr/)

Altitude: 2682 mètres Région: Coquimbo Diamètre du télescope: 8 mètres http://www.lsst.org/lsst/public LSST: Large Synoptic Survey Telescope

http://www.lsst.org/lsst/public Images: 3.2 Gpix 15 à 30 TB/nuit pendant 10 ans

http://www.lsst.org/lsst/public

Objectifs généraux Proposer une architecture distribuée capable de stocker 140 PB de données Pouvoir évaluer aussi bien des requêtes simples (quelques secondes de calculs) que des requêtes complexes (des jours de calculs) Possibilité à des objets en utilisant des indexes ou en procédant à un parcours (scan) complet des grosses tables (>> 1 PB)

Verrous Scientifiques Accès séquentiel: 166 minutes pour lire 1 TB de données * Accès parallèle: avec 100 disques moins de 2 minutes Table Taille #enregistrement s Object 109 TB 38 B 470 Moving Object 5 GB 6 M 100 Source 3.6 PB 5 T 125 Forced Source Difference Image Source CCD Exposure Requêtes très coûteuses Exemple: Une simple opération de tri sur tous les objets 10 Peta => 6 h et 27 min avec 8000 machines LSST sera équipé de seulement 150 machines 1.1 PB 32 T 7 71 TB 200 B 65 0.6 TB 17 B 45 Liste complète des requêtes: http://dev.lsstcorp.org/trac/wiki/dbqueries Défis LSST : ½ million de requêtes par jour ~50 requêtes simples et ~20 requêtes complexes à quel moment * Web Data Management. Serge Abiteboul, Ioana Manolescu, Philippe Rigaux, Marie-Christine Rousset, Pierre Senellart #colonnes (arité) SELECT * FROM Object ORDER BY rgaussianflux DESC

Base de données 1 million characters 1 megabyte 1,000 megabytes 1 gegabyte 1,000 gegabytes 1 terabyte 1,000 terabytes 1 petabyte 1,000 petabytes 1 exabyte Table Taille #enregistrements #colonnes (arité) Object 109 TB 38 B 470 Moving Object 5 GB 6 M 100 Source 3.6 PB 5 T 125 Forced Source 1.1 PB 32 T 7 Difference Image Source 71 TB 200 B 65 CCD Exposure 0.6 TB 17 B 45

Gestion de données - verrous Méta données + catalogues + alertes: stockées dans 75 tables Axes de recherche Requêtes (http://dev.lsstcorp.org/trac/wiki/dbqueries): Analyse objet spécifique Analyse de tous les objets satisfaisant certains critères Dans une région Dans tout le ciel Analyse des objets proches objets Analyses qui nécessitent des groupements spécifiques Analyses de séries temporelles Croisements avec des catalogues externes Indexation (classique + sémantique [méta données]) Fragmentation Optimisation (pré-calculer, ordre ) Fouille de données distribuées

Axes de Recherche Stockage de données Row, column, tree Partitionnement et duplication Tenant compte de la typologie et de la fréquence des requêtes Tenant compte de la distribution des traitement (MapReduce) 3 attributs => 4 indexes [ABC, AC, BC, C] 25

Matériel: 1 machine dotée de 14Go de RAM, 2,5 To de capacité de 3 machines dotées de 4 Go de Ram, 380 Go de capacité de Jeu de données PT1.1: 2 tables avec un volume total de 90 Go Table Source: 85 Go Table Object: 5Go Jeu de requêtes: 10 requêtes SQL standards (sélection, projection, jointure, Group by, Order by, Count)

Performances Sans index Avec index HadoopDB HIVE HadoopDB HIVE postgresql Mysql SGBD-Co 1 1554 1362 31,6 1362,17 0,000535 0,19 0,066 2 1386 1359 42,6 1386 0,000366 1,49 0,05 3 1409 1319,752 40,1 1409 0,000391 0,61 0,02 4 1454 1321,936 35,1 1321 0,000372 0,31 0,04 5 279 116,642 200,902 116,642 28,17 39,1 43,564 6 3045 2895 1397 2895,557 732 1426 802 7 99 94 17 94,986 19 36,58 38,07 20354 (> 5 1188,7 ( > 19 1646,461 (> 27 8 heures) 1646 minutes) minutes) 1424,04 1417,32 1203 9 22250 ( > 6 heures) 1744,752 2171,6 1744,752 0,005 0,46 0,811 1809 (> 30 10 2588 2536 2873 2536,315 3120 1432 minutes)

Expérimentation ->Analyse->publication Expérimentation-> Organisation des données->analyse->publication La science utilise pour améliorer le processus de découverte permet des découvertes

Références http://www.whitehouse.gov/blog/2012/03/29/big-data-big-deal Préservation des données NFS: http://www.nsf.gov/pubs/2008/nsf08021/nsf08021.jsp escience Center (Edinburgh): http://www.nesc.ac.uk/ escience Institute: http://escience.washington.edu/ Purdue University Discovery Park: http://www.purdue.edu/discoverypark/cyber/ Depuis 1975: VLDB (Very Large Data Bases)- http://www.vldb.org/ Depuis 2007: XLDB (extremely Large Data Bases)- http://www.xldb.org SciDB : (Open Source Data Management and Analytics Software for Scientific Research)-http://www.scidb.org/ Mastodons CNRS: http://www.cnrs.fr/mi/spip.php?article151

BIG DATA FAST (and BIG) DATA (cas de Twitter)! How fast is information chiffres de Mars 2013: http://expandedramblings.com/index.php/march-2013-by-the-numbersa-few-amazing-twitter-stats/

e siècle! Partie 2