11/01/2014. Le Big Data Mining enjeux et approches techniques. Plan. Introduction. Introduction. Quelques exemples d applications



Documents pareils
NoSQL. Introduction 1/23. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)

Groupe de Discussion Big Data Aperçu des technologies et applications. Stéphane MOUTON

NoSQL. Introduction 1/30. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data.

BIG DATA. Veille technologique. Malek Hamouda Nina Lachia Léo Valette. Commanditaire : Thomas Milon. Encadré: Philippe Vismara

Cartographie des solutions BigData

Fouillez facilement dans votre système Big Data. Olivier TAVARD

Bases de données documentaires et distribuées Cours NFE04

Les bases de données relationnelles

AVRIL Au delà de Hadoop. Panorama des solutions NoSQL

FORUM NTIC BIG DATA, OPEN DATA Big Data: les challenges, les défis

Les technologies du Big Data

Programmation parallèle et distribuée

Programmation parallèle et distribuée

Entrez dans l ère du Numérique Très Haut Débit

Le BigData, aussi par et pour les PMEs

NoSQL : hype ou innovation? Grégory Ogonowski / Recherches Octobre 2011

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril / 15

L écosystème Hadoop Nicolas Thiébaud Tuesday, July 2, 13

Cassandra chez Chronopost pour traiter en temps réel 1,5 milliard d événements par an

NoSQL. Etat de l art et benchmark

Introduction Big Data

HADOOP ET SON ÉCOSYSTÈME

MapReduce. Nicolas Dugué M2 MIAGE Systèmes d information répartis

Document réalisé par Khadidjatou BAMBA

Big Data et Graphes : Quelques pistes de recherche

CNAM Déploiement d une application avec EC2 ( Cloud Amazon ) Auteur : Thierry Kauffmann Paris, Décembre 2010

Les quatre piliers d une solution de gestion des Big Data

Surmonter les 5 défis opérationnels du Big Data

Ricco Rakotomalala R.R. Université Lyon 2

BIG DATA en Sciences et Industries de l Environnement

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars ans du SIAD -"Big Data par l'exemple" -Julien DULOUT

Le NoSQL - Cassandra

Recherche et Diffusion de l Information dans les Réseaux. Philippe Robert. Le 8 avril 2014

Offre formation Big Data Analytics

Hébergement MMI SEMESTRE 4

Déploiement d une architecture Hadoop pour analyse de flux. françois-xavier.andreu@renater.fr

Labs Hadoop Février 2013

Les datas = le fuel du 21ième sicècle

Ecole des Hautes Etudes Commerciales HEC Alger. par Amina GACEM. Module Informatique 1ière Année Master Sciences Commerciales

Technologies du Web. Ludovic DENOYER - ludovic.denoyer@lip6.fr. Février 2014 UPMC

Big Data et Graphes : Quelques pistes de recherche

Introduction à MapReduce/Hadoop et Spark

Panorama des solutions analytiques existantes

Bases de données documentaires et distribuées Cours NFE04

Prototypage et évaluation de performances d un service de traçabilité avec une architecture distribuée basée sur Hadoop

Mesures DNS à l ère du Big Data : outils et défis. JCSA, 9 juillet 2015 Vincent Levigneron, Afnic

Big Data On Line Analytics

La tête dans les nuages

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation

Jean-François Boulicaut & Mohand-Saïd Hacid

Organiser vos données - Big Data. Patrick Millart Senior Sales Consultant

Suite Jedox La Business-Driven Intelligence avec Jedox

Quels choix de base de données pour vos projets Big Data?

Transformation IT de l entreprise BIG DATA, MÉTIERS ET ÉVOLUTION DES BASES DE DONNÉES

Le BIG DATA????? Big Buzz? Big Bang? Big Opportunity? Big hype? Big Business? Big Challenge? Big Hacking? Gérard Peliks planche 2

WD et le logo WD sont des marques déposées de Western Digital Technologies, Inc, aux États-Unis et dans d'autres pays ; absolutely WD Re, WD Se, WD

Big Graph Data Forum Teratec 2013

Big Data Concepts et mise en oeuvre de Hadoop

Le Big Data est-il polluant? BILLET. Big Data, la déferlante des octets VIVANT MATIÈRE SOCIÉTÉS UNIVERS TERRE NUMÉRIQUE TERRE (/TERRE)

Big Data. Cyril Amsellem Consultant avant-vente. 16 juin Talend

Programmation parallèle et distribuée (Master 1 Info )

Livre. blanc. Solution Hadoop d entreprise d EMC. Stockage NAS scale-out Isilon et Greenplum HD. Février 2012

CONFERENCE TECHNOM AIDE IBM

Les journées SQL Server 2013

CENTAI : Big Data & Big Analytics Réunion DGPN / Thales Octobre 2013

Big Data : utilisation d un cluster Hadoop HDFS Map/Reduce HBase


RFC 791 (Jon Postel 1981)

Prototypage et évaluation de performances d un service de traçabilité avec une architecture distribuée basée sur Hadoop

M2 GL UE DOC «In memory analytics»

Big Data. Concept et perspectives : la réalité derrière le "buzz"

Maîtriser les technologies Big Data pour obtenir des résultats en quasi-temps réel

Qu est-ce que le «cloud computing»?

Les enjeux du Big Data Innovation et opportunités de l'internet industriel. Datasio 2013

Tables Rondes Le «Big Data»

SQL Server 2012 et SQL Server 2014

R+Hadoop = Rhadoop* Des logiciels libres complémentaires, une implémentation, une réponse au nouveau paradigme du bigdata!

Big data et données géospatiales : Enjeux et défis pour la géomatique. Thierry Badard, PhD, ing. jr Centre de Recherche en Géomatique

Acquisition des données - Big Data. Dario VEGA Senior Sales Consultant

Titre : La BI vue par l intégrateur Orange

Présentation du module Base de données spatio-temporelles

Formation Cloudera Data Analyst Utiliser Pig, Hive et Impala avec Hadoop

Projet Xdata. Cinequant, Data Publica, EDF, ESRI, Hurence, INRIA, Institut Mines Telecom, La Poste, Orange, Veolia

Cassandra et Spark pour gérer la musique On-line

Stephan Hadinger, Sr. Mgr Solutions Architecture, AWS. Salon du Big Data 11 mars 2015

Veille Technologique. Cloud Computing


PLATEFORME MÉTIER DÉDIÉE À LA PERFORMANCE DES INSTALLATIONS DE PRODUCTION

LE BIG DATA. TRANSFORME LE BUSINESS Solution EMC Big Data

Bases de Données NoSQL

DocForum 18 Juin Réussites d un projet Big Data Les incontournables

Big Data et Prévisions. Philippe Picard, le 24 juin Page 1

Fastilog, votre outil de gestion des activités du personnel

Hibernate vs. le Cloud Computing

Performance et usage. La différence NETGEAR - R7000. Streaming HD illimitée

LES NOUVEAUTES DE COST AND PROFITABILITY MANAGEMENT 8.1

BIGDATA AN 3 : UNE NOUVELLE ERE DE B.I.

Transcription:

Plan Le Big Data Mining enjeux et approches techniques Bernard Dousset Professeur des universités Institut de Recherche en Informatique de Toulouse UMR 5505 Université de Toulouse 118, Route de Narbonne, F-31062 Toulouse cedex 9 (France) Introduction Quelques exemples d applications Les avantages et les inconvénients Les solutions techniques Conclusions bernard.dousset@irit.fr 2 Introduction Le BIG Data Définition par les 5 V du Big Data Volume Vitesse Variabilité Véracité Visualisation Le Big Data Mining L économiste en chef de Google Hal VARIAN a dit «Data Scientist, le job le plus sexy du 21 e siècle» Le Big Data va fortement faire évoluer les statistiques, l analyse de données, le data mining, le text mining (répartition optimale des données et traitements parallèles) L or noir du XXI siècle? Introduction Pourquoi cet engouement L information produite par toute l humanité a doublé en 2 ans à cause du web, de la téléphonie, des réseaux, des capteurs, des vidéos, 3 verrous : le coût des connexions, les I/O, la puissance d un seul processeur Les systèmes SQL coûtent cher (SI, SGBD, Main frame, systèmes distribués, BI, ) Pour de gros volumes (>10 8 ), ils ne sont plus assez efficaces Les clusters coutent beaucoup moins cher et passent à l échelle Les cartes vidéos, détournées de leur usage, coutent encore moins cher * Deux solutions en fonction des besoins Mutualiser des ressources (Cloud, Data Center) UC, DD, I/O, logiciels, sauvegardes, maintenance, sécurité, Paralléliser (Big Data) et changer de monde NoSQL, NewSQL, Map reduce, Adoop, Cassandra, MongoDB, BigTable, * http://www.nvidia.fr/docs/io/123576/nv-applications-catalog-lowres.pdf 3 4 1

Le gouvernement a défini 5 leviers pour le Big Data Ouvrir les données publiques, Favoriser la création de start-up Renforcer la chaîne de financement + fonds «ambition numérique» Lancer des défis de valorisation de stocks de données Utiliser le potentiel de ces données (OpenData) Pôle emploi, sécurité sociale, éducation nationale, enseignement supérieur, patrimoine touristique, Création d un centre de ressources technologiques Outils logiciels, méthodes statistiques ou mathématiques, Jeux de données massives Infrastructures de calcul, kit de briques technologiques. Renforcer la capacité à l export des PME du Big Data Création d un droit à l expérimentation Quelques chiffres Le génome (3 Md), il y a 10 ans (10 ans,1md $) aujourd hui (2 jours, 2K $) La photo il y a 20 ans (10 5 Pixels), aujourd hui (3.10 7 Pixels, prix/100) 10 24 10 21 10 18 10 15 10 12 10 9 10 6 10 3 10-3 10-6 10-9 10-12 10-15 10-18 10-21 10-24 000 000 000 000 000 000 000 000,000 000 000 000 000 000 000 000 Yota zeta exa péta téra giga méga kilo, milli micro nano pico femto atto zepto yocto Données de 2013 * Depuis 1980 Facebook /jour Télescope Masse de /jour L univers x le soleil Dette en $ *I/O *Puissance Des UC *Coût Mémoire Gravure Processeur Masse du Proton en gr 5 6 7 8 Les trois principaux verrous Coût des connexions Un clic sur le web équivaut à ~20 watts/heure Un Data center consomme l équivalent d une ville de ~20 000 habitants Consommation de l informatique ~10% (2013) => dans 20 ans?? => Éviter le plus possible les transferts de données Débit des entrés sorties 0,4 Mo/s en1980, 40 Mo/s actuellement ~ x100 DD : 300$ le Mo en 1980 => 60$ Le To actuellement ~ / 5 10 6 Temps de lecture d un même volume DD ~ x 50 000!!! (1s => 14h) => Paralléliser les I/O donc distribuer le stockage ou le changer Puissance des processeurs Fin de la loi de Moore? (l intégration double tous les 18 mois) Puissance x 10 000 à 20 000 depuis 1980 (plafonnée à 3ghz, 30nm) => Calcul parallèle (multi core) et/ou distribué (grille) 2

Quelques exemples d applications La domotique et les compteurs électriques intelligents Les essais en vol (enregistrement des paramètres de vol) La téléphonie (facturation, historique, statistiques, ) L imagerie médicale (scanners, IRM, échos, ) La génomique et l épidémiologie Les données bancaires et financières L analyse d opinions (politique, marketing, e-réputation, ) Les données astronomiques (Hubble, radiotélescopes, ) Les données géo-référencées, la géolocalisation, Les modélisations (climatique, sismique, fluides, matériaux, molécules) La physique des particules (CERN), la chimie quantique, Les données ouvertes Le web des données, le web invisible Les data centers, les réseaux sociaux Les acteurs IBM Dell HP Google Microsoft Intel Oracle Saas Sap OVH Amazon 9 Les avantages et les inconvénients Les + du Big Data Le passage à l échelle La solution peut rester en interne Solutions open source Le coût pour les très gros volumes Le temps de réponse Etude des queues de distribution (pas d échatillonnage) Etude des données à faible densité informationnelle 64% des organisations veulent s y mettre Les du Big Data Il faut maîtriser une nouvelle technologie Moins de possibilités que les SGBD classiques, qu OLAP, Nouvelle approche de l analyse de données (Data, Text, Web mining) Améliorer les analyses et les données existantes avant de passer au BigData 8% seulement des organisations se sont lancées 10 Les solutions techniques Au niveau hadware Clusters Coût / disponibilité, homogénéité Montée en charge, répartition de la charge, Gestion des ressources (processeur, mémoire, disque, bande passante) Grilles Hétérogène (clusters, serveurs, PC, téléphones mobiles, tablettes, ) Partage, distribution, coordination (middleware), autonomie, délocalisation Cartes graphiques Machine Learning, Data Mining, recherche, tri, BD, MapReduce, Cloud Virtualisation Partage des ressources matérielles et logicielles et des services http://www.nvidia.com 11 Les solutions techniques Au niveau de la plateforme Solutions Hadoop** (HDFS, HBase, MapReduce) Cloudera (la plus installée) HortonWorks (100% d Apache Hadoop) MapR (support fichiers HDFS) => Cisco, Google, Amazon Pivotal HD EMC Corparation IBM InfoSphere BigInSights Amazon Elastic Map Reduce (solution hébergée) *http://cassandra.apache.org **http://hadoop.apache.org 12 3

Les solutions techniques Au niveau des packages Big Data Open source ou propriétaire Critères de choix Simplicité => expérimentation Respect des standards Facilité d intégration des données Adéquation des fonctionnalités supportées Pièges à éviter Taxe sur les données (on est en Big Data) Packages non compatibles avec le mode natif d Apache Hadoop Un moteur par serveur => Coût Ne pas sur dimensionner => Complexité Bases de données Clé/Valeur Caractéristiques Solution dite NoSQL, hachage optimisé pour la répartition Stockage en mémoire d un couple clé-valeur ~ blob (binary large object) Les + Simpicité Extensibilité Performances (volume important) Jeux en ligne, gestion de traces, profils, e-commerce Les Utilisation spécifique (requêtes basées uniquement sur les clés) Pas de modèle relationnel Faible complexité des données * Redis, DynamoDB (amazon), SimpleDB, Voldemort, Riak, Cassandra (Apache) 13 14 Bases de données orientées colonnes Caractéristiques Transposée d un base de donnée relationnelle Pas de valeur «null» stockée Les + Utilisée par les grands du Web Gain d espace, bonne indexation Marc (1) Mer (1) Berline (2) Jean (2) Montagne (3) 4x4 (3) Alain (3) Break (5) Victor (5) Facilité et rapidité de récupération d une colonne Possibilité d un très grand nombre de colonnes, de redimensionnement Quelques requêtes proche de SQL (select/update/delete) Les Données d un même type, qui se ressemblent Fortement orientée Big Data *BigTable (Google), Vertica (hp), Hadoop (Apache), Cloudera, DataStax, Bases de données orientées documents Caractéristiques Cas particulier des bases Clé/Valeur* Un document (Xml, Json, Image, ) est associé à une clé Un commentaire (Titre) est associé au document Les + On peut facilement récupérer les Titres Orientée données hétérogènes Gestion du contenu de pages Web Ajout simplifié de machines Les Problème dus à la duplications de données Très (Trop) grande flexibilité => incohérences *Terrastore, RavenDB, RaptorDB, SimpleDB, Redis, MongoDB, CouchDB, GigaSpaces, GemFire, 15 16 4

Bases de données orientées graphes Caractéristiques Des nœuds représentent des objets possédants de nombreuses propriétés Des liens représentent des relations entre les objets Possibilités Hypergraphes Les + On peut facilement parcourir le graphe (largeur, profondeur, ) Trouver les liens entre objets similaires Trouver des ascendants ou descendants communs Bien adaptée aux données relationnelles : réseaux sociaux, RDF, Objets Les Approche spécifique : nœuds/liens/propriétés Ne remplace pas les autres BD NoSQL ni les BD relationnelles *Neo4j (java), HyperGraphDB, FlockDB (Twitter), BigData, 17 Les algorithmes de tri Tris séquentiels (n éléments sur un seul processeur) Tri par insertion (bon si la liste est déjà un peu triée) Tri par sélection (on cherche le + petit ) Tri bulle (on décale tant que + grand ) Tri rapide (Quicksort) utilise un pivot Tris parallèles (n éléments distribués sur p processeurs) Tri bulle parallèle Tri fusion Tri Pair Impair (décalage à droite et à gauche des listes triées) Tri par paquets (un intervalle par processeur) Tri par échantillon (sample sort) séparateurs choisis sur echantillon Tri bitonique (fusion 2 à 2 de listes triées) Tri Hyperquicksort (basé sur les hyper-cubes) 18 Exemple de tri distribué Sur Google plus de 2 milliards de résultats pour «Big Data» => Pagerank Le filtrage distribué Ex : l indexation de tous les disques durs de la planète 19 20 5

Les dénombrements distribués Henri (6) Mer (6) Berline (7) Audrey (7) Mer (7) Voiture Nb 2 Berline Break 1 Spider 1 4x4 1 Marc (1) Mer (1) Berline (2) Jean (2) Montagne (5) 4x4 (9) Julie (5) Break (1) Victor (9) Anne (3) Campagne (3) Spider (4) Léa (4) Mer (8) Alain (8) Vacances Nb Campagne 1 Mer 4 Montagne 1 En théorie des graphes Calcul du degré Algorithme du plus court chemin Dijkstra parallèle Bellman Ford parallèle Arbre partiel extremum (couvrant) => Prim parallèle Arborescence minimum Huffman parallèle 21 22 En analyse de données AFC 4D Correspondances Gènes/Performances Conclusions Les données sont elles fortement structurées non structurées hétérogènes Priorité à La lecture de données L écriture de données Peut-on perdre quelques data? Disponibilité permanente ou non de l application? Les données sont elle réparties? Le volume peut-il augmenter très fortement? Y a-t-il des contraintes temps réel 23 24 6

Conclusions Choix de la bonne solution Installer un cluster ou le simuler Hadoop or not Hadoop Quelle distribution? (Cloudera, Hortonworks, MapR, ) Modélisation, génération de code, planification des jobs Big Data, Intégration de différentes sources de données Problèmes juridiques Données ouvertes Données personnelles e-commerce Merci pour votre attention!!! 25 7