Plan Le Big Data Mining enjeux et approches techniques Bernard Dousset Professeur des universités Institut de Recherche en Informatique de Toulouse UMR 5505 Université de Toulouse 118, Route de Narbonne, F-31062 Toulouse cedex 9 (France) Introduction Quelques exemples d applications Les avantages et les inconvénients Les solutions techniques Conclusions bernard.dousset@irit.fr 2 Introduction Le BIG Data Définition par les 5 V du Big Data Volume Vitesse Variabilité Véracité Visualisation Le Big Data Mining L économiste en chef de Google Hal VARIAN a dit «Data Scientist, le job le plus sexy du 21 e siècle» Le Big Data va fortement faire évoluer les statistiques, l analyse de données, le data mining, le text mining (répartition optimale des données et traitements parallèles) L or noir du XXI siècle? Introduction Pourquoi cet engouement L information produite par toute l humanité a doublé en 2 ans à cause du web, de la téléphonie, des réseaux, des capteurs, des vidéos, 3 verrous : le coût des connexions, les I/O, la puissance d un seul processeur Les systèmes SQL coûtent cher (SI, SGBD, Main frame, systèmes distribués, BI, ) Pour de gros volumes (>10 8 ), ils ne sont plus assez efficaces Les clusters coutent beaucoup moins cher et passent à l échelle Les cartes vidéos, détournées de leur usage, coutent encore moins cher * Deux solutions en fonction des besoins Mutualiser des ressources (Cloud, Data Center) UC, DD, I/O, logiciels, sauvegardes, maintenance, sécurité, Paralléliser (Big Data) et changer de monde NoSQL, NewSQL, Map reduce, Adoop, Cassandra, MongoDB, BigTable, * http://www.nvidia.fr/docs/io/123576/nv-applications-catalog-lowres.pdf 3 4 1
Le gouvernement a défini 5 leviers pour le Big Data Ouvrir les données publiques, Favoriser la création de start-up Renforcer la chaîne de financement + fonds «ambition numérique» Lancer des défis de valorisation de stocks de données Utiliser le potentiel de ces données (OpenData) Pôle emploi, sécurité sociale, éducation nationale, enseignement supérieur, patrimoine touristique, Création d un centre de ressources technologiques Outils logiciels, méthodes statistiques ou mathématiques, Jeux de données massives Infrastructures de calcul, kit de briques technologiques. Renforcer la capacité à l export des PME du Big Data Création d un droit à l expérimentation Quelques chiffres Le génome (3 Md), il y a 10 ans (10 ans,1md $) aujourd hui (2 jours, 2K $) La photo il y a 20 ans (10 5 Pixels), aujourd hui (3.10 7 Pixels, prix/100) 10 24 10 21 10 18 10 15 10 12 10 9 10 6 10 3 10-3 10-6 10-9 10-12 10-15 10-18 10-21 10-24 000 000 000 000 000 000 000 000,000 000 000 000 000 000 000 000 Yota zeta exa péta téra giga méga kilo, milli micro nano pico femto atto zepto yocto Données de 2013 * Depuis 1980 Facebook /jour Télescope Masse de /jour L univers x le soleil Dette en $ *I/O *Puissance Des UC *Coût Mémoire Gravure Processeur Masse du Proton en gr 5 6 7 8 Les trois principaux verrous Coût des connexions Un clic sur le web équivaut à ~20 watts/heure Un Data center consomme l équivalent d une ville de ~20 000 habitants Consommation de l informatique ~10% (2013) => dans 20 ans?? => Éviter le plus possible les transferts de données Débit des entrés sorties 0,4 Mo/s en1980, 40 Mo/s actuellement ~ x100 DD : 300$ le Mo en 1980 => 60$ Le To actuellement ~ / 5 10 6 Temps de lecture d un même volume DD ~ x 50 000!!! (1s => 14h) => Paralléliser les I/O donc distribuer le stockage ou le changer Puissance des processeurs Fin de la loi de Moore? (l intégration double tous les 18 mois) Puissance x 10 000 à 20 000 depuis 1980 (plafonnée à 3ghz, 30nm) => Calcul parallèle (multi core) et/ou distribué (grille) 2
Quelques exemples d applications La domotique et les compteurs électriques intelligents Les essais en vol (enregistrement des paramètres de vol) La téléphonie (facturation, historique, statistiques, ) L imagerie médicale (scanners, IRM, échos, ) La génomique et l épidémiologie Les données bancaires et financières L analyse d opinions (politique, marketing, e-réputation, ) Les données astronomiques (Hubble, radiotélescopes, ) Les données géo-référencées, la géolocalisation, Les modélisations (climatique, sismique, fluides, matériaux, molécules) La physique des particules (CERN), la chimie quantique, Les données ouvertes Le web des données, le web invisible Les data centers, les réseaux sociaux Les acteurs IBM Dell HP Google Microsoft Intel Oracle Saas Sap OVH Amazon 9 Les avantages et les inconvénients Les + du Big Data Le passage à l échelle La solution peut rester en interne Solutions open source Le coût pour les très gros volumes Le temps de réponse Etude des queues de distribution (pas d échatillonnage) Etude des données à faible densité informationnelle 64% des organisations veulent s y mettre Les du Big Data Il faut maîtriser une nouvelle technologie Moins de possibilités que les SGBD classiques, qu OLAP, Nouvelle approche de l analyse de données (Data, Text, Web mining) Améliorer les analyses et les données existantes avant de passer au BigData 8% seulement des organisations se sont lancées 10 Les solutions techniques Au niveau hadware Clusters Coût / disponibilité, homogénéité Montée en charge, répartition de la charge, Gestion des ressources (processeur, mémoire, disque, bande passante) Grilles Hétérogène (clusters, serveurs, PC, téléphones mobiles, tablettes, ) Partage, distribution, coordination (middleware), autonomie, délocalisation Cartes graphiques Machine Learning, Data Mining, recherche, tri, BD, MapReduce, Cloud Virtualisation Partage des ressources matérielles et logicielles et des services http://www.nvidia.com 11 Les solutions techniques Au niveau de la plateforme Solutions Hadoop** (HDFS, HBase, MapReduce) Cloudera (la plus installée) HortonWorks (100% d Apache Hadoop) MapR (support fichiers HDFS) => Cisco, Google, Amazon Pivotal HD EMC Corparation IBM InfoSphere BigInSights Amazon Elastic Map Reduce (solution hébergée) *http://cassandra.apache.org **http://hadoop.apache.org 12 3
Les solutions techniques Au niveau des packages Big Data Open source ou propriétaire Critères de choix Simplicité => expérimentation Respect des standards Facilité d intégration des données Adéquation des fonctionnalités supportées Pièges à éviter Taxe sur les données (on est en Big Data) Packages non compatibles avec le mode natif d Apache Hadoop Un moteur par serveur => Coût Ne pas sur dimensionner => Complexité Bases de données Clé/Valeur Caractéristiques Solution dite NoSQL, hachage optimisé pour la répartition Stockage en mémoire d un couple clé-valeur ~ blob (binary large object) Les + Simpicité Extensibilité Performances (volume important) Jeux en ligne, gestion de traces, profils, e-commerce Les Utilisation spécifique (requêtes basées uniquement sur les clés) Pas de modèle relationnel Faible complexité des données * Redis, DynamoDB (amazon), SimpleDB, Voldemort, Riak, Cassandra (Apache) 13 14 Bases de données orientées colonnes Caractéristiques Transposée d un base de donnée relationnelle Pas de valeur «null» stockée Les + Utilisée par les grands du Web Gain d espace, bonne indexation Marc (1) Mer (1) Berline (2) Jean (2) Montagne (3) 4x4 (3) Alain (3) Break (5) Victor (5) Facilité et rapidité de récupération d une colonne Possibilité d un très grand nombre de colonnes, de redimensionnement Quelques requêtes proche de SQL (select/update/delete) Les Données d un même type, qui se ressemblent Fortement orientée Big Data *BigTable (Google), Vertica (hp), Hadoop (Apache), Cloudera, DataStax, Bases de données orientées documents Caractéristiques Cas particulier des bases Clé/Valeur* Un document (Xml, Json, Image, ) est associé à une clé Un commentaire (Titre) est associé au document Les + On peut facilement récupérer les Titres Orientée données hétérogènes Gestion du contenu de pages Web Ajout simplifié de machines Les Problème dus à la duplications de données Très (Trop) grande flexibilité => incohérences *Terrastore, RavenDB, RaptorDB, SimpleDB, Redis, MongoDB, CouchDB, GigaSpaces, GemFire, 15 16 4
Bases de données orientées graphes Caractéristiques Des nœuds représentent des objets possédants de nombreuses propriétés Des liens représentent des relations entre les objets Possibilités Hypergraphes Les + On peut facilement parcourir le graphe (largeur, profondeur, ) Trouver les liens entre objets similaires Trouver des ascendants ou descendants communs Bien adaptée aux données relationnelles : réseaux sociaux, RDF, Objets Les Approche spécifique : nœuds/liens/propriétés Ne remplace pas les autres BD NoSQL ni les BD relationnelles *Neo4j (java), HyperGraphDB, FlockDB (Twitter), BigData, 17 Les algorithmes de tri Tris séquentiels (n éléments sur un seul processeur) Tri par insertion (bon si la liste est déjà un peu triée) Tri par sélection (on cherche le + petit ) Tri bulle (on décale tant que + grand ) Tri rapide (Quicksort) utilise un pivot Tris parallèles (n éléments distribués sur p processeurs) Tri bulle parallèle Tri fusion Tri Pair Impair (décalage à droite et à gauche des listes triées) Tri par paquets (un intervalle par processeur) Tri par échantillon (sample sort) séparateurs choisis sur echantillon Tri bitonique (fusion 2 à 2 de listes triées) Tri Hyperquicksort (basé sur les hyper-cubes) 18 Exemple de tri distribué Sur Google plus de 2 milliards de résultats pour «Big Data» => Pagerank Le filtrage distribué Ex : l indexation de tous les disques durs de la planète 19 20 5
Les dénombrements distribués Henri (6) Mer (6) Berline (7) Audrey (7) Mer (7) Voiture Nb 2 Berline Break 1 Spider 1 4x4 1 Marc (1) Mer (1) Berline (2) Jean (2) Montagne (5) 4x4 (9) Julie (5) Break (1) Victor (9) Anne (3) Campagne (3) Spider (4) Léa (4) Mer (8) Alain (8) Vacances Nb Campagne 1 Mer 4 Montagne 1 En théorie des graphes Calcul du degré Algorithme du plus court chemin Dijkstra parallèle Bellman Ford parallèle Arbre partiel extremum (couvrant) => Prim parallèle Arborescence minimum Huffman parallèle 21 22 En analyse de données AFC 4D Correspondances Gènes/Performances Conclusions Les données sont elles fortement structurées non structurées hétérogènes Priorité à La lecture de données L écriture de données Peut-on perdre quelques data? Disponibilité permanente ou non de l application? Les données sont elle réparties? Le volume peut-il augmenter très fortement? Y a-t-il des contraintes temps réel 23 24 6
Conclusions Choix de la bonne solution Installer un cluster ou le simuler Hadoop or not Hadoop Quelle distribution? (Cloudera, Hortonworks, MapR, ) Modélisation, génération de code, planification des jobs Big Data, Intégration de différentes sources de données Problèmes juridiques Données ouvertes Données personnelles e-commerce Merci pour votre attention!!! 25 7