Présentation HP Big Data et stockage Big Data et Cloud Didier Kirszenberg Directeur du programme rchitecture Critique et décisionnelle HP rance Le 20 ars 2012 2011Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice
Du Cloud au Big Data et réciproquement Les impacts sur le stockage Deux effets de mode, recherche de solution simple à opérer Cloud 2 Capacité de puissance informatique générique pour traiter en tant que service les demandes métiers Critères stockage : Gros volume centralisé extensible, partitionnable, tolèrent aux pannes, allocation dynamique, optimisation automatique Exemple : SR Big Data Capacité de puissance informatique spécifique pour donner du sens à de grands volumes de donnée Critères stockage : garantie I/O, scalabilité, faible coût Exemple : acebook Solon BIG DT 20 ars 2012 ny Workload, nywhere, nytime
Business Intelligence Big Data et Cloud La Taxonomie selon HP Reporting qui peut être Big Data et dans le Cloud Reporting prédéfini, reporting ad-hoc, dashboard, PKI nalytique souvent Big Data et parfois dans le Cloud nalyse prédictive, analyse descriptive, analyse comportementale, calcul de risques, clusters/segmentation/classification, corrélation, analyse geospatiale Traitement des données semi structurées classique du Big Data Reporting, dashboard, PKI, nalyse prédictive, analyse comportementale, calcul de risques, clusters/segmentation/classification, corrélation, Transformation de données Traitement des données non structurées Recherche via indexation, phonémisation, lexicographie, nalyse descriptive 3 Solon BIG DT 20 ars 2012
HP Database achine Cloud + IO garantie
HP Database achine Technologie Standard + Garantie IO Scalabilité Robustesse Jusqu a 80 cores 2 To Ram rchit Prema ISSION-CRITICL DB INRSTRUCTURE H & Perf Capacitive uto Tiering SSD C ST../.. Hautes Performances I/O lash PCI Card Hautes Performances et capacités I/O lash Bay 5 Solon BIG DT 20 ars 2012
La Latence au cœur des performances décisionnelles PCIe provides the maximum benefit for flash effectiveness C 8 ms SSD 3 ms SN L1, L2 & L3 CPU Cache DR 0,001 ms ioemory 0,025 ms 0,2 ms 0,1 ms Nanoseconds ccess Delay in Time illiseconds 6 Solon BIG DT 20 ars 2012
HP 3PR l offre de stockage Utility Storage Stockage pour les prochaines années ULTI-TENNT Isolement pour performance et sécurité des différents services EICCE Réduit jusqu à 50% le besoin de stockage, alloue automatiquement le stockage le moins couteux EDERE Charge équilibrée entre plusieurs systèmes Gestion du stockage au niveau global du Datacenter UTONOIC ugmenter l efficacité des administrateurs de 10x igration et techno refresh «self service» 7 Solon BIG DT 20 ars 2012
Stockage 3PR pour le Cloud 4 sur 5 des services providers et hébergeurs du Gartner Q utilisent 3PR uniquement 3PR Utility Storage solution faite pour le Cloud Solon BIG DT 20 ars 2012
Cas Client : DWH Big Data Opérateur Telco 150To Challenge Batch DWH en moins de 5h inimiser les risques et TCO Respecter standard client Solution HP Haute Performance max H acteur de succès Connaissance des techniques de parallélisation Oracle pproche standard Résultat Batch DWH sur HP: 32 minutes TCO 60% du prix des ppliances concurrentes 3PR replication Bénéfices client Le meilleur TCO Continuité applicative rchitecture générique (Cloud) 9 Solon BIG DT 20 ars 2012
HP Vertica Solution analytique en colonne
Column Store Sort and Encode for Speed Student_ID 1256678 1254038 1278858 1230807 1210466 1249290 1244262 1252490 1267170 1248100 1243483 1230382 1240224 1222781 1231806 1246648 Name Cappiello, Emilia Dalal, lana Orner, Katy rigo, vis Stober, Saundra Borba, ilagros Sosnowski, Hillary Nibert, Emilia Popovic, Tanisha Schreckengost, ax Porcelli, Darren Sinko, Erik Tarvin, Julio Lessig, Elnora Thon, ax Trembley, llyson Gender Class Sophomore Senior Senior reshman Sophomore reshman Senior reshman Sophomore Sophomore Score 62 92 76 64 90 96 68 59 95 76 67 91 85 63 82 100 Grade D C D D C D B D B ooter goes here Solon BIG DT 20 ars 2012
Column Store Sort and Encode for Speed Gender Class Grade Score Sophomore D 62 Senior 92 C 76 Senior D 64 90 reshman 96 D 68 Sophomore 59 reshman 95 Senior C 76 D 67 reshman 91 Sophomore B 85 D 63 Sophomore B 82 100 Name Cappiello, Emilia Dalal, lana Orner, Katy rigo, vis Stober, Saundra Borba, ilagros Sosnowski, Hillary Nibert, Emilia Popovic, Tanisha Schreckengost, ax Porcelli, Darren Sinko, Erik Tarvin, Julio Lessig, Elnora Thon, ax Trembley, llyson Student_ID 1256678 1254038 1278858 1230807 1210466 1249290 1244262 1252490 1267170 1248100 1243483 1230382 1240224 1222781 1231806 1246648 Columns used in predicates Correlated values indexed by preceding column values ooter goes here Solon BIG DT 20 ars 2012
Column Store Sort and Encode for Speed Gender Class Grade Score reshman 95 reshman 96 90 100 Senior C D D 76 63 68 92 Sophomore D 62 Sophomore reshman 59 91 Sophomore D B 67 82 Sophomore B 85 Senior C 76 Senior D 64 Name Popovic, Tanisha Borba, ilagros Stober, Saundra Trembley, llyson Orner, Katy Lessig, Elnora Sosnowski, Hillary Dalal, lana Cappiello, Emilia Nibert, Emilia Sinko, Erik Porcelli, Darren Thon, ax Tarvin, Julio Schreckengost, ax rigo, vis Student_ID 1267170 1249290 1210466 1246648 1278858 1222781 1244262 1254038 1256678 1252490 1230382 1243483 1231806 1240224 1248100 1230807 Columns used in predicates Correlated values indexed by preceding column values ooter goes here Solon BIG DT 20 ars 2012
Column Store Sort and Encode for Speed Gender Class Grade Score reshman 95 reshman offset offset 96 90 100 C D D 76 63 68 Senior 92 Sophomore D 62 Sophomore 2 nd 3 rd 59 reshman 91 I/O I/O D 67 Sophomore B 82 Sophomore B 85 Senior C 76 Senior D 64 1 st I/O Reads entire column 4 th I/O Name Popovic, Tanisha Borba, ilagros Stober, Saundra Trembley, llyson Orner, Katy Lessig, Elnora Sosnowski, Hillary Dalal, lana Cappiello, Emilia Nibert, Emilia Sinko, Erik Porcelli, Darren Thon, ax Tarvin, Julio Schreckengost, ax rigo, vis Student_ID 1267170 1249290 1210466 1246648 1278858 1222781 1244262 1254038 1256678 1252490 1230382 1243483 1231806 1240224 1248100 1230807 Example query: select avg( Score ) from example where Class = and Gender = and Grade = ooter goes here Solon BIG DT 20 ars 2012
Vertica onctions principales Stockage en colonne Compression avancée rchitecture assivement Parallèle (PP) -> Stockage sur les disques des serveurs Design automatique de la database Tolérance aux pannes natives Interface SQL Standard Bénéfices nalytiques: Performance sans agrégat ni indexes Extrapolation des manquants dans les séries onction d analyse de données semistructurées comme géo-localisation, IP, URL/URI Solon BIG DT 20 ars 2012
Cas Client : Social Graphing nalytics - Zynga ooter goes here
HP Hadoop Reference rchitecture Solution no SQL pour données semi-structurées
Hadoop pour quels besoins? ccès à de grosses volumétries de données «historiques» S appuie sur une architecture de type assivement Parallèle High Performance Computing «HPC» dresser l évolutivité scale-out -> on utilise les disques des nœuds de calcul. Traitement de différents formats/répartitions de données lgorithme «apreduce» remplace les requêtes et les data-sets en éléments plus pertinents -> SQL est remplacé par Pig et/ou Hive 18
Hadoop : les enjeux au niveau configuration Yahoo! : 4 000 nœuds Principal challenge : scalabilité Principal contrainte : le réseau Entreprise type : 66 nœuds (Hadoop World Summit, 2010) Principale contrainte : les I/O disques ujourd hui plus de 190 paramètres dans Hadoop Où appliquer l efforts d optimisation : réseau? Disques par nœuds? Scalabilité du stockage linéaire, mais pas la scalabilité des traitements 19
HP CU Gestion des fermes de calcul ide au tuning du développement Opérer 10, 100, 1000 systèmes comme un seul dresse Vertica et Hadoop 20
L environnement HP RI L. Cherkasova HP Labs - In Proc. of 8 th IEEE/C Intl. Conference on utonomic Computing (ICC), June, 2011 RI: utomated Resource Inference and llocation for apreduce Environments Une offre avancée HP Hadoop avec un ensemble de brevets et outils d analyse des charges et de performance Outil de «profiling» de travaux Dimensionne les ressources pour respecter les SLOs des travaux Gestion de la charge applicative orienté SLO Hadoop Environnement de simulation pour les administrateurs afin de déterminer l effet de scénarios et évaluer la charge Optimisation des travaux apreduce job pour une meilleure performance et optimisation de l utilisation du cluster ressource
HP utonomy Solution no SQL pour données non-structurées
Proposition de Valeur utonomy Big Data Indexe la donnée en la laissant là où elle est -> Que dit-on de mon entreprise sur acebook? Traite tous types de données dont l image et le son (400+ connecteurs) -> Si on peut donner du sens à la voix et à l image il devient économiquement intéressant de la stocker. ccès en «langage naturel» onctions analytiques intégrées Solon BIG DT 20 ars 2012
Real-Time essaging Compliance ournit à 200.000 terminaux utilisateurs multi-lingues : Taxonomic Categorization, Search, lert, conceptually Cluster, Heat aps, Summarize sur : Tous les nouveaux articles (200k par jour) 40 millions emails par jour 1.26 illion Trading lerts par jour 2.1 million taxonomy nodes Temps de réponse garantis sur les alertes email SL de 100ms Jusqu à 1000 emails par seconde Solon BIG DT 20 ars 2012
CONCLUSION
Quelle solution pour quel besoin? Reporting SQL 26 Offre «Database achine», technologie Cloud + garantie IO Offre conjointe HP icrosoft ast Track et Enterprise Data Warehouse nalytique SQL Offre «Database achine», technologie Cloud + garantie IO Offre HP Vertica Traitement données semi-structurées hors SQL HP Reference rchitecture Hadoop apreduce nalyse de données non structurées hors SQL Offre HP utonomy Solon BIG DT 20 ars 2012
Stockage dans le domaine des Big Data Volume of data PB HP Vertica HP Hadoop apreduce Reference rchitecture TB GB HP Database machine HP utonomy Structured data Semi-structured data Unstructured data 27 Solon BIG DT 20 ars 2012