Introduction au Massive Data Didier Kirszenberg, Responsable des architectures Massive Data, HP France Copyright 2015 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Explosion de la donnée Presque tous les clients sont concernés Exemples de besoins Explosion des boîtes mails! «Concurrence» du prix au To des fournisseurs externes Conserver tous les clics internet Garder tous les fichiers même audio et vidéo Compliance Développement de l object Storage Généralisation de la vidéo Développement d Openstack 2
Nouvelle stratégie de stockage des données Block (iscsi, FC, Cinder, etc.) File (HDFS, NFS, SMB, etc.) Object (Swift, S3, etc.) Historiquement le SAN SGBD Accès rapide aux data Historiquement le NAS Bureautique Moins cher Plus gros volumes Archivage Scale Out Storage Archivage légal (worm) 3
Définitions -> Evolutions Big Data Valorisation de la donnée -> Hadoop -> File System Distribué -> Bases MPP Software Defined Storage Effet de mode -> Tendance lourde -> Payant et Open Source ->Software + X86 Scale out Storage, Scale out NAS, Object Storage, Cloud Storage, Grid Storage, Server SAN. Erasure Coding Remplace Raid, faible impact panne, multi copie, faible ratio brut/utile Déploiement Mixité technologique Multi-salles voire multi-sites Attention à la charge réseau 4
SDS Sous segments Scale Out Storage Plus de volume à moindre prix -> souvent image ou archivage -> vers Object Storage Cloud Storage Demande Storage as a service OpenStack ->Référenciel -> Glance -> Swift -> object storage / VM -> Cinder -> Block storage Object Storage Mode Bloc, Mode Fichier -> Mode Objet (Avec ou sans Rest) Grid Storage Stockage important en amont ou en aval des clusters de calcul Server Storage Co-localisation du traitement et du stockage (disque locaux) -> voir lien Hyperviseur Scale Out NAS Fonctions NAS (bureautique, SGBD ) sur X86 à plus faible coût Rest API NFS, CIFS, S3. Objet 5
Common Business Case Solution Access Methods Block (iscsi, FC, Cinder, etc.) File (HDFS, NFS, SMB, etc.) Object (Swift, S3, etc.) HP StoreVirtual & VSA RAIN HP StoreAll with StoreAll REST API HP HP 3PAR StoreServ with HP StoreAll 9300 Gateway Cinder Compatibility With 3 rd party gateway Scality Erasure Coding Replication Erasure Coding Proprietary on HP Platforms Ceph Ceph Features/Maturity Lags Replication Erasure Coding Swift Erasure Coding Replication Open Source on HP Platforms Gluster Replication 6
HP ProLiant SL4500 la référence en données-massives Un nouveau standard Un coût au Go Incomparable La meilleure densité du marché Efficacité thermique Facilité d opération (remplacement à chaud) Gestion similaire au reste de la gamme ProLiant Data tiering intégré Option d optimisation flux vidéo Performant : 1er au test 10TB Hadoop TeraSort HP ProLiant SL4540 Gen8 HyperStorage System 7
Gestion des architectures parallèles (MPP) Nouvelles procédures et nouveaux utilitaires (HPInsight CMU) Gestion de systèmes standards L objectif est de déployer de nombreux services sur une machine Tous les OS peuvent être différents Les opérations sont par défaut basées sur l Hyperviseur La performance s analyse au niveau d un système unitaire -> le coût d opération est lié au nombre d OS Massivelly Parallel systems management L objectif est de déployer un unique service sur de nombreuses machines Tous les OS doivent être similaires au firmware près Pas d hyperviseur (les services utilisent 100% des systèmes) La performance s analyse au niveau global -> le coût d opération doit être lié au nombre de services Hadoop (comme Mongo DB, Couchbase, Vertica, SAS VA, Moonshot ) induit la gestion de systèmes massivement parallèle 8