Présentation du SDS, le futur du stockage de données Un livre blanc par Orange Business Services (Orange Cloud for Business Innovation) & Orange Labs Products & Services Présentation du SDS, le futur du stockage Novembre de données 2015 Page 1
Présentation du SDS, le future du stockage de données Introduction... 3 Les architectures traditionnelles de stockage et leurs limitations... 4 Vers une architecture de stockage (plus) distribuée avec les SDS... 6 Concepts... 6 Les bénéfices attendus des SDS... 7 Les solutions SDS existantes... 8 Vue générale... 8 Principaux produits SDS... 8 Précisions sur CEPH... 11 Introduction... 11 Pourquoi CEPH est intéressant? Quels sont les bénéfices attendus?... 12 Conclusion: perspectives à court et moyen-terme... 13 Page 2
Introduction Ce document a pour but de présenter une vue d ensemble d une nouvelle tendance dans le domaine des solutions de stockage de données : le software-defined storage (SDS). Après un rappel des architectures de stockage traditionnelles, nous soulignerons les bénéfices attendus des SDS. Nous l illustrerons à travers un focus spécifique sur CEPH. Page 3
Les architectures traditionnelles de stockage et leurs limitations Les architectures traditionnelles de stockage regroupent les solutions DAS (Direct Attached Storage), SAN (Storage Area Network) et NAS (Network Attached Storage). Schéma 1: Traditionnels systemes de stockage source: Orange Ces systèmes DAS/SAN/NAS ont déjà démontré leur capacité à adresser les besoins de stockage requérant un haut niveau de performance et de fiabilité. Mais dans un contexte de croissance rapide des besoins, tirée principalement par l explosion du volume de données non-structurées et par le développement des objets connectés, la possibilité d adapter les capacités des infrastructures de stockage à une demande qui évolue en permanence et d en contrôler les coûts devient cruciale. De ce fait, les «classiques» modes fichiers et blocs sont challengés par les architectures émergentes de stockage cloud, qui s appuient sur des solutions évolutives et potentiellement moins coûteuses, tout en respectant les niveaux de service (SLA) attendus par les clients. Au début des années 2010, le stockage cloud était assez systématiquement associé au mode objet. Contrairement au mode fichier du NAS ou au mode bloc du SAN, cette technologie repose sur la notion d objet, qui consiste à associer aux données un identifiant unique ainsi que des métadonnées qui permettent de la caractériser, voire de l enrichir. Chaque objet est en outre accessible via une API http REST Page 4
Schéma 2: Object storage model - Source: SNIA Progressivement, l objectif du stockage cloud a ensuite évolué vers du storage-as-a-service, incluant des fonctionnalités de gestion des modes blocs et fichiers. Le principe consiste à stocker les données sur des espaces logiques mutualisés sur des disques physiques, qui peuvent être répartis sur plusieurs lieux géographiques, et mises ainsi à disposition des applications clientes. Les architectures typiques de stockage cloud sont basées sur 3 types de composants : des nœuds de stockage (serveurs physiques banalisés hébergeant un ensemble de disques de haute capacité), des points d accès (qui exposent une API telle que par exemple CDMI, S3 ou Swift) et un réseau de stockage (qui assure le transfert des données entre les nœuds de stockage). Page 5
Vers une architecture de stockage (plus) distribuées avec les SDS (Software-Defined-Storage) Concepts Parmi les solutions de stockage cloud, on assiste actuellement à un certain engouement autour du SDS (Software-Defined-Storage), qui consiste à découpler la couche d infrastructure (hardware) et la couche de management du stockage (middleware). En d autres termes, les services de stockage sont décorrélés du contrôleur et les ressources sont gérées de manière mutualisée dans un datastore partagé, accédé en mode bloc, fichier ou objet. Schéma 3: The Big Picture of Software-Defined-Storage - Source: SNIA De manière simplifiée, la couche d infrastructure est alors autant banalisée que possible, à travers le recours à des disques capacitaires et à bas coût), tandis que les fonctions à valeur ajoutée (telles que la réplication, le chiffrement, la déduplication, le placement des données, etc.) sont assurées par la couche de management du stockage. Ceci permet un plus haut niveau de distribution du stockage, puisque la couche de management peut fonctionner sur un parc hétérogène d équipements physiques, qui peuvent être distribués géographiquement. Page 6
Les bénéfices attendus des SDS Ce découplage entre couches d infrastructure et de management offre plusieurs avantages. Tout d abord, cela a pour but, on l a dit, de pouvoir utiliser du matériel banalisé (et par suite, de faire jouer la concurrence entre fournisseurs de matériels), ce qui doit permettre de réduire le coût global du stockage. De plus, certaines fonctionnalités qui étaient jusqu ici gérées au niveau matériel peuvent alors être assurées par le logiciel de stockage à un moindre coût (par exemple, la gestion de la résilience des données, jusqu ici assurée par la mise en place d un système RAID, peut être adressé à travers des codes correcteurs de type erasure coding). En second lieu, les SDS facilitent le passage à l échelle, en permettant l ajout de capacités de stockage supplémentaires avec un impact minimum sur la couche de management. Ensuite, la répartition des ressources de stockage à travers différents clusters géographiques assure la résilience des données et offre des possibilités de tiering (définition de tiers de stockage proposant des niveaux de performances différenciés). Plus globalement, le découplage entre couche d infrastructure et couche de management réduit les situations de dépendance vis-à-vis d un fournisseur unique, car elle facilite la possibilité d effectuer des changements sur l une ou l autre des couches tout en gardant l autre inchangée. Enfin, les SDS favorisent l innovation dans les systèmes de stockage, en rendant plus aisée l introduction de nouvelles générations de disques ou encore l ajout de mémoire ou de puissance de calcul, par exemple. Page 7
Les solutions SDS existantes Vue générale On peut tout d abord distinguer les «pure-software players» et les fournisseurs plus traditionnels. Les premiers commercialisent leurs produits «sur étagère», indépendamment de toute solution matérielle (même s ils préconisent généralement l utilisation d équipements sur lesquels ils ont au préalable effectué un certain nombre de tests). Cela peut ainsi faciliter la réutilisation de matériel existant, ce qui peut constituer une source d économie non négligeable. Les seconds correspondent globalement aux vendeurs de solutions de stockage de type SAN/NAS, qui se positionnent sur ce nouveau segment de marché, en complémentarité avec leur portefeuille existant. Bien que proposés comme des modules indépendants de leurs autres offres, ces solutions présentent l intérêt d être particulièrement bien intégrées avec les équipements matériels qui figurent au catalogue de ces fournisseurs (notamment grâce à des opérations de pré-configuration qui permettent de gagner du temps lors de la mise en production). Mais la contrepartie est que cela limite les opportunités pour le client de gagner en indépendance vis-à-vis de ces fournisseurs. Une autre distinction peut être faite entre les systèmes dits «propriétaires» et les solutions open source que l on a pu voir émerger récemment. Nous rentrerons d ailleurs un peu plus dans le détail de cette segmentation dans la section suivante. Principaux produits SDS Parmi les principaux fournisseurs de solutions SDS, on peut citer Scality, Openstack/Swift et CEPH, qui sont des «pure-players», ainsi qu EMC ScaleIO, VMware Virtual SAN, NetApp clustered-dataontap, au rang des fournisseurs plus traditionnels. Nous proposons dans cette section de nous focaliser plus particulièrement sur les solutions de «pureplayers». Scality, tout d abord, est un fournisseur français indépendant de logiciels de stockage. Son produit Ring a été adopté par de nombreux clients, tels que Comcast, RTL, Dailymotion ou encore Orange. 1 http://scality.com/ 2 http://swift.openstack.org/ 3 http://ceph.com 4 https://store.emc.com/product-family/emc-scaleio-products/emc-scaleio/p/emc-scaleio-elastic-storage 5 https://www.vmware.com/products/virtual-san 6 http://www.netapp.com/us/products/platform-os/data-ontap-8/ Page 8
Le schéma ci-dessous présente l architecture macro de la solution : Schéma 4: Scality architecture - Source: Scality Page 9
Le produit Scality Ring permet de bâtir des infrastructures à l échelle du péta-octet. Il est compatible avec la plupart des serveurs standards de l industrie et offre des fonctionnalités innovantes pour assurer la protection de données contre les failles, grâce à l algorithme ARC (Advanced Resilience Configuration). Si l on considère les alternatives open-source, les principales solutions SDS existantes sont Openstack/Swift, CEPH ou encore GlusterFS. Il est intéressant de noter que ces deux dernières, qui étaient à l origine des start-ups, ont été rachetées par RedHat au cours des dernières années. Comme souvent lorsqu il s agit de produits open source, ces solutions sont fournies en version gratuite et dans une version «entreprise» payante, qui inclut généralement des services de support et d accompagnement à la prise en main. Openstack présente l avantage de proposer à la fois du mode bloc (via son module Cinder) et du mode objet (et bientôt du mode fichier, avec son service Manila). Swift est le composant qui gère le mode objet. Il est conçu de sorte à optimiser le coût et l évolutivité de l infrastructure de stockage, à travers une plateforme totalement distribuée et accessible via une API, qui peut ainsi être intégrée facilement par les applications clientes, par exemple pour des besoins d archivage, de sauvegarde ou de stockage primaire. Et depuis plus récemment, la communauté Openstack promeut également une autre initiative open source dans le domaine SDS : CEPH. Le schéma ci-dessous présente les principaux composants de l architecture de CEPH : Schéma 5 CEPH macro-design source: ceph.com CEPH étant l une des plus prometteuses solutions SDS, nous proposons de faire un focus particulier dessus dans la prochaine session. Page 10
Précisions sur CEPH Introduction CEPH est une solution de SDS distribuée, apparue sous forme de projet open source, créée par Sage Weil dans le cadre de sa thèse de doctorat en 2007. S. Weil a ensuite créé Inktank en 2012, une start-up dédiée à la fourniture de support et de services autour de CEPH. Et plus récemment, Inktank a été racheté par Redhat (en 2014), intégrant ainsi le portefeuille de solutions de stockage de ce groupe, au côté notamment de GlusterFS. CEPH peut être déployé sur une infrastructure cloud Openstack, et constitue ainsi une alternative à un cluster Swift pour le stockage objet, mais il offre également des accès en modes blocs et fichiers. Etant donné l absence de goulet d étranglement dans son architecture, CEPH est conçu pour fournir un haut niveau de performance, de robustesse et d évolutivité. Les promesses de CEPH sont : - la possibilité d utiliser du hardware banalisé - la librairie RADOS (Reliable Autonomic Distributed Object Storage), qui gère le stockage des contenus sur le cluster - des modes d accès diversifiés (bloc, fichier, objet) - l algorithme CRUSH (Controlled Replication Under Scalable Hashing), qui assure la tolérance aux fautes, par réplication ou erasure coding. Des clusters CEPH de plusieurs péta-octets ont déjà été déployés dans le monde, par exemple par Dreamhost, le CERN ou encore Deutsche Telekom. 7 For more details on how CRUSH works and is implemented, see http://www.ceph.com/papers/weil-crush-sc06.pdf Page 11
Pourquoi CEPH est intéressant? Quels sont les bénéfices attendus? Comme nous l avons déjà dit, l un des principaux avantages de CEPH réside dans sa capacité à gérer plusieurs modes d accès. Ceci signifie que, quel que soit l application cliente, les données pourront être stockées sur une infrastructure mutualisée. Schéma 8: CEPH Client Architecture- Source: RedHat Si l on considère plus spécifiquement le stockage objet, CEPH supporte deux types d interfaces : Amazon S3 et OpenStack Swift De plus, dans la mesure où ces deux APIs partagent un espace de noms (namespace) commun, les données écrites avec l une peuvent être lues à travers l autre. Jusqu ici, CEPH semble être la seule solution SDS du marché capable de répondre aux besoins de stockage quel que soit le mode d accès (bloc/fichier/objet), même si d autres sociétés commencent également à investiguer ce champ. Le second avantage de CEPH est lié à son algorithme de tolérance aux fautes (CRUSH). A travers cet algorithme, CEPH calcule à quel endroit un objet doit être stocké et il applique ensuite la politique de réplication ou d erasure coding adaptée pour assurer la résilience des données. En outre, grâce à un mapping des données sur les espaces de stockage qui ne repose pas sur l utilisation d un index centralisé, CRUSH supprime les potentiels goulets d étranglement (SPOF ou Single-Point-Of- Failure), qui sont fréquents dans les architectures de stockage cloud. Ainsi, il permet à un cluster de CEPH de croître en capacité, tout en se reconfigurant dynamiquement. Page 12
Concernant l aspect financier, CEPH présente deux avantages : - C est une solution open source et une version complète est disponible gratuitement, ce qui permet d économiser les frais de licence inhérents à la majorité des solutions alternatives - CEPH a été conçu pour pouvoir fonctionner sur du matériel banalisé, ce qui offre une grande modularité et une diversité de choix d équipements de stockage, permettant ainsi d adopter une démarche design-to-cost pour l implémentation d un cluster Conclusions: perspectives à court et moyen-terme En conclusion, on peut considérer que les solutions de «Software Defined Storage (SDS) sont une tendance de fond dans le domaine du stockage. Bien que relativement peu d entreprises aient déjà fait le choix de déployer ce type de solutions dans leurs datacenters, une étude d Infonetics révèle que 71% des décideurs informatiques prévoient d avoir des solutions SDS en production d ici 2017. Ceci peut s expliquer par le fait qu elles sont sources d importants bénéfices, en raison de leur capacité à découpler les couches de management des couches matérielles au sein d une infrastructure de stockage. Cela offre en effet des opportunités en termes de coûts, d évolutivité et de performance. Parmi ces solutions SDS, CEPH apparaît comme l une des plus prometteuses, car elle est disponible en open source et parce qu elle offre certaines fonctionnalités innovantes (principalement à travers la gestion de plusieurs modes d accès et grâce à l algorithme CRUH qui assure résilience et tolérance aux fautes). C est pourquoi Orange est maintenant un membre actif de la communauté open source CEPH et étudie actuellement les opportunités de déploiement de cette technologie. Page 13
8 https://www.infonetics.com/research.asp Vous voulez en savoir plus? Nous pouvons organiser des séances d information ciblées avec nos experts Contactez votre gestionnaire de compte Orange Business Services. http://www.orange-business.com/fr Copyright Orange Business Services [2015]. Tous droits réservés. Les informations contenues dans ce document sont la propriété de Orange Business Services et de ses filiales. Orange, le logo Orange, Orange Business Services, les produits et noms de service sont la propriété de Orange Brand Services Limited. Toutes les autres marques sont la propriété de leur propriétaire respectif. Document non contractuel. Les données et spécifications relatives aux produits pourront faire l objet de modifications sans notification préalable. Page 14