Livre blanc. Déduplication «légère» HP 3PAR : Comparaison avec les solutions concurrentes. 89 Fifth Avenue, 7th Floor. New York, NY 10003



Documents pareils
Architecture complète de protection du stockage et des données pour VMware vsphere

TRANSFORMEZ VOTRE INFRASTRUCTURE DE BASE DE DONNEES

Technologie de déduplication de Barracuda Backup. Livre blanc

CA ARCserve Backup. Avantages. Vue d'ensemble. Pourquoi choisir CA

Livre blanc. Technologies "thin" HP Comparaison avec les solutions concurrentes

Ne laissez pas le stockage cloud pénaliser votre retour sur investissement

Déduplication des données : un élément essentiel de votre stratégie de protection des données

Brochure Ne faites plus de compromis. Système de stockage HP 3PAR StoreServ la seule architecture de stockage primaire dont vous avez besoin

L I V R E B L A N C P r o t ég e r l e s a p p l i c a t i o n s m ét i e r s c r i t i q u e s M a i n f r a m e, un b e s o i n c r u c i a l

DÉVELOPPEMENT INFONUAGIQUE - meilleures pratiques

Technologie de Déduplication Progressive

FAMILLE EMC RECOVERPOINT

1.1. Stockage HP StoreVirtual 4000

Technologie SDS (Software-Defined Storage) de DataCore

FAMILLE EMC VPLEX. Disponibilité continue et mobilité des données dans et entre les datacenters AVANTAGES

WHITE PAPER. Quels avantages la déduplication offre-t-elle aux entreprises? Livre blanc Acronis

DOSSIER SOLUTION : CA ARCserve r16. Recours au Cloud pour la continuité d'activité et la reprise après sinistre

FAMILLE EMC VPLEX. Disponibilité continue et mobilité des données dans et entre les datacenters

Système de stockage IBM XIV Storage System Description technique

Clients et agents Symantec NetBackup 7

Licences Windows Server 2012 R2 dans le cadre de la virtualisation

Avantages de l'archivage des s

DOSSIER SOLUTION : CA RECOVERY MANAGEMENT

Module 0 : Présentation de Windows 2000

Comment aider les entreprises à acquérir de nouveaux clients et à fidéliser leur clientèle existante dans un monde numérique en pleine évolution

Symantec NetBackup 7 Plate-forme Symantec NetBackup : Une protection complète pour les informations stratégiques de l'entreprise

Symantec Backup Exec.cloud

EMC DATA DOMAIN OPERATING SYSTEM

Non-Stop. de vos Données. Acronis Backup & Recovery 11. Pouvoir compter sur ses données est indispensable!

EMC DATA DOMAIN HYPERMAX

Protection des données avec les solutions de stockage NETGEAR

Virtualisation des postes de travail

Examen technique des technologies de mise en cache

CA ARCserve Backup r12

Microsoft Dynamics AX. Solutions flexibles avec la technologie Microsoft Dynamics AX Application Object Server

Serveur EMC/CX Solution de stockage hautes performances dotée d'une connectivité flexible

LES 5 PRINCIPALES RAISONS DE DÉPLOYER MICROSOFT SQL SERVER SUR LE SYSTÈME DE STOCKAGE UNIFIÉ EMC VNX

Le stockage. 1. Architecture de stockage disponible. a. Stockage local ou centralisé. b. Différences entre les architectures

en version SAN ou NAS

EMC XTREMIO : SOLUTION DE CONSOLIDATION HAUTES PERFORMANCES POUR ORACLE

Moteur de réplication de fichiers BackupAssist

Technologie Netapp. Novembre 2010

Acronis Backup & Recovery for Mac. Acronis Backup & Recovery et Acronis ExtremeZ-IP ARCHITECTURE DE RÉFÉRENCE

Chapitre 1 : Introduction aux bases de données

DES SAUVEGARDES ET DES RESTAURATIONS DE DONNEES SANS CONTRAINTES DE LIEU NI DE TEMPS

CA ARCserve Backup Option NAS (Network Attached Storage) NDMP (Network Data Management Protocol)

EMC AVAMAR. Logiciel et système de sauvegarde avec déduplication

SafeNet La protection

L unique SAN industriel proposant un stockage multiniveau automatisé (Automated Tiered Storage)

Appliance Symantec NetBackup 5230

Logiciel de stockage HP 3PAR

Gamme NetApp FAS3200

PERFORMANCES EXCEPTIONNELLES ET EFFICACITÉ EMC POUR MICROSOFT SQL SERVER

CA ARCserve Backup ß QUESTIONS LES PLUS FRÉQUENTES : CA ARCSERVE BACKUP R12.5

Une présentation de HP et de MicroAge. 21 septembre 2010

Optimisation WAN de classe Centre de Données

EMC Data Domain Boost for Oracle Recovery Manager (RMAN)

TBR. Postes de travail virtualisés : IBM simplifie la gestion de l infrastructure avec ses serveurs System x Août 2013

Gamme NetApp FAS6200

SYSTÈME DE GESTION DE FICHIERS

Le stockage unifié pour réduire les coûts et augmenter l'agilité

THE FLASH REVOLUTION IS RIGHT NOW. Pure Storage France Contact : france@purestorage.com Pure Storage, Inc. 1

Simplifiez-vous la vie et accroissez vos revenus choisissez la simplicité

vbladecenter S! tout-en-un en version SAN ou NAS

Protection complète, stockage efficace, restauration pratique, gestion centralisée

SYSTÈME DE GESTION DE FICHIERS SGF - DISQUE

PRINCIPES DE BASE DE LA SAUVEGARDE POUR LA PROTECTION DE VOS DONNÉES ET DE VOTRE ACTIVITÉ

Guide de prise en main Symantec Protection Center 2.1

Artica. La déduplication. Révision Du 08 Février 2011 version

Faire le grand saut de la virtualisation

Windows 2000: W2K: Architecture. Introduction. W2K: amélioration du noyau. Gamme windows W2K pro: configuration.

Ebauche Rapport finale

Lettre d'annonce ZP d'ibm Europe, Moyen-Orient et Afrique, datée du 16 février 2010

Symantec Endpoint Protection Fiche technique

Amélioration des performances du datacenter avec la virtualisation des bases de données SQL Server

Guide de configuration de SQL Server pour BusinessObjects Planning

Symantec Backup Exec 2012

Chapitre V : La gestion de la mémoire. Hiérarchie de mémoires Objectifs Méthodes d'allocation Simulation de mémoire virtuelle Le mapping

UNIFIED D TA. architecture nouvelle génération pour une restauration garantie (assured recovery ) que les données soient sur site ou dans le cloud

Livre blanc. La sécurité de nouvelle génération pour les datacenters virtualisés

stockage, pour des économies en termes de temps et de coûts. Avantages principaux

UNIFIED. Nouvelle génération d'architecture unifiée pour la protection des données D TA. dans des environnements virtuels et physiques PROTECTION

IBM CloudBurst. Créer rapidement et gérer un environnement de Cloud privé

Le Raid c est quoi? Comment ca marche? Les différents modes RAID :

BASE DE DONNÉES ORACLE 11G SUR LE SYSTÈME DE STOCKAGE PILLAR AXIOM. Livre blanc publié par Oracle Novembre 2007

Dossier Solution - Virtualisation CA arcserve Unified Data Protection

Comparaison du coût total de propriété de MongoDB et d Oracle. Un livre blanc 10gen

Techniques de stockage. Techniques de stockage, P. Rigaux p.1/43

La continuité de service

WD et le logo WD sont des marques déposées de Western Digital Technologies, Inc, aux États-Unis et dans d'autres pays ; absolutely WD Re, WD Se, WD

Livre blanc. Au cœur de Diskeeper 2010 avec IntelliWrite

Au-delà de la disponibilité «cinq neuf» : atteindre une haute disponibilité avec Dell Compellent Storage Center

FUJITSU WORLD TOUR 2014 Paris

Accélérez la virtualisation de vos applications stratégiques en toute confiance avec Symantec

Clouds et plates-formes multiples

Windows Server Chapitre 3 : Le service d annuaire Active Directory: Concepts de base

Une solution de stockage VDI unifiée, flexible et disponible pour vos utilisateurs

Système de stockage sur disque IBM Storwize V5000

Livre. blanc. Solution Hadoop d entreprise d EMC. Stockage NAS scale-out Isilon et Greenplum HD. Février 2012

Transcription:

89 Fifth Avenue, 7th Floor New York, NY 10003 www.theedison.com 212.367.7400 Livre blanc Déduplication «légère» HP 3PAR : Comparaison avec les solutions concurrentes

Imprimé aux États-Unis Copyright 2014 Edison Group, Inc. New York. Edison Group n'apporte aucune garantie, expresse ou implicite, concernant les informations contenues dans ce document, et décline toute responsabilité en cas d'erreur découlant de leur utilisation. Tous les noms de produits sont des marques commerciales de leurs propriétaires respectifs. Première édition : Juin 2014 Équipe de rédaction : Chris M. Evans, Analyste principal; Manny Frishberg, réviseur; Barry Cohen, rédacteur en chef

Table des matières Objectif... 2 Public... 2 Contenu du rapport... 2 Déduplication des données... 4 Caractéristiques techniques... 4 Gestion de la résilience... 5 Rendre le flash abordable... 5 Economies d'espace anticipées... 5 Contexte... 6 Accélération matérielle... 6 Mise en œuvre de la déduplication «légère»... 6 Express Indexing... 7 Clones «légère»... 7 Economies d'espace et efficacité des écritures... 8 Storage System de SolidFire... 9 Pure Storage FlashArray... 10 EMC XtremIO... 11 Interprétation des économies... 12

Résumé Alors que la croissance des données se poursuit à des taux exponentiels, on demande aux départements des TI de fournir du stockage à des niveaux d'efficacité qui ne cessent d'augmenter le dilemme classique «faire plus avec moins». En même temps, les baies de stockage traditionnelles ne parviennent plus à tenir le rythme des exigences en densité E/S et les clients effectuent une transition vers les systèmes tout-flash, dont le rapport $/Go brut est beaucoup plus élevé. Les technologies de réduction de l'espace comme l'allocation dynamique, la compression et la déduplication des données représentent une stratégie principale dans les systèmes tout-flash en aidant les entreprises à remplir leurs besoins en stockage tout en fournissant de hauts niveaux d'efficacité. La fonctionnalité de déduplication légère de HP 3PAR StoreServ s'inscrit dans cette continuité en fournissant de la valeur aux clients grâce à l'optimisation de la façon dont leurs systèmes de stockage partagé stockent les données. La déduplication légère exploite encore plus l'utilisation du circuit intégré développé pour un client (ASIC) de HP 3PAR pour minimiser l'impact de la déduplication effectuée en ligne puisque les données sont écrites dans le système multidisque. Une forte intégrité des données est conservée grâce à des vérifications supplémentaires de l'intégrité à chaque écriture dédupliquée, un processus atteint à vitesse de ligne grâce à la technologie ASIC. La déduplication «légère» de HP 3PAR StoreServ est la dernière fonctionnalité des technologies «légère», qui comprennent l'allocation dynamique, la persistance «légère» et la récupération «légère» et qui offrent de la valeur et des économies au client. Chacune de ces technologies est entièrement intégrée à l'architecture 3PAR StoreServ. Dans cette étude, HP 3PAR StoreServ a été comparé aux offres tout-flash concurrentes de SolidFire, Pure Storage et EMC. Toutes ces solutions offrent une déduplication en ligne (en temps réel), bien que FlashArray de Pure Storage effectue du post-traitement des données. SolidFire et Pure Storage intègrent tous les deux de la compression dans leurs technologies d'économie d'espace (et leurs données d'économies). Seuls HP 3PAR et Pure Storage offrent des vérifications supplémentaires des données grâce à la vérification de l'intégrité. En partant de la seule déduplication «légère» (sans Zero Page Detect), HP 3PAR StoreServ atteint des économies allant jusqu'à 10:1, selon le type de données. Cela dépasse les chiffres annoncés par les trois plates-formes concurrentes, dont deux comptent aussi des technologies de compression et la détection des motifs dans leurs chiffres calculés. En résumé, la déduplication «légère», ajoutée au jeu déjà existant de technologies «légère», étend le leadership de HP 3PAR StoreServ en offrant aux clients un stockage principal très évolutif et très efficace pour tous les besoins des entreprises. Edison : Déduplication «légère» de HP 3PAR StoreServ : Comparaison avec les solutions concurrentes Page 1

Introduction Objectif Ce rapport considère la mise en œuvre de la déduplication des données sur la plate-forme de stockage HP 3PAR StoreServ et compare les caractéristiques et les fonctionnalités offertes par les produits équivalents sur le marché actuel. La pression constante à «faire plus avec moins» signifie que toutes les technologies de réduction de l'espace sont des outils utiles pour augmenter l'efficacité des baies de stockage principales. L'omniprésence du flash, comme nous le verrons, signifie que la déduplication principale est prête à la mise en œuvre en production. Public Les décideurs dans les entreprises, qui cherchent à fournir des déploiements très efficaces de stockage centralisé, verront que ce rapport permet de comprendre les problèmes techniques lors du déploiement de la déduplication et les avantages qu'il peut offrir. Contenu du rapport Résumé analytique Un résumé du contexte et des conclusions tirées des recherches et des analyses d'edison. Optimisation de l'espace dans le stockage principal Une introduction à l'évolution du stockage partagé et des techniques d'économie d'espace qui aident à gérer la croissance exponentielle. Déduplication «légère» HP 3PAR : Étude approfondie Une discussion approfondie sur les caractéristiques et les fonctionnalités de la fonction de déduplication «légère» de HP 3PAR StoreServ. Analyse concurrentielle Un examen de la mise en œuvre de la déduplication sur les plates-formes de stockage concurrentes en comparaison avec HP 3PAR StoreServ. Conclusions et Recommandations Un résumé des découvertes de cette recherche. Edison : Déduplication «légère» de HP 3PAR StoreServ : Comparaison avec les solutions concurrentes Page 2

Optimisation de l'espace dans le stockage principal Le taux exponentiel de croissance des données représente un défi considérable que de nombreuses entreprises doivent gérer depuis les débuts du stockage partagé il y a plus de 20 ans. La demande de stockage est insatiable, et on estime que la croissance varie de 50 à 100 % par an. Pour aider à gérer la croissance, les fournisseurs de stockage ont mis en œuvre des fonctionnalités logicielles qui optimisent l'utilisation des capacités de stockage physique. Les facteurs concernés incluent notamment : l'allocation dynamique il s'agit d'une technique de réduction de l'espace qui ne stocke que les données écrites par un hôte sur le disque. On réalise des économies d'espace en ne stockant que les données véritables écrites sur chaque volume, plutôt que de réserver toute la capacité du volume dans les mises en œuvre de «thick provisioning». Les solutions d'allocation dynamique peuvent économiser 35 à 75 % de la capacité du disque physique, selon le profil des données. Cependant, un entretien continu est nécessaire pour conserver un niveau idéal d'efficacité. Les systèmes HP 3PAR StoreServ permettent d'économiser environ 65 % selon les données de champ. Récupération des pages vides cette technique de réduction de l'espace identifie les pages de données vides («zéro») et les supprime du disque physique, tout en conservant les informations de métadonnées pour indiquer que la page logique du volume est vide. La plupart des solutions utilisent une récupération des pages vides (ZPR) en post-traitement car l'identification des pages vides en temps réel a un impact sur le rendement E/S. Cependant, la plate-forme HP 3PAR StoreServ est unique car elle utilise un processeur ASIC dédié qui identifie et élimine les pages vides en temps réel (c'est ce que l'on appelle Inline Zero Detect), réduisant ainsi les E/S sur le disque et économisant les capacités du disque. Compression des données cette technique de réduction des données identifie les motifs répétés et les redondances des données et les supprime, laissant en place les métadonnées afin de permettre de recréer les informations d'origine. Bien que la compression puisse permettre de réaliser des économies considérables, l'impact sur les exigences pour le processeur explique que de nombreux fournisseurs ont choisi de ne pas mettre en œuvre cette technologie. Clones et instantanés économes en espace bien qu'il ne s'agisse pas d'une technique de réduction de l'espace à proprement parler, les instantanés et les clones des données principales peuvent être pris de manière économe en espace, en utilisant les métadonnées pour suivre les différences entre le volume principal et les instantanés. Sur certaines architectures, l'utilisation d'instantanés a des répercussions sur le rendement; d'autres exigent également que de l'espace soit réservé pour un groupe d'instantanés. Ces restrictions n'existent pas avec la plate-forme HP 3PAR StoreServ. Edison : Déduplication «légère» de HP 3PAR StoreServ : Comparaison avec les solutions concurrentes Page 3

Déduplication des données La déduplication est une technique de réduction de l'espace qui identifie les données redondantes ou dupliquées dans le stockage physique et supprime les copies redondantes pour ne conserver qu'une seule copie des données sur le disque. Les métadonnées (sous forme de tables de recherche dans la mémoire) sont utilisées pour cartographier les volumes logiques sur les copies uniques des données. Vous pouvez réaliser des économies considérables sur la capacité des disques physiques dans les systèmes contenant de nombreuses données similaires ou répétées, comme les environnements de bureaux virtuels ou de serveurs virtuels. À ce jour, la déduplication a été largement utilisée dans des systèmes de sauvegarde sur disque où des économies de 90 à 95 % ou une réduction de plus de 20:1 des capacités physiques ont été réalisées. Caractéristiques techniques Certaines des caractéristiques techniques de la déduplication des données comprennent : Le traitement en ligne / post-traitement la déduplication des données peut être effectuée en affectant les données au disque (ce que l'on appelle le traitement en ligne) ou après que les données soient sur le disque, ce qui est du post-traitement. Le traitement en ligne exige des algorithmes rapides et efficaces pour minimiser l'impact sur le rendement, avec l'avantage supplémentaire que les économies d'espace sont réalisées immédiatement. Le post-traitement supprime l'impact sur le rendement direct, mais l'utilisation de l'espace disque physique varie pendant que les données sont écrites sur le disque, et la déduplication a lieu comme tâche de fond. La taille fixe / variable des blocs les techniques de déduplication identifient les données potentiellement dupliquées en utilisant des techniques de blocs fixes ou variables. Les algorithmes à blocs variables produisent généralement des rapports de déduplication plus élevés que les solutions à blocs fixes, mais nécessitent plus de puissance de traitement. Les tailles de blocs fixes plus petites ont tendance à donner des résultats plus efficaces, mais sont plus coûteuses en termes de puissance de processeur et de mémoire du système en raison des recherches de métadonnées supplémentaires. Le hachage des données le terme de «hachage» fait référence au processus pendant lequel on génère une valeur de somme de contrôle unique à partir d'un bloc de données. La valeur de la somme de contrôle de chaque bloc est utilisée comme empreinte pour référencer ces données dans des tableaux de métadonnées et lors de la comparaison des nouvelles données pour la déduplication. La fiabilité des techniques de hachage varie, car certains algorithmes génèrent la même valeur de hachage pour des données différentes : c'est ce que l'on appelle une «collision». Il faut atteindre un certain équilibre entre la complexité de l'algorithme de hachage et l'impact sur le rendement, c'est pourquoi certaines mises en œuvre utilisent un hachage léger et valident toutes les données avant de confirmer les doublons. Edison : Déduplication «légère» de HP 3PAR StoreServ : Comparaison avec les solutions concurrentes Page 4

Le profil des données la déduplication des données a pour résultat un chemin plus aléatoire d'accès à un volume simple, car les emplacements physiques d'origine des blocs de données ne sont pas déterminés par la disposition logique des volumes. La gestion de l'accès aléatoire aux données est plus difficile pour les baies de stockage basées sur un disque dur car des résultats aléatoires d'e/s ont pour résultat une latence plus élevée en raison du mouvement de la tête des disques mécaniques. Le stockage flash, quant à lui, ne présente pas ces problèmes, ce qui rend cette technologie très adaptée à la gestion des données dédupliquées. Gestion de la résilience Dans les systèmes hautement dédupliqués, un seul bloc de données peut être un composant sur des dizaines ou des centaines de volumes logiques. Par conséquent, l'impact de la perte de données suite à une panne matérielle est beaucoup plus élevé que dans les environnements nondédupliqués. Les pertes de données peuvent se produire en raison de corruption logique (causée par un bogue du logiciel), ou d'une panne matérielle (par exemple deux disques en panne dans un groupe RAID utilisant une parité unique). Certaines mises en œuvre de déduplication sont activées par défaut et ne peuvent pas être désactivées par l'administrateur, ce qui peut ne pas être souhaitable pour certains types de données. Rendre le flash abordable Les systèmes multidisques tout-flash sont des nouveaux venus sur le marché du stockage partagé. Ces applications utilisent uniquement le flash comme moyen de stockage permanent. Le flash est beaucoup plus coûteux au Go que les disques durs traditionnels. Par conséquent, les fournisseurs de ces produits cherchent à trouver des moyens de rendre le prix de ces baies toutflash plus acceptable selon le rapport historique $/Go. Une solution a été de citer les capacités de la baie après l'application des économies de réduction de l'espace. Il en résulte un coût beaucoup plus acceptable et en lien à celui des baies de stockage traditionnelles utilisant des disques. Cependant, baser ses décisions d'achat sur des économies d'espace anticipées peut être dangereux, à moins que le profil de données soit bien connu ou validé auparavant. Economies d'espace anticipées Le but de la déduplication est de réaliser des économies sur l'espace-disque physique. Les économies varient selon le type de données optimisées, et les données hautement redondantes comme les déploiements de serveurs virtuels et d'infrastructures de bureaux virtuels rencontrent les meilleurs résultats. Les données structurées, les données cryptées et les contenus médias ne permettent que peu d'économies car les données sont généralement déjà optimisées par l'application. Les économies de données peuvent aussi changer au fil du temps car les informations sont créées et détruites selon un cycle de vie normal. Les économies réalisées par la déduplication doivent donc être considérées comme un avantage supplémentaire plutôt qu'une mesure de la capacité de base. Edison : Déduplication «légère» de HP 3PAR StoreServ : Comparaison avec les solutions concurrentes Page 5

Déduplication «légère» HP 3PAR : Etude approfondie Contexte L'architecture HP 3PAR StoreServ est basée sur une grappe à maillage actif à cache cohérent se composant de nœuds de contrôleurs multiples et d'étagères de disques. Tous les contrôleurs participent à l'accès aux données, dans une configuration «actif-actif», ce qui garantit que toutes les ressources de tous les nœuds sont utilisées pour servir les demandes E/S. Le système d'exploitation HP 3PAR utilise une méthodologie de cartographie sur trois niveaux similaire à celle utilisée dans les systèmes d'exploitation d'entreprise pour stocker et suivre les ressources physiques et virtuelles. Avec l'arrivée de la technologie flash, l'architecture HP 3PAR StoreServ est idéalement placée pour exploiter des supports de stockage plus rapides, grâce à des fonctionnalités qui incluent la gamme de technologies «légère» déjà existantes. L'espace physique sur le stockage back-end est divisé en unités de 1 Go que l'on appelle «chunklets». Les chunklets sont alors combinés pour créer des disques logiques (LD), en appliquant les règles de protection des données (RAID) et de placement des données à chaque LD. Les volumes virtuels (VV) ou numéros d'unités logiques (LUN) sont alors créés à partir des disques logiques alors que l'entité est assignée aux hôtes en utilisant une bande d'une granularité de 16 Kio. La résilience des données est atteinte en distribuant les données à travers des nœuds, étagères de disque et disques multiples. Accélération matérielle Un des différentiateurs principaux de la plate-forme 3PAR StoreServ est l'utilisation d'un contrôleur matériel personnalisé, ou ASIC. L'ASIC, qui en est à sa quatrième génération, fournit une détection des pages vides à la vitesse de ligne pour chaque bloc de données de 16 Kio écrit dans la baie de stockage. Il s'agit d'une technologie de base dans la livraison des technologies «légère» 3PAR StoreServ existantes, y compris l'allocation dynamique, la persistance «légère», la conversion «légère» et la restitution des copies «légère». Mise en œuvre de la déduplication «légère» La déduplication «légère» est une nouvelle fonctionnalité initialement mise en œuvre dans les systèmes de stockage HP 3PAR StoreServ 7450. Cette fonctionnalité est fournie comme option gratuite avec la suite du système d'exploitation HP 3PAR, offrant aux clients une option pour réaliser des économies immédiates sans frais supplémentaires. La déduplication «légère» est disponible pour les volumes virtuels et les instantanés. La déduplication «légère» est un processus de déduplication en ligne qui profite d'un ASIC de quatrième génération pour effectuer des calculs de hachage pour chaque bloc de données de 16 Kio lors de son écriture dans le système. Lorsque les données sont reçues par le système, l'effort de calcul de hachage est déchargé sur l'asic et livré à vitesse de la ligne. La baie utilise une fonctionnalité appelée Express Indexing pour vérifier si les nouvelles données existent déjà Edison : Déduplication «légère» de HP 3PAR StoreServ : Comparaison avec les solutions concurrentes Page 6

dans le système. Si une correspondance de valeur de hachage est trouvée, l'asic est utilisé pour effectuer une comparaison bit par bit des nouvelles données avec la copie stockée sur le flash back-end pour vérifier qu'aucune collision ne se produise. La décharge de cette fonction à l'asic et son exécution à vitesse de ligne a un impact négligeable sur le processeur. Express Indexing Le système d'exploitation HP 3PAR utilise un processus appelé Express Indexing pour détecter les données dupliquées sur la bande. Ce processus profite du système d'indexage à trois niveaux innovant et robuste utilisé dans le système d'exploitation pour stocker et gérer les volumes traditionnels (non-dédupliqués). Lorsque des données sont reçues par la baie, Express Indexing calcule une valeur de hachage pour chaque bloc de données de 16 Kio. La valeur de hachage est utilisée pour vérifier si les blocs de nouvelles données existent déjà dans le système en «parcourant» les tableaux de métadonnées en utilisant la valeur de hachage. Si le bloc de données est trouvé, il est lu par le back-end et comparé au niveau des bits (en utilisant l'opérateur XOR) dans l'asic. Le XOR de deux pages égales donne une page de zéros qui sera également détectée en ligne en exploitant le moteur intégré de détection des zéros de l'asic. Une comparaison réussie a pour résultat un «coup de déduplicatio», auquel cas les pointeurs de LBA du volume virtuel sont mis à jour pour référencer les données localisées Dans le cas rare où une collision est détectée, les données sont stockées sur le disque directement associé au volume virtuel et ne sont pas considérées comme dédupliquées. Si les nouvelles données n'ont pas été localisées pendant la recherche, un nouveau bloc de données est alloué et les données sont écrites sur le stockage back-end. Avec cette technique innovante, la solution HP 3PAR StoreServ utilise de manière efficace les structures de mémoire existantes pour suivre les données uniques et dédupliquées et les cartographier sur les volumes virtuels. La conception de la structure de mémoire 3PAR élimine le besoin de garder les totaux de référence des données partagées puisque toutes les données nonréférencées finissent par être nettoyées dans le cadre d'un processus en ligne de collecte des «ordures» effectué par un algorithme «mark-and-sweep». Clones «légère» L'abstraction des contenus des volumes virtuels et physiques grâce à la déduplication offre la possibilité de mettre en place des fonctionnalités telles que les clones «légère». Un clone «légère» est la reproduction d'un volume que l'on crée en ne copiant que les métadonnées qui associent un volume virtuel aux données physiques sur le disque. Lors de la création initiale, les clones «légère» pointent vers les mêmes blocs de données que le volume cloné, mais lorsque les volumes sont mis à jour et que le contenu des données est modifié, les nouvelles écritures sont cartographiées sur des blocs dédupliqués différents (ou créent de nouveaux blocs) : il ne se produit aucun écrasement direct. Les clones «légère» restent inchangés si les données mises à jour continuent d'être cartographiées aux données dédupliquées existantes sur la baie. Edison : Déduplication «légère» de HP 3PAR StoreServ : Comparaison avec les solutions concurrentes Page 7

Les clones «légère» permettent à HP 3PAR StoreServ de mettre en œuvre des copies instantanées très efficaces pour les fonctions de clonage de l'hyperviseur telles que VAAI sur VMware vsphere et ODX sur Hyper-V de Microsoft. Economies d'espace et efficacité des écritures Il a été montré que la déduplication «légère» de HP 3PAR permet de réaliser des économies allant jusqu'à 10:1, selon les données sources. Cela dépasse les promesses d'économies faites par les autres fournisseurs de stockage tout-flash. HP a également mené des recherches sur les différences entre l'utilisation d'une taille de bloc par défaut de 16 Kio par la plate-forme 3PAR StoreServ et de la taille inférieure, 4 Kio, utilisée par les autres plates-formes. Les résultats ont montré une amélioration légère des économies, soir moins de 15 %. Par conséquent, HP a choisi de conserver la taille de bloc existante de 16 Kio, puisque cela permettait d'utiliser le processeur et les ressources de mémoire de manière optimale. HP a également consulté les données de télémesure de dizaines de milliers de systèmes existants chez les clients. Ces dernières ont montré que la taille idéale pour la déduplication se situait entre 8 Kio et 16 Kio de taille de bloc. Les valeurs inférieures montraient une amélioration légère des économies mais également une charge plus importante du système. Les capacités d'entrelacement des écritures de HP 3PAR StoreServ signifie que les E/S d'écritures sur les SSD sont réparties de manière homogène, ce qui réduit le risque de panne grave des périphériques. HP fournit une garantie inconditionnelle de 5 ans sur les disques cmlc des systèmes StoreServ. Inline Zero Detect signifie que les données sont retirées du portefeuille E/S et ne sont pas écrites sur le stockage final, ce qui réduit encore plus l'usure des périphériques SSD. Enfin, les fonctionnalités telles que Adaptive Write et Adaptive Sparing fournissent une gestion supplémentaire du SSD, ce qui permet d'étendre les capacités du SSD de 20 % supplémentaires. Toutes les fonctionnalités décrites sont entièrement intégrées à la nouvelle technologie de déduplication «légère». Edison : Déduplication «légère» de HP 3PAR StoreServ : Comparaison avec les solutions concurrentes Page 8

Analyse concurrentielle La déduplication des données n'a pas été adoptée largement sur le marché du stockage principal, mais les fournisseurs de baies tout-flash ont utilisé cette technologie dans le cadre de la conception de nouvelles architectures. L'exception notable à l'adoption précoce de la déduplication est NetApp, qui a ajouté la technologie de déduplication à Data ONTAP dès 2007. Malheureusement, cette mise en œuvre était basée sur les données de post-traitement, et limitait par conséquent la taille globale en raison de l'impact de la tâche de post-traitement sur le rendement. Sur le marché des jeunes entreprises tout-flash, la déduplication est devenue un enjeu principal, et les fournisseurs cherchent à mettre en avant le coût effectif par Go de leurs produits après l'application de techniques d'économies d'espace. Cela a causé des problèmes pour Violin Memory, dont les produits ne disposent pas de technologies natives de réduction de l'espace. Nous avons choisi trois fournisseurs offrant de la déduplication pour les comparer avec la technologie HP 3PAR StoreServ. Il s'agit de Storage System de SolidFire, Pure Storage FlashArray et EMC XtremIO. Tous ces systèmes sont des nouvelles technologies créées par de jeunes entreprises, par conséquent, la déduplication est intégrée à leur architecture. Storage System de SolidFire Storage System de SolidFire est disponible depuis 2012 et a évolué sur trois générations matérielles et six générations du système d'exploitation Element de la plate-forme. L'architecture de SolidFire est une conception de type «shared nothing» à nœuds couplés et à extensibilité horizontale, qui utilise un réseau final de 10 GbE pour la communication inter-nœuds. Les systèmes peuvent s'étendre et se réduire en ajoutant et en supprimant des nœuds. La protection des données est mise en œuvre par la création d'un miroir des données entre les nœuds. SolidFire utilise un algorithme de placement des données basé sur les contenus pour répartir les données de manière homogène dans le complexe de nœuds. La réduction de l'espace est atteinte en combinant la déduplication et la compression des données. Lorsque les données sont reçues par le système, elles sont divisées en blocs de 4 Kio et compressées avant d'être hachées. Le contenu est alors acheminé vers le nœud responsable de la gestion de ce groupe de hachage de données. Si les nouvelles données sont un doublon, une référence au contenu est stockée par rapport au volume et le nœud les rejette; si elles sont uniques, elles sont écrites sur le SSD. Les nouvelles données dédupliquées ne sont pas vérifiées avant l'écriture sur le disque. La compression des données au fur et à mesure de leur écriture sur le système crée des blocs de longueur variable, qui sont ensuite écrits sur le stockage final dans un agencement très compact. Cela signifie que lorsque les données sont périmées, il est nécessaire d'effectuer du rangement pour récupérer l'espace utilisable et réinstaller le contenu sur des supports physiques. SolidFire offre une déduplication en ligne basée sur une taille de bloc de 4 Kio et toujours activée. L'entreprise affirme que des économies de 4:1 à 10:1 peuvent être réalisées, en se basant sur la compression et sur la déduplication, bien que les détails de chaque méthode ne soient pas donnés. Edison : Déduplication «légère» de HP 3PAR StoreServ : Comparaison avec les solutions concurrentes Page 9

Pure Storage FlashArray Le premier produit FlashArray de Pure Storage est sorti en mai 2012. Le système repose sur une architecture à extensibilité verticale qui se compose de contrôleurs de nœuds doubles redondants «actif-actif» et d'étagères de SSD. FlashArray utilise cinq techniques différentes de réduction des données 1, regroupées sous le nom de «FlashReduce». Les composants sont : La suppression de motifs ce processus cherche les motifs répétés dans les données et identifie les données vides. La compression en ligne ce processus utilise une mise en œuvre légère de l'algorithme LZO (Lempel-Ziv-Oberhumer) et représente une «première passe» de la compression en ligne avant que les données ne soient allouées au disque. La déduplication adaptative en ligne la déduplication est effectuée en ligne en utilisant un algorithme de déduplication de blocs à taille variable, basé sur des blocs de 4 Kio à 32 Kio par incréments de 512 octets (la taille minimale est basée sur les écritures SSD, qui sont de 4 Kio). La réduction profonde ce processus utilise une forme en attente de brevet de l'algorithme de codage de Huffman et est effectué comme tâche de post-traitement pour réaliser des économies d'espace plus importantes. La réduction des copies tous les instantanés et les clones d'un système FlashArray sont sensibles à la déduplication. Cette fonctionnalité est également mise en œuvre sur la plate-forme HP 3PAR StoreServ. La déduplication est toujours activée dans les systèmes FlashArray. Cependant, l'architecture permet au processus de déduplication d'être écourté pendant les périodes de lourde charge du système. Dans ce cas, les recherches de hachage peuvent être abandonnées et des données potentiellement dupliquées peuvent être écrites sur le disque. Par conséquent, FlashArray utilise la fonctionnalité de Réduction profonde pour identifier les opportunités de déduplication manquées et appliquer la compression plus fortement que ce qui peut être fait en ligne. La déduplication FlashArray ne peut pas être désactivée pour un volume; elle s'applique à tous les volumes. Pure Storage annonce les économies d'espace grâce à une banderole «en temps réel» sur son site, qui affiche les économies réalisées selon les informations provenant des baies des clients. Cela montre un taux général de réduction de 5,72:1, avec 2,13:1 obtenu par la déduplication et 2,68:1 par la compression. 1 http://www.purestorage.com/blog/pure-storage-flash-bits-adaptive-data-reduction/ Edison : Déduplication «légère» de HP 3PAR StoreServ : Comparaison avec les solutions concurrentes Page 10

EMC XtremIO EMC a racheté la jeune entreprise israélienne XtremIO en 2012, et les premiers produits ont été expédiés fin 2013. La plate-forme XtremIO tout-flash est basée sur une architecture de nœuds à extensibilité horizontale de contrôleurs jumelés nommés X-Bricks, qui contient une quantité fixe de flash (25 disques) par paire de contrôleur. Des X-Bricks multiples sont connectés par un maillage RDMA. La conception de XtremIO utilise une architecture de placement des données basée sur les contenus, où les données sont stockées en blocs de 4 Kio selon la valeur de hachage générée par chaque E/S d'écriture. Cela aboutit à une distribution homogène des données sur tous les nœuds d'un système, chaque nœud gérant une partie de l'espace d'adresse de la valeur de hachage. Le mécanisme de distribution signifie que l'expansion du système n'est pas un exercice banal, et les systèmes XtremIO ne peuvent pas être étendus actuellement. Le système d'exploitation XtremIO (XIOS) exécute un certain nombre de processus (appelés modules) qui gèrent le flot de données dans le système XtremIO. Lorsque les E/S d'écriture sont reçues, le module d'acheminement sépare les données en paquets de 4 Kio et calcule la valeur de hachage de chaque paquet. Le module de contrôle maintient un tableau de hachage de liste des données et vérifie si la valeur de hachage représente des données déjà stockées par le système. Si les données sont uniques, la valeur de hachage est enregistrée et les données sont transmises à un module de données pour être stockées sur le SSD. Si les données sont des doublons, le module de données augmente simplement le total de référence et rejette les données. Le système XtremIO dépend donc lourdement de la précision des totaux de référence pour chaque 4 Kio de données stockées. XtremIO repose sur des blocs fixes de 4 Kio, sans vérification de la valeur de hachage avant l'allocation sur le disque. La déduplication est globale sur toute la grappe XtremIO, en raison de l'utilisation de stockage de données basé sur le contenu. Cependant, les données ne sont pas répliquées sur les nœuds selon un modèle de réplication comme RAID. A la place, XtremIO utilise un mécanisme de protection dans le style de RAID-6 appelé XPD, qui écrit les données de manière redondante dans chaque X-Brick avec une capacité d'environ 8 %. La perte d'un X-Brick signifie donc que les données deviennent inaccessibles. La conception actuelle de XPD signifie qu'aucune flexibilité des mécanismes de protection des données n'est disponible, et que la déduplication ne peut pas être désactivée pour les données plus sensibles. EMC annonce un rapport de déduplication de 5:1 dans sa documentation en ce qui concerne la capacité utilisable. Edison : Déduplication «légère» de HP 3PAR StoreServ : Comparaison avec les solutions concurrentes Page 11

Conclusions et recommandations La déduplication des données est une technologie qui peut offrir des économies d'espace et d'argent considérables en matière de stockage principal. En raison de la nature aléatoire des données dédupliquées, la technologie n'a pas fait d'adeptes et n'a pas connu de déploiement sur les baies de stockage traditionnelles; à la place, elle est devenue une caractéristique principale des solutions tout-flash, qui gèrent de façon compétente le profil d'e/s aléatoires. L'architecture et la conception sous-jacentes de la plate-forme HP 3PAR StoreServ montrent qu'elle est bien adaptée aux exigences de la déduplication sur le stockage flash. La déduplication «légère» de HP 3PAR StoreServ poursuit l'évolution des fonctionnalités d'économie de l'espace de la plate-forme, en s'ajoutant aux économies que les clients réalisent déjà grâce à l'allocation dynamique, à la récupération «légère», la conversion «légère» et la persistance «légère». La déduplication «légère» exploite l'asic personnalisé de 3PAR StoreServ pour effectuer le hachage et les vérifications d'intégrité des données à vitesse de ligne; l'asic continue de représenter un différentiateur clé sur le marché des baies principales. En comparaison avec les autres plates-formes, HP 3PAR StoreServ met en œuvre la déduplication «légère» avec peu ou pas d'impact sur le rendement, et offre au client la possibilité de choisir quelles données doivent être dédupliquées volume par volume. Conformément à la philosophie de 3PAR StoreServ, les paramètres d'économie de l'espace peuvent être modifiés de manière dynamique sans que le client n'ait besoin d'effectuer des travaux ni restreindre la conception et la disposition de la baie. Interprétation des économies Les explications des économies d'espace ne sont pas claires. Certains fournisseurs excluent l'impact sur le RAID; d'autres incluent toutes les techniques d'économie de l'espace (y compris l'allocation dynamique) sans fournir de détails sur les économies et la manière dont elles sont réalisées. Il n'y a généralement pas de précisions sur la place occupée par les métadonnées sur le stockage final. Dans la comparaison de produits, EMC XtremIO annonce un rapport d'économies de 5:1 (sans aucun détail sur la manière dont cela est réalisé), Pure Storage annonce 5,72:1 et SolidFire annonce des valeurs allant de 4:1 à 10:1. Notez que les chiffres de Pure Storage et SolidFire comprennent également les économies dues à la compression (ce qui a un impact considérable sur le processeur), ce qui n'est pas une fonctionnalité actuelle de HP 3PAR StoreServ. Les systèmes HP 3PAR StoreServ atteignent des rapports de déduplication jusqu'à 10:1 sans inclure les économies réalisées par les autres technologies «légère». Les économies d'espace réalisées par Inline Zero Detect, par exemple, ne sont pas comprises mais peuvent être considérables, ce qui augmente encore les économies totales. Edison : Déduplication «légère» de HP 3PAR StoreServ : Comparaison avec les solutions concurrentes Page 12

Les rapports seuls de déduplication des données ne sont pas une indication véritable de l'avantage de la technologie de déduplication. HP 3PAR StoreServ intègre la déduplication aux technologies «légère» existantes et aux fonctionnalités comme les clones «légère» afin de fournir une solution d'économie de l'espace intégrée et complète. Avec la sortie de la déduplication «légère», HP 3PAR StoreServ continue de maintenir la première place en offrant aux clients des solutions de stockage principal très efficaces. 4AA5-3223FCCA Edison : Déduplication «légère» de HP 3PAR StoreServ : Comparaison avec les solutions concurrentes Page 13