Quels avantages la déduplication offre-t-elle aux entreprises? Livre blanc Acronis Copyright Acronis, Inc. 2000 2009
Table des matières Résumé... 3 Qu est-ce que la déduplication?... 4 Déduplication au niveau des fichiers Déduplication au niveau des blocs Résoudre les problèmes de sécurité Comment votre entreprise peut-elle tirer parti de la déduplication?... 5 Avantages généraux Avantages de la déduplication à la source Avantages de la déduplication à la cible Récapitulatif... 7 Implémentation de la déduplication Acronis... 7 Avantages de la déduplication Acronis Algorithme de hachage rapide : déduplication à la source avec optimisation des performances Sécurisation des données dédupliquées Passer à l étape suivante... 10 2
Résumé Au sein des entreprises de toute taille, le stockage principal augmente de 50 à 100 % par an. Selon une enquête IDC menée au second semestre 2008, le volume des données numériques globales créées et stockées à l échelle mondiale a augmenté de 3 000 % en à peine trois ans. Par ailleurs, bon nombre d entreprises multisite essaient de consolider leurs données et leurs systèmes (y compris la virtualisation) afin de créer un ensemble qui consomme moins d énergie et occupe moins d espace physique La déduplication permet de réduire de façon non négligeable les coûts associés au stockage et à la gestion de toutes ces données Les avantages de la déduplication ont déjà été présentés à grand renfort de publicité. Globalement, elle permet aux entreprises : de stocker bien plus de données avec un montant fixé d étendre l intervalle entre les achats de disques, d optimiser le stockage sur disque, en tirant parti de sa rapidité, et de ne plus avoir recours aux bandes de réduire la fenêtre de sauvegarde. Si la déduplication est une technologie de réduction des données si efficace, pourquoi n est-elle pas utilisée dans tous les services informatiques? Il y a peu, de nombreuses entreprises quelle que soit leur taille ne pouvaient pas acquérir des produits de déduplication matérielle propriétaires au regard de leur prix prohibitif. C est également ce coût élevé qui a poussé les entreprises qui pouvaient se le permettre à réserver en exclusivité la déduplication aux données de leurs serveurs, bien que les données des stations de travail représentent généralement la moitié des données de l entreprise. Toutefois, l arrivée de la déduplication logicielle a fait considérablement baisser les prix. Les entreprises de toute taille peuvent désormais tirer parti des avantages de la déduplication et dédupliquer également les données de leurs stations de travail Dans ce livre blanc, nous allons définir la déduplication, détailler ses avantages et présenter son utilisation en environnements Windows et Linux. 3
Qu est-ce que la déduplication? La déduplication permet de supprimer les données redondantes des systèmes de stockage et de réduire le volume de données à stocker en tant que sauvegarde. Elle peut s appliquer au niveau des fichiers ou au niveau des blocs. Quelle est la différence entre ces deux niveaux de déduplication? La déduplication au niveau des fichiers La déduplication au niveau des fichiers recherche les fichiers strictement identiques et ne stocke qu une copie de ces fichiers, en plaçant des «pointeurs» à la place des autres copies. Même s il est préférable d avoir une solution de déduplication, lorsqu une modification est apportée à un fichier, une copie supplémentaire est stockée. La déduplication au niveau des blocs La déduplication au niveau des blocs permet de réaliser encore plus d économies de stockage. Elle recherche des instances d informations redondantes en analysant des blocs de données d au moins 4 Ko et ne stocke qu un seul exemplaire, quel que soit le nombre de copies trouvées. Ces copies sont remplacées en toute transparence par des pointeurs faisant référence au bloc de données original. L utilisateur peut ainsi continuer à travailler sur un fichier comme si tous les blocs de données du fichier lui appartenaient. La déduplication permet de réduire de 90 % le volume de stockage des données Afin d illustrer la puissance de la déduplication, imaginez l impact que peut avoir sur votre système de sauvegarde l envoi d une présentation Microsoft Powerpoint, contenant des graphiques et occupant 9 Mo d espace disque, à dix de vos collègues. Lorsque vous appuyez sur «Envoyer», vous clonez 10 copies de ce fichier de 9 Mo. Lorsque les données de chaque destinataire sont sauvegardées via des méthodes de sauvegarde classiques, chaque instance de la présentation est sauvegardée et stockée. Un fichier de 9 Mo finit par occuper 90 Mo d espace de stockage. Si vous multipliez cela par des centaines d autres instances de données clonées quotidiennement, vous comprenez pourquoi les exigences de stockage et leurs coûts connexes ont augmentés si brutalement La déduplication est une technologie éprouvée qui réduit les coûts initiaux d acquisition de stockage tout en préservant la bande passante du réseau. Avec la déduplication, il est possible d augmenter la capacité de stockage des données de chaque unité de stockage (espaçant ainsi l intervalle entre les acquisitions d espaces de stockage) ou de conserver les données sur de plus longues périodes. Les utilisateurs peuvent commencer à investir plus, pas uniquement en capacité brute, mais dans des outils qui aident à optimiser l utilisation du stockage (ex. : thin provisioning, déduplication des données et virtualisation du stockage). Natalya Yezhkova, Responsable de recherche, systèmes de stockage, IDC. Janvier 2009 4
L ensemble du processus (ci-contre) peut être appliqué : à la source : les doublons sont supprimés avant que les données à sauvegarder ne soient envoyées vers le disque cible. à la cible : les doublons présents sur le disque cible sont identifiés, puis supprimés. Pourquoi est-ce important? Pour bon nombre d entreprises, la déduplication réduit tellement le volume des données que toutes les sauvegardes peuvent être conservées sur disque, évitant ainsi le recours aux bandes et au stockage sur bande hors ligne, sauf peut-être pour le stockage à long terme des archives. Cette transition permet aux administrateurs d effectuer des sauvegardes et des restaurations plus rapidement, en toute cohésion avec les solutions de protection des données sur disque. La déduplication permet également de répondre plus facilement aux exigences gouvernementales et de génération de rapports financiers, en ayant la possibilité de conserver toutes les copies générées sur plusieurs années. Résoudre les problèmes de sécurité. La déduplication peut permettre de réaliser d importantes économies en termes d espace disque, mais la concentration des données en elle-même n est pas sans poser de problèmes. En effet, si un bloc de données localisé sur plusieurs sources (comme dans notre exemple précédent avec la présentation Powerpoint) est dédupliqué puis perdu, toutes les sauvegardes associées seront endommagées puisque les données source n existent plus. Cela est également valable pour les sauvegardes complètes des systèmes. Si un seul bloc de données correspondant à une partie critique du système d exploitation Windows est endommagé, en cas de sinistre, il sera impossible d effectuer une restauration système à partir des sauvegardes car celles-ci seront inutilisables. Afin de bénéficier d un niveau de protection supplémentaire pour le stockage des données dédupliquées, il suffit d utiliser un contrôleur RAID. Comment votre entreprise peut-elle tirer parti de la déduplication? Avantages généraux. Avec la déduplication, les entreprises peuvent stocker davantage de données sur chaque unité de stockage. À dépense égale, elles peuvent également choisir de conserver les données sur de plus longues périodes. Dans les deux cas, la déduplication offre aux entreprises les avantages suivants : une réduction des coûts liés au stockage (moins de données stockées) ; une augmentation de la bande passante du réseau (lorsque la déduplication est appliquée à la source, les doublons ne transitent pas sur le réseau) ; un environnement plus «vert» (moins d électricité, moins de mètres cubes requis pour héberger les données aux emplacements principaux et distants) ; des restaurations rapides pour assurer la continuité des processus métiers de l entreprise ; une réponse aux exigences de conformité juridiques et de l entreprise relatives au stockage des données sans ajouter de stockage à outrance ; retour sur investissement rapide (moins d achat de matériel et moins de maintenance de stockage) ; une fenêtre de sauvegarde plus petite. Sauvegarder des pointeurs associés aux données plutôt que la copie des données ne prend qu une fraction de seconde et n occupe qu une partie infime du stockage. 5
Avantages spécifiques de la déduplication à la source. La déduplication à la source (ou côté serveur - partie supérieure du schéma ci-dessous) peut : réduire de 10 à 20 fois le volume de données acheminées sur le réseau vers un emplacement de stockage cible. supprimer les goulots d étranglement éventuels, surtout dans les cas où les réseaux existants sont déjà presque saturés ou lorsque les sauvegardes de bureaux distants sont effectuées via des lignes restreintes. être efficace quel que soit le type de données stockées, qu elles soient liées à des applications ou non être plus facile à implémenter, car elle ne nécessite pas de matériel ou de clients supplémentaires côté cible. Principal inconvénient : les sauvegardes sont susceptibles de durer plus longtemps et d utiliser un grand nombre de cycles processeur pour la déduplication des données, induisant ainsi d éventuels problèmes de performances sur les machines de production. Toutefois, comme nous le verrons plus loin dans ce livre blanc, une nouvelle technologie, baptisée performance-optimized source deduplication (déduplication à la source avec optimisation des performances) permet d éviter les problèmes de performances en cas de déduplication à la source. Déduplication Flux de données dédupliquées Source Cible Flux de données non dédupliquées Déduplication Source Cible Déduplication à la source / Déduplication à la cible Avantages spécifiques de la déduplication à la cible (partie inférieure du schéma ci-dessus). La déduplication à la cible a lieu après la sauvegarde de la source, à l emplacement de stockage cible, en général sur un nœud de stockage. Principal avantage : La sauvegarde initiale à la source peut s effectuer plus rapidement car le processus de déduplication, grand consommateur de ressources processeur, ne s effectue pas sur la machine source, réduisant ainsi la fenêtre de sauvegarde. En général la déduplication à la cible est préférée dans les situations suivantes : lorsque les administrateurs prennent en charge des clients et des sources de données non compatibles avec la déduplication, ou lorsque le surdébit de traitement associé à la déduplication à la source est susceptible d étendre la fenêtre de sauvegarde au-delà des limites définies par les administrateurs. 6
Principal inconvénient : toutes les copies présentes avant la déduplication doivent être acheminées sur le réseau et risquent de générer un goulot d étranglement au niveau de la bande passante. En général l entreprise choisit la déduplication à la source ou à la cible en fonction de la considération qu elle accorde au surdébit de traitement du processeur client ou la bande passante. Récapitulatif La déduplication était un outil exclusivement réservé aux grandes entreprises, avec son coût prohibitif, une courbe d apprentissage décourageante, une fonction de déduplication appliquée uniquement au niveau des fichiers et ses restrictions pour restaurer une machine défaillante à l aide des données dédupliquées. Jusqu ici, la déduplication était trop onéreuse pour être implémentée dans les entreprises (à l exception des plus grandes). En outre, elle pouvait être appliquée uniquement aux serveurs, malgré les quantités astronomiques de données stockées au niveau des stations de travail dans la plupart des infrastructures informatiques. La majorité des produits de déduplication ont été conçus et commercialisés sous la forme d une solution matérielle et logicielle. Dans la plupart des cas le matériel à lui seul permettait difficilement de justifier le prix prohibitif. Pour illustrer ce point, nous prendrons l exemple d un fournisseur bien connu qui, au mois de mars 2009, a baissé le prix de l un des ses matériels de déduplication de plus d un tiers. Mais 130 000 $ pour une capacité de stockage de 12 To reste très onéreux. Avec de tels obstacles, la déduplication était exclusivement accessible aux plus grandes entreprises. Toutefois, ces barrières sont enfin tombées et la déduplication peut être utilisée plus largement : par les entreprises, mais également par les organisations plus petites qui ont des défis de stockage de données particulièrement délicats à relever. pas uniquement sur les serveurs, mais également sur les stations de travail. Présentation d Acronis Backup & Recovery 10 Deduplication La déduplication Acronis présente un certain nombre d avantages qui la distinguent des offres des autres fournisseurs : Déduplication à la source ou à la cible Nombreuses sont les entreprises qui ont besoin d implémenter les deux. Sauvegardes au niveau des fichiers et des blocs. La sauvegarde au niveau des fichiers limite sérieusement les économies réalisables avec la déduplication. Déduplication rapide à la source. Permet d éviter d appliquer la déduplication à la cible. Acronis a fait de grands progrès en matière de réduction de la charge du processeur en cas de déduplication à la source. Les entreprises n ont donc plus besoin d effectuer cette opération sur des serveurs ou appareils de déduplication à la cible. Avec un prix abordable, un plus grand nombre d entreprises peut désormais justifier le coût de la déduplication, pour leurs serveurs, mais également pour leurs stations de travail. Intégré aux produits de sauvegarde et de reprise d activité après sinistre Acronis. Fonctionne en toute transparence avec le logiciel Acronis Backup & Recovery 10, qui protègera aussi bien les données dupliquées que non dupliquées 7
Acronis Backup & Recovery 10 Deduplication est proposé en tant qu option, sous la forme d un module entièrement intégré et destiné à toute la gamme de nouveaux logiciels Acronis Backup & Recovery 10. Cette option de déduplication Acronis, intégralement logicielle, est disponible pour les versions «Advanced» d Acronis Backup & Recovery 10 : Advanced Server Edition, Advanced Workstation Edition, SBS (Small Business Server) Edition, Virtual Edition. Avantages de la déduplication Acronis Contrairement à bon nombre de solutions de déduplication, Acronis Backup and Recovery 10 Deduplication prend en charge la déduplication à la source et à la cible, mais se distingue également des produits concurrents en proposant les fonctionnalités suivantes : Sauvegarde basée sur une image. Les données peuvent être dédupliquées, ce qui permet de réaliser des économies en termes de stockage ou de bande passante. Intégration complète au logiciel Acronis de reprise d activité après sinistre. Restaure des fichiers et des systèmes, dédupliqués ou non, en quelques minutes seulement. La restauration ne dure pas des heures, ni des jours. Cela permet également d éviter de stocker plusieurs copies de données volumineuses (les giga-octets d un système d exploitation, par exemple) dans les images. Sauvegardes multitypes. La déduplication peut être appliquée aux sauvegardes complètes, incrémentielles et différentielles. Accessible. La déduplication uniquement logicielle d Acronis est proposée à un prix abordable. Utilise le matériel de stockage de base. La déduplication Acronis évite le recours à un matériel propriétaire onéreux. Installation rapide. En général, son implémentation s effectue en moins d une heure alors que l implémentation des systèmes matériel/logiciel requiert plusieurs jours. Facile à utiliser. Comme tous les produits Acronis, Il est facile à utiliser, simple à configurer et ne nécessite pas de formation poussée. Une efficacité de stockage inégalée, surtout lorsqu il est associé à l efficacité des algorithmes de compression Acronis (ainsi qu à d autres fonctions d optimisation de l efficacité) d Acronis Backup & Recovery 10. Lorsqu il est utilisé avec le puissant utilitaire de compression des données Acronis, les administrateurs informatiques peuvent réduire encore davantage le volume occupé par les données stockées, après déduplication, de 50 à 60 % en moyenne, selon le type de fichier, permettant ainsi de réaliser des économies de stockage supplémentaires considérables. Il est possible de compresser les données via un nœud de stockage pendant le processus de recompression, ce qui permet de libérer les serveurs de production de cette tâche de traitement. Le fichier.tib Acronis et les blocs de stockage de données de déduplication seront compressés. 8
Algorithme de hachage rapide : clé de l optimisation de la déduplication à la source Acronis propose une approche de déduplication à la source plus efficace. Pour expliquer cette approche, penchons-nous tout d abord sur le fonctionnement d un algorithme de déduplication à la source standard (cidessous). Dans ce cas, le client logiciel calcule tout d abord le total de contrôle des données à sauvegarder (hachage). Ce hachage est ensuite envoyé à la cible, qui répond soit «Je n ai pas les données», soit «J ai déjà les données». Dans le premier cas, le client envoie les données réelles à la cible avant de passer à la portion de données suivante. Dans le second, aucune action supplémentaire n est requise, et la portion suivante peut être traitée, comme indiqué ci-dessous. Hachage complet calculé Non Les données existentelles sur la cible? Transfert des données Passer au segment suivant Oui Déduplication à la source standard Malheureusement, la déduplication à la source standard génère un traitement supplémentaire considérable en calculant à chaque fois le hachage, que la cible ait ou non les données. Cela est indispensable car la cible n est pas en mesure de déterminer si les données sont déjà disponibles avant de recevoir le hachage de la source. Sur les systèmes qui gèrent des volumes considérables de données, la déduplication à la source standard est susceptible de ralentir les systèmes, ce qui ne séduit pas forcément les responsables informatiques. 9
Acronis propose une approche bien moins vorace en ressources processeur. La déduplication à la source devient alors une option viable pour la plupart des entreprises. Cette approche est appelée performance-optimized source deduplication (déduplication à la source avec optimisation des performances). Cet algorithme très puissant évite la plupart des calculs de hachage complet pour les données qui n ont pas encore été écrites sur la cible. Hachage rapide calculé Non Les données existentelles sur la cible? Transfert des données Passer au segment suivant Peut être Hachage complet calculé Oui Les données existentelles sur la cible? Transfert des données Non Approche Acronis - déduplication à la source avec optimisation des performances Dans cette approche, Acronis génère tout d abord un hachage rapide en sélectionnant un petit volume de données, statistiquement plus sujettes à être modifiées. Le hachage est rapide et permet de répondre «Je n ai pas les données» ou «J ai peut-être les données». Dans le premier cas de figure, les données réelles sont envoyées par le client. Dans le second cas, le hachage complet est calculé, afin d obtenir une réponse fiable de la cible. Par mesures de sécurité, les données dédupliquées sont chiffrées. Pendant la création de l espace de stockage, il est possible de spécifier un mot de passe de chiffrement pour l espace de stockage (protégé dans le stockage sécurisé de Windows). Les données chiffrées sont accessibles uniquement via ce mot de passe. Sans ce mot de passe, toute tentative de récupération de données à partir du stockage des données dédupliquées est vouée à l échec. 10
Passer à l étape suivante Acronis n est pas la première entreprise à proposer la déduplication, mais notre technologie d image disque, les sauvegardes rapides et les restaurations quasi-immédiates représentent une évolution majeure dans le domaine de la déduplication. Elle peut être appliquée aux données de sauvegarde des fichiers et des systèmes, ainsi qu aux serveurs et aux stations de travail. Acronis met la déduplication à la portée de tous, d un point de vue financier mais également au regard de sa simplicité d utilisation. Lorsqu elle est utilisée ave Acronis Backup & Restore 10, elle redéfinit la protection des données. Pour implémenter la déduplication dans votre entreprise, vous pouvez procéder comme suit : 1: Notre calculateur de déduplication est accessible sur notre site Web et vous aidera à déterminer rapidement les économies que vous pouvez réaliser avec Acronis Backup & Recovery 10 Deduplication. 2: Pour essayer la version d évaluation disponible en téléchargement, vous devrez également télécharger Acronis Backup & Recovery 10. 3: Pour plus d informations, consultez notre site Web à l adresse suivante : www.acronis.com, ou contacteznous via les coordonnées indiquées à la fin de ce document. Pour de plus amples informations, visitez http://www.acronis.fr Service commercial France Tel: +33 (0)1 42 81 55 31 Fax: +33 (0)1 53 01 08 88 Service commercial Suisse Tel : +49 89 6137284-0 Fax : +49 89 6137284-99 Acronis SAS 15-19 Rue des Mathurins 75009 Paris, France Copyright 2000-2009 Acronis, Inc. Tous droits réservés. Acronis, Acronis Compute with Confidence, Acronis Backup & Recovery et le logo Acronis sont des marques de Acronis, Inc. Windows est une marque déposée de Microsoft Corporation. Linux est une marque déposée de Linus Torvalds. Les autres noms mentionnés ici sont des marques ou des marques déposées de leurs propriétaires respectifs et doivent être considérées comme telles. Les modifications techniques et les différences par rapport aux illustrations sont réservées ; sauf erreurs. 2009-08 11