SAUVEGARDE - BACK UP En informatique, la sauvegarde (backup en anglais) est l'opération qui consiste à mettre en sécurité les données contenues dans un système informatique. Par extension et par emprunt à l'anglais, ce mot s'applique à tout enregistrement d'information sur un support permanent (par ex. l'écriture sur disque dur d'informations en mémoire vive). Dans ce sens, il est synonyme de «stockage d'information». Mais le sens premier se rapproche de celui d'archivage, de conservation. LES COPIES DE SÛRETÉ SONT UTILES PRINCIPALEMENT À DEUX CHOSES : - La première et la plus évidente est de permettre de restaurer un système informatique dans un état de fonctionnement suite à un incident (perte d'un support de stockage tel que disque dur, bande magnétique, etc., ou de tout ou partie des données qu'il contient). - La seconde, incluse dans la première mais certainement la plus courante, est de faciliter la restauration d'une partie d'un système informatique (un fichier, un groupe de fichiers, un système d'exploitation, une donnée dans un fichier, etc.) suite à une suppression accidentelle ou à une modification non désirée. La technique la plus fréquente est la recopie des données sur un support indépendant du système initial (ordinateur local, serveur, etc.). L'opération inverse qui consiste à réutiliser des données sauvegardées s'appelle une restauration. On parle de «stockage» pour les données sauvegardées en attente d'une éventuelle restauration. La sauvegarde s'inscrit dans une démarche globale qui consiste à assurer la qualité d'un système informatique ou, en cas de défaillance, son redémarrage le plus vite possible. Cette démarche est souvent formalisée dans un document qui peut porter des noms divers, par exemple le "PRA" (plan de reprise d'activité) ou le "PS" (plan de secours), et qui fait appel soit à des automatismes (ex. donner l'alerte en cas de coupure de courant ou de perte d'accès à une unité de stockage) soit à des gestes manuels (ex. remplacer des bandes magnétiques défectueuses). La tendance est à l'automatisation, réputée plus sûre dans les situations d'urgence que les opérations manuelles. En termes de support, la bande magnétique a longtemps été le principal vecteur, du fait de sa grande capacité, de son coût faible (par rapport aux autres supports), de sa capacité de réutilisation et de sa relative stabilité au temps et à l'usure. Puis sont venus les cartouches numériques (bandes magnétiques intégrées dans un boîtier plastique type DAT, DLT), les disques durs et plus récemment les médias optiques, réinscriptibles ou non, tels que les CD-R, DVD-R ou formats similaires. CRITÈRES DE CHOIX: Le choix d'une technique de sauvegarde se fera en prenant en compte : - la capacité de stockage du support (le volume d'information) ; - la vitesse de sauvegarde ; - la fiabilité du support (notamment après une longue période de stockage) ; 1
- la simplicité de classement ; - la facilité à restaurer les données ; - et bien sûr le coût de l'ensemble. Intervient également la possibilité de sélectionner les données à sauvegarder. Enfin pour les grands systèmes de sauvegarde, il faut tenir compte de critères physiques : volume physique des supports de stockage, poids, sensibilité à la température, à l'humidité, à la poussière, à la lumière. STRATÉGIES DE SAUVEGARDE CLASSIQUES : En première année, nous avions vu les techniques les plus classiques : Sauvegarde totale (= «full backup») LA SAUVEGARDE INFORMATIQUE DE TOUS LES FICHIERS PRÉSENTS SUR LE DISQUE DUR. Autrement dit, une copie complète du disque dur. Sauvegarde incrémentale (= «incremental backup»):sauvegarde DES SEULS FICHIERS CRÉÉS OU MODIFIÉS DEPUIS LA DERNIÈRE SAUVEGARDE TOTALE OU INCRÉMENTALE. Par exemple, si la sauvegarde totale est faite tous les samedis, la sauvegarde de dimanche n'enregistre que les modifications créées dimanche. La sauvegarde de lundi n'enregistre que les modifications créées lundi. La sauvegarde de mardi n'enregistre que les modifications créées mardi, etc. C'est une approche issue de l'idée de faire une sauvegarde totale tous les jours. Le système pose la question : Quels fichiers ont changé depuis hier? Avantages : Économies de temps et de matériel Désavantages : La restauration peut être longue Sauvegarde différentielle (= «differential backup») : SAUVEGARDE DE TOUS LES FICHIERS CRÉÉS OU MODIFIÉS DEPUIS LA DERNIÈRE SAUVEGARDE TOTALE. Par exemple, si la sauvegarde totale est faite le samedi, la sauvegarde de dimanche n'enregistre que les modifications créées dimanche. La sauvegarde de lundi enregistre les modifications de dimanche et de lundi. La sauvegarde de mardi enregistre les modifications de dimanche, de lundi et de mardi, etc. C'est une approche issue de la difficulté de restaurer à partir d'une sauvegarde incrémentale. Le système pose la question : Quels fichiers ont changé depuis la dernière sauvegarde totale? Avantages : Restauration plus facile que restauration d'une sauvegarde incrémentale Désavantages : Il faut un peu plus de ressources 2
LA SAUVEGARDE LES NOUVEAUX ENJEUX : Les systèmes informatiques à sauvegarder ont profondément évolué tout comme leur utilisation : L'arrivée massive des postes nomades: Ce sont devenus leurs «stylos», sur lesquels les utilisateurs stockent des données importantes. Or pendant longtemps, ces machines ont été ignorés lors de la sauvegarde ; La volumétrie croissante, voire explosive, des données à sauvegarder; une des conséquences est la nécessité d'augmenter encore plus vite la capacité de stockage de la sauvegarde. Le corolaire le plus grave est que les fenêtres de sauvegarde deviennent énormes. Il faut que toute la chaîne de sauvegarde voit ses capacités augmenter du même ordre de grandeur : client, réseau, serveur, logiciel de sauvegarde, lecteurs. Si la sauvegarde est impactée, que peut-on dire de la restauration! Combien faut-il de temps pour restaurer un serveur de données de quelques To. Plusieurs dizaines d'heures pour reconstituer un serveur est devenu monnaie courante! L'archivage; les données sauvegardées le sont généralement avec une durée de rétention limitée. Mais certaines ont besoin d'être conservées beaucoup plus longtemps. En fait, elles ont besoin d'être archivées (cf les documents comptables par exemple). Pour l'archivage, on utilise souvent le système de stockage de la sauvegarde, moins cher que le stockage primaire, et les logiciels de sauvegarde. Lors de la mise en place d'un système de sauvegarde, il est donc intéressant d'intégrer aussi cette problématique. L'autonomie des utilisateurs; doit-on permettre aux utilisateurs de restaurer eux mêmes leur fichiers? L'arrivée des portables implique une plus grande autonomie des utilisateurs. Il faut donc que les logiciels permettent de configurer facilement une restauration simple par les utilisateurs. Ceci est aussi lié à une des principales utilisations de la sauvegarde qui est la restauration de fichiers effacés par erreur ou la récupération d'anciennes versions. Les utilisateurs sont très demandeurs de «gestion de versions» pour leurs données. Et la sauvegarde quotidienne nocturne ne suffit pas. Il faut au moins plusieurs sauvegardes par jour. L'utilisation «d'instances», «clichés (snapshots)» est maintenant absolument nécessaire. Et comme pour tout ce qui concerne les utilisateurs, l'interface de restitution doit être la plus simple possible. Les machines virtuelles; le type de données que l'on doit sauvegarder a aussi changé. En particulier, les serveurs ne sont plus uniquement physiques, ils peuvent aussi être virtuels. Leur facilité de déploiement, aussi bien technique que financière, fait qu'ils sont de plus en plus nombreux. Avant on sauvegardait le contenu de serveurs physiques qui offraient un ensemble de services. Et maintenant on sauvegarde de nombreux serveurs virtuels remplissant souvent un service chacun. Et attention faire un "snapshot" d'un serveur virtuel ne résout pas tous les problèmes. Par exemple si le serveur est un serveur de base de données et que la base de données continue elle d'évoluer après le "snapshot". L'idéal est de trouver un système de sauvegarde qui réponde à toutes ces problématiques. LES NOUVEAUX OUTILS ET TECHNIQUES DE SAUVEGARDES LES SNAPSHOTS DES SYSTÈMES DE FICHIERS Page 3/9 JRES Décembre 2009 3
Les systèmes de stockages centralisés sont les premiers éléments sur lesquels il est intéressant de mettre en place des mécanismes de sauvegarde. En effet, pourquoi multiplier les mécanismes à mettre en œuvre si le système hébergeant les données peut lui-même proposer des protections contre la perte ou l'altération involontaire des données. De plus ce premier niveau de sauvegarde coûte souvent peu cher à mettre en place, il faudra juste prévoir la place nécessaire au stockage des blocs qui sont modifiés, en général de 15 à 20% d'espace disque supplémentaire. Plusieurs systèmes utilisant le principe de clichés instantanés (snapshots) sont maintenant proposés. Les solutions de stockage réseaux des constructeurs embarquent ces fonctions depuis déjà bien longtemps. À un instant précis, le système de fichiers est figé et seules les modifications de blocs suivantes seront écrites dans un espace différent. L'utilisateur peut alors accéder à l'instantané pour en récupérer les données lui-même sans avoir besoin de contacter son administrateur. Les systèmes d'exploitation de Microsoft proposent le service Volume Shadow Copy (VSS) pour réaliser la prise de ces instantanés sur les partages proposés par des serveurs Windows 2003 ou plus. Le client VSS permet d'accéder aux différents instantanés via un nouvel onglet dans les propriétés des dossiers et fichiers pour leur restauration. Les autres systèmes d'exploitation ne sont pas en reste puisque le système de fichier ZFS permet également de mettre en place une prise d'instantanés de façon très simple. Pour les systèmes GNU/Linux, les outils de gestion de volumes logiques LVM permettent de mettre en place des instantanés lors de la création d'un volume. Nous découvrons cette technique en TP sous le système Windows 2008 server. LES ARCHITECTURES À BASE DE DISQUES DURS La sauvegarde sur bande ne correspond plus aux problématiques actuelles. Les architectures à base de disques durs sont plus adaptées..on pourra citer comme avantages : les disques sont beaucoup plus souples d'utilisation : c'est un grand espace de stockage à plat modulable, ils sont plus performants en termes de temps d'accès et d'accès simultanés, ils peuvent être rendus robustes grâce à des mécanismes de redondance. LES SAUVEGARDES DE MACHINES VIRTUELLES À CHAUD Dans le cas de virtualisation à l'aide des produits VMWare, beaucoup proposent de se reposer sur le produit Virtual Consolidated Backup de cet éditeur. Ce module permet facilement de faire une sauvegarde à chaud des machines virtuelles sans impact sur leur fonctionnement. Une sauvegarde de machine virtuelle se décompose de la façon suivante : le serveur VCB déclenche la prise d'un instantané de la machine virtuelle, copie des fichiers composant l'instantané sur le serveur VCB, l'image peut alors être sauvegardée depuis le serveur VCB grâce à la solution logicielle en place. La restauration se déroule selon le même principe puisque les images sont d'abord restaurées sur le serveur VCB avant de pouvoir réellement être restaurées. 4
S'appuyer sur cet outil permet d'avoir une granularité au niveau du fichier pour les systèmes sous Windows mais pas encore pour les machines GNU/Linux. Ceci devrait tout de même être proposé pour les systèmes de fichier ext2 et ext3 dans la prochaine version. LES TECHNIQUES DE SAUVEGARDES PAR BLOC De nouvelles solutions de sauvegardes reprennent le principe des clichés instantanés qui sont mis en place sur le stockage primaire. Ces mécanismes ayant accès au plus bas niveau des données, les sauvegardes sont réalisées en se plaçant au niveau des blocs. C'est à dire qu'après une première sauvegarde complète du système, seuls les blocs ayant subi des modifications seront copiés sur le média de sauvegarde. Ceci réduit fortement la consommation d'espace disque et surtout a pour avantage de s'affranchir des sauvegardes totales, on ne fait plus que de la sauvegarde incrémentielle. Bien qu'ayant pour objectif la sauvegarde de leurs équipements propres, certains constructeurs proposent des agents à déployer sur des machines afin de réaliser la sauvegarde en utilisant leurs mécanismes, remplaçant alors les solutions génériques. LES TECHNIQUES DE SAUVEGARDE EN CONTINU La sauvegarde en continu est un mécanisme original de sauvegarde. À l'inverse des systèmes classiques qui sauvegardent les fichiers à une fréquence régulière, un logiciel de sauvegarde en continu sauvegarde les fichiers chaque fois qu'ils sont modifiés. Le processus de sauvegarde est toujours actif et il détecte toutes les modifications du système de fichier. Lorsqu'un fichier est modifié, une copie des données modifiées est mise dans un cache local. Ce dernier contient donc toutes les versions de tous les fichiers modifiés. Le cache local est ensuite transféré sur le serveur de sauvegarde dès qu'il est connecté. Le principe est particulièrement intéressant pour les portables car : il fonctionne très bien en mode déconnecté grâce au cache local ; il supporte les arrêts intempestifs puisque la sauvegarde est active dès que le processus est démarré, un peu comme un antivirus ; on remarquera cependant que la restauration nécessite une connexion au serveur de sauvegarde. Un tel logiciel est plus complexe qu'un logiciel de sauvegarde traditionnel. Comme il travaille à un niveau assez bas du système d'exploitation, il doit être très bien écrit et ne pas perturber le système, ni consommer trop de ressources. Et il doit être transparent pour l'utilisateur. Le cache risque de grossir très vite et prendre un espace disque important. Il faut donc qu'il soit optimisé par des mécanismes de déduplication efficaces. Enfin le transfert vers le serveur de sauvegarde doit lui aussi être optimisé pour éviter de consommer toute la bande passante. Des mécanismes de déduplication doivent aussi être utilisés à ce niveau là. Il existe très peu d'implémentations d'une telle technique et aucune dans le monde du libre. Les systèmes d'exploitation supportés sont encore plus limités : Windows et dans certains cas Mac OS X. On peut citer Desktop Laptop Option de Symantec, BlackBlaze, payable par abonnement, qui sauvegarde les données directement chez l'éditeur. Le plus répandu reste Page 7/9 JRES Décembre 2009 5
Live Backup d'atempo. Remarque : ce qui s'approche le plus de cette solution de sauvegarde est un répertoire réseau sur le Cloud. Il existe différentes solutions. Orange par exemple vous offre 10 Go de stockage avec cache sur votre disque dur. Dropbox vous offre 3 Go avec une synchronisation entre vos postes et votre espace Cloud. Ce ne sont cependant pas des solutions de sauvegardes à proprement parler. Remarque : La déduplication permet d'éviter de sauvegarder plusieurs fois un même élément. Cet élément pouvant être un fichier entier, un bloc d'octets de taille fixe ou variable. Si cet élément a déjà été sauvegardé auparavant, un référencement est fait vers la zone effective où sont stockées les données. Le facteur de gain d'espace disque peut aller jusqu'à 30:1 selon les constructeurs en fonction des mécanismes en œuvre, du type de données et des politiques de sauvegarde 6