Texte de la 249 e conférence de l'université de tous les savoirs donnée le 5 septembre 2. LE NOUVEAU DEFI DU STOCKAGE DE DONNEES par Jacques Péping Notre civilisation a produit plus d informations durant ces trente dernières années que pendant les cinq mille ans qui les ont précédées. En 999, on estimait à 4 % la quantité mondiale d information numérique exploitable sur ordinateur, le reste étant sous forme papier, microfilms ou d autres formes analogiques. Ce pourcentage sera de 5 % en 24 ; à partir de maintenant, plus de la moitié de l information que nous allons créer sera déjà sous forme digitale! Enfin, 4 ans ont suffi pour atteindre cinquante millions d utilisateur d Internet, alors qu il aura fallu vingt ans aux micro-ordinateurs et quarante ans aux postes de radio pour atteindre ce même nombre. Ces quelques images montrent la fantastique accélération avec laquelle nous entrons dans l âge de l information. Cela montre aussi le défi difficile auquel est confronté le stockage de données. Nous verrons comment les technologies réagissent, comment les architectures évoluent. Nous mettrons l accent sur le SAN, ce nouveau concept de stockage en réseau, qui est en train de révolutionner le stockage de données, pour terminer par une réflexion sur le stockage du futur. Le défi posé au stockage de données Avec l ère de l information, on change souvent d échelle. Premier changement d échelle, la livraison annuelle mondiale de stockage externe, c est-àdire tout le stockage installé à l extérieur des micro-ordinateurs et des serveurs. Elle s exprime maintenant en millions de téra-octets alors qu elle s exprimait en milliers de téraoctets au début des années 99, un rapport mille! Un téra-octet, c est mille milliards d octets (un octet, c est huit bits ou, ça représente un caractère) ; en équivalent papier, c est 4 arbres détruits, 2 millions d images et 5 millions de pages de texte. Aujourd hui c est un système de 5 à 2 disques, pas plus volumineux qu un tiroir de commode et bientôt il tiendra sur une ou deux cartouches magnétiques. Comment accueillir ces énormes masses de données? Second changement d échelle, le déploiement d Internet. Il est difficile de faire des prévisions dans ce domaine, tant le développement est incontrôlable. Le nombre d internautes progresse actuellement de % par mois ; les analystes avancent le nombre de 3 millions en 22. Comment répondre à ce déferlement de communications? Comment accélérer les échanges de données, comment réduire les temps d accès? Troisième changement d échelle, le commerce électronique. En cinq ans le revenu passerait de 5 à 2.5 milliards d euros pour l année 24. Comment gérer et protéger ces énormes quantités de données qui constituent le patrimoine de l entreprise? Comment être suffisamment réactif pour s adapter en temps réel aux changements de comportement des clients et pour répondre à des charges de sollicitations souvent imprévisibles?
La réponse des technologies Ces chiffres témoignent d un fantastique big-bang de l information. Comment réagissent les technologies? La nouvelle hiérarchie du stockage plus vite plus cher moins capacitif Mémoires RAM Disques électroniques Systèmes de stockage temps accès /Mo volume < µs < 2 32 Go <.ms à 2 6 Go N x < 8 ms,4 Go moins vite moins cher plus capacitif Disques durs magnétiques rapides Disques magnétiques Disques optiques capacitifs CD-Rom Bandes DVD magnétiques 25 ms 5 s 5 s s <,2,5 à, <, <,5 To N x Go N x Go N x To Cette figure montre la pyramide des technologies de stockage. Au sommet on trouve les technologies les plus rapides, mais aussi les plus chères et les moins capacitives. À l inverse en descendant vers la base, on trouve des technologies moins performantes, mais plus capacitives et meilleur marché. De haut en bas on trouve les mémoires RAM à semiconducteurs, les disques électroniques, les disques durs magnétiques, les disques optiques et les bandes magnétiques. À droite de la pyramide, le tableau donne les ordres de grandeurs pour des systèmes de stockage utilisant chaque technologie. Par exemple, des systèmes de disques rapides ont des temps d accès inférieurs à 8 millièmes de seconde, sont capables de stocker des centaines de milliards d octets à des coûts de,4 euros par méga-octet. À l inverse, les librairies robotisées de bande magnétique peuvent stocker des centaines de téra-octets, à des coûts dix fois moins chers, mais avec des temps d accès de quelques secondes. Il y a deux leçons à retenir de ce schéma : d une part, les disques durs magnétiques empiètent de plus en plus sur les domaines des disques optiques et des bandes magnétiques, grâce à de fortes capacités de stockage, bon marché. D autre part, les disques optiques sont coincés entre les disques magnétiques et les bandes magnétiques et sont restreints à des marchés de niche. Les disques magnétiques : la technologie dominante 2
En 956, la société IBM introduisait le premier disque dur à tête mobile, le RAMAC 35. Ce disque dur avait besoin de 5 plateaux de 6 cm de diamètre pour emmagasiner 5 millions de caractères et se louait 35 dollars par an. Aujourd hui les disques ont un diamètre de moins de cm et sont capables de stocker des dizaines de milliards de caractères, à moins d un franc le million de caractères. densité des pistes densité surfacique densité linéaire 992 2 Deux paramètres caractérisent un disque. La densité surfacique est le produit de la densité linéaire en kilobits par pouce par le nombre de pistes par pouce ( pouce égale 2,54 cm). Aujourd hui un disque dur de 36 Go a une densité surfacique de plus de 3 Gbit par pouce carré, une densité linéaire de 25 kilobits par pouce et plus de 2 5 pistes par pouce. Des densités de plus de 2 Gbit par pouce carré ont été expérimentées en laboratoire. La forte croissance de la densité magnétique ces dix dernières années est en échelle logarithmique. Le temps d accès est le temps mis pour accéder aux données, il se mesure en millième de seconde. C est essentiellement une combinaison de deux temps. Le premier est le temps de recherche de piste, mis par l ensemble du système de têtes pour se mouvoir entre les pistes. Le passage d une piste à l autre est de l ordre du millième de seconde alors qu un mouvement entre les deux pistes extrêmes d'un disque peut durer 5 millièmes de seconde. Le second est la latence de rotation : une fois que la tête est placée sur la bonne piste, il faut attendre que le secteur auquel on veut accéder passe sous la tête. En moyenne, ce temps d attente correspond à une demi-rotation. Aujourd hui les meilleurs disques tournent à tours par minute, ce qui correspond à une demi-rotation de 3 millièmes de seconde. Il faut retenir que la densité surfacique double tous les 8 mois et que le prix au méga-octet diminue de 4 % par an. En descendant la pyramide Densité des pistes: nombre de pistes par pouce Densité linéaire: Kbits/pouce Densité surfacique: Mbits par pouce carré L optique L'optique subit trop de changements technologiques et les technologies deviennent vite obsolescentes ; elle est confinée à des applications sectorielles où on l apprécie pour sa robustesse et sa durée de vie dans le temps. Le 5 septembre 995, les industries de la vidéo grand public et de l'informatique sont tombées d'accord pour promouvoir un standard mondial : le DVD (Digital Versatile Disk). Le standard DVD reprend les caractéristiques physiques du Compact Disc. Comme le CD-Rom, un disque DVD a un diamètre de 2 cm. Sur chaque face du disque, on peut implanter deux couches de matériau. Chaque couche offre 6 à 7 fois plus de capacité qu un CD-ROM. Un DVD double face, deux couches par face sera capable de stocker 7 Go. 3
La technologie DVD va bénéficier de l effet de masse de l industrie grand public et devrait redonner au stockage optique la place qu'il mérite dans la hiérarchie des technologies de stockage de données. Les bandes magnétiques Les bandes magnétiques deviennent de plus en plus capacitives. Il existe deux grandes techniques d enregistrement : l enregistrement hélicoïdal (combinaison de deux mouvements, les têtes sont sur un tambour en rotation faisant un certain angle avec la bande qui défile) et l enregistrement longitudinal (on écrit en parallèle sur des dizaines de pistes dans le sens de la bande). Avec ces technologies, il est possible aujourd hui de mettre milliards de caractères sur une cartouche. Le téta-octet sur une seule cartouche se profile à l horizon. Certaines cassettes intègrent une petite mémoire qui contient la liste des fichiers et leur positionnement sur la bande, ce qui permet d accélérer la recherche des fichiers sur la bande. Enfin la fiabilité des bandes magnétiques a été considérablement accrue grâce à l utilisation de puissants codes détecteurs et correcteurs d erreurs. L évolution des architectures Nous avons vu que les technologies sont prêtes à relever le défi de l information, mais cela ne suffit pas, il faut qu elles soient accompagnées d une évolution des architectures. Deux avancées ont considérablement enrichi les technologies des disques magnétiques et des bandes magnétiques : le RAID et la bande virtuelle. Principe du RAID Dans les années 98, sous l impulsion des ordinateurs personnels, les disques sont devenus de plus en plus petits et de moins en moins chers. Dans les gros systèmes, on a donc remplacé les gros disques par un ensemble de petits disques. Si les petits disques sont moins Bloc Bloc 2 Bloc 3 bloc 4 disque logique Bloc Bloc 4 Bloc 2 Bloc 3 parité Bloc P disque physique disque physique 2 disque physique 3 disque physique 4 Bloc P = Bloc + Bloc 2 + Bloc 3 Bloc 2 = Bloc + Bloc P + Bloc 3 chers, ils sont aussi d'une technologie plus délicate et moins fiable que les plus volumineux. On a donc cherché à introduire une forme de redondance dans le groupe de disques. C'est ainsi qu'est né, en 988, le concept de RAID (Redundant Array of Inexpensive Disks), à l'université de Berkeley. L utilisateur voit un disque logique sur lequel il enregistre des blocs de données, bloc, bloc2, bloc3... En fait les blocs sont répartis sur plusieurs disques physiques et on utilise un disque physique supplémentaire appelé disque de parité. Le bloc P est obtenu en opérant une disjonction ou «ou exclusif» bit à bit, sur l'ensemble des blocs dans la même bande. On a alors : Bloc P = bloc + bloc2 + bloc3. La propriété de la 4
disjonction fait que l'on a également la relation : Bloc2 = bloc + blocp + bloc3. En cas de perte du disque 2, on peut reconstituer son contenu à partir des autres disques de données et du disque de parité. Bande virtuelle Le principe est d intercaler entre le système et la librairie un serveur de bande virtuel, constitué d une grande mémoire cache sur disques. Le serveur émule les bandes magnétiques et contient les informations pour le montage et le démontage des volumes. Ce concept présente deux avantages. D une part, il masque la réalité physique des différentes technologies et facilite leur interopérabilité, le système hôte ne s'aperçoit pas de la virtualisation. Tout se passe comme s'il manipulait ses bandes magnétiques habituelles. D autre part, il accélère les échanges, grâce à la fonction cache. Étant donné qu'en moyenne 8 à 9 % des volumes sont rappelés dans moins de 24 heures après leur écriture, la plupart des opérations se font à la vitesse des disques. Les trois phases d évolution des architectures Il est intéressant d observer le mouvement des architectures de stockage. Progressivement, les infrastructures d'entreprises passent d'un modèle où la fonction calcul était au cœur du système informatique à un modèle centré sur l'information. Les architectures de stockage ont accompagné, et même précédé, ce mouvement. On distingue trois vagues d évolution des architectures. Dans la première vague, le stockage est dédié au serveur. Il appartient totalement au serveur, c est une simple boîte étroitement couplée à l unité centrale du serveur et administrée par ce dernier. On lui demande de répondre vite aux sollicitations des applications, on exige de lui qu il maintienne l intégrité des données qu il accueille, c est pourquoi on y trouve systématiquement la fonction RAID. Dans la seconde vague, on va chercher à partager localement la ressource de stockage entre plusieurs serveurs de différentes technologies et de différents systèmes d exploitation. Le stockage se détache des serveurs, il a sa propre administration. Devenant plus indépendant, il devient aussi plus intelligent. Par exemple, le système de stockage va prendre en charge la recopie de données à distance et assurer le partage sécurisé des ressources entre les différents serveurs. Avec la troisième vague, le stockage de données se met en réseau, il s affranchit des distances et s étend à toute l entreprise. Il est devenu complètement indépendant des serveurs et constitue une dimension à part entière de l informatique. Le déploiement du stockage en réseau repose aujourd hui essentiellement sur le concept de SAN. Le SAN, un nouveau concept 5
Dans une architecture classique, les serveurs échangent des messages et des données à travers les réseaux d entreprise, tels qu Ethernet. Ils ont leurs propres ressources de stockage. Réseau d entreprise Messages Fichiers Blocs E/S Fibre Channel SAN Librairie Le SAN (Storage Area Network) est un nouveau réseau à haute vitesse, conçu pour le stockage qui vient s'installer derrière les serveurs, en complément des réseaux locaux de l'entreprise. Dans son concept, il autorise non seulement les liaisons entre n'importe quel serveur et n'importe quelle unité de stockage, mais aussi des liaisons directes entre unités de stockage. Dans les réseaux d entreprise on échange des messages, on manipule des fichiers. Avec le SAN on échange directement des blocs physiques de données. Le SAN doit surtout son développement à la technologie optique Fibre Channel aujourd'hui largement adoptée par la communauté industrielle. Un lien Fibre Channel permet le transport de données sur plusieurs kilomètres à la vitesse de millions de caractères par seconde. Quels sont les avantages du SAN? - Les barrières de distance sont brisées. Les ressources de stockage peuvent être installées à des kilomètres des serveurs et la connectivité de Fibre Channel dépasse largement celle des interfaces traditionnelles (théoriquement près de 6 nœuds!). - Chaque serveur ayant la possibilité d'accéder directement à l ensemble des ressources de stockage, on conçoit qu'il soit plus facile d'adapter la capacité de stockage à l'évolution des applications. On dispose en quelque sorte d'un jeu de curseurs délimitant l'espace de stockage que l'on ajuste en fonction de la demande. - Les ressources de stockage étant regroupées en réseau, elles deviennent visibles à partir d'un seul point d'administration. Le SAN permet donc une administration unifiée de l'ensemble des unités de stockage. Désormais les données peuvent s'échanger à travers un réseau rapide spécialisé. Cela va permettre d alléger le trafic des réseaux d entreprise et accélérer les sauvegardes de données. - Grâce à la technologie Fibre Channel, il est désormais possible de recopier les données sur plusieurs kilomètres avec des temps de réponse identiques à ceux obtenus pour un attachement local de quelques mètres, ce qui est très utile pour se protéger contre les sinistres. Le stockage de demain 6
Les technologies et les architectures sont en mesure aujourd hui de répondre au défi de l information. Mais qu en sera-t-il demain? Que sera le stockage de données dans les prochaines années? Au-delà du mur du SPE Jusqu où ira-t-on dans la course à la densité d enregistrement magnétique? Il semble bien qu il faille franchir le mur du SPE, c est à dire l effet super paramagnétique. C est un phénomène physique qui survient quand les grains magnétiques ne sont plus capables de maintenir un champ magnétique à une température donnée. L influence des cellules adjacentes est telle que la mémorisation devient instable et l on ne peut plus garantir la valeur binaire ou. On situe généralement cette limite autour de 5 gigabits par pouce carré. Rappelons qu aujourd hui le disque dur le plus avancé du commerce a une densité de 3 à 4 gigabits par pouce carré, ce qui laisse un peu d oxygène pour les années à venir. Au-delà peut-être faudra-t-il oublier l enregistrement magnétique et s engager vers d autres technologies. Les disques magnéto-optiques L idée est d utiliser un matériau magnétique plus dur, très coercitif. Le problème est qu il est difficile d écrire sur un tel matériau, alors on le chauffe au laser pour l adoucir. En refroidissant, il retrouvera toute sa force de magnétisation. La difficulté est d éviter que la chaleur engendrée par le laser ne perturbe les cellules voisines. Plateaux et vallées Pour éviter que les bits de plus en plus petits interfèrent les uns avec les autres, l idée est de les enregistrer sur des plateaux magnétiques minuscules et de les isoler par des vallées. Cette technologie est pour l instant freinée par les techniques de photolithographie, empruntées aux circuits intégrés qui ne permettent pas de dessiner des plateaux inférieurs à 8 nanomètres, ce qui correspond à une densité surfacique bien en dessous des espérances. Stockage à résolution atomique Une autre technologie, très prometteuse est le stockage à résolution atomique. Un atome = bit! L idée est de construire un réseau de sondes capables de créer par injection thermique des tâches de quelques nanomètres qui modifient l état physique du matériau de stockage (il passe de l état amorphe à l état cristallin). Imaginez la complexité du micro-moteur qui doit positionner les sondes avec une précision du nanomètre! Avec cette technologie on pourrait atteindre des densités de térabit par pouce carré. La nouvelle bande perforée Dans d autres laboratoires, on cherche à faire revivre la bande perforée. Avec un stylet on chauffe le plastique vers 4 degrés pour le faire fondre légèrement créant ainsi une entaille correspondant à un bit. Pour la lecture le stylet est chauffé à 35 degrés, en dessous du point de fusion. Quand il passe sur l entaille il y a concentration de l énergie thermique qui se traduit par une variation de résistance électrique du stylet. Grâce aux technologies des circuits intégrés, il est possible de réaliser des matrices de stylets sur un carré de 3 mm de côté. Des densités de 4 gigabits par pouce carré sont déjà en cours d expérimentation. Le stockage holographique 7
laser chemin référence adresse page angle chemin objet SLM lentille cristal CCD Cette technologie se démarque des précédentes. Un faisceau laser est séparé en deux faisceaux respectivement appelés «référence» et «objet». Le faisceau «objet» illumine complètement un modulateur spatial de lumière. C est en fait un panneau à cristaux liquides de technologie comparable à celle utilisée pour les écrans d ordinateurs portables. C est à ce niveau que sont introduites les données à enregistrer. Après avoir traversé le modulateur, le faisceau objet, porteur de l information est dirigé sur le cristal photosensible où il interfère avec le faisceau «référence», caractérisé par un certain angle d'incidence. Cette interférence constitue en quelque sorte la substance de l hologramme, pléiade de propriétés optiques mémorisées par le cristal. Pour lire les données il suffira d éclairer le cristal sous le même angle avec le faisceau de référence. Le faisceau résultant est ensuite dirigé vers une caméra CCD, qui permettra la récupération des données. En faisant varier l'angle du faisceau de référence (correspondant à l'adresse de la page), on peut ainsi enregistrer différentes pages dans le même volume de cristal. Une des difficultés à laquelle se heurtent les chercheurs est la volatilité du matériau. Plus on met d hologrammes dans le même volume de cristal, plus ils sont affaiblis, car les propriétés dynamiques du matériau sont finies. Le choix d un matériau qui ait des bonnes propriétés optiques, une bonne sensibilité et qui soit bon marché est fondamental pour l avenir du stockage holographique. Cependant, le stockage holographique est la technologie la plus prometteuse. Elle permet d enfermer un téra-octet dans un morceau de sucre, d enregistrer des pages entières de millions de bits en un seul coup, sans mouvements mécaniques. C est une technologie fiable, vous cassez le morceau de sucre, il conserve l information! C est surtout une technologie capable de mémorisation associative, c est à dire que l on accède à l information non plus par son adresse mais par son contenu. Pour rechercher de l'information sur un sujet donné, on interrogera le cristal holographique à partir en quelque sorte d'une emprunte digitale, qui caractérise pleinement l'information que l on recherche. C est donc une technologie qui nous aidera à extraire de l information la connaissance qui nous intéresse. Les autoroutes du stockage interférence enregistrée données données à écrire lues 8
Internet devient le réseau sur lequel va s appuyer l économie mondiale ; d énormes quantités de données à forte valeur économique résident dans les systèmes de stockage. Une convergence naturelle se dessine entre le besoin d échanger d énormes masses d information sur Internet et de les conserver dans les systèmes de stockage, à l échelle mondiale. Dans les années à venir cette convergence sera facilitée par une percée technologique dans les vitesses de transmission optique. Grâce à la technologie DWDM (Dense Wavelength Division Multiplexing), il sera possible de transmettre des dizaines de térabits par seconde sur une même fibre optique. La technique DWDM consiste à multiplexer plusieurs canaux de transmission de longueurs d onde différentes sur une même fibre optique. On peut ainsi multiplier par voire par la capacité de transmission d une fibre optique. Dans cinq ans on aura installé 3 milliards de kilomètres de fibre optique dans le monde soit fois plus qu aujourd hui. On disposera alors d une bande passante multipliée par un million ( x ), pratiquement infinie et quasiment gratuite! En même temps le stockage sera au prix du papier. On verra alors des réseaux de stockage se constituer à l échelle d une ville, puis s étendre à la planète, constitués de SAN locaux reliés entre eux par les autoroutes optiques. De Paris on pourra accéder à un système disque implanté à New York aussi rapidement qu on accède au disque sur son micro-ordinateur. L espace de stockage virtuel En se mettant en réseau, le stockage doit satisfaire à trois exigences. D'un côté il y a les ressources de stockage, réparties sur plusieurs sites, de différents types, de différentes technologies et de différents constructeurs. D'un autre côté il y a des serveurs dispersés, de différentes plates-formes, issues de différents constructeurs et tournant diverses applications dans des environnements d'exploitation multiples. Enfin l'entreprise a des objectifs globaux d'exploitation économique de son information et l'architecture informatique qu'elle a mise en œuvre doit continuellement s'adapter à l'évolution de ses besoins. Pour résoudre cette complexité, il est nécessaire d introduire le concept d espace de stockage virtuel : - Chaque application ne voit que des disques virtuels -Le système d automanagement va matérialiser ces disques virtuels en choisissant les ressources les mieux appropriées parmi la hiérarchie des objets de stockage dont il dispose. - Le système d automanagement sera capable de réorganiser automatiquement l espace virtuel en fonction de l évolution des applications. -De plus il saura tenir compte des exigences économiques de l entreprise exprimées sous forme de règles et de procédures. Le stockage grande consommation Serveur Serveur 2 Serveur 3 Disque virtuel 2 2 Disque virtuel ESPACE VIRTUEL Couche d abstraction 3 3 Disque virtuel Technologies de stockage Observe Modifie Objectifs, procédures d entreprise Réorganisation automatique Automanagement 9
Le stockage de données prend de plus en plus d importance dans notre vie quotidienne et il va de plus en plus s apparenter à de la grande consommation. Stockage à la demande Le stockage de données tend à devenir une utilité, on va consommer de l espace de stockage comme on consomme de l électricité ou comme on utilise le téléphone. Déjà certaines entreprises confient à des sociétés spécialisées le soin d héberger et de gérer leurs données et ce type de service s étend aux particuliers qui pourront par Internet stocker leurs données à distance dans des endroits sécurisés. On estime que dans 5 ans, un particulier aura besoin en moyenne de Go de stockage personnel. On s achemine progressivement vers la notion de stockage à la demande. Le stockage sur disque va conquérir l électronique grand public Les disques magnétiques sont devenus suffisamment compacts pour tenir dans les appareils photos numériques ou les téléphones mobiles. Le temps n est pas loin où l on pourra mettre des dizaines de giga-octets dans les portables. Témoin, le micro-drive développé par IBM, capable de stocker dans le volume d une pièce de monnaie giga-octet, l équivalent de photographies haute résolution, romans de 2 pages ou 8 heures d audio Hi-Fi. La télévision personnelle Un autre axe de développement est la télévision personnelle. Le stockage sur disque est devenu suffisamment bon marché, qu il est prêt à entrer dans les foyers. On a récemment observé une baisse du coût au méga-octet de plus de % par semaine! Avec la télévision personnelle, le consommateur pourra stocker sur le disque dur les programmes vidéo et les visualiser en temps réel, les suspendre, les reprendre, se créer sa propre chaîne de télévision. Conclusion La technologie magnétique est prête à assurer les énormes capacités de stockage pour les prochaines années ; d autres technologies se préparent à prendre la relève. Pour qu une technologie soit adoptée par la communauté industrielle, il faut qu elle apporte au moins un ordre de grandeur dans l amélioration des performances tout en maintenant le prix des technologies courantes. On va vers un rapprochement du stockage et des télécommunications sur fibre optique. Le résultat est l apparition de réseaux de stockage s affranchissant des distances. Une partie du stockage de données va s apparenter à la grande consommation. Il devient une utilité comme le téléphone ou l électricité. Économiquement, il est prêt à envahir l électronique grand public. Les progressions conjointes des technologies de stockage et des technologies de transmission sur fibre optiques font que l on s oriente vers du stockage et de la bande passante quasiment illimités et très bon marché, c est peut-être le plus important pour débloquer l ère de l information. Le stockage de données est prêt à relever le défi posé par la croissance exponentielle de l information. Le problème qui se pose maintenant, est d extraire de cette masse d information, la connaissance qui nous sera directement utile. Comment en fait transformer l information en connaissance? C est un autre défi.