Haute Disponibilité High-Availability : HA. Les enjeux

Haute Disponibilité High-Availability : Définitions Sûreté de fonctionnement Coût de l indisponibilité Classification des systèmes Concepts et terminologie Grandeurs caractéristiques Analyse des causes de défaillances Principes de conception Solutions Recouvrement après catastrophe Estimation de la disponibilité des systèmes Les enjeux Sécuriser le fonctionnement de l entreprise ordinateurs : système nerveux de l entreprise indispensable 4h/4 aux clients, collaborateurs, commerciaux Une panne peut causer une perte de productivité considérable et coûter beaucoup d argent Si le système informatique est chargé contrôler un accès aux bâtiments, de vérifier le bon fonctionnement de processus industriels ou tout autre tâche critique, la haute disponibilité peut devenir indispensable pour des raisons de sécurité. Administration système Réseau Services Haute Disponibilité Utilisateurs Données Environnement Contraintes Logiciels Matériel Éléments pouvant altérer la disponibilité d un système informatique

Haute Disponibilité High-Availability : Produire des systèmes fiables demande de passer beaucoup de temps en étude, et en analyse, sans garantie du résultat. Plutôt que de chercher à rendre ces systèmes fiables, on peut inverser la démarche et intégrer à la source la notion de panne dans l étude de ces systèmes. Si l on ne peut prévoir la panne d un composant matériel ou logiciel, on peut alors anticiper et mettre en œuvre une solution de substitution. On parlera alors de disponibilité du service, voire de haute disponibilité selon la nature de l architecture mise en place. Appellations apportant différentes réponses : Disponibilité des données Garantir l intégrité des données, aucune perte de données Disponibilité des services Tolérances aux désastres Tremblement de terre, attentats, incendie Concept de service Défaillance complète Défaillance partielle Défaillance Défaillance Service rendu partielle Restauration Service dégradé complète Restauration Service indisponible complète partielle Restauration partielle Restauration complète 4

Grandeurs caractéristiques Il s agit de grandeurs accessibles et mesurables, elles doivent vérifier les propriétés suivantes : représentativité, interprétables, fidèles, précises et utiles Mesures liées au concept de défaillance MTTF ou temps moyen jusqu à défaillance (Mean Time To Failure) MTBF ou temps moyen entre défaillances (Mean Time Between Failures) Mesures liées au concept de maintenabilité MTTRes ou temps moyen jusqu à restauration (Mean Time To Restore ou Mean Time To Recover) MTTRep ou temps moyen jusqu à réparation (de l élément) (Mean Time To Repair element) Mesure liée au concept de disponibilité MTTF At = MTTF + MTTRes 5 Analyse des défaillances Analyse des causes de défaillances pour les systèmes d entreprise Environnement (6%) Arrêt planifié (5%) Autre cause (4%) Erreur de l opérateur (5%) Erreur logiciel (8%) Erreur de l application (9%) Défaillance matérielle (%) 6

Terminologie Classification des systèmes en fonction de leur disponibilité hypothèse, service disponible 7 jours /7, 4 heures/4 (7x7, 4x4) la terminologie peut varier, on s en tiendra aux chiffres Type de système Indisponibilité Disponibilité Classe de (minutes par an) (%) disponibilité Non géré (Unmanaged) 50000 90 Géré (Managed) 5000 99 Bien géré (Well Managed) 500 99,9 Tolérant les fautes (Fault-tolerant) 50 99,99 4 Haute disponibilité (High Availability) 5 99,999 5 Très haute disponibilité (Very High Availability) 0,5 99,9999 6 Ultra haute disponibilité (Ultra High Availability) 0,05 99,99999 7 7 Définition des objectifs Évaluation des objectifs suivants : Critères d indisponibilité Niveau de disponibilité, temps de rétablissement Analyse de la volumétrie des données et performances nécessaires au bon fonctionnement du service Prise en compte des différents critères de coûts Évolution des configurations matérielles et logicielles Transfert des compétences aux équipes d exploitation sur les problématiques liées à la haute disponibilité Surveillance du service et planification de la maintenance corrective et préventive (qui, quand, comment) 8 4

Évaluation des ressources critiques Imaginer quel type de panne n a pas été pris en compte dans l architecture Panne du disque dur, de l alimentation, du réseau ou encore un crash système ou applicatif Il faut décomposer la totalité du système pour localiser chaque élément susceptible de tomber en panne On utilise le terme anglais SPOF (Single Point Of Failure) pour désigner une ressource critique (composant matériel ou logiciel) dont la panne peut être à l origine d un arrêt du service. Identifier les faiblesses d un système informatique est la première étape permettant de fiabiliser son fonctionnement et d initier une réflexion sur les moyens qu il est possible de mettre en œuvre pour garantir la continuité du service. 9 Anticiper les pannes Climatisation et hygrométrie salle dans laquelle vous prévoyez de déployer vos machines doit garantir une température stable et une hygrométrie raisonnable. il faut éviter les accumulations de poussières sur vos machines et nettoyer de façon préventive les accès d air et autres ventilateurs. Alimentation électrique en cas de panne de courant, il faut garantir au moins pendant un certain laps de temps la bonne alimentation électrique de votre serveur à l aide d un onduleur. Si les batteries de l onduleur devaient ne pas suffire, il pourra envoyer un signal au système pour lui intimer l ordre de s arrêter proprement. selon les besoins, il pourra être nécessaire d avoir une alimentation électrique de secours permettant de prendre le relais de l alimentation principale lors d un défaut sur celle-ci. Lorsqu une panne électrique intervient sur l alimentation principale, les onduleurs prennent le relais pendant qu une seconde alimentation (secours) démarre afin d alimenter à nouveau le circuit (groupe électrogène) 0 5

Redondance matérielle Alimentation redondée Multiplication des éléments du réseau Utilisation de grappe de disques Multiplication des serveurs Alimentation redondée Certains constructeurs proposent de fournir deux ou trois alimentations pour prévenir la perte de ce composant. Les alimentations sont des composants critiques, il n est pas rare de les voir faillir avant les autres composants du système. Les alimentations sont les premières touchées lors des variations de tension, et certaines d entre elles y sont très sensibles. Plusieurs approches chez les constructeurs : machine Alim Alim Mécanisme de bascule machine Mécanisme de sélection Alim Alim 6

Multiplicité des éléments du réseau liens physiques routeurs switch cartes réseau un câble réseau peut être débranché accidentellement (ou arraché) lors de manipulation autour des serveurs. une carte réseau peut subir les aléas d une panne et ne plus pouvoir être utilisable Utilisation de grappe de disques Utilisation des technologies hot-plug permettant l ajout/retrait des disques durs à chaud sans arrêt du système Utilisation des technologies RAID (Redundant Array of Independant Disk ou Redundant Array of Inexpensive Disk) Bon moyen de sécuriser vos données et tenir compte des pannes matérielles notamment la perte d un ou plusieurs disques. 4 7

Terminologie RAID chunk size stride stripe RAID découpe les données en segments virtuels (chunk size) Un stride est le nombre de blocs de données du système de fichiers présent dans un même segment virtuel (par exemple, des blocs de 4 Ko pour le système de fichier et Ko pour la chunck size donne un stride de 8). Un stripe correspond aux segments de données présents sur un même niveau dans tous les disques d un RAID 0,,4 et 5 (en somme une bande) 5 RAID 0 aussi appelé «striping» demande un minimum de disques pour être implementé, Il consiste à décomposer les données en petits blocs et à les disperser sur des disques indépendants différents La disponibilité des données n est pas assurée Avantages : 00% de l espace disque est disponible même si tous les disques n ont pas la même taille 4 5 6 Amélioration des performances en lecture 7 8 9 0 A B C Inconvénients : Pas de haute disponibilité : la perte d un disque entraîne la perte des données 6 8

RAID ou mode «mirroir», demande un minimum de disques pour être implémenté. Il consiste à dupliquer les données sur tous les disques présents dans le RAID. Cette redondance de l information permet de garantir la disponibilité des données même en cas de perte simultanée de plusieurs disques du moment que le nombre de disques perdus est inférieur ou égal à N- (N étant le nombre de disques indépendants présents dans le RAID Avantages : Forte disponibilité des données : survit à la perte de N- disques Amélioration des performances en lecture Pas de reconstruction lourde des données en cas de perte d un disque puisque l information est dupliquée A B Inconvénients : 00/N % seulement de l espace disque utile est disponible. Possible dégradation linéaire des performances en écriture (dépend du nombre de disques et du nombre de contrôleur) 7 RAID 4 RAID 4 : block-interleaved parity demande un minimum de disques pour être implémenté. Il consiste à immobiliser un disque pour y stocker des informations de parité sur les données. ce RAID fonctionne comme le RAID 0 auquel on aurait ajouté une information supplémentaire lui permettant de pallier la perte d un disque et de reconstituer l information manquante (l algorithme de parité utilisé ne permet pas de survivre à la perte de plus d un disque). Avantages : 4,,4 Bonne disponibilité des données : survit à la perte d un disque Amélioration des performances en lecture en mode nominal 5 6 5,6 7 7, A B C Inconvénients : Taille utile réduite à N- disques Légère dégradation des performances en écriture, le disque de parité limite le débit d écriture des données. La reconstruction des données manquantes en cas de perte ralentit les performances 8 9

RAID 5 RAID de niveau 5 (block interleaved distributed-parity) sensiblement identique au RAID 4 mais améliore le procédé mis en œuvre en distribuant l information de parité sur l ensemble des disques. Comme pour RAID 4, l algorithme de parité utilisé ne permet pas de survivre à la perte de plus de disque. Avantages : Bonne disponibilité des données : survit à la perte d un disque,4, 4 Amélioration des performances en lecture en mode nominal, l écriture de la donnée de parité est moins pénalisante que dans le RAID 4 5,6 5 6 7 7, A B C Inconvénients : La taille utile est réduite à N- disques Légère dégradation des performances en écriture La reconstruction des données manquantes en cas de perte d un disque ralentit la lecture 9 RAID 0+ RAID de niveau 0+ demande un minimum de 4 disques pour être implémenté. Il est conçu en associant le RAID 0 et le RAID : on crée d abord stripes indépendants de même capacité que l on associe ensuite dans un miroir. Ce RAID existe essentiellement en émulation logicielle et permet de profiter à la fois d une amélioration en lecture (RAID ) et en lecture (RAID 0) sans risque de perte de données. Une solution idéale pour obtenir des performances optimales si le volume de disques durs immobilisé n est pas un problème. Avantages : RAID RAID 0 RAID 0 Bonne disponibilité des données : survit à la perte d un disque Amélioration des performances en lecture et écriture 4 4 Inconvénients : 5 7 6 5 7 6 50% seulement de l espace disque utile est disponible Immobilise au moins 4 disques A A B B A B 0 0

RAID 0 RAID de niveau 0 demande un minimum de 4 disques pour être implémenté. Il est conçu en inversant le principe du RAID 0+ (on encapsule du RAID par du RAID 0). Comme ce dernier, ce RAID existe essentiellement en émulation logicielle et permet de profiter à la fois d une amélioration en lecture et en écriture sans risque de perte de données. RAID 0 RAID RAID 4 4 Avantages : Bonne disponibilité des données : survit à la perte d un ou plusieurs disques selon l endroit où ils se situent Amélioration des performances en lecture et en écriture 5 5 6 6 7 7 A A B B A B Inconvénients : 50% seulement de l espace disque utile est disponible Immobilise au moins 4 disques RAID : perte d un disque lors de la perte d un disque sur un système RAID avec parité, le système est capable de reconstituer les segments manquants grâce aux données restantes et à l information de parité On va parler dans ce cas de mode dégradé. Les performances seront impactées car il faudra lire tous les segments d un même stripe (information de parité comprise) afin de reconstituer le segment présent sur le disque en échec. En cas d utilisation d un disque de spare, la reconstruction des données sur le nouveau disque est donc un peu plus complexe. Lorsque la reconstruction est terminée, le disque est marqué comme opérationnel et les performances redeviennent naturellement nominales sans aucun intervention extérieure.

RAID5 : algorithme de placement des données left-asymmetric left-symmetric right-asymmetric right-symmetric les termes right ou left désignent la façon dont les informations de parité vont être placées sur chaque stripe. L algorithme left indique que le segment de parité va être initialement placé sur le dernier disque et va se déplacer vers le premier disque (à gauche) pour chaque nouveau stripe. Lorsque le premier disque est atteint, l algorithme reprend à partir du dernier disque. RAID5 : algorithme de placement des données les termes asymmetric et symmetric désignent la politique de placement des données sur tous les disques d un même stripe. l algorithme assymmetric indique que les données seront écrites séquentiellement sur un même stripe en commençant par le premier disque (en sautant le segment de parité si nécessaire). Lorsque le dernier disque est atteint, on recommence par le premier disque sur le stripe suivant. l algorithme symmetric est différent car les données commencent à partir du segment contigu à l information de parité (celui de droite) pour ensuite être distribuées de façon séquentielle sur l ensemble du stripe (de façon symétrique autour du segment de parité) 4

RAID5 : algorithme left-asymmetric les données sont écrites séquentiellement vers la droite en commençant par le premier disque et en sautant le segment de parité qui commence, lui, à partir du dernier disque. A un stripe correspond un et un seul segment de parité, qui se déplace d un cran en opposition, c est à dire de la droite vers la gauche.,, 4 5 4,5,6 6 7 7,8,9 8 9 0,, 0 4 5,4,5 Disque Disque Disque Disque 4 5 RAID5 : algorithme left-symmetric dans cet algorithme, l information de parité continue à être d abord enregistrée sur le dernier disque pour ensuite être déplacée d un cran vers la gauche à chaque nouveau stripe. Le changement concerne l ordre de placement des données qui débute après chaque segment de parité de chaque stripe (modulo le nombre de disques),, 5 6 4,5,6 4 9 7,8,9 7 8 0,, 0 4 5,4,5 Disque Disque Disque Disque 4 6

RAID5 : algorithme right-asymmetric cet algorithme est identique à celui du left-asymmetric excepté que le segment de parité commence cette fois-ci par le premier disque pour ensuite se déplacer d un cran vers la droite à chaque nouveau stripe.,, 4 4,5,6 5 6 7 8 7,8,9 9 0 0,,,4,5 4 5 Disque Disque Disque Disque 4 7 RAID5 : algorithme right-symmetric cet algorithme est identique à celui du left-symmetric excepté que le segment de parité commence cette fois-ci par le premier disque pour ensuite se déplacer d un cran vers la droite à chaque nouveau stripe.,, 6 4,5,6 4 5 8 9 7,8,9 7 0 0,,,4,5 4 5 Disque Disque Disque Disque 4 8 4

RAID5 : calcul de la parité l algorithme de calcul de la parité utilise tout simplement un principe similaire à l opérateur binaire «ou exclusif» (exclusive OR : XOR). XOR 0 0 0 0 cet opérateur possède une propriété assez étonnante : Si parité = A xor B xor C xor D, nous avons alors A= parité xor B xor C xor D, mais aussi B= parité xor A xor C xor D, mais aussi C= parité xor A xor B xor D, ou encore D= parité xor A xor B xor C si on remplace ces variables par des disques, on comprend comment l algorithme permet de retrouver une information manquante en cas de perte d un disque. 9 Utilisation d un gestionnaire de volume Lorsque l on installe un système d exploitation, il est possible que l on ait pas d idée précise de la volumétrie dont auront besoin les partitions systèmes et les partitions de données. Une mauvaise estimation sur la taille des partitions pourra avoir des conséquences importantes (blocage du système, impossibilité d utiliser les applications, ) Il est fortement conseillé d utiliser un gestionnaire de volume comme LVM (Logical Volume Manager) pour manipuler les différents volumes. Il sera par exemple possible de retailler (augmenter/réduire) certaines partitions à chaud (sans arrêter les applications) ou encore d ajouter un nouveau disque pour étendre la capacité de stockages des différents volumes (logiques) créés sur les disques physiques. En conjonction avec du RAID, on obtient une solution de gestion de données performante et évolutive. 0 5

LVM physical volume : PV volume group : VG logical volume : LV physical extend : PE logical extend : LE Volume Group PV PE PE PE PE PE PE LV LE LE LE LE LE LE LVM sda hda hdc vg0 vg vg 6Go 0Go 80Go 6Go 0Go 0Go Volume Physique Volume group PV sda hda hdc VG diskvg LV:s filesystems usrlv rootlv varlv homelv ext reiserfs xfs ext point de montage /usr / /var /home 6

Sécuriser les interfaces Ethernet Linux Channel Bonding technique consistant à surveiller l état de la couche réseau pour pallier la panne d un contrôleur ou la déconnexion d un câble on regroupe de façon logiciel (et transparente pour l utilisateur) plusieurs contrôleurs réseaux en une seule et même interface Ethernet virtuelle afin de disposer de plusieurs chemins physiques pour recevoir ou transmettre un même flux de données On multiplie les chemins pour garantir la continuité du service Le channel bonding sous Linux est l équivalent du Trunking de SUN, du Port Trunking de DLINK, de l EtherChannel de Cisco. Tous ces équipements sont conformes à la norme 80.ad Il faut différencier dans la norme 80.ad l agrégation dynamique de l agrégation statique Sécuriser les interfaces Ethernet Linux Channel Bonding l agrégation de liens statique (souvent appelée trunking) impose de configurer manuellement et individuellement chaque système ou équipement. Plusieurs algorithmes sont proposées par la norme pour garantir le bon acheminement des données. A l inverse, l agrégation dynamique 80.ad se base sur un échange dynamique d informations pour faciliter la création de groupes d agrégation. Le protocole LACP (Link Agregation Control Protocol) est utilisé à cette intention : la méthode d agrégation est choisie statiquement par l administrateur ou bien dynamiquement par LACP (l administrateur peut aussi imposer des contraintes d agrégation puis laisser faire le protocole) 4 7

Sécuriser les interfaces Ethernet Linux Channel Bonding De ce fait, il n existe pas un seul mais plusieurs algorithmes implémentés par le driver bonding sous Linux : Active-backup (sauvegarde active) * Broadcast (Diffusion) Balance-rr (Equilibrage de charge) Balance-xor (mode XOR) Balance-tlb (Equilibrage de charge auto-adaptatif en émission) * Balance-alb (Equilibrage de charge auto-adaptatif en émission et réception) * 80.ad ( *) indépendant des switchs utilisés 5 Sécuriser les interfaces Ethernet Exemple de configuration Channel Bonding (Linux) 80.ad liens 00Mb/s Agrégation ports : 00Mb/s switch Active-backup liens 00Mb/s en failover eth0 : actif eth : actif eth0 : primaire (actif) eth : failover (backup) 6 8

Haute disponibilité et Clustering Cluster : ensemble de serveurs Assurer un niveau de fonctionnement sans interruption doubler les équipements et partager l utilisation de certains autres pour assurer la mise en place de ce type d architecture, il sera nécessaire d avoir les mêmes données accessibles par les différents nœuds du cluster (soit moyen de réplication des données fiable entre les nœuds, soit solution de stockage externe accessible depuis tous les nœuds : RAID,NAS,SAN) 4 types de clusters Reprise à froid (Cold Stand-by) Reprise à chaud (Hot Stand-by) Partage de charge (Load sharing) Equilibrage de charge (Load balancing) 7 Stockage externe DAS : Direct Attached System RAID externe à double attachement NAS (Network Attached Storage) permet de mutualiser les données stockées sur les serveurs de fichiers reliés entre eux par le LAN (Local Access Network) de l'entreprise SAN (Storage Area Network) n'est pas question d'infrastructure IP. Ce que la notion recouvre ici en fait - à savoir la mise en relation de serveurs avec des baies de disques qui stockent des données routées et hiérarchisées via des commutateurs - est un réseau physique, le plus souvent constitué par des câbles en fibre optique (fibre channel 8 9

Cluster : Reprise à froid Pour mettre en place cette solution, il faut configurer le deuxième serveur à l identique du premier. En cas de défaillance du serveur actif, un administrateur système doit intervenir pour déconnecter la machine défaillante, connecter le serveur en attente. Ce n est qu une fois celui-ci démarré* et connecté, que les applications seront de nouveau accessibles aux utilisateurs. Méthode assez répandue dans le monde des serveurs d «entrée de gamme» Gros désavantage d associer le taux de disponibilité des applications à la rapidité d intervention des administrateurs systèmes Il faut une intervention humaine pour opérer le basculement des différents serveurs. 9 Cluster : Reprise à froid Network Service www Service mail Serveur A Serveur B Service www Service mail Storage connection Stockage externe 40 0

Cluster : Reprise à chaud Une solution «Hot stand-by» est assez similaire à une solution «cold stand-by». La grosse différence est l installation d une solution pour gérer la migration des applications (failover). Avec ce logiciel, les serveurs peuvent être installés, configurés à l identique et actifs simultanément. Le logiciel de failover supervise l état du serveur actif. S il détecte in incident, il va arrêter et/ou redémarrer le serveur défaillant et initier automatiquement une migration des applications vers le serveur en stand-by. Au passage, il va libérer les ressources utilisées par les applications sur le serveur actif pour les attribuer au serveur en stand-by (adresse dans le réseau, partitions disques) L avantage de cette solution est qu aucune intervention humaine n est nécessaire, la remise en route des services est réalisé automatiquement par le logiciel 4 Cluster : Reprise à chaud Network Service www Service mail Serveur A Serveur B Service www Service mail Storage connection Stockage externe 4

Cluster : Partage de charge Le partage de charge est une version plus sophistiquée de la solution reprise à chaud. Dans l exemple, nous avons deux serveurs : sur le premier il y un serveur de messagerie actif et sur l autre un serveur web actif. Les deux serveurs sont actifs en même temps parce qu ils ont identités différentes et qu ils utilisent des ressources différentes. Si maintenant un des serveurs subit une défaillance (par exemple celui avec les services web), le logiciel failover prendra soin d arrêter le serveur web et de le relancer sur le deuxième serveur (celui avec le serveur de messagerie). Cette méthode est presque identique au principe de reprise à chaud, mais ici nous évitons d avoir un serveur (onéreux) intutilisé et qui attend que l autre subisse une défaillance. 4 Cluster : Partage de charge Network Service www Service mail Serveur A Serveur B Service www Service mail Storage connection Stockage externe 44

Cluster : équilibrage de charge La méthode d équilibrage de charge est celle qui exploite au mieux le matériel disponible. En mode équilibrage de charge, les deux applications (service web et messagerie) sont installés et activés sur les deux serveurs. Dans le cas d une panne d un des serveurs, la disponibilité de l application n est jamais mise en défaut parce qu il y a un autre serveur offrant le même service de manière active. Le logiciel failover prenant soin uniquement dans ce cas-ci, de la mise hors-ligne du serveur défectueux. Il tentera également s il est capable de reprendre les sessions ouvertes de ce serveur pour continuer leur exécution sur l autre serveur La solution d équilibrage de charge a toutefois des contraintes. Les applications, mises en haute disponibilité, doivent pouvoir gérer la concurrence d accès sur les fichiers (accès en écriture) à partir des différents nœuds et l état des sessions. Toutes les applications ne respectent pas ces conditions sans modificiations substantielles. 45 Cluster : équilibrage de charge Network Service www Service mail Serveur A Serveur B Service www Service mail Storage connection Stockage externe 46

Cluster : Identité sur le réseau Table de commutation Port 4 00 05 5B 8 45 C Port 7 00 05 5E 58 A CB routeur Table arp 9.68.0. 00 05 5B 8 45 C 9.68.0.6 00 05 5E 58 A CB Service www Serveur A Service mail IP : 9.68.0. MAC : 00 05 5B 8 45 C Service www Serveur B Service mail IP : 9.68.0.6 MAC : 00 05 5E 58 A CB Service www : 9.68.0.:80 Service mail : 9.68.0.:5 Service www : 9.68.0.6:80 Service mail : 9.68.0.6:5 47 serveurs en solution libre : Heartbeat Réseau IP virtuelle 4.45.46.40 IP réelle 4.45.46.47 Lien IP réelle 4.45.46.48 Cluster à basculement de service les services sont démarrés sur un seul nœud principal en cas de détection de panne, les services sont alors basculés sur le nœud de secours Pour assurer la continuité apparente du service côté utilisateur, on utilise le principe des alias IP pour associer une adresse IP virtuelle à la machine qui héberge le service (Heartbeat utilise le programme Fake, qui s occupe de plus de mettre à jour les tables ARP. 48 4

serveurs en solution libre : Heartbeat Les deux machines du cluster communiquent entre elles par l intermédiaire de liaisons Ethernet et de liaison série dédiées pour obtenir toutes les informations utiles sur l état du cluster et décider éventuellement de déplacer un service d un nœud à l autre. On peut choisir d équilibrer la charge en démarrant une partie des services sur le nœud principal et une seconde partie sur le nœud secondaire La principale difficulté consiste à disposer des données utilisées par les services indifféremment sur les différents nœuds du cluster : pour cela, il est possible de répliquer les données entre les nœuds ou de partager ces données à partir d un stockage externe des informations. Le mécanisme de surveillance de Heartbeat ne détecte que les pannes matérielles ou résultant d un blocage du système d exploitation. Il est alors nécessaire d utiliser un logiciel dédié (exemple Mon) pour réaliser la surveillance applicatives des services. 49 serveurs en solution libre : Heartbeat Dans cette configuration, si un nœud est considéré comme indisponible, on est toujours confronté au risque de lancer le même service en concurrence sur plusieurs nœuds si la communication (lien Ethernet et lien série) à l intérieur du cluster est rompu». Il est donc possible que les nœuds se posent la même question au même moment, et «décident de prendre tous les deux la main» 50 5

serveurs en solution libre : Stonith Derrière cet acronyme barbare se cache une fonctionnalité indispensable lorsqu on souhaite mettre en œuvre un cluster basé sur le basculement de services : dans cette configuration, si un nœud est considéré comme indisponible, on est toujours confronté au risque de lancer le même service sur plusieurs nœuds. Pour garantir l intégrité des données, une solution toute simple a été trouvée qui permet de clarifier la situation : tuer le nœud voisin. Cette approche donne finalement de bons résultats si l on considère que l on coupe l alimentation électrique de ce dernier en utilsant un équipement appelé Power Switch. 5 Serveurs en solution libre : LVS (Linux Virtual Server) A la différence des solutions précédentes, toutes les machines sont capables de fournir le même service et accèdent donc toutes aux mêmes données partagées. Un nœud chef d orchestre (dispatcher) s occupe de répartir de façon transparente les requêtes réseau en équilibrant la charge sur l ensemble du cluster. Côté client, ce mécanisme est transparent car seule l adresse IP du chef d orchestre est visible. Plusieurs avantages : en cas de panne d un des nœuds du cluster, on retire ce dernier de la liste des nœuds actifs Augmenter la puissance de traitement consiste simplement à ajouter à chaud un nouveau nœud dans le cluster 5 6

Serveurs en solution libre : LVS (Linux Virtual Server) utilisateur Internet/Intranet dispatcher LAN/WAN serveur réel n serveur virtuel serveur réel serveur réel serveur réel Il est habituel de placer le nœud chef d orchestre au sein d un cluster basé sur un basculement de services (type heartbeat) pour éliminer son caractère critique. 5 Firewall en solution ClusterXL de Checkpoint Réseau IP réelle 4.45.46.47 ClusterXL IP réelle 4.45.46.48 IP du cluster 4.45.46.40 Lien IP réelle 9.68.0.45 IP réelle 9.68.0.55 IP du cluster 9.68.0.50 IP réelle 9.68.0.74 IP réelle 9.68.0.75 IP du cluster 9.68.0.70 4 modes de fonctionnement : High Availability (active/standby) New mode Legacy mode Load sharing (active/active) Unicast Load sharing Multicast Load sharing ClusterXL 54 7

Firewall en solution ClusterXL de Checkpoint Load sharing (active/active) Une partie du trafic va donc être traité par chaque membre du cluster. modes de fonctionnement différents sur la manière dont les paquets vont être envoyés au cluster. Load sharing Unicast Load sharing Multicast 55 Firewall en solution ClusterXL de Checkpoint Load sharing Multicast Le mécanisme Multicast fournit par la couche Ethernet permet d associer plusieurs interfaces avec une seule adresse physique (MAC). A la différence des broadcast qui sont envoyés à toutes les interfaces d un réseau, le Multicast permet d utiliser une notion de groupe. On va donc sélectionner les interfaces qui vont recevoir ce flux. ClusterXL utilise le mécanisme Multicast pour associer les adresses virtuelles du cluster avec tous les membres. En associant les adresses des membres à une adresse Multicast, ce qui permet d envoyer tous les paquets à chaque membre. Chaque membre décidant de traiter ou non ce paquet. Cette fonction de décision est au cœur du mécanisme Load sharing : il faut s assurer qu au moins un membre va traiter le paquet reçu (trafic bloqué) et que deux membres ne vont pas traiter le même paquet (trafic dupliqué) une fois ce flux traité par un membre, un mécanisme de routage du flux doit s assurer que celui passe toujours par le même membre (fonctionnement en mode statefull) 56 8