Guide de l'utilisateur de SafeKit. Logiciel de haute disponibilité pour applications critiques

Transcription

1 Guide de l'utilisateur de SafeKit Logiciel de haute disponibilité pour applications critiques

2

3 Vue générale Sujet Ce document couvre toutes les phases de mise en œuvre de SafeKit : architecture, installation, tests, administration, résolution de problèmes, support, interface ligne de commande Public visé Architecture 1 Architectures de haute disponibilité page 7 Installer 2 Installation et configuration page 15 Console 3 La console web de SafeKit page 23 Tester 4 Tests page 51 Administrer 5 Administration d'un module miroir page 77 6 Administration d'un module ferme page 89 7 Résolution de problèmes page 93 8 Accès au support Evidian page 101 Autres 9 Interface ligne de commande page Administration avancée page Sécurisation de la console SafeKit avec HTTPS page Userconfig.xml page Scripts applicatifs de l'utilisateur page Exemples de userconfig.xml et scripts utilisateurs page La console java de SafeKit page 217 Table des matières page 259 Index des messages du log page 267 Version SafeKit 7.1 OS supportés Windows et Unix; pour une liste détaillée des OS supportés, voir ici Site web Site marketing Evidian : Site support Evidian : Date Octobre 2014 Si vous avez des commentaires ou des questions relatives à ce document, envoyez-nous s'il vous plaît un à [email protected] 39 F2 11LT09 3

4 Guide de l'utilisateur de SafeKit Copyright Evidian, 2014 Evidian reconnaît les droits des propriétaires des marques mentionnées dans ce document. Il est interdit de reproduire, d'enregistrer sur système de recherche documentaire ou de transmettre sous quelque forme et par quelque moyen que ce soit, électronique, mécanique ou autre, tout ou partie de cette publication sans le consentement préalable par écrit de l'éditeur. Evidian décline toute garantie implicite de qualité marchande ou d'utilisation dans un but particulier et ne fait aucune garantie, à l'exception de celles effectuées dans le cadre d'un accord écrit avec et pour ses clients. Evidian ne pourra en aucun cas être tenu responsable par qui que ce soit de tout dommage direct, indirect ou spécial. Les informations et caractéristiques techniques contenues dans ce document sont susceptibles d'être modifiées sans préavis. Pour tout renseignement sur la disponibilité des produits ou services, veuillez consulter un représentant commercial de Evidian. SafeKit utilise les logiciels tiers listés ici F2 11LT09

5 Overview Index Architectures définition module (intégration application) - 7 module miroir (réplication de fichiers, reprise) - 7 module ferme (partage de charge réseau, reprise) - 11 combinaison de modules - actif/actif, N-1, mixte - 12, 13, 14 Installation & Configuration installation - 15 configuration avec la console web - 23 licence et clé - 16 caractéristiques propres à chaque OS - 16 recommandation installation miroir - 17 recommandation installation ferme - 18 upgrade du package - 19 userconfig.xml scripts utilsateurs exemples de userconfig.xml/scripts désinstallation complète du package - 21 Interface ligne de commande interface ligne de commande globale commandes pour le boot/shutdown (ex.: safekit boot m AM [on off status]) commandes pour le contrôle (ex.: safekit start m AM) commandes pour le monitoring (ex.: safekit state) commandes pour la configuration (ex.: safekit config m AM) commandes pour le support (ex.: safekit snapshot m AM /tmp/snapshot_xx.zip) Documentation produit Table des matières Index des messages du log Console console web de SafeKit - 23 ancienne console java SafeKit sécurisation de la console avec HTTPS Tests installation - 51 module miroir - 54 module ferme - 61 checkers - 68 Administration administration module miroir - 77 administration module ferme - 89 administration avancée Résolution de problèmes logs - 93 (vert) et (vert) stable - 94 (vert) et (rouge) dégradé - 94 (rouge) et (rouge) hors service - 95 (vert) mais application non opérationnelle - 99 (vert) puis (magenta) en oscillation - 97 (vert) mais problème de partage de charge (ferme) STOP (rouge) redémarrer le module - 95 WAIT (rouge) réparer la ressource="down" - 96 problème après boot problème persistant call desk pour ouvrir un ticket d'incident F2 11LT09 5

6 Guide de l'utilisateur de SafeKit 6 39 F2 11LT09

7 1. Architectures de haute disponibilité 1.1 Définition d'un module SafeKit -intégration d'application page Module miroir : réplication temps réel synchrone et reprise sur panne page Module ferme : partage de charge réseau et reprise sur panne page Combiner les modules miroir et ferme page Définition d'un module SafeKit -intégration d'application Un module est une personnalisation de SafeKit pour une application. Le module définit la solution de haute disponibilité prévue pour l'application et les procédures de reprise de l'application. Différents modules peuvent être définies pour différentes applications. Concrètement, un module applicatif inclut : un fichier de configuration principal userconfig.xml qui contient les adresses IP physiques des serveurs, les fichiers à répliquer en temps réel (pour un module miroir), la configuration d'adresse IP virtuelle, les critères de partage de charge (pour un module ferme) et plus les scripts de démarrage et d'arrêt de l'application SafeKit propose deux types de module détaillés dans ce chapitre : le module miroir le module ferme Plusieurs modules applicatifs peuvent s'exécuter sur le même cluster de serveurs permettant d'imaginer des architectures avancées : active/active : 2 modules miroirs en backup l'un de l'autre N-1 : N modules miroirs avec un seul backup mixte ferme et miroir : mixte le partage de charge, la réplication de fichiers et la reprise 1.2 Module miroir : réplication temps réel synchrone et reprise sur panne Réplication de fichiers et reprise sur panne L'architecture miroir est une solution de haute disponibilité de type primaire - secours applicable à n'importe quelle application. L'application est exécutée sur un serveur primaire et redémarrée automatiquement sur un serveur de secours si le serveur primaire est défaillant. L'architecture miroir peut être configurée avec ou sans réplication de fichiers. Avec la réplication de fichiers, cette architecture est particulièrement adaptée à la haute disponibilité des applications base de données avec des données critiques à protéger contre les pannes. Microsoft SQL Server.Safe, MySQL.Safe, Oracle.Safe sont des exemples de modules applicatifs de type "miroir". Vous pouvez écrire votre propre module miroir pour votre application à partir du module générique Mirror.Safe. 39 F2 11LT09 7

8 Guide de l'utilisateur de SafeKit Le système de reprise fonctionne de la façon suivante Etape 1. Etat normal d'un miroir PRIM SECOND = Seuls les noms des répertoires de fichiers à répliquer sont configurés dans SafeKit. Il n'y a pas de prérequis sur l'organisation disque des deux serveurs. Les répertoires à répliquer peuvent être localisés dans le disque système. Le serveur 1 (PRIM) exécute l'application. SafeKit réplique les fichiers ouverts par l'application. Seules les modifications faites par l'application à l'intérieur des fichiers sont répliquées en temps réel à travers le réseau, limitant ainsi le trafic. Grace à la réplication synchrone des écritures sur les disques des deux serveurs, aucune donnée n'est perdue en cas de panne Etape 2. Reprise sur panne STOP ALONE Lorsque le serveur 1 est défaillant, la reprise sur le serveur 2 est assurée. SafeKit bascule l'adresse IP virtuelle du cluster et redémarre automatiquement l'application sur le serveur 2. L'application retrouve les fichiers répliqués par SafeKit avec l'assurance qu'aucune écriture synchrone sur disque n'a été perdue entre le serveur 1 et le serveur 2. L'application continue son exécution sur le serveur 2 en modifiant localement ses fichiers qui ne sont plus répliqués vers le serveur 1. Le temps de basculement est égal au temps de détection de la panne (time-out configuré à 30 secondes par défaut) et au temps de relance de l'application. Sur la machine secondaire, il n'y a pas de temps lié au remontage du système de fichiers ou au passage des procédures de recovery du système de fichiers, comme avec les solutions de réplication de disques F2 11LT09

9 Architectures de haute disponibilité Etape 3. Réintégration après panne Réintégration PRIM A la reprise après panne du serveur 1 (réintégration du serveur 1), SafeKit resynchronise automatiquement les fichiers de ce serveur à partir de l'autre serveur. Seuls les fichiers modifiés sur le serveur 2 pendant l'inactivité du serveur 1 sont resynchronisés. La réintégration du serveur 1 se fait sans arrêter l'exécution des applications sur le serveur 2. Cette propriété est un différentiateur du produit SafeKit par rapport à d'autres solutions qui nécessitent d'arrêter les applications sur le serveur 2 pour réintégrer le serveur 1. Pour optimiser la réintégration de fichiers, il y a plusieurs cas de figure : 1. Si SafeKit a été proprement arrêté sur le serveur, alors au redémarrage du secondaire, seules les zones modifiées à l'intérieur des fichiers sont réintégrées suivant les bitmaps de modification 2. Si la secondaire a crashé (power off) ou a été incorrectement arrêtée (exception du processus de réplication nfsbox), les bitmaps de modification ne sont pas sûres et elles ne sont donc pas utilisées. Tous les fichiers qui ont été modifiés pendant et avant l'arrêt suivant une période de grâce (typiquement une heure) sont réintégrés 3. Un appel à la commande spéciale prim ou second provoque une réintégration complète de tous les répertoires répliqués sur la secondaire quand elle est redémarrée 4. Si les fichiers sont modifiés sur le serveur primaire ou secondaire alors que SafeKit est arrêté, les répertoires répliqués sont totalement réintégrés sur la secondaire Etape 4. Retour à la normale SECOND PRIM = Après la réintégration, les fichiers sont à nouveau en mode miroir comme à l'étape 1. Le système est en haute disponibilité avec l'application qui s'exécute sur le serveur 2 et avec comme secours le serveur 1. Les modifications de l'application dans les fichiers sont répliquées en temps réel du serveur 2 vers le serveur F2 11LT09 9

10 Guide de l'utilisateur de SafeKit Si l'administrateur souhaite que son application s'exécute en priorité sur le serveur 1, il peut exécuter une commande de basculement, soit manuellement à un moment opportun, soit automatiquement par configuration Solution de réplication synchrone qui ne perd pas de données en cas de panne Il existe une grande différence entre réplication synchrone de données mise en œuvre par la solution miroir de SafeKit et réplication asynchrone de données telle qu elle est traditionnellement mise en œuvre dans les solutions de réplication de fichiers. Avec une réplication synchrone, lorsqu'une IO disque est réalisée par l'application ou le cache système sur le serveur primaire et sur un fichier répliqué, SafeKit attend l'acquittement de l'io du disque local et du serveur secondaire avant d'envoyer l'acquittement à l'application ou au cache système. La réplication synchrone et temps réel des données sur des fichiers ouverts par une application assure la haute disponibilité applicative sans perte de données en cas de panne. Notamment, la réplication synchrone des fichiers assure que toute donnée commitée sur un disque par une application transactionnelle est retrouvée sur la machine secondaire. La bande passante d'un LAN entre les deux serveurs est nécessaire pour mettre en œuvre une réplication synchrone de données avec éventuellement un LAN étendu dans deux salles machines éloignées de plusieurs kilomètres. Avec la réplication asynchrone mise en œuvre par d'autres solutions, les IOs sont mises dans une file sur le serveur primaire et les acquittements du serveur secondaire ne sont pas attendus. Donc, toutes les données qui n'ont pas eu le temps d'être recopiées à travers le réseau sur le second serveur sont perdues en cas de panne du premier serveur. Notamment, une application transactionnelle perd des données commitées en cas de panne. La réplication asynchrone est adaptée à la réplication de données à travers un réseau bas débit de type WAN, pour réaliser un backup à distance sur plus de 100 kilomètres. SafeKit propose une solution asynchrone sans perte de données en assurant l'asynchronisme non pas sur la machine primaire mais sur la machine secondaire. Dans cette solution, SafeKit attend toujours l'acquittement des deux machines avant d'envoyer l'acquittement à l'application ou au cache système. Mais sur la secondaire, il y a 2 options asynchrone ou synchrone. Dans le cas asynchrone (option <rfs async="second">), la secondaire envoie l'acquittement à la primaire dès réception de l'io puis écrit sur disque. Dans le cas synchrone (<rfs async="none">), la secondaire écrit l'io sur disque puis envoie l'acquittement à la primaire. Le mode async="none" est nécessaire si l'on considère une double panne électrique simultanée des deux serveurs avec impossibilité de redémarrer l'ex serveur primaire et obligation de redémarrer sur le secondaire F2 11LT09

11 Architectures de haute disponibilité 1.3 Module ferme : partage de charge réseau et reprise sur panne Partage de charge réseau et reprise sur panne Ferme de 3 serveurs UP UP UP L'architecture ferme permet d'assurer à fois le partage de charge réseau, à travers une distribution transparente du trafic réseau et une reprise sur panne matérielle et logicielle. Cette architecture fournit une solution simple au problème de la montée en charge. La même application s'exécute sur chacun des serveurs et la charge est distribuée par répartition de l activité réseau sur les différents serveurs de la ferme. L'architecture ferme est adaptée aux applications frontales telles que les services web. Apache_farm.Safe, Microsoft IIS_farm.Safe sont des exemples de modules applicatifs de type ferme. Vous pouvez écrire votre propre module 'ferme' pour votre application à partir du module générique Farm.safe Principe d'une adresse IP virtuelle avec partage de charge réseau L'adresse IP virtuelle est configurée localement sur chaque serveur de la ferme. Le trafic du réseau à destination de l'adresse IP virtuelle est distribué entre les serveurs grâce à un filtre chargé dans le système d'exploitation de chaque serveur. L'algorithme de partage de charge dans le filtre est basé sur l'identité des paquets client (adresse IP client, port TCP client). Suivant l'identité du paquet client en entrée, seul un filtre dans un serveur accepte le paquet ; les autres filtres dans les autres serveurs le rejettent. Une fois un paquet accepté par le filtre sur un serveur, seul le CPU et la mémoire de ce serveur sont utilisés par l'application qui répond à la requête du client. Les messages de retour de l'application sont envoyés directement du serveur vers le client. Lorsqu'un serveur est défaillant, le protocole de gestion du groupe des serveurs en vie reconfigure les filtres pour redistribuer le trafic vers les serveurs disponibles Critères de partage de charge pour les services web à état et sans état Avec un service à état, il y a affinité de session. Le même client doit être connecté sur le même serveur sur plusieurs sessions HTTP/TCP pour retrouver son contexte sur le serveur. Dans ce cas, la règle de load balancing SafeKit est configurée sur l'adresse IP des clients. Ainsi, le même client est toujours connecté sur le même serveur sur plusieurs sessions TCP. Et différents clients sont répartis sur les différents serveurs de la ferme. Cette configuration est à choisir pour les services web à état lorsqu il y a affinité de sessions. Avec un service web sans état, il n'y a pas d'affinité de session. Le même client peut être connecté sur des serveurs différents dans la ferme lors de sessions HTTP/TCP 39 F2 11LT09 11

12 Guide de l'utilisateur de SafeKit successives. Dans ce cas, la règle de load balancing SafeKit est configurée sur l'identité de la session TCP du client. Cette configuration est celle qui répartit le mieux les sessions entre les serveurs mais elle requiert un service TCP sans affinité de session. D'autres algorithmes de partage de charge sont proposés pour des services UDP. 1.4 Combiner les modules miroir et ferme Actif/Actif : 2 modules miroirs en backup l'un de l'autre Deux serveurs actifs en miroir l'un de l'autre Dans une architecture active / active, il y a deux serveurs et deux modules applicatifs miroirs en reprise mutuelle (Appli1.Safe et Appli2.Safe). Chaque serveur applicatif est secours de l'autre serveur applicatif. Utilisateurs Appli1 Appli1 Appli2 Utilisateurs Appli2 PRIM1 SECOND1 SECOND2 PRIM2 Lorsqu'un serveur applicatif est défaillant, les deux applications sont actives sur le serveur applicatif restant. Et après le redémarrage du serveur défaillant, chaque application est de nouveau active sur son serveur primaire par défaut. Un cluster en reprise mutuelle est une solution plus économique que deux clusters miroirs. Il n y a pas de serveur de reprise inactif passant son temps à attendre la panne du serveur primaire et à assurer seulement la reprise applicative. Notez que dans une telle architecture, en cas de défaillance d'un serveur, le serveur restant doit supporter la charge des deux applications F2 11LT09

13 Architectures de haute disponibilité N-1 : N modules miroirs avec un seul backup Backup partagé entre plusieurs serveurs actifs Dans l'architecture N-1, il y a N modules applicatifs de type miroir mis en œuvre sur N serveurs primaires et un seul serveur backup. Utilisateurs Appli1 Appli1 PRIM1 Utilisateurs Appli2 Appli2 PRIM2 SECOND1 SECOND2 SECOND3 Utilisateurs Appli3 Appli3 PRIM3 Si un des N serveurs applicatifs actifs est défaillant, le serveur de secours redémarre l'application qui tournait sur le serveur défaillant. Quand le serveur défaillant redémarre, l'application bascule du serveur de secours vers son serveur d'origine. Dans le cas d'une panne, contrairement à l'architecture actif/actif, le serveur de secours n'est pas surchargé par l'exécution de plusieurs applications. Dans le cas particulier de plusieurs pannes simultanées, toutes les applications défaillantes sont redémarrées sur le serveur de secours. 39 F2 11LT09 13

14 Guide de l'utilisateur de SafeKit Mixte ferme/miroir : partage de charge réseau, réplication de fichiers et reprise sur panne Partage de charge réseau, réplication de fichiers et reprise sur panne Des modules applicatifs ferme et miroir peuvent être mixés sur des serveurs physiques communs. Cette possibilité permet de mettre en œuvre une architecture applicative multi tiers telle que Apache_farm.Safe (ferme avec partage de charge et reprise) et MySQL.Safe (miroir avec réplication de fichiers et reprise) sur des serveurs applicatifs communs. Ferme Apache sur 3 serveurs Apache UP Apache UP Apache UP Miroir MySQL sur 2 serveurs MySQL PRIM SECOND Ainsi, le partage de charge, la réplication de fichiers et la reprise sont mis en œuvre de manière cohérente sur les mêmes serveurs physiques. Ce type d'architecture est propre à SafeKit et unique sur le marché! F2 11LT09

15 2. Installation et configuration 2.1 Installation de SafeKit page Recommandation pour une installation d'un module miroir page Recommandation pour une installation d'un module ferme page Procédure d'upgrade page Désinstallation complète de SafeKit page Documentation produit page Installation de SafeKit Télécharger le package Se connecter à Aller dans <Version 7.1>/Platforms/<Your platform>/current versions Suivant votre OS, choisir le package 32-bits ou 64-bits Répertoires d'installation et espace disque SafeKit est installé dans : SAFE=C:\safekit (Windows si SystemDrive=C:) ou SAFE=/opt/safekit (Unix) SAFE: 50MB SAFEVAR=C:\safekit\var ou SAFEVAR=/var/safekit (Unix) SAFEVAR: 20MB + au moins 20MB (jusqu'à 3 GB avec 1,000,000 fichiers répliqués) par module pour les dumps Installer le package Sur Windows en tant qu'administrateur: safekitwindows_7_1_x_y.msi (32 ou 64 bits) : package standard Windows MSI installer par un double click ou via Control Panel-Add/Remove Programs à la fin, accepter le démarrage de la console web. Voir 3 La console web de SafeKit page 23 Note: pour une installation silencieuse, msiexec /qn /i safekitwindows_7_1_x_y.msi Sur Unix en tant que root: safekit[linux aix]_7_1_x_y.bin (32 ou 64 bits): zip auto extractible exécuter safekit[linux aix]_7_1_x_y.bin unzip = rpm/linux, lpp/aix + script safekitinstall exécuter safekitinstall se connecter à la console web avec un explorateur Internet : IP>:9010. Voir 3 La console web de SafeKit page F2 11LT09 15

16 Guide de l'utilisateur de SafeKit Note: pour une installation silencieuse, run safekitinstall -q Clés de licence SafeKit Si vous n'installez pas de clé, le produit s'arrêtera tous les 3 jours Vous pouvez obtenir une clé d'essai d'un mois gratuit (fonctionne avec n'importe quel hostname/n'importe quel OS): Pour obtenir des clés permanentes basées sur le nom de la machine/os, voir 8.2 Clés de licence permanentes page 101 Sauvegarder la clé dans le fichier SAFE/conf/license.txt sur chaque serveur Vérifier la conformité de la clé avec la commande SAFE/safekit level Caractéristiques spécifiques à chaque OS Sous Windows, il faut appliquer une procédure spéciale pour arrêter proprement les modules SafeKit au shutdown d'une machine et démarrer le service safeadmin au boot : voir 9.2 Commandes de boot et shutdown page 110 Sous Windows, en cas d'interfaces réseau en teaming avec du load balancing SafeKit, il est nécessaire de décocher "Vip" sur les interfaces réseau physiques de teaming et de le conserver coché seulement sur l'interface virtuelle de teaming Sous Windows 2003, l administrateur doit accéder aux propriétés de la carte réseau (l interface sur laquelle une interface virtuelle est définie) et cliquer sur OK pour activer "Vip". Si cela n est pas fait, le démarrage du module SafeKit utilisant cette interface échouera (sur échec de chargement de vip). Cette procédure ne doit être effectuée qu une seule fois.sous Unix, un utilisateur "safekit" et un groupe "safekit" sont créés : tous les utilisateurs du groupe "safekit" + "root" peuvent exécuter les commandes SafeKit Sous Linux en ferme avec load balancing sur adresse IP virtuelle, compilation du module kernel vip au moment de la configuration du module ferme. Pour réussir la compilation, des packages Linux doivent être installés. Pour un module ferme sur RedHat, utiliser Add/Remove Software et chercher/installer les packages make, gcc et le package devel correspondant à votre kernel installé (ex.: kernel-devel). Pour un module ferme sur Suse, utiliser YaST2 et installer les packages gcc, kernel-syms, kernel-source et le package devel correspondant à votre kernel installé (ex.: kernel-devel). Sur SLES11 SP2, utiliser YAST2 et installer les packages gcc et kernel-source. Sous Linux en ferme avec load balancing SafeKit sur une interface de bonding, pas d'arp dans la configuration de bonding. Sinon l'association <adresse IP virtuelle, adresse MAC virtuelle invisible> est cassée dans les caches ARP des clients avec l'adresse MAC physique de la carte de bonding : voir Test adresse IP virtuelle d'un module ferme page 62 Sous Linux en miroir, si utilisation de la réplication de fichiers, retirer le package logwatch (rpm -e logwatch) ; sinon le service NFS et SafeKit seront arrêtés toutes les nuits F2 11LT09

17 Installation et configuration Sous Linux RHEL 5 en miroir, si utilisation intensive de la réplication de fichiers, gel du noyau kernel Linux. Bug du kernel de Red Hat 5 contourné avec un kernel plus récent livré sur Recommandation pour une installation d'un module miroir ip 1.1 ip 1.2 virtual IP = ip 1.10 miroir(app1)= app1 ip 2.1 ip2.2 files1 files Prérequis matériel au moins 2 serveurs avec le même Operating System OS supportés : Contrôleur disque avec cache write-back recommandé pour la performance des IO Prérequis réseau 2 serveurs dans le même réseau IP (LAN ou LAN étendu entre 2 salles machines) 2 réseaux IP entre les 2 serveurs recommandés (meilleure gestion du split brain) dont 1 réseau dédié à la réplication (ip 2.1, ip 2.2) (1GB/s recommandé) 2 adresses IP physiques par serveur (ip 1.1, ip 2.1 et ip 1.2, ip 2.2) 1 adresse IP virtuelle (ip 1.10) Prérequis application L'application est installée et démarre sur les 2 serveurs L'application fournit des commandes en ligne pour démarrer et s'arrêter Sur Unix, commandes du style : su -user "appli-cmd" Sur Windows, commandes du style : net start/stop "service" Si nécessaire, application avec une procédure de reprise suite à un crash serveur Retirer le démarrage automatique au boot de l'application (remplacé par le démarrage d'un module SafeKit) Prérequis réplication de fichiers Les répertoires de fichiers qui seront répliqués sont créés sur les 2 serveurs Ils se situent au même endroit sur les 2 serveurs dans l'arborescence fichier Il vaut mieux synchroniser les horloges des 2 serveurs pour la réplication de fichiers (protocole NTP) Sous Unix, aligner les valeurs des uids/gids sur les 2 serveurs pour les propriétaires des répertoires et fichiers à répliquer Voir aussi Caractéristiques spécifiques à chaque OS page F2 11LT09 17

18 Guide de l'utilisateur de SafeKit 2.3 Recommandation pour une installation d'un module ferme ip 1.1 ip 1.2 ip 1.3 virtual IP = ip 1.20 ip 1.20 ip 1.20 ferme (app2) = app2 app2 app Prérequis matériel au moins 2 serveurs avec le même Operating System OS supportés : Linux : outils de compilation du kernel installés pour le module kernel vip Prérequis réseau Serveurs dans le même réseau IP (LAN ou LAN étendu entre 2 salles machines) 1 adresse IP physique par serveur (ip 1.1, ip 1.2, ip 1.3) 1 adresse IP virtuelle (ip 1.20) : un module kernel réseau vip est apporté par SafeKit pour le load balancing sur ip 1.20 Du côté des serveurs, pour l'adresse ip1.20, carte Ethernet avec protocole Ethernet non taggé et avec IP-V4 ; carte Ethernet supportant le mode promiscuous Vérifier avec le support Evidian la compatibilité du module kernel vip si l'adresse IP virtuelle ip 1.20 est mise sur un driver de teaming (Windows), bonding (Linux), Etherchannel (AIX) : agrégation de liens entre plusieurs cartes Ethernet voir aussi Caractéristiques spécifiques à chaque OS page Prérequis application Les mêmes prérequis que pour un module miroir : voir Prérequis application page F2 11LT09

19 Installation et configuration 2.4 Procédure d'upgrade Quand procéder à un upgrade? Si vous rencontrez un problème avec le produit, consulter le Software Release Bulletin (Anglais HTML) disponible sur pour voir la liste des fixs sur le produit. Si vous souhaitez profiter de nouvelles fonctionnalités, consulter le Release Notes disponible sur Ce document vous indiquera également si vous êtes dans le cas d'un upgrade majeur (ex. 7.0 vers 7.1) qui nécessite d'effectuer une procédure différente de celle présentée ici. La procédure d'upgrade consiste à désinstaller l'ancien package puis à réinstaller le nouveau package Préparer l'upgrade sur chaque serveur à upgrader, passer la commande safekit level pour connaître la version SafeKit installée sur chaque serveur à upgrader, passer la commande safekit module listid pour connaître les modules installés et leurs ids sur chaque serveur à upgrader, noter l'état "on" ou "off" des services et modules démarrés automatiquement au boot : safekit boot webstatus ; safekit boot snmpstatus ; safekit boot status par défaut, tous les modules sur tous les serveurs doivent être arrêtés avant upgrade, ceci pour assurer la cohérence des protocoles réseau qui synchronisent les modules entre les serveurs. Avant d'arrêter les modules, passer la commande safekit state sur chaque serveur à upgrader afin de connaître l'état des modules pour un module miroir, noter le serveur qui est dans l'état ALONE ou PRIM afin de connaître le serveur avec les fichiers répliqués à jour arrêter tous les modules sur tous les serveurs à upgrader avec la commande safekit stop -m <nom module>. Pour un module miroir dans l'état PRIM-SECOND, commencer par l'arrêt du serveur SECOND afin d'éviter un basculement inutile la désinstallation/réinstallation va réinitialiser les logs SafeKit et effacer les dumps de chaque module. Si vous souhaitez conserver les informations sur votre ancienne version (logs et les 3 derniers dumps et configurations), passer la commande safekit snapshot -m <nom module> /chemin/snapshot_xx.zip pour chaque module sur chaque serveur fermer tous les éditeurs, explorateur de fichiers, shells ou cmd sous SAFE et SAFEVAR (au risque sinon que la désinstallation du package se passe mal) Désinstallation sur Windows en tant qu'administrateur, désinstaller SafeKit: Control Panel- Add/Remove Programs sur Unix en tant que root, désinstaller SafeKit : /opt/safekit/safekit uninstall la désinstallation crée un backup automatique des modules installés dans SAFE/Application_Modules/Backup 39 F2 11LT09 19

20 Guide de l'utilisateur de SafeKit Réinstallation installer le nouveau package (voir 2.1 Installation de SafeKit page 15) vérifier avec la commande safekit level la version SafeKit installée et la validité de la licence qui n'a pas été désinstallée. Si vous avez un problème avec le nouveau package et l'ancienne clé, prendre une licence temporaire : voir Clés de licence SafeKit page 16 si vous utilisiez la console web, vider le cache du navigateur web et forcer l actualisation des pages HTML si vous utilisiez la console java, réinstaller la nouvelle console java (safemonitor.jar) livrée avec le package, notamment sur les postes distants : voir 15.1 Installer et démarrer la console SafeKit page 217 passer la commande safekit module listid Si la liste n'est pas vide, les modules n'ont pas été désinstallés (vous avez désinstallé une version produite après Mai 2010) : reconfigurer tous les modules de la liste : console web/ Configuration/ sur le module/ Editer la configuration/ des modules installés ou la commande safekit config m <module name> Si la liste est vide, les modules ont été désinstallés : résinstaller et reconfigurer tous les modules backup (dans l'ordre des ids qu'ils avaient avant désinstallation): avec les commandes en lignes. Voir 9.5 Commandes de configuration page 116 pour installer (dans l'ordre des ids qu'ils avaient avant désinstallation), puis configurer les modules sauvegardés dans SAFE/Application_Modules/backup avec la console web. Voir Configurer un module depuis Application_Modules page 49 pour installer et configurer les modules sauvegardés sous Dossier Application_Modules/ backup repositionner le démarrage automatique au boot des modules qui étaient démarrés au boot : console web/ Contrôle/ sur le nœud/sous-menu Admin/Configurer le démarrage au boot/ ou la commande en ligne safekit boot m <nom module> on Dans tous les cas : dans le cas particulier où le service safewebserver avait été mis en démarrage non automatique au boot, le remettre dans cet état avec safekit boot weboff dans le cas particulier où le service safeagent avait été mis en démarrage automatique au boot, le remettre dans cet état avec safekit boot snmpon dans le cas particulier où SAFE/web/conf/httpd.conf et SAFE/snmp/conf/snmpd.conf ont été personnalisés : reporter les personnalisations dans les nouveaux httpd.conf et snmpd.conf (les personnalisations ont été sauvegardées dans httpd.conf.<date> et snmpd.conf.<date> lors de la désinstallation) Si les modules ont été désinstallés, pour redémarrer les modules après upgrade : module ferme console web/ Contrôle/ sur le module/ Démarrer/ ou la commande safekit start m <nom module> F2 11LT09

21 Installation et configuration module miroir Sur le serveur qui a les fichiers répliqués à jour (ancien PRIM ou ALONE) : console web/ Contrôle/ sur le nœud/démarrer en primaire/ ou la commande safekit prim m <nom module> Sur l autre serveur (ancien SECOND) : console web/ Contrôle/ sur le nœud/démarrer en secondaire/ ou la commande safekit second m <nom module>. L'information pour savoir si les fichiers répliqués sont à jour localement a été perdue avec la désinstallation. Il faut donc avoir noté cette information avant désinstallation Si les modules n'ont pas été désinstallés, pour redémarrer les modules après upgrade : module ferme Console web/ Contrôle/ sur le module/ Démarrer/ ou la commande safekit start m <nom module> module miroir Console web/ Contrôle/ sur le module/ Démarrer/ ou la commande safekit start m <nom module> L'information pour savoir si les fichiers répliqués sont à jour localement n'a pas été perdue 2.5 Désinstallation complète de SafeKit Suivre la procedure décrite ci-dessous pour désinstaller complètement SafeKit. Sur Windows en tant qu Administrateur: arrêter tous les modules à l aide de la commande SAFE/safekit shutdown (SAFE=C:\safekit si SystemDrive=C:) désinstaller SafeKit: Control Panel-Add/Remove Programs redémarrer le serveur détruire le répertoire SAFE qui correspond à l installation précédente de SafeKit défaire les modifications effectuées pour configurer le démarrage au boot/l arrêt au shutdown de SafeKit, ainsi que le paramétrage des règles de pare-feu Sur Unix en tant que root: arrêter tous les modules à l aide de la commande SAFE/safekit shutdown (SAFE=/opt/safekit) désinstaller SafeKit avec la commande SAFE/safekit uninstall all et répondre yes lorsque cela est demandé pour confirmer la destruction de tous les répertoires créés lors de la précédente installation redémarrer le serveur défaire les modifications effectuées pour paramétrer les règles de pare-feu 39 F2 11LT09 21

22 Guide de l'utilisateur de SafeKit 2.6 Documentation produit Guide de l'utilisateur SafeKit (Français, Anglais - PDF et HTML): il s'agit de ce guide. Disponible sur SafeKit Release Notes (Anglais -PDF) : ce document donne les fonctionnalités apportées dans les versions majeures du produit et les procédures de migration. Disponible sur Software Release Bulletin (Anglais - HTML) : ce fichier donne la liste des fixs sur le produit. Disponible sur SafeKit Knowledge Base (Anglais - HTML) : ce fichier donne une liste sélectionnée de KBs SafeKit. D'autres KBs sont disponibles mais nécessitent un compte sur Voir 8 Accès au support Evidian page 101 Formation sur le produit. Disponible sur Tutoriels sur le produit (Français, Anglais). Disponible sur F2 11LT09

23 3. La console web de SafeKit 3.1 Démarrer la console web page Configurer les serveurs SafeKit à administrer avec la console web page Configurer un module avec la console web page Contrôler un module avec la console web page Snapshots d un module pour le support avec la console web page Superviser les modules avec la console web page Gérer les modules avec la console web page Restreindre les accès à la console web page Démarrer la console web Lancer un navigateur web Le navigateur web peut être lancé sur n importe quelle station de travail ou serveur ayant un accès réseau au(x) serveur(s) SafeKit Les réseaux, pare-feu et proxy doivent configurés de manière à permettre l accès au réseau d administration de tous les composants de la grappe de serveurs SafeKit Le navigateur doit autoriser l exécution de Javascript La console web a été validée avec Internet Explorer, Firefox et Chrome. Consulter le Release Notes disponible sur pour les versions supportées pour ces navigateurs. Pour éviter les popups de sécurité avec Internet Explorer, il faut ajouter les adresses des serveurs SafeKit dans la zone des sites de confiance ou la zone d Intranet local du navigateur Les messages dans la console sont affichés en anglais, français, japonais ou chinois en fonction de la configuration de la langue préférée du navigateur (affichage en anglais si la langue n est pas supportée). Les catalogues de messages sont localisés sous SAFE/web/htdocs/jquery.lang/langpack/. Après upgrade de SafeKit, il est nécessaire de vider le cache du navigateur de façon à recharger la nouvelle console web. Pour cela, vous pouvez utiliser un raccourci clavier qui fonctionne pour IE, Firefox, et Chrome. Ouvrez le navigateur sur n importe quelle page web, et pressez en même temps les touches Ctrl, Shift et Suppr. Cela ouvre une fenêtre de dialogue : cochez tous les items puis cliquez le bouton Nettoyer maintenant ou Supprimer. Fermez le navigateur et relancez le. 39 F2 11LT09 23

24 Guide de l'utilisateur de SafeKit Connecter la console à un serveur SafeKit Se connecter à l URL : ou où servername est le nom ou l adresse IP d un serveur SafeKit. Dans la suite, le serveur de connexion est appelé serveur de la console web SafeKit. Le protocole HTTPS est désactivé par défaut. Pour l activer, suivre la procédure décrite en 11 Sécurisation de la console SafeKit avec HTTPS page 129 Avec la console web, vous pouvez administrer le(s) module(s) sur des serveurs SafeKit grâce à cinq zones : Panneau administrer Onglet Onglet Onglet Onglet Réseau d administration : configuration des serveurs SafeKit à Configuration : configuration et installation rapide de modules Contrôle : démarrage/arrêt des modules Supervision : supervision de l état des modules Configuration Avancée : configuration et gestion avancée des modules La console web offre des aides contextuelles en cliquant sur l icône. 3.2 Configurer les serveurs SafeKit à administrer avec la console web Avec la console web de SafeKit, vous pouvez installer, configurer, contrôler, surveiller et effectuer une gestion avancée des modules sur un ou plusieurs serveurs SafeKit. Ces serveurs sont nommés serveurs administrés et peuvent être configurés depuis le panneau Réseau d administration. La plupart du temps, il n est pas nécessaire de saisir la liste des serveurs administrés. Celle-ci est en effet automatiquement construite avec les nœuds de la grappe saisis pendant la configuration d un module (voir Définir le réseau d administration du module page 30). Pour visualiser ou configurer la liste des serveurs administrés : Cliquer sur Réseau d administration pour ouvrir le panneau de configuration. Il affiche la liste des serveurs administrés ainsi que des boutons pour ajouter ou supprimer des serveurs F2 11LT09

25 La console web de SafeKit (1) Cliquer sur le bouton Nouveau nœud pour ajouter un nouveau serveur SafeKit à administrer. (2) Saisir l adresse IP d administration du nœud, puis appuyer sur la touche tabulation pour la complétion automatique du protocole et du port à utiliser par défaut. Entrer l URL complet si ceux-ci ont été modifiés (voir 10.1 Configuration du serveur web de SafeKit page 119). Ne pas mettre localhost ou comme adresse d administration. Le champ URL est coloré en fonction de l accessibilité du nœud. La couleur verte signifie que le server SafeKit est disponible. La couleur rouge signifie que la console web n a pas eu de réponse du serveur dans le délai imparti. Dans cette situation, vous pouvez soit : Résoudre le problème, afin de pouvoir administrer ce nœud. Cela peut être dû à une mauvaise URL, une défaillance du réseau ou du serveur, une mauvaise configuration du navigateur web ou du pare-feu, l arrêt du 39 F2 11LT09 25

26 Guide de l'utilisateur de SafeKit serveur web SafeKit sur le nœud, Décocher la case associée au nœud pour éviter les ralentissements liés à la détection d erreur de connexion sur ce nœud. Laisser cochée la case associée au nœud, s il ne s agit pas d une erreur mais seulement d une lenteur du réseau. (3) Cocher ou décocher la case associée au nœud pour afficher ou ne pas afficher le nœud et les modules installés sur ce nœud dans les onglets Configuration, Contrôle, Supervision et Configuration Avancée. (4) Cliquer sur le bouton pour arrêter d administrer un serveur si besoin. (5) Une fois la configuration terminée, cliquer sur le bouton Confirmer pour sauvegarder la nouvelle liste des serveurs administrés ou sur le bouton Annuler pour annuler les modifications. Le bouton Confirmer est mis en surbrillance lorsqu une modification a eu lieu. (6) Cliquer sur Réseau d administration pour fermer le panneau de configuration. Note : La liste des serveurs administrés est sauvegardée sur le serveur de la console web SafeKit dans le fichier SAFE/Application_Modules/webconsole/servers.xml. Un exemple de contenu de ce fichier : <safe> <server display="on" polling_interval="5000" polling_timeout="10000" uri=" /> <server display="on" polling_interval="5000" polling_timeout="10000" uri=" /> </safe> Vous pouvez éditer ce fichier directement sur le serveur pour changer par exemple les délais et les intervalles de récuperation de l état des modules installés sur chaque serveur, ou pour ajouter/supprimer des serveurs à administrer. Une fois le fichier modifié, vous devez recharger la console web dans le navigateur afin que la nouvelle configuration soit prise en compte. 3.3 Configurer un module avec la console web Cet onglet permet, avec l assistant de configuration, une installation et configuration rapide d un nouveau module et ainsi que la reconfiguration rapide d un module déjà installé F2 11LT09

27 La console web de SafeKit L assistant de configuration permet de saisir uniquement les principaux paramètres de configuration du module et d éditer les scripts de démarrage/arrêt de l application. Si vous avez besoin d affecter d autres paramètres du fichier de configuration userconfig.xml ou d une gestion avancée, achevez la configuration rapide et allez à l onglet Configuration Avancée (voir Configuration avancée d un module page 42). Lors de la reconfiguration d un module installé, l assistant de configuration impose d appliquer la configuration sur tous les nœuds de la grappe du module. Si vous souhaitez l appliquer seulement à une sous-partie, utilisez plutôt l assistant de configuration avancée disponible dans l onglet Configuration Avancée. Dans l onglet Configuration Installer et configurer un nouveau module Cliquer sur pour ouvrir le panneau d installation et de configuration d un nouveau module. 39 F2 11LT09 27

28 Guide de l'utilisateur de SafeKit Pour chaque serveur administré, sont affichés les modèles de modules stockés sur le serveur. Modules génériques Liste les modules génériques mirror.safe et farm.safe. Utiliser un module générique pour l'intégration d'une nouvelle application dans une architecture miroir ou ferme. Ces modules sont stockés sur le serveur administré dans le répertoire SAFE/Application_Modules/generic. Modules applicatifs Liste les modules applicatifs personnalisés pour une application métier donnée. Ces modules sont stockés sous SAFE/Application_Modules/demo. Modules avancés Liste les modules avancés pour une intégration Ces modules sont stockés sous SAFE/Application_Modules/other. Modules sauvegardés Liste les modules stockés sous SAFE/Application_Modules/backup. Ce répertoire est utilisé pour sauvegarder la configuration d un module désinstallé. Une fois votre module construit et validé, vous pouvez le publier comme modèle de module accessible depuis l onglet Configuration en le copiant dans l une de ces zones (voir Publier un modèle de module (.safe) page 47). Configurer and surveiller les modules installés Cliquer sur pour ouvrir le panneau de reconfiguration et de contrôle des modules installés F2 11LT09

29 La console web de SafeKit Ce panneau affiche l état courant des modules installés (sous SAFE/modules) sur les serveurs administrés. Cette liste est vide après une première installation de SafeKit. Les modules installés peuvent être reconfigurés, pour changer des paramètres généraux par exemple, démarrés, arrêtés ou désinstallés Sélectionner le module à configurer Dans l onglet Configuration Installer et configurer un nouveau module Cliquer sur le nom du modèle de module à configurer parmi les modules génériques, applicatifs, avancés ou sauvegardés. Saisir le nom du nouveau module puis cliquer sur le bouton Confirmer pour ouvrir l assistant de configuration. Pour un premier test de SafeKit, sélectionner le module générique mirror.safe ou farm.safe. Configurer et surveiller les modules installés Pour un module déjà installé, cliquer sur le bouton (près du nom du module) pour ouvrir le menu d actions et choisir l action Editer la configuration. Vous devez ensuite sélectionner le nœud à partir duquel vous souhaitez éditer la configuration (ce nœud est nommé serveur source). Puis, cliquez sur le bouton Confirmer pour ouvrir l assistant de configuration. L assistant permet l édition des fichiers de configuration du module qui sont stockés sur le nœud sélectionné. L assistant de configuration propose plusieurs étapes pour aider à la configuration rapide et à l installation du module sur tous les serveurs composant la grappe. Il suffit de saisir les paramètres demandés, puis de cliquer sur le bouton pour passer à l étape suivante. 39 F2 11LT09 29

30 Guide de l'utilisateur de SafeKit L assistant de configuration L assistant de configuration depuis SafeKit est le suivant (exemple pour la configuration d un nouveau module à partir du modèle mirror.safe): L'assistant vous guide à travers le processus de déploiement d'un module : Définir le réseau d administration du module page 30 Cet onglet permet de définir les URL d administration qui seront utilisées pour se connecter aux nœuds de la grappe Editer la configuration du module page 32 Cet onglet permet de saisir uniquement les principaux paramètres de configuration du module Appliquer la configuration du module sur la grappe page 33 Cet onglet est mis en surbrillance dès que la configuration a été modifiée et qu elle nécessite d être appliquée pour être prise en compte. Il impose d appliquer la configuration sur tous les nœuds, sur lesquels le module doit être impérativement arrêté Vérifier le résultat de la configuration page 34 Cet onglet est activé après l application de la configuration effectuée dans l étape précédente Terminer page 34 La configuration est interrompue lorsque l assistant est fermé avant de cliquer sur le bouton Configurer (dans l onglet «Appliquer la configuration»). Mais si vous avez effectué des modifications dans les onglets précédents et les avez validées, celles-ci ont été sauvegardées sur le serveur source. Une fois le bouton Configurer pressé, il n y a pas de moyen d annuler l action Définir le réseau d administration du module Dans l assistant de configuration Onglet Définir le réseau d administration Ce formulaire permet de définir les URL d administration qui seront utilisées pour se connecter aux nœuds de la grappe F2 11LT09

31 La console web de SafeKit (1) Contrôler les valeurs préremplies pour le réseau d administration de la grappe du module. Vous pouvez modifier ces valeurs en saisissant l adresse IP d administration du nœud, puis appuyant sur la touche tabulation pour la complétion automatique du protocole et du port à utiliser par défaut. Entrer l URL complet si ceux-ci ont été modifiés (voir 10.1 Configuration du serveur web de SafeKit page 119). Ne pas mettre localhost ou comme adresse d administration. Le champ URL est coloré en fonction de l accessibilité du nœud. La couleur verte signifie que le server SafeKit est disponible. La couleur rouge signifie que la console web n a pas eu de réponse du serveur dans le délai imparti. Dans cette situation, vous pouvez soit : Résoudre le problème, afin de pouvoir configurer ce nœud. Cela peut être dû à une mauvaise URL, une défaillance du réseau ou du serveur, une mauvaise configuration du navigateur web ou du parefeu, l arrêt du serveur web SafeKit sur le nœud, 39 F2 11LT09 31

32 Guide de l'utilisateur de SafeKit Supprimer le nœud afin de ne pas le configurer. Conserver le nœud (si vous pensez que le nœud est temporairement inaccessible). (2) Ajouter éventuellement d autres nœuds avec le bouton Nouveau nœud (2 nœuds pour une architecure miroir, au moins 2 nœuds pour une architecture ferme) (3) Cliquer sur le bouton Valider pour sauvegarder les modifications et enchaîner sur l étape suivante Pour un premier test de SafeKit, suivre cette procédure afin de définir la grappe pour le module Editer la configuration du module Dans l assistant de configuration Onglet Editer la configuration (1) Remplir le formulaire et éditer les scripts de démarrage/arrêt de l application (2) Cliquer sur le bouton Valider pour sauvegarder les modifications et passer à l étape suivante Ce formulaire permet de saisir uniquement les principaux paramètres de configuration du module. Si vous avez besoin d éditer le fichier userconfig.xml ou d effectuer une configuration avancée, achevez la configuration et allez à l onglet Configuration Avancée (voir Configuration avancée d un module page 42) F2 11LT09

33 La console web de SafeKit Pour un premier test de SafeKit : Appliquer cette procédure pour le module mirror ou farm Se familiariser avec le contrôle et la supervision des modules avant d insérer les démarrage/arrêt de l application dans les scripts Appliquer la configuration du module sur la grappe Dans l assistant de configuration Onglet Appliquer la configuration (1) Contrôler l état du module sur la grappe. S il est «non configuré», aller en (3) (2) Si le module n est pas dans l état STOP (rouge), cliquer sur le bouton pour arrêter le module et attendre l état STOP (rouge) sur tous les nœuds avant d aller en (3). La configuration ne sera possible que lorsque le module sera arrêté sur tous les nœuds. (3) Cliquer sur le bouton Configurer pour appliquer la configuration sur tous les nœuds. Si vous ne voulez pas appliquer la configuration sur tous les nœuds, utilisez plutôt l assistant de configuration avancée disponible dans l onglet Configuration Avancée. Lors de la reconfiguration d un module installé, le répertoire complet de configuration SAFE/modules/<nom module> est détruit et reconstruit à partir des modifications faites dans la console. Du côté serveur, fermer tous les éditeurs, explorateur de fichiers, shells ou cmd sous SAFE/modules/<nom module> (au risque sinon que la configuration se passe mal) Les commandes en ligne équivalentes au bouton Configurer sont: safekit module install m <module name> <chemin d accès au.safe> safekit module setid m <module name>-i <module id> 39 F2 11LT09 33

34 Guide de l'utilisateur de SafeKit safekit config m <module name> La configuration peut prendre un certain temps pour s exécuter sur tous les nœuds de la grappe. Une fois terminée, l onglet Vérifier le résultat est actif Vérifier le résultat de la configuration Dans l assistant de configuration Onglet Vérifier le résultat Cet onglet est rouge si le déploiement a échoué sur au moins un nœud. Il est vert sinon. (1) Lire le résultat du déploiement du chaque nœud: succès : la configuration a réussi erreur de connexion : cette erreur survient sur un échec de connexion avec le nœud. Une fois la connexion rétablie, vous pouvez retourner à l onglet Appliquer la configuration pour retenter de configurer. échec : cette erreur est affichée quand une des commandes exécutées lors de la configuration a échoué. Cliquer sur pour lire la sortie des commandes exécutées sur le nœud et rechercher l erreur. Vous pouvez avoir à modifier les paramètres saisis ou à vous connecter au serveur afin de corriger le problème. Une fois l erreur corrigée, retourner à l onglet Appliquer la configuration pour retenter de configurer. (2) Cliquer sur le bouton Suite ou fermer la fenêtre pour quitter l assistant de configuration Terminer Dans l assistant de configuration Onglet Terminer Cet onglet finalise l assistant de configuration. Son principal intérêt est pour la première configuration et le premier démarrage d un module miroir avec réplication de fichiers. Dans ce cas, il propose de choisir le serveur ayant les répertoires à jour et de le démarrer en primaire (voir 5.3 Premier démarrage d'un module miroir (commande prim) page 79) F2 11LT09

35 La console web de SafeKit 3.4 Contrôler un module avec la console web Dans l onglet Contrôle Par défaut, les modules pouvant être contrôlés sont tous les modules installés sur les serveurs administrés. Ceux-ci peuvent être remplacés par une liste personnalisée de modules, comme cela est décrit en Fichiers sous SAFE/Application_Modules/webconsole/monitor page 192. Pour chaque module : l état courant de l instance du module sur tous les nœuds de la grappe est affiché une action globale (sur tous les nœuds de la grappe) ou locale (uniquement sur un nœud) peut être exécutée, et l état détaillé du module sur le nœud peut être visualisé (1) Cliquer sur un nœud pour visualiser l état détaillé du module sur ce nœud Tous les serveurs affichés sous le module sont ceux saisis comme composant la grappe de serveurs pendant la configuration. Le nœud sélectionné est mis en évidence par une couleur bleue. (2) Analyser le contenu du panneau de droite qui représente l état détaillé du nœud sélectionné sélectionner l onglet Ressources pour visualiser l état des ressources du module. Survoler avec le curseur le nom de la ressource pour afficher son nom interne. L état des ressources est contrôlé par la failover machine pour provoquer des basculements en cas de défaillance (voir Failover machine (<failover> tag) page 181). sélectionner l onglet Journal du module pour lire le contenu du journal de SafeKit pour le module. Cocher ou décocher la case Journal détaillé pour afficher le journal complet (tous les messages y compris les messages de debug) ou non (seulement les messages I et E). Voir aussi 7 Résolution de problèmes page F2 11LT09 35

36 Guide de l'utilisateur de SafeKit sélectionner l onglet Journal applicatif pour lire les messages de sortie des scripts applicatifs. Ils sont sauvegardés sur le serveur dans le fichier SAFEVAR/modules/<module name>/userlog.<module name>. sélectionner l onglet Journal des commandes pour afficher les commandes exécutées sur le nœud (commandes s appliquant au module sélectionné ainsi que les commandes globales). sélectionner l onglet Informations pour contrôler les versions du serveur et de SafeKit, ainsi que pour vérifier la configuration du module. Il s agit de la configuration active, c est-à-dire la dernière configuration appliquée avec succès. Elle peut être différente de celle présente sous Modules installés si celle-ci a été modifiée (par une configuration partielle ou lors d une configuration avancée pas encore appliquée). Depuis les onglets Journal du module, Journal applicatif et Journal des commandes, cliquer sur le bouton pour recharger les derniers messages et sur le bouton pour sauvegarder le journal localement. (3) Si vous le souhaitez, cliquer sur l icône afin d afficher l état détaillé dans une nouvelle fenêtre (4) Cliquer sur le bouton au niveau du module. Cela ouvre un menu pour Démarrer ou Arrêter le module sur tous les nœuds de la grappe (5) Cliquer sur le bouton au niveau d un nœud. Cela ouvre un menu qui contient toutes les actions exécutables sur le nœud. Cela inclut les actions de Démarrer et Arrêter localement le module, ainsi que des commandes utiles au contrôle et à la supervision du module, ainsi qu au support. Pour un premier test de SafeKit sur un module ferme: (1) Cliquer sur le bouton au niveau du module (2) Sélectionner le démarrage ou l arrêt global du module. Une fenêtre de dialogue demande une confirmation puis affiche le résultat de l action uniquement si elle a échoué. (3) Patienter jusqu à ce que le module passe dans l état attendu. Si l état du module n est pas celui attendu, analyser l état détaillé du module sur chaque nœud. Pour le premier démarrage d un module miroir, il ne faut pas utiliser le démarrage global du module: voir 5.3 Premier démarrage d'un module miroir (commande prim) page F2 11LT09

37 La console web de SafeKit voir 5.5 Démarrage d'un module miroir avec les données à jour ( STOP (rouge) - WAIT (rouge)) page 81 Il faut effectuer un démarrage individuel comme indiqué dans la suite. (1) Cliquer sur le bouton au niveau d un nœud. (2) Sélectionner Démarrer en primaire si le nœud possède les répertoires répliqués à jour ; sinon, sélectionner Démarrer en secondaire. Une fenêtre de dialogue demande une confirmation puis affiche le résultat de l action uniquement si elle a échouée. (3) Patienter jusqu à ce que le module passe dans l état attendu. Si l état n est pas celui attendu, analyser l état détaillé du module sur le nœud. Pour continuer les tests d'un module miroir ou ferme, voir 4 Tests page 51. Pour comprendre et vérifier le bon fonctionnement d'un module : voir 5 Administration d'un module miroir page 77 voir 6 Administration d'un module ferme page Snapshots d un module pour le support avec la console web Dans l onglet Contrôle Choisir le module et le nœud (1) cliquer sur le bouton au niveau d un nœud. Cela ouvre un menu avec les actions exécutables sur le nœud. (2) sélectionner Prendre un snapshot dans le sous-menu Support La console Web s'appuie sur les paramètres de téléchargement du navigateur web pour sauvegarder le snapshot sur la station de travail. Répéter cette opération sur tous les nœuds de la grappe. Envoyer tous les snapshots au support (voir 8 Accès au support Evidian page 101) 39 F2 11LT09 37

38 Guide de l'utilisateur de SafeKit La prise de snapshot d un module pour un nœud est possible depuis tous les onglets de la console web (onglets Configuration, Contrôle, Supervision et Configuration Avancée). Note : Un dump crée un directory "dump_<date>_<heure>" du côté serveur sous SAFEVAR/snapshot/modules/<nom module>. Le directory "dump_<date>_<heure>" contient le journal du module (verbeux et non verbeux) et des informations sur l'état du système et des processus SafeKit au moment du dump Un snapshot crée un dump puis récolte sous SAFEVAR/snapshot/modules/<nom module> les 3 derniers dumps et les 3 dernières configurations du module pour les mettre dans le fichier.zip F2 11LT09

39 La console web de SafeKit 3.6 Superviser les modules avec la console web Dans l onglet Supervision Par défaut, les modules surveillés sont tous les modules installés sur les serveurs administrés. Vous pouvez changer le format d affichage des modules en fonction de vos besoins. La liste par défaut peut être remplacée par une liste personnalisée de modules, comme cela est décrit en Fichiers sous SAFE/Application_Modules/webconsole/monitor page 192. Pour chaque module : l état courant de l instance du module sur tous les nœuds de la grappe est affiché une action globale (sur tous les nœuds de la grappe) ou locale (uniquement sur un nœud) peut être exécutée. Cliquer sur le bouton pour ouvrir le menu d actions. Pour plus d'information sur les changements d'état : voir 5.2 Automate d'état d'un module miroir (STOP, WAIT, ALONE, PRIM, SECOND - rouge, magenta, vert) page 78 voir 6.2 Automate d'état d'un module ferme (STOP, WAIT, UP - rouge, magenta, vert) page F2 11LT09 39

40 Guide de l'utilisateur de SafeKit 3.7 Gérer les modules avec la console web Dans l onglet Configuration Avancée Onglet du serveur administré Il présente un onglet pour chaque serveur administré. Cliquer sur un onglet de serveur administré pour changer de serveur. L onglet d un serveur offre un gestionnaire de modules et de fichiers, organisé en cinq zones. En faisant un clic droit sur une entrée, un menu contextuel s ouvre. (a) Modules installés sur le serveur sélectionné Liste de tous les modules installés sur le serveur (stockés sous SAFE/modules/<nom du module> du côté serveur). L icône des modules installés est : (bleu) lorque la configuration du module n est pas modifiée par rapport à la dernière configuration appliquée (pourpre) lorsqu au moins un des fichiers de configuration du module a été modifé par rapport à la dernière configuration appliquée. Dans ce cas, vous devez appliquer la nouvelle configuration pour que les changements soient pris en compte. Vous pouvez parcourir et modifier le contenu du module pour la configuration avancée (voir Configuration avancée d un module page 42). Le clic droit sur un module propose un menu avec les opérations autorisées (appliquer la configuration, F2 11LT09

41 La console web de SafeKit vérifer la configuration ). Le clic droit sur un fichier ou répertoire propose un menu avec les opérations courantes d un gestionnaire de fichiers (copier, coller ). L ouverture d un répertoire s effectue par simple clic. Cliquer sur le nom du module pour activer le panneau de contrôle (b) sur le module. (b) Panneau de contrôle d un module installé sur le serveur sélectionné Il permet de contrôler le module sélectionné et affiche l état détaillé du module sur chaque nœud. Cela est similiaire à ce qui est fourni par l onglet Contrôle. L onglet Informations affiche le résumé de la configuration active du module qui est la dernière configuration appliquée avec succès. Elle peut être différente de celle présente sous Modules installés si celle-ci a été modifiée sans être appliquée. Dans ce cas, l icône pour le module est (pourpre). (c) Dernières Configs d un module installé sur le serveur sélectionné Pour chaque module, SafeKit conserve une copie des trois dernières configurations réussies (sockées sous SAFE/modules/lastconfig du côté serveur). L ensemble des fichiers de configuration du module sont empaquetés dans un fichier.safe, dont le nom est du type <module name>_<date>_<heure>. Pour restaurer une ancienne configuration, clique droit sur le.safe et sélectionner l opération Restaurer la configuration. Cela ouvre l assisant de configuration (voir L assistant de configuration page 30) avec le contenu de la configuration sauvegardée. (d) Dossier Application_Modules sur le serveur sélectionné Cette zone affiche le contenu du répertoire SAFE/Application_Modules sur le serveur sélectionné. Elle sert de: dépôt des modèles de modules (sous generic, demo et other) zone de sauvegarde des modules (sous backup) espace de travail pour la mise en œuvre de nouveaux modèles de modules 39 F2 11LT09 41

42 Guide de l'utilisateur de SafeKit Pour copier les fichiers d un module installé ou d une ancienne configuration, faire un clic droit sur la source et choisir l opération Sauvegarder dans Application_Modules. (e) Journal des commandes du serveur sélectionné Cette zone affiche, en mode synthétique, le journal des commandes safekit exécutées sur le serveur (voir 10.6 Journal des commandes du serveur SafeKit page 127) Configuration avancée d un module Pour la configuration avancée, suivre les étapes suivantes : Editer les fichiers de configuration page Appliquer la configuration page Editer les fichiers de configuration L édition des fichiers de configuration est nécessaire quand vous avez besoin : d intégrer des options de configuration avancée dans le fichier userconfig.xml (voir 12 Userconfig.xml page 141). éditer les scripts pour intégrer le démarrage/arrêt de votre application (voir 13 Scripts applicatifs de l'utilisateur page 185). Voir aussi 14 Exemples de userconfig.xml et scripts utilisateurs page 197. Pour cela : Dans l onglet Configuration Avancée Onglet du serveur administré Modules installés F2 11LT09

43 La console web de SafeKit (1) Parcourir le module (contenu du répertoire SAFE/modules/<module name> sur le serveur). Cliquer pour ouvrir les répertoires. (2) Cliquer sur un fichier pour l éditer. userconfig.xml est sous conf, et les scripts sont sous bin. L éditeur possède un mode syntaxique XML dédié au fichier userconfig.xml. Cliquer sur le radio bouton «Texte /XML» pour basculer du mode texte pur au mode XML intelligent. En mode XML : cliquer sur le bouton «Insérer» active le mode insertion. Dans ce mode, les tags XML valides possibles apparaissent en caractères gras de couleur verte, tandis que les attributs supplémentaires possibles apparaissent en italique de couleur verte. Un clic sur ce type de tag ou d attribut en insère une copie à l endroit approprié. cliquer sur le bouton «Supprimer» active le mode «suppression». Dans ce mode, cliquer sur un tag ou un attribut supprime celui-ci du document. Lorsque la souris est positionnée sur un élément de ce type, la portion du document concernée par l éventuelle suppression est affichée en rouge et rayée. (3) Sauvegarder les modifications depuis l éditeur sur le serveur (4) Fermer la fenêtre de l éditeur Pour un premier test de SafeKit : appliquer cette procédure au module mirror ou farm ouvrir le fichier userconfig.xml pour visualiser son contenu ouvrir les scripts start et stop pour voir où insérer l appel aux procédures de démarrage et d'arrêt de l'application 39 F2 11LT09 43

44 Guide de l'utilisateur de SafeKit Appliquer la configuration Dans l onglet Avancée Configuration Onglet du serveur administré Modules installés Faire un clic droit sur le pour ouvrir le menu module Choisir Appliquer la configuration qui ouvre l assistant de configuration avancée L assistant de configuration avancée L'assistant vous guide à travers le processus de configuration avancée d'un module. Il permet d appliquer la configuration du module qui peut être modifiée en éditant directement les fichiers de configuration (voir Editer les fichiers de configuration page 42) Sélectionner les nœuds page 44 Cet onglet permet de sélectionner les nœuds sur lesquels appliquer la configuration. Appliquer la configuration sur un seul nœud dans un premier temps, peut être utile pour tester la nouvelle configuration sur ce nœud avant de l appliquer aux autres nœuds de la grappe Appliquer la configuration sur les nœuds sélectionnés page 45 La configuration est appliquée uniquement sur les nœuds sélectionnés précédemment Vérifier le résultat de la configuration page 46 Cet onglet est activé après l application de la configuration effectuée dans l étape précédente Sélectionner les nœuds Dans l assistant de configuration avancée Onglet Sélectionner les nœuds F2 11LT09

45 La console web de SafeKit Par défaut, tous les nœuds de la grappe sont sélectionnés. (1) Cocher la case pour appliquer la configuration sur le nœud ; la décocher pour ne pas l appliquer. Si nécessaire, changer la définition de réseau d administration du module de la même manière que cela est proposé dans l assistant de configuration (voir Définir le réseau d administration du module page 30) (2) Cliquer sur le bouton Valider si le formulaire a été modifié et enchaîner sur l étape suivante Appliquer la configuration sur les nœuds sélectionnés Dans l assistant de configuration avancée Onglet Appliquer la configuration Cet onglet est identique à celui de l assistant de configuration ( Appliquer la configuration du module sur la grappe page 33) mais avec comme différences majeures : seuls les nœuds sélectionnés dans l onglet précédent sont affichés lors du clic sur le bouton Configurer, il n y a pas de contrôle que le module est bien arrêté sur tous les nœuds. Cela implique que la configuration peut être appliquée alors que le module est démarré. Dans ce cas, il y a une tentative de faire une reconfiguration dynamique. Celle-ci réussit uniquement si : le module est dans l état ALONE (vert) ou WAIT (rouge) seuls des paramètres autorisés à être reconfigurés dynamiquement ont été modifiés dans le fichier userconfig.xml (voir 12 Userconfig.xml page 141) Si vous ne souhaitez pas faire de reconfiguration dynamique, arrêter le module sur tous les nœuds avant de cliquer sur le bouton Configurer. 39 F2 11LT09 45

46 Guide de l'utilisateur de SafeKit Vérifier le résultat de la configuration Dans l assistant de configuration Onglet Vérifier le résultat Cet onglet est identique à celui de l assistant de configuration (voir Vérifier le résultat de la configuration page 34) Désinstaller un module Dans l onglet Configuration ou l ongle Configuration Cliquer sur le bouton du module pour ouvrir le menu d actions sur le module et selectionner Désinstaller Cela ouvre une fenêtre de dialogue qui permet de sélectionner les nœuds sur lesquels le module sera désinstallé. (1) cocher la case pour désinstaller le module sur ce nœud ; la décocher pour ne pas désinstaller (2) cliquer sur le bouton Confirmer pour exécuter la désinstallation du module sur les nœuds sélectionnés Note : avant désinstallation, fermer tous les éditeurs, explorer de fichiers, shells ou cmd sous SAFE/modules/<nom module> et SAFEVAR/modules/<nom module> (au risque sinon que la désinstallation du module se passe mal) après désinstallation, le module désinstallé est stocké dans le répertoire SAFE/Application_Modules/backup du côté serveur Les commandes en ligne équivalentes au bouton uninstall sont successivement : safekit deconfig m <nom module> safekit module package m <nom module> SAFE/Application_Modules/backup/<nom module>.safe safekit module uninstall m <nom module> F2 11LT09

47 La console web de SafeKit Publier un modèle de module (.safe) Une fois votre module construit et validé, vous pouvez le publier comme modèle de module accessible depuis l onglet Configuration. Pour cela : Dans l onglet Configuration Avancée Onglet du serveur administré Modules installés Clic droit sur le module à publier et choisir Sauver dans Application_Modules Aller sous Dossier Application_Modules Clic droit sur la copie du module pour le Renommer avec le nom du modèle (par exemple appli) Il faut à présent modifier les fichiers de configuration du module de manière à le rendre utilisable comme modèle : Parcourir le répertoire appli Editer le fichier conf/userconfig.xml afin de supprimer les valeurs spécifiques à votre configuration. Cliquer sur le fichier pour ouvrir l éditeur. Modifier les autres fichiers s ils contiennent aussi des paramètres spécifiques De manière optionnelle, éditer le fichier web/index.html (voir Fichiers pour la console web page 191) pour modifier le formulaire affiché dans l onglet Editer la configuration de l assistant de configuration. Si le fichier index.html n existe pas, c est le fichier web/index.lua qui est utilisé. Celui-ci est aussi utilisé par l ancienne console java. Votre module est maintenant prêt à être publié comme décrit ci-dessous. 39 F2 11LT09 47

48 Guide de l'utilisateur de SafeKit Clic droit sur le module, puis Empaqueter. Cette action crée le.safe correspondant au module dans le répertoire Clic droit sur Couper appli.safe file, puis Clic droit sur demo, puis Coller Le module appli.safe devient visible dans l onglet Configuration Si vous souhaitez rendre votre modèle accessible depuis l onglet nouveau serveur SafeKit : Dans l onglet Configuration Avancée Onglet du serveur administré Dossier Application_Modules Configuration d un F2 11LT09

49 La console web de SafeKit Sauvegarder le modèle sur votre station de travail Clic droit sur appli.safe, puis Sauvegarder. La console Web s'appuie sur les paramètres de téléchargement du navigateur web pour sauvegarder le fichier sur la station de travail. Ou Copier le fichier appli.safe sur le nouveau serveur SafeKit sous SAFE/Application_Modules/demo. Connecter la console web au nouveau serveur SafeKit, puis aller sur l onglet Configuration Avancée. Clic droit sur Dossier Application_Modules, puis charger.safe pour télécharger le.safe depuis votre station de travail. Enfin déplacer le.safe sous demo. A la prochaine connexion de la console web sur le nouveau serveur SafeKit (ou au rafraîchissement de la page), appli.safe sera visible dans l onglet Configuration Configurer un module depuis Application_Modules Vous pouvez avoir besoin de configurer un module présent sous Application_Modules, par exemple un modèle présent dans le répertoire demo, un module sauvegardé automatiquement (sous backup) ou manuellement. Pour cela : Dans l onglet Configuration Avancée Onglet du serveur administré Dossier Application_Modules Clic droit sur un.safe, puis Editer la configuration. Cela ouvre l assistant de configuration (voir L assistant de configuration page 30). Cet assistant permet uniquement une configuration basique du module. Si vous avez besoin d une configuration avancée, Dépaqueter le.safe, puis éditez directement les fichiers de configuration dans l arborescence du module. Clic droit sur le module dépaqueté, puis choisir Appliquer la configuration qui ouvre l assistant de configuration avancée (voir L assistant de configuration avancée page 44) Vous pouvez stocker un module externe dans la zone Application_Modules, afin de le déployer ultérieurement : Dans l onglet Configuration Avancée Onglet du serveur administré 39 F2 11LT09 49

50 Guide de l'utilisateur de SafeKit Clic droit sur Dossier Application_Modules, puis choisir Charger.safe depuis la station de travail 3.8 Restreindre les accès à la console web Trois rôles sont définis : Le rôle Admin accorde tous les droits d'administration (onglets Configuration, Contrôle, Supervision et Configuration Avancée) Le rôle Control accorde les droits de contrôle et de monitoring (onglets Contrôle et Supervision) Le rôle Monitor accorde uniquement le droit de monitoring (onglet Supervision) Restriction basée sur le port de connexion Elle consiste à changer de port en fonction du rôle souhaité : rôle Admin (onglets Configuration, Contrôle, Supervision et Configuration Avancée) C est le rôle par défaut offert en se connectant à l URL rôle Control (onglets Contrôle et Supervision) Se connecter à l URL pour restreindre les droits au contrôle et au monitoring rôle Monitor (onglet Supervision) Se connecter à l URL pour restreindre les droits au monitoring Restriction basée sur une authentification basique Voir la section Configuration HTPP avec de l'authentification utilisateur page 122 pour configurer une authentification utilisateur basique lorsque les utilisateurs utilisent la console web de SafeKit Restriction basée sur des certificats clients Les rôles sont fournis au moyen de certificats clients SSL. Cela permet non seulement d offrir du contrôle d accès mais aussi des communications sécurisées, avec HTTPS, entre les consoles web et les serveurs web de SafeKit. Suivre la procédure décrite en 11 Sécurisation de la console SafeKit avec HTTPS page 129 pour configurer l utilisation de certificats entre les serveurs web SafeKit et les navigateurs F2 11LT09

51 4. Tests 4.1 Installation et tests après boot page Tests d'un module miroir page Tests d'un module ferme page Tests des checkers communs à un miroir et une ferme page Installation et tests après boot Test installation package Installation du package: safekit p retourne : Windows : "SAFE=C:\safekit" "SAFEVAR=C:\safekit\var" Unix : "SAFE=/opt/safekit" "SAFEVAR=/var/safekit" SAFE - Répertoire d'installation de SafeKit : C:\safekit sur Windows si SystemDrive=C: et /opt/safekit sur Unix SAFEVAR - Répertoire des fichiers de travail de SafeKit : C:\safekit\var sur Windows et /var/safekit sur Unix L'édition de userconfig.xml d'un module miroir (/ferme) et de ses scripts start_prim(/both), stop_prim(/both) est réalisée dans la console web/ Configuration Avancée/ (voir Configuration avancée d un module page 42) ou dans SAFE/modules/<module name> Les messages de sortie des scripts applicatifs sont dans la console web/ Contrôle/Sélection du nœud/onglet Journal applicatif/ ou dans SAFEVAR/modules/<module name>/userlog.<module name>. Vérifier s'il ya des erreurs dans le démarrage/arrêt de l'application. Attention parfois le userlog est désactivé car trop volumineux avec dans userconfig.xml du module <user logging="none"> Pour plus d'informations, voir 10.5 Variables d'environnement et répertoires à connaître page F2 11LT09 51

52 Guide de l'utilisateur de SafeKit Test licence et version safekit level retourne Host : <hostname> OS : <OS version> SafeKit : <SafeKit version> License : No Invalid Product Invalid Host Expiration <license id> for <hostname> or License : Expired license "No" signifie qu'il n'y a pas de fichier SAFE/conf/license.txt : le produit s'arrête tous les 3 jours "Invalid Product" signifie que la licence a expiré dans SAFE/conf/license.txt "Invalid Host" signifie que le hostname est invalide dans SAFE/conf/license.txt " Expiration " indique une clé temporaire "<license id> for <hostname>" indique une clé permanente pour obtenir une clé temporaire d'un mois pour n'importe quel hostname/os pour obtenir une clé permanente basée sur le hostname et l'os Test des services et processus SafeKit après boot Voir aussi 9.2 Commandes de boot et shutdown page F2 11LT09

53 Tests Test du service safeadmin : Le processus safeadmin doit apparaître dans la liste des processus Sans ce processus, aucune commande safekit n'est réalisable et rend : "Waiting for safeadmin..." "Error: safeadmin administrator daemon not running" Sur Windows, safedamin est un service et il se démarre dans l'interface Services de Windows Sur Unix, safeadmin est démarré par service safeadmin start sur Linux et par /etc/rc.d/init.d/safeadmin start sur AIX Test du service safewebserver : safekit boot webstatus retourne le démarrage ou non du service safewebserver au boot ("on" ou "off", "on" par défaut) Les processus httpd doivent apparaître dans la liste des processus Sans ces processus, la console web n'arrive pas à se connecter aux serveurs ; les checkers de <module> (userconfig.xml) et les commandes globales au cluster ne peuvent pas fonctionner Pour démarrer/arrêter le service safewebserver, safekit webserver start [sync] stop [sync] restart [sync] Test du service safeagent : safekit boot snmpstatus retourne le démarrage ou non du service safeagent au boot ("on" ou "off", "off" par défaut) Le processus safeagent doit apparaître dans la liste des processus Pour démarrer/arrêter le service safeagent taper, safekit safeagent start [sync] stop [sync] restart [sync] Test des modules : safekit boot status retourne le démarrage ("on") ou non ("off") des modules au boot safekit state retourne l'état de tous les modules configurés : STOP (miroir ou ferme), WAIT (miroir ou ferme), ALONE (miroir), PRIM (miroir), SECOND (miroir), UP (ferme) vérifier les processus d'un module : voir 10.4 Processus et services SafeKit page 125 safekit module listid retourne le nom des modules installés et leurs ids : l'id d'un module doit être le même sur tous les serveurs aller dans SAFE/modules/<module name>/conf ; le fichier userconfig.xml donne le type de module, mirror ou farm: <service mode="mirror"> ou <service mode="farm"> 39 F2 11LT09 53

54 Guide de l'utilisateur de SafeKit Test démarrage de la console web connecter un navigateur web à IP>:9010 la page d'accueil de la console web apparaît 4.2 Tests d'un module miroir Test start d'un module miroir sur 2 serveurs STOP (rouge) message dans les logs du module sur les 2 serveurs (console web/ Contrôle /Sélection du nœud/onglet Journal du module/ ou la ligne de commande SAFE/safekit logview -m <module name>) "Action start called by web@<ip>/system/root" le module va dans l'état stable PRIM (vert) et SECOND (vert) sur les 2 serveurs avec dans le 1 er log "Remote state SECOND green" "Local state PRIM green" et dans le 2 nd log "Local state SECOND green" "Remote state PRIM green" l'application est démarrée dans le script start_prim du module PRIM avec le message dans son log "Script start_prim" Test stop d'un module miroir sur le serveur PRIM (vert) message dans le journal du module arrêté (console web/ Contrôle /Sélection du nœud/onglet Journal du module/ ou la ligne de commande SAFE/safekit logview -m <module name>) "Action stop called by web@<ip>/system/root" le module arrêté exécute le script stop_prim qui arrête l'application sur le serveur avec le message dans son journal : "Script stop_prim" le module arrêté devient STOP (rouge) avec les messages dans son journal : "End of stop" "Local state STOP red" le module sur le serveur de reprise devient son journal : "Reason of failover: remote stop" ALONE (vert) avec le message dans l'application est redémarrée avec le script start_prim script du module qui passe dans l'état ALONE sur le serveur de reprise avec le message dans son journal : "Script start_prim" F2 11LT09

55 Tests Test start du module miroir dans l'état STOP (rouge) message dans le journal du module redémarré (console web/ Contrôle /Sélection du nœud/onglet Journal du module/ ou la ligne de commande SAFE/safekit logview -m <module name>) "Action start called by le module STOP (rouge) devient SECOND (vert) le module sur l'autre serveur passe de ALONE (vert) à PRIM (vert) et continue à exécuter l'application Test restart du module miroir dans l'état PRIM (vert) message dans le journal du module redémarré (console web/ Contrôle /Sélection du nœud/onglet Journal du module/ ou la ligne de commande SAFE/safekit logview -m <module name>) "Action restart called by le module PRIM devient PRIM (magenta) puis PRIM (vert) les scripts du module stop_prim/start_prim sont exécutés sur le module PRIM et redémarre localement l'application avec les messages dans son journal : "Script stop_prim" "Script start_prim" l'autre serveur reste SECOND (vert) Test swap du module miroir d'un serveur vers l'autre message dans le journal du module où la commande swap est passée (console web/ Contrôle /Sélection du nœud/onglet Journal du module/ ou la ligne de commande SAFE/safekit logview -m <module name>) "Action swap called by web@<ip>/system/root" "Transition SWAP from SYSTEM" "Begin of Swap" Et dans le journal du module sur l'autre serveur, seulement : "Begin of Swap" inverse les rôles de PRIM et SECOND entre les 2 serveurs le script stop_prim est d'abord exécuté sur l'ancien module PRIM avec dans son journal : "Script stop_prim" puis le script start_prim est exécuté sur le nouveau module PRIM avec dans son journal : "Script start_prim" à la fin du swap, le module PRIM (vert) et le module SECOND (vert) sont inversés sur les 2 serveurs et l'application s'exécute sur le module PRIM 39 F2 11LT09 55

56 Guide de l'utilisateur de SafeKit Test adresse IP virtuelle d'un module miroir Module miroir dans l'état PRIM (vert) sur le serveur ip1.1 et SECOND (vert) sur le serveur ip1.2. userconfig.xml : <vip> <interface_list> <interface arpreroute="on"> <real_interface> <virtual_addr addr="ip1.10" where="one_side_alias"/> </real_interface> </interface> </interface_list> </vip> 1. Sur une station de travail externe (ou un serveur) dans le même LAN, ping des 2 adresses IP physiques + adresse IP virtuelle : ping ip1.1 ping ip1.2 ping ip1.10 arp a 2. safekit swap m AM sur un des 2 serveurs 3. Sur la station de travail externe (ou le serveur) dans le même LAN, ping ip1.1 ping ip1.2 ping ip1.10 arp a Note: refaire le ping vers ip1.10 avant de regarder la table ARP car l'entrée peut être marquée obsolète et est rafraichie après le ping 1. Sur le serveur ip1.1, ipconfig ou ifconfig retourne ip1.10 en alias sur l'interface réseau ip 1.1 Sur la station externe (ou le serveur), les 3 pings répondent Sur la station externe (ou le serveur) dans le même LAN, ip1.10 est mappé sur l'adresse MAC de ip1.1 arp a ip1.1 ip1.2 ip c-29-0a-5c-fc 00-0c c-29-0a-5c-fc 2. Après le swap avec SECOND (vert) sur serveur ip1.1 et PRIM (vert) sur serveur ip1.2 Dans le journal du nouveau PRIM, message : "Virtual IP <ip1.10 of mirror> set" 3. Sur le serveur ip1.2, ipconfig ou ifconfig retourne ip1.10 en tant qu'alias sur l'interface réseau de ip 1.2 Sur la station externe (ou le serveur), les 3 pings répondent Sur la station externe (ou le serveur), ip1.10 est mappé sur l'adresse MAC de ip1.2 arp a ip1.1 ip1.2 ip c-29-0a-5c-fc 00-0c c F2 11LT09

57 Tests Test réplication de fichiers d'un module miroir Module miroir dans l état PRIM (vert) sur serveur ip1.1 et SECOND (vert) sur serveur ip1.2. userconfig.xml : <rfs> <replicated dir "/replicated" mode="read_only" /> (ou "C:\replicated") </rfs> 1. Sur le serveur PRIM (vert), aller sous /replicated et créer 1 fichier file1.txt 2. Sur le serveur SECOND (vert), aller sous /replicated et essayer de détruire file1.txt 3. Arrêter le serveur PRIM (vert) et attendre qu'il soit STOP (rouge). Puis aller sur l'autre serveur devenu ALONE (vert) et créer un nouveau fichier file2.txt 4. Redémarrer le serveur STOP (rouge) et attendre qu'il soit SECOND (vert). 1. Le fichier file1.txt a été répliqué sur le serveur SECOND (vert) sous /replicated 2. Echec car le répertoire répliqué /replicated est en lecture seule sur le serveur SECOND (vert) 3. Le fichier file2.txt n'est pas répliqué dans /replicated sur le serveur STOP (rouge) 4. Le fichier file2.txt est réintégré sur le serveur redémarré. Pendant la phase de réintégration, le serveur est SECOND (magenta) Dans le journal du serveur réintégré, message "Updating directory tree from /replicated" Et à la fin de la réintégration de /replicated, lorsqu'au moins 1 fichier avec des données modifiées a été réintégré de la machine primaire vers la machine secondaire, message "Copied <reintegration statistics>" "Reintegration ended (synchronize)" Ce message donne les statistiques de réintégration du répertoire : taille réintégrée, nombre de fichiers, temps, débit sur le réseau de réplication en KB/sec Note : réintégrer un fichier de plus de 100 MB pour avoir des statistiques fiables A la fin de la réintégration, le serveur est SECOND (vert) 39 F2 11LT09 57

58 Guide de l'utilisateur de SafeKit Test shutdown d'un module miroir sur le serveur PRIM (vert) sur Windows, vérifier que la procédure spéciale d'arrêt des modules au shutdown a été réalisée: voir 9.2 Commandes de boot et shutdown page 110 effectuer un shutdown du serveur vérifier dans le journal du serveur "Reason of failover: remote stop" PRIM (vert) SECOND (vert) le message le serveur SECOND (vert) devient ALONE (vert); l'application dans le script start_prim du module est redémarrée sur le serveur ALONE avec le message dans le log "Script start_prim" sur timeout dans la console web, l'ancien serveur PRIM (vert) devient gris après reboot du serveur arrêté, vérifier que le shutdown de l'os a réellement appelé avec un shutdown du module avec le message "Action shutdown called by SYSTEM" vérifier que le script stop_prim de l'application a été exécuté avec le message "Script stop_prim" et vérifier que le module a été complètement arrêté avant le shutdown du serveur avec le dernier message "End of stop" après reboot du serveur arrêté, si le module est automatiquement démarré au boot (safekit boot status), message dans le log "Action start called at boot time" après démarrage du module sur le serveur arrêté, le module devient (vert) sur ce serveur et PRIM (vert) sur l'autre serveur SECOND F2 11LT09

59 Tests Test power-off d'un module miroir sur le serveur PRIM (vert) userconfig.xml : <heart> <heartbeat> <server addr="ip1.1"/> <server addr="ip1.2"/> </heartbeat > <heartbeat ident="flow"> <server addr="ip2.1"/> <server addr="ip2.2"/> </heartbeat > </heart> Note : si vous voulez faire un test de double panne électrique simultanée sur les deux serveurs, vérifier que <rfs async="none"> est positionné dans userconfig.xml. Pour plus d'information, voir Solution de réplication synchrone qui ne perd pas de données en cas de panne page 10 dans le journal du serveur SECOND (vert), message pour tous les heartbeats définis dans userconfig.xml "Resource heartbeat.0 set to down by heart" "Resource heartbeat.flow set to down by heart" "Remote state UNKNOWN grey" "Reason of failover: no heartbeat" les messages apparaissent après 30 secondes suite au power-off (si aucun timeout configuré dans la section <heart> de userconfig.xml) le serveur SECOND (vert) devient ALONE (vert) ; l'application dans le script start_prim du module est redémarrée sur le serveur ALONE avec le message dans son log "Script start_prim" sur timeout dans la console web, l'ancien serveur PRIM (vert) devient gris après reboot du serveur arrêté, si le module est démarré automatiquement au boot (safekit boot status), message dans le log "Action start called at boot time" after reboot, message dans le journal : "Previous halt unexpected" après redémarrage du module sur le serveur arrêté, le module devient SECOND (vert) sur ce serveur et PRIM (vert) sur l'autre serveur 39 F2 11LT09 59

60 Guide de l'utilisateur de SafeKit Test split brain avec un module miroir Le split brain se produit en situation d'isolation réseau entre les deux serveurs SafeKit. Chaque serveur devient primaire ALONE et tourne l'application. Au retour du split brain, un sacrifice doit être réalisé en arrêtant l'application sur un seul des deux serveurs. Module miroir dans l état SECOND (vert) userconfig.xml : PRIM (vert) et <heart> <heartbeat> <server addr="ip1.1"/> <server addr="ip1.2"/> </heartbeat > <heartbeat ident="flow"> <server addr="ip2.1"/> <server addr="ip2.2"/> </heartbeat > </heart> + sur Windows pour gérer le conflit d'adresse IP sur la <vip> ip1.10 <check> <custom ident="ipconflict" when="prim" exec="%safebin%\ipconflictcheck.exe" arg="-d A wait ip1.10" /> </check> <failover> <![CDATA[ ipconflict: if ((custom.ipconflict == down) ) then stopstart(); ]]> </failover> Pour obtenir le split brain, vérifier qu'il n'y a pas de checkers dans userconfig.xml qui peuvent détecter l'isolation : pas de <interface check="on"> ou de <ping> checker 1. déconnecter en même temps tous les réseaux avec heartbeat (réseau entre ip1.1 et ip 1.2 et réseau entre ip 2.1 et ip 2.2) 2. reconnecter les réseaux après isolation réseau des deux serveurs, tous les heartbeats sont perdus. Dans les logs des 2 serveurs, "Resource heartbeat.0 set to down by heart" "Resource heartbeat.flow set to down by heart" "Remote state UNKNOWN grey" "Local state ALONE green" cas de split brain : les 2 serveurs sont ALONE (vert) et exécute l'application démarrée dans start_prim lorsque les réseaux de heartbeat sont reconnectés, sacrifice d'un des 2 serveurs ALONE : l'ancien serveur SECOND journal de l'ancien PRIM non sacrifié : "Remote state ALONE green" "Split brain recovery: staying alone" journal de l'ancien SECOND sacrifié : "Remote state ALONE green" "Split brain recovery: exiting alone" "Script stop_prim" Le serveur réalise un stopstart : arrêt de l'application avec stop_prim puis réintégration des fichiers répliqués à partir de l'autre serveur retour à l'état PRIM (vert) et SECOND (vert) sur les 2 serveurs tel qu'ils étaient avant split brain Note : la situation de split brain dans un module miroir avec réplication est malsaine. En effet, le sacrifice de l'ex secondaire provoque la réintégration des données sur ce serveur à partir de la primaire et la perte des données enregistrées sur la secondaire pendant la situation de split brain. Pour cette raison, 2 voies de heartbeat sur 2 réseaux physiquement distincts sont conseillées. Typiquement, un câble entre les deux serveurs va permettre (1) d'éviter le split brain avec un réseau supplémentaire de heartbeat et (2) de faire passer le flux de réplication Continuer les tests de votre module miroir avec les checkers Aller à 4.4 Tests des checkers communs à un miroir et une ferme page F2 11LT09

61 Tests 4.3 Tests d'un module ferme Test start d'un module ferme sur les serveurs STOP (rouge) message dans les logs de tous les serveurs (console web/ Contrôle /Sélection du nœud/onglet Journal du module/ ou la ligne de commande SAFE/safekit logview -m <module name>) "Action start called by le module va dans l'état UP (vert) sur tous les serveurs l'application est démarrée dans le script start_both du module sur tous les serveurs avec le message dans les logs "Script start_both" Test stop d'un module ferme sur un serveur UP (vert) message dans le journal du serveur arrêté (console web/ Contrôle /Sélection du nœud/onglet Journal du module/ ou la ligne de commande SAFE/safekit logview -m <module name>) "Action stop called by le serveur arrêté exécute le script stop_both qui arrête l'application sur le serveur avec le message dans le log "Script stop_both" le module sur le serveur arrêté devient son journal : "End of stop" "Local state STOP red" l'autre serveur reste redémarrer le serveur STOP (rouge) avec les messages dans UP (vert) et continue à exécuter l'application STOP (rouge) avec la commande start Test restart d'un module ferme sur un serveur UP (vert) message dans le journal du module où la commande restart est passée (console web/ Contrôle /Sélection du nœud/onglet Journal du module/ ou la ligne de commande SAFE/safekit logview -m <module name>) "Action restart called by web@<ip>/system/root" le module redémarré devient UP (magenta) puis devient UP (vert) les scripts du module stop_both/start_both sont exécutés sur le serveur et redémarre localement l'application avec les messages dans le log "Script stop_both" "Script start_both" 39 F2 11LT09 61

62 Guide de l'utilisateur de SafeKit Test adresse IP virtuelle d'un module ferme Configuration avec vmac_invisible Module ferme dans l état UP (vert) sur les 3 serveurs ip1.1, ip1.2 userconfig.xml avec load balancing sur le service safewebserver (port TCP 9000) : <farm> <lan> <node name="node1" addr="ip1.1"/> <node name="node2" addr="ip1.2"/> </lan> </farm> <vip> <interface_list> <interface> <virtual_interface type="vmac_invisible" > <virtual_addr addr="ip1.20" where="alias"/> </virtual_interface> </interface> </interface_list> <loadbalancing_list> <group name="farmproto"> <rule port="9000" proto="tcp" filter="on_port"/> </group> </loadbalancing_list> </vip> Sur un poste (ou un serveur) externe dans le même LAN, ping des 2 IP physiques + IP virtuelle + arp a Dans le journal de tous les serveurs : "Vitual IP <ip1.20 of farm> set" Sur les 2 serveurs, ipconfig ou ifconfig retourne ip1.20 en alias de l'interface réseau de ip1.1 et ip1.2 Sur une station de travail (ou un serveur) du même LAN, les pings répondent et ip1.20 est mappée sur l'adresse MAC virtuelle : ping ip1.1; ping ip1.2; ping ip1.20; arp a ip c-29-0a-5c-fc ip c ip1.20 5a-fe-c0-a Note: par défaut, l'adresse MAC virtuelle est une adresse Ethernet unicast construite avec 5A:FE (SAFE) et l'adresse IP virtuelle en hexadécimale F2 11LT09

63 Tests Configuration avec vmac_directed Module ferme dans l état UP (vert) sur les 3 serveurs ip1.1, ip1.2 userconfig.xml avec load balancing sur le service safewebserver (port TCP 9000) : <farm> <lan> <node name="node1" addr="ip1.1"/> <node name="node2" addr="ip1.2"/> </lan> </farm> <vip> <interface_list> <interface arpreroute= on > <virtual_interface type="vmac_directed" > <virtual_addr addr="ip1.20" where="alias"/> </virtual_interface> </interface> </interface_list> <loadbalancing_list> <group name="farmproto"> <rule port="9000" proto="tcp" filter="on_port"/> </group> </loadbalancing_list> </vip> Sur un poste (ou un serveur) externe dans le même LAN, ping des 2 IP physiques + IP virtuelle + arp a Dans le journal de tous les serveurs : "Vitual IP <ip1.20 of farm> set" Sur les 2 serveurs, ipconfig ou ifconfig retourne ip1.20 en alias de l'interface réseau de ip1.1 et ip1.2 Sur une station de travail (ou un serveur) du même LAN, les pings répondent et ip1.20 est mappée sur l'adresse MAC de l un des deux serveurs: ping ip1.1; ping ip1.2; ping ip1.20; arp a ip c-29-0a-5c-fc ip c ip c F2 11LT09 63

64 Guide de l'utilisateur de SafeKit Test load balancing TCP sur une adresse virtuelle Le module ferme est dans l'état UP (vert) sur les 2 serveurs ip1.1, ip1.2. Même configuration de load balancing dans userconfig.xml que le test précédent. Sur une station distante : 1. Se connecter à l'url osaic.html. node1, node2 répondent 2. stop du module sur node2. Rechargement de l'url. Seul node1 répond Commande spéciale pour vérifier la bitmap de load balancing sur le port 9000 et sur chaque nœud UP (vert) : safekit r vip_if_ctrl l Une entrée de la bitmap de 256 bits doit être à 1 sur un seul serveur De plus, les 256 bits sont distribués de manière équitable dans les bitmaps de tous les serveurs UP (vert) (si pas de définition de la variable power dans userconfig.xml) UP (vert) sur les 2 serveurs : load balancing des sessions TCP entre node1, node2 en chargeant l'url Dans les ressources du module, pour node1 et node2 : FarmProto 50%. Exemple de logs avec node1 et node2 "farm membership: node1 node2 (group FarmProto)" "farm load: 128/256 (group FarmProto)" 128/256: 128 bits sur 256 sont gérés par chacun des serveurs safekit r vip_if_ctrl l sur node1 et node2 : Bitmap 1: : : : : ffffffff:ffffffff:ffffffff:ffffffff Bitmap 2:ffffffff:ffffffff:ffffffff:ffffffff: : : : Les bits sont équitablement répartis entre les 2 serveurs STOP (rouge) sur node2: les sessions TCP sont servies par node1 lorsqu'on charge l'url Dans le journal de node1 : "farm membership: node1 (group FarmProto)" "farm load: 256/256 (group FarmProto)" 256/256: tous les bits sont gérés par node1 safekit r vip_if_ctrl l sur node1: Bitmap 1:ffffffff:ffffffff:ffffffff:ffffffff: ffffffff:ffffffff:ffffffff:ffffffff F2 11LT09

65 Tests Test split brain avec un module ferme Le split brain se produit en situation d'isolation réseau entre les serveurs SafeKit. Le module ferme est UP (vert) UP (vert) sur les serveurs ip1.1, ip1.2. Même configuration de load balancing dans userconfig.xml que le test précédent. Pour obtenir le split brain, vérifier qu'il n'y a pas de checker pouvant détecter l'isolation : pas de <interface check="on"> ou de checker <ping>. Sur la station externe: 1. Se connecter à l'url= ekit/mosaic.html. node1 and node2 répondent 2. déconnecter le réseau entre ip1.1 et ip 1.2.Suivant l'endroit où se trouve la station externe, node 1 ou node 2 répond ou 3. reconnecter le réseau et se connecter à l'url Même commande spéciale que le test précédent pour vérifier la bitmap de load balancing sur le port 9000 sur chaque nœud UP (vert) avant split brain, état UP (vert) UP (vert) : Dans les ressources du module, pour node1 et node2 : FarmProto 50% Dans les logs de node1 et node2: "farm membership: node1 node2 (group FarmProto)" "farm load: 128/256 (group FarmProto)" 128/256: 128 bits sur 256 sont gérés par chacun des serveurs safekit r vip_if_ctrl l sur node1 et node2 : Bitmap 1: : : : : ffffffff:ffffffff:ffffffff:ffffffff Bitmap 2:ffffffff:ffffffff:ffffffff:ffffffff: : : : Les bits sont équitablement répartis entre les 2 serveurs après isolation réseau, split brain : Dans les ressources du module, pour node1 et node2 : FarmProto 100% dans le journal de node1 : "farm membership: node1 (group FarmProto)" "farm load: 256/256 (group FarmProto)" 256/256 : tous les bits sont gérés par node 1 safekit r vip_if_ctrl l on node1: Bitmap 1:ffffffff:ffffffff:ffffffff:ffffffff: ffffffff:ffffffff:ffffffff:ffffffff dans le journal de node 2: "farm membership: node2 (group FarmProto)" "farm load: 256/256 (group FarmProto)" 256/256: tous les bits sont gérés par node 2 Bitmap 2:ffffffff:ffffffff:ffffffff:ffffffff: ffffffff:ffffffff:ffffffff:ffffffff après split brain lorsque le réseau est reconnecté entre ip1.1 et ip1.2, les mêmes messages peuvent être trouvés dans le journal et les mêmes bitmaps que ceux avant split brain Note: le comportement par défaut d'une ferme en situation de split brain est correct. La recommandation est de mettre dans userconfig.xml un réseau de surveillance <lan> </lan>, là où se trouve l'adresse IP virtuelle. Note : En vmac_directed, les messages dans le journal et le résultat de vip_if_ctrl sont différents. 39 F2 11LT09 65

66 Guide de l'utilisateur de SafeKit Test de la compatibilité du réseau avec l'adresse MAC invisible (vmac_invisible) Prérequis réseau Une adresse MAC Ethernet unicast 5a-fe-xx-xx-xx-xx est associée à l'adresse virtuelle ip1.20 d'un module ferme. Elle n'est jamais présentée par les serveurs SafeKit en tant qu'adresse Ethernet source (MAC invisible). Les switchs ne peuvent donc pas localiser cette adresse. Lorsqu'ils font suivre un paquet à destination de l'adresse MAC 5afe-xx-xx-xx-xx, ils doivent broadcaster le paquet sur tous les ports du LAN ou VLAN où se situe l'adresse IP virtuelle (flooding). Et tous les serveurs de la ferme reçoivent donc les paquets à destination de l'adresse MAC virtuelle 5a-fe-xx-xx-xx-xx. Noter que ce prérequis n'existe pas pour un module miroir : voir Test adresse IP virtuelle d'un module miroir page Prérequis serveur Les paquets remontent dans les cartes Ethernet mises en mode promiscuous par SafeKit. Et les paquets sont filtrés par le module kernel <vip> suivant la bitmap de load balancing. Pour réaliser le test, il faut un outil de monitoring du réseau. Ex. monitoring réseau sur Unix : tcpdump host ip1.20 : capture tous les paquets réseau tous les serveurs sont UP (vert) le monitoring réseau est lancé dans chaque serveur en filtrant sur ip1.20 une console externe envoie un seul ping vers l'adresse IP virtuelle avec ping n (ou c) 1 ip1.20 résultat : 1 paquet "ICMP: Echo: From ipconsole To ip1.20" envoyé et reçu par l'ensemble des serveurs résultat : il doit y avoir autant de paquets "ICMP: Echo Reply: To ipconsole From ip1.20" qu'il y a de serveurs UP (vert) si ce n'est pas le cas, vérifier si des options restreignent le "port flooding" dans les switchs et empêche le broadcast de "ICMP: Echo" vers tous les serveurs attention : la restriction "port flooding" dans les switchs peut avoir lieu après un certain nombre de flooding (temps, nombre de KB floodés) : le test ping est à répéter sur plusieurs heures en créant du flooding sur l'adresse IP virtuelle Note : pour éviter les outils de monitoring réseau, une console externe Linux peut être utilisée. Le ping Linux permet de vérifier les paquets dupliqués revenant des 3 serveurs UP (vert) : ping ip bytes from ip1.20 icmp_seq=1 64 bytes from ip1.20 icmp_seq=1 (DUP!) 64 bytes from ip1.20 icmp_seq=1 (DUP!) 64 bytes from ip1.20 icmp_seq=2 64 bytes from ip1.20 icmp_seq=2 (DUP!) 64 bytes from ip1.20 icmp_seq=2 (DUP!)... Ce test peut être réalisé pendant plusieurs heures en stockant l'output du ping dans un fichier et en vérifiant ensuite qu'il y a eu des (DUP!) tout le temps : date > /tmp/ping.txt ; ping ip1.20 >> /tmp/ping.txt F2 11LT09

67 Tests Test shutdown d'un module ferme sur un serveur UP (vert) sur Windows, vérifier que la procédure spéciale d'arrêt des modules au shutdown a été réalisée : voir 9.2 Commandes de boot et shutdown page 110 effectuer un shutdown d'un serveur les autres serveurs restent UP (vert) sur timeout de la console web, l'ancien serveur UP (vert) et continuent à exécuter l'application UP (vert) devient gris après reboot du serveur arrêté, vérifier que le shutdown de l'os a réellement appelé un shutdown du module avec le message "Action shutdown called by SYSTEM" vérifier que le script stop_both de l'application a été exécuté avec le message "Script stop_both" et vérifier que le module a été complètement arrêté avant le shutdown du serveur avec le dernier message "End of stop" après reboot du serveur arrêté, si le module est automatiquement démarré au boot (safekit boot status), message dans le log "Action start called at boot time" après démarrage du module sur le serveur arrêté, le module devient UP (vert) sur ce serveur et il exécute le script start_both qui redémarre l'application sur le serveur avec le message dans le log "Script start_both" Test power-off d'un module ferme sur un serveur UP (vert) les autres serveurs restent sur timeout dans la console web, l ancien serveur UP (vert) et continuent à exécuter l applicatif UP (vert) devient gris après reboot du serveur arrêté, si le module est démarré automatiquement au boot (safekit boot status), message dans le log "Action start called at boot time" après reboot, message dans le log "Previous halt unexpected" après redémarrage du module sur le serveur rebooté, le module devient UP (vert) et il exécute le script start_both qui relance l applicatif sur ce serveur avec le message dans le log "Script start_both" Continuer les tests du module ferme avec les checkers Aller à 4.4 Tests des checkers communs à un miroir et une ferme page F2 11LT09 67

68 Guide de l'utilisateur de SafeKit 4.4 Tests des checkers communs à un miroir et une ferme Test <errd>: checker de processus avec action restart ou stopstart Dans userconfig.xml : <errd> <proc name="appli.exe" atleast="1" action="restart " class="prim "/> </errd> name="appli.exe" atleast="1": au moins un processus "appli.exe" doit s'exécuter class="prim" (miroir) : checker lancé sur le serveur PRIM ou ALONE (vert) après script start_prim (arrêté avant stop_prim) class="both" (ferme) : checker lancé sur tous les serveurs UP (vert) après script start_both (arrêté avant stop_both) action="restart" : si "appli.exe" n'est pas présent, action restart qui applique seulement les scripts stop_xx ; start_xx action="stopstart" : si "appli.exe" n'est pas présent, action stopstart qui arrête totalement le module puis le redémarre Kill du processus "appli.exe" sur le serveur a-prim b-alone c-up (vert) : le module devient a-prim b-alone c-up (magenta) sur le serveur messages dans le journal : "event atleast on proc appli.exe" "Action restart stopstart called by errd" dans le cas restart, le module redevient a-prim b-alone c-up (vert) sur le serveur dans le cas stopstart, le module redevient a-second b-alone c-up (vert) sur le serveur. Un stopstart sur PRIM (vert) provoque le basculement du primaire sur l'autre serveur dans le cas stopstart, message dans le log "Action start called automatically" Reproduire le test sur le même serveur s'il tourne toujours l'application (cas ALONE ou UP (vert)) : avec les valeurs par défaut de maxloop="3" et loop_interval="24" (userconfig.xml <service>) au bout de 4 kills sur un même serveur, le module devient STOP (rouge) dans le log, message avant l'arrêt : "Stopping loop" F2 11LT09

69 Tests Test <tcp> checker de l'applicatif local avec action restart ou stopstart Dans userconfig.xml : <tcp ident="id" when="prim "> <to addr="ip.virtual" port="idport" interval="10" timeout="5" /> </tcp> <failover> <![CDATA[ tcpid_failure: if (tcp.id == down) then stopstart(); ]]> </failover> le checker vérifie que l'application tcp lancée sur le port idport répond à des demandes de connexion addr="ip.virtual", port="idport" : connexions TCP testées sur l'adresse IP ip.virtual et sur le port TCP idport interval="10", timeout="5" par défaut : test fait toutes les 10 secondes et avec un timeout de 5 secondes when="prim" (miroir) : checker lancé sur le serveur PRIM ou ALONE (vert) après script start_prim (arrêté avant stop_prim) when="both" (ferme) : checker lancé sur tous les serveurs UP (vert) après script start_both (arrêté avant stop_both) action restart() : règle de failover par défaut ; si la connexion TCP locale échoue, action restart qui applique seulement les scripts stop_xx ; start_xx action stopstart() : si la connexion TCP locale échoue, action stopstart qui arrête totalement le module puis le redémarre Arrêter l'application qui écoute sur le port idport sur le serveur a-prim b-alone c-up (vert) : le module devient a-prim b-alone c-up (magenta) sur le serveur messages dans le journal : "Resource tcp.id set to down by tcpcheck" "Action restart stopstart from failover rule tcpid_failure " dans le cas restart, le module redevient a-prim b-alone c-up (vert) sur le serveur dans le cas stopstart, le module redevient a-second b-alone c-up (vert) sur le serveur. Un stopstart sur PRIM (vert) provoque le basculement du primaire sur l'autre serveur dans le cas stopstart, message dans le log "Action start called automatically" Reproduire le test sur le même serveur s'il tourne toujours l'application (cas ALONE ou UP (vert)) : avec les valeurs par défaut de maxloop="3" et loop_interval="24" (userconfig.xml <service>) au bout de 4 arrêts de l'application sur un même serveur, le module devient STOP (rouge) dans le log, message avant l'arrêt : "Stopping loop" 39 F2 11LT09 69

70 Guide de l'utilisateur de SafeKit Test <tcp> checker d'un service externe avec action wait Dans userconfig.xml : <tcp ident="id" when="pre"> <to addr="ip.externe" port="idport" interval="10" timeout="5" /> </tcp> <failover> <![CDATA[ tcpid_failure: if (tcp.id== down) then wait(); ]]> </failover> le checker vérifie que le service TCP externe (ip.externe, idport) répond à des demandes de connexion interval="10", timeout="5" par défaut : test fait toutes les 10 secondes et avec un timeout de 5 secondes when="pre" lancé au tout début du démarrage du module après le script prestart (et arrêté avant poststop) si la connexion TCP échoue, le checker met la ressource tcp.id à down. La règle de failover sur le TCP checker exécute l'action stopwait qui arrête l'applicatif et met le module dans l'état WAIT en attente de tcp.id repositionné à up par le checker Arrêter le service TCP (ip.externe, idport) sur le serveur a-prim b-alone c- SECOND d-up (vert) : messages dans le journal : "Resource tcp.id set to down by tcpcheck" "Action wait from failover rule tcpid_failure" dans tous les cas, le module devient WAIT (rouge) sur le serveur Redémarrer le service TCP externe : messages dans le log "Resource tcp.id set to up by tcpcheck" "Transition WAKEUP from failover rule Implicit_WAKEUP" le module redémarre sur le serveur en a-second b-alone c-second d- UP (vert) Reproduire le test sur le même serveur : avec les valeurs par défaut de maxloop="3" et loop_interval="24" (userconfig.xml <service>) au bout de 4 redémarrages sur un même serveur, le module devient STOP (rouge) dans le log, message avant l'arrêt : "Stopping loop" Note : ce test permet de tester la connectivité d'un serveur à un service externe. Mais si le service externe est en panne ou s'il est inatteignable sur tous les serveurs, tous les serveurs vont en WAIT (rouge) et l'application est indisponible F2 11LT09

71 Tests Test <interface check="on"> sur une interface réseau locale avec action wait Dans userconfig.xml : <vip> <interface_list> <interface check="on">  </interface> </interface_list> </vip> Régle de failover par défaut = wait Un checker vérifie que le câble Ethernet est connecté dans l'interface du réseau ip.0 où est définie l'adresse IP virtuelle Si le câble est déconnecté, le checker met la ressource intf.ip.0 à down. La règle de failover sur les interfaces checkers exécute l'action stopwait qui arrête l'applicatif et met le module dans l'état WAIT en attente de intf.ip.0 repositionne à up par le checker Note : ne pas utiliser check="on" sur des interfaces de bonding ou teaming car ces interfaces apportent leurs propres mécanismes de reprise d'interface à interface Retirer le câble Ethernet de la carte du réseau ip.0 sur le serveur a-prim b- ALONE c-second d-up (vert) : messages dans le journal : "Resource intf.ip.0 set to down by intfcheck" "Action wait from failover rule interface_failure" "Transition WAIT_TR from failover rule interface_failure" dans tous les cas, le module devient WAIT (rouge) sur le serveur Remettre le câble : messages dans le journal "Resource intf.ip.0 set to up by intfcheck" "Transition WAKEUP from failover rule Implicit_WAKEUP" le module redémarre sur le serveur en a-second b-alone c-second d- UP (vert) Reproduire le test sur le même serveur : avec les valeurs par défaut de maxloop="3" et loop_interval="24" (userconfig.xml <service>) au bout de 4 redémarrages sur un même serveur, le module devient STOP (rouge) dans le log, message avant l'arrêt : "Stopping loop" 39 F2 11LT09 71

72 Guide de l'utilisateur de SafeKit Test <ping> checker avec action wait Dans userconfig.xml : <ping ident="id" when="pre"> <to addr="ip.device" interval="10" timeout="5"/> </ping> Régle de failover par défaut = wait le checker vérifie qu'un composant externe (ex. : un routeur) avec l'adresse ip.device répond au ping interval="10", timeout="5" par défaut : test fait toutes les 10 secondes et avec un timeout de 5 secondes when="pre" lancé au tout début du démarrage du module après le script prestart (et arrêté avant poststop) si le ping ne répond pas, le checker met la ressource ping.id à down. La règle de failover sur les pings checkers exécute l'action stopwait qui arrête l'applicatif et met le module dans l'état WAIT en attente de ping.id repositionné à up par le checker Rompre la liaison réseau entre le composant externe pingé et le serveur a-prim b-alone c-second d-up (vert) : messages dans le journal : "Resource ping.id set to down by pingcheck" "Action wait from failover rule ping_failure" dans tous les cas, le module devient WAIT (rouge) sur le serveur Rétablir la liaison réseau : messages dans le journal "Resource ping.id set to up by pingcheck" "Transition WAKEUP from failover rule Implicit_WAKEUP" le module redémarre sur le serveur en a-second b-alone c-second d- UP (vert) Reproduire le test sur le même serveur : avec les valeurs par défaut de maxloop="3" et loop_interval="24" (userconfig.xml <service>) au bout de 4 redémarrages sur un même serveur, le module devient STOP (rouge) dans le log, message avant l'arrêt : "Stopping loop" Note : ce test permet de tester la connectivité d'un serveur au réseau. Mais si le composant externe est en panne et si le ping échoue sur tous les serveurs, tous les serveurs vont en WAIT (rouge) et l'application est indisponible F2 11LT09

73 Tests Test <module> checker avec action wait Dans userconfig.xml du module X, test d'un autre module othermodule: userconfig.xml du module X : <module name="othermodule"> <to addr="ip" interval="10" timeout="5"/> </module> le checker vérifie le module othermodule sur son adresse IP virtuelle ip interval="10", timeout="5" par défaut : test fait toutes les 10 secondes et avec un timeout de 5 secondes Si le module othermodule n'est pas démarré, le module X reste dans l'état WAIT en attente de son démarrage Le module X réalise un stopstart lorsque le module othermodule est redémarré Note : si le module X est un module miroir qui utilise la réplication de fichiers et en raison de la règle notuptodate_server, vous pouvez rencontrer un comportement incorrect avec le module X bloqué dans un état WAIT si l'action stopstart arrive pendant la transition SECOND vers ALONE Arrêter le module othermodule. Et démarrer le module X sur tous ses serveurs messages dans le journal du module X "Resource module.othermodule_ip set to down by modulecheck "Action wait from failover rule module_failure" le module X devient sur tous les serveurs WAIT (rouge) Démarrer le module othermodule : messages dans le journal du module X "Resource module.othermodule_ip set to up by modulecheck" "Transition WAKEUP from failover rule Implicit_WAKEUP" le module X démarre sur tous ses serveurs en (vert) Faire safekit restart m othermodule messages dans le journal du module X : "stopstart called by modulecheck" le module X s'arrête puis redémarre Reproduire le test sur le même serveur : avec les valeurs par défaut de maxloop="3" et loop_interval="24" (userconfig.xml <service>) au bout de 4 redémarrages sur un même serveur, le module devient STOP (rouge) dans le log, message avant l'arrêt : "Stopping loop" 39 F2 11LT09 73

74 Guide de l'utilisateur de SafeKit Test <custom> checker avec action wait Dans userconfig.xml : <custom ident="id" when="pre" exec="customscript" > </custom> le script SAFE/module/<nom>/bin/ customscript est un custom checker : une boucle avec un test sur une ressource when="pre" : custom checker lancé sur tous les serveurs PRIM, ALONE, SECOND ou UP (vert) après script prestart (arrêté avant poststop) Passage par une ressource pour réaliser l'action : Dans le script customscript : sur erreur : SAFE/safekit set -r custom.id v down i customscript sur succès : SAFE/safekit set -r custom.id v up i customscript + Dans userconfig.xml : <failover> <![CDATA[ customid_failure: if (custom.id == down) then wait(); ]]> </failover> action stopwait : si le custom checker met la ressource à down, action stopwait qui arrête totalement le module puis le redémarre en mode WAIT (rouge) et en attente du passage à up de la ressource par le custom checker Provoquer l'erreur testée par le custom checker sur le serveur a-prim b-alone c-second d-up (vert) : messages dans le journal : "Resource custom.id set to down by customscript" "Action wait from failover rule customid_failure" "Transition WAIT_TR from failover rule customid_failure" dans tous les cas, le module devient WAIT (rouge) sur le serveur Réparer l'erreur testée par le custom checker : messages dans le log "Resource custom.id set to up by customscript" "Transition WAKEUP from failover rule Implicit_WAKEUP" le module redémarre sur le serveur en a-second b-alone c-second d- UP (vert) Reproduire le test sur le même serveur : avec les valeurs par défaut de maxloop="3" et loop_interval="24" (userconfig.xml <service>) au bout de 4 redémarrages sur un même serveur, le module devient STOP (rouge) dans le log, message avant l'arrêt : "Stopping loop" F2 11LT09

75 Tests Test <custom> checker avec action restart ou stopstart Dans userconfig.xml : <custom ident="id" when="prim " exec="customscript" > </custom> le script SAFE/module/<nom>/bin/ customscript est un custom checker : une boucle avec un test sur l'application intégrée dans les scripts when="prim" (miroir) : custom checker lancé sur le serveur PRIM ou ALONE (vert) après script start_prim (arrêté avant stop_prim) when="both" (ferme) : custom checker lancé sur tous les serveurs UP (vert) après script start_both (arrêté avant stop_both) Sur erreur, action restart ou stopstart : cas (1) via une règle de failover : Dans le script customscript : sur erreur : SAFE/safekit set -r custom.id v down i customscript sur succès : SAFE/safekit set -r custom.id v up i customscript Dans userconfig.xml : <failover> <![CDATA[ customid_failure: if (custom.id == down) then restart(); ]]> </failover> ou <failover> <![CDATA[ customid_failure: if (custom.id == down) then stopstart(); ]]> </failover> cas (2) via une action directe dans le script customscript sur erreur : SAFE/safekit restart -i customscript ou SAFE/safekit stopstart -i customscript action restart : applique seulement les scripts stop_xx ; start_xx action stopstart : arrête totalement le module puis le redémarre Provoquer l'erreur testée par le custom checker sur le serveur a-prim b-alone c- UP (vert) : le module devient a-prim b-alone c- UP (magenta) sur le serveur messages dans le journal cas (1) "Resource custom.id set to down by customscript" "Action restart stopstart from failover rule customid_failure" "Transition RESTART STOPSTART from failover rule customid_failure" messages dans le journal cas (2) "Action restart stopstart called by customscript" dans le cas restart, le module redevient a-prim b-alone c-up (vert) sur le serveur dans le cas stopstart, le module redevient a-second b-alone c-up (vert) sur le serveur. Un stopstart sur PRIM (vert) provoque le basculement du primaire sur l'autre serveur dans le cas stopstart, message dans le log "Action start called automatically" Reproduire le test sur le même serveur s'il tourne toujours l'application (cas ALONE ou UP (vert)) : avec les valeurs par défaut de maxloop="3" et loop_interval="24" (userconfig.xml <service>) au bout de 4 redémarrages sur un même serveur, le module devient STOP (rouge) dans le log, message avant l'arrêt : "Stopping loop" Note sur cas (2) : sur une action directe dans le custom checker, le compteur loop est incrémenté si < i identité> est passé à la commande restart ou stopstart. Sans identité, SafeKit considère qu'il s'agit d'une opération d'administration. Le compteur est remis à 0 et il n'y a pas de stop au bout de 4 redémarrages. 39 F2 11LT09 75

76 Guide de l'utilisateur de SafeKit F2 11LT09

77 5. Administration d'un module miroir 5.1 Mode de fonctionnement d'un module miroir page Automate d'état d'un module miroir (STOP, WAIT, ALONE, PRIM, SECOND - rouge, magenta, vert) page Premier démarrage d'un module miroir (commande prim) page Différents cas de réintégration (utilisation des bitmaps) page Démarrage d'un module miroir avec les données à jour ( STOP (rouge) - WAIT (rouge)) page Mode de réplication dégradé ( ALONE (vert) dégradé) page Reprise automatique ou manuelle (failover="off" - STOP (rouge) - WAIT (rouge)) page Serveur primaire par défaut (swap automatique après réintégration) page La commande prim échoue : pourquoi? (commande primforce) page Utiliser une troisième machine de remplacement page Mode de fonctionnement d'un module miroir Pour tester un module miroir, voir 4.2 Tests d'un module miroir page 54 PRIM SECOND (vert) (vert) ip 1.1 ip 1.2 virtual ip= ip 1.10 miroir(app1)= app1 ip 2.1 ip2.2 files1 files1 STOP ALONE (rouge) (vert) ip 1.1 ip 1.2 virtual ip= ip 1.10 miroir(app1)= défaillance app1 ip 2.1 ip2.2 files1 files1 SECOND PRIM (vert) (vert) ip 1.1 ip 1.2 virtual ip= ip 1.10 miroir(app1)= app1 ip 2.1 ip2.2 files1 files1 39 F2 11LT09 77

78 Guide de l'utilisateur de SafeKit 5.2 Automate d'état d'un module miroir (STOP, WAIT, ALONE, PRIM, SECOND - rouge, magenta, vert) Pour analyser un problème, voir 7 Résolution de problèmes page 93 rouge magenta rouge STOP WAIT WAIT safekit start m AM safekit stop m AM magenta vert magenta vert reprise si l'autre ALONE ALONE serveur PRIM SECOND est arrêté SECOND l'autre serveur est démarré en SECOND magenta vert safekit swap m AM PRIM PRIM safekit restart m AM STOP (rouge): module arrêté WAIT (magenta): dans la phase de démarrage WAIT (rouge): bloqué à cause d'une ressource à "down" ALONE (magenta): primaire sans secondaire ; exécutant les scripts applicatifs (start_prim ou stop_prim) ALONE (vert): primaire sans secondaire ; stable; application démarrée SECOND (magenta): dans le processus de réintégration des données à partir du primaire et avant de devenir secondaire SECOND (vert): secondaire avec primaire; stable; prêt à redémarrer l'application et à devenir primaire PRIM (magenta): primaire avec secondaire ; exécutant les scripts applicatifs (start_prim ou stop_prim) PRIM (vert): primaire avec secondaire ; stable; application démarrée F2 11LT09

79 Administration d'un module miroir 5.3 Premier démarrage d'un module miroir (commande prim) Au premier démarrage d'un module miroir, si les deux serveurs sont démarrés avec la commande start, ils se bloquent tous les deux dans l état WAIT (rouge) avec le message dans le journal : "Data may be not uptodate for replicated directories (wait for the start of the remote server)". Au premier démarrage, il faut utiliser la commande prim pour démarrer en primaire le serveur avec les répertoires à jour, afin de les synchroniser sur l autre serveur. Ce dernier est démarré avec la commande second. Aux démarrages suivants, utiliser la commande start pour démarrer les serveurs. 1. état initial le module miroir vient juste d'être configuré avec un nouveau répertoire à répliquer entre le serveur 1 et le serveur 2 le serveur 1 a le répertoire à jour le serveur 2 a le répertoire vide 2. commande prim sur serveur 1 utiliser la commande spéciale safekit prim pour forcer le serveur 1 à démarrer en primaire pour les démarrages suivants, utiliser toujours de préférence safekit start : voir 5.5 Démarrage d'un module miroir avec les données à jour ( STOP (rouge) - WAIT (rouge)) page 81 message dans le log: "Action prim called by web@<ip>/system/root" STOP (rouge) à jour ALONE (vert) à jour STOP (rouge) vide STOP (rouge) vide 3. commande second sur le serveur 2 démarrer l'autre serveur en tant que secondaire le secondaire réintègre le répertoire répliqué à partir du primaire message dans le journal : "Action second called by web@<ip>/system/root" PRIM (vert) à jour SECOND (vert) à jour Note: Les commandes prim et second force une réintégration complète des répertoires répliqués sur la secondaire lorsqu'elle est démarrée. 39 F2 11LT09 79

80 Guide de l'utilisateur de SafeKit 5.4 Différents cas de réintégration (utilisation des bitmaps) Pour optimiser la réintégration de fichiers, il y a plusieurs cas de figure : 1. Si SafeKit a été proprement arrêté sur le serveur, alors au redémarrage du secondaire, seules les zones modifiées à l'intérieur des fichiers sont réintégrées suivant les bitmaps de modification 2. Si la secondaire a crashé (power off) ou a été incorrectement arrêtée (exception du processus de réplication nfsbox), les bitmaps de modification ne sont pas sûres et elles ne sont donc pas utilisées. Tous les fichiers qui ont été modifiés pendant et avant l'arrêt suivant une période de grâce (typiquement une heure) sont réintégrés 3. Un appel à la commande spéciale prim ou second provoque une réintégration complète de tous les répertoires répliqués sur la secondaire quand elle est redémarrée. 4. Si les fichiers sont modifiés sur le serveur primaire ou secondaire alors que SafeKit est arrêté, les répertoires répliqués sont totalement réintégrés sur la secondaire. ALONE (vert) STOP (rouge) 1. le serveur2 secondaire a été arrêté les données sont désynchronisées à jour PRIM (vert) non à jour SECOND (magenta) 2. commande start sur le serveur 2 les données sont réintégrées avec l'optimisation des bitmaps (voir ci-dessus) à jour à jour 3. fin de la réintégration PRIM (vert) SECOND (vert) les données sont les mêmes sur les 2 serveurs seules les modifications à l'intérieur des fichiers sont répliquées en temps réel et de manière synchrone à jour = à jour F2 11LT09

81 Administration d'un module miroir 5.5 Démarrage d'un module miroir avec les données à jour ( STOP (rouge) - WAIT (rouge)) SafeKit choisit quel serveur doit démarrer en tant que primaire. Pour cela, il retient le serveur avec les répertoires répliqués à jour. Pour profiter de cette fonctionnalité, utiliser la commande start et NON la commande prim. 1. état initial le serveur 1 est primaire ALONE les répertoires sont à jour sur ce serveur le module est arrêté sur le serveur 2 le serveur 2 a des répertoires répliqués désynchronisés 2. commande stop sur le serveur 1 arrêt du serveur avec les répertoires à jour ALONE (vert) à jour STOP (rouge) STOP (rouge) non à jour STOP (rouge) 3. commande start sur le serveur 2 the module est mis dans l'état WAIT en attendant le démarrage de l'autre serveur. Dans son journal de message : "Potentially not uptodate data for replicated directories (wait for the start of the remote server)" "Action wait from failover rule notuptodate_server" "If you are sure that this server has valid data, run safekit prim to force start as primary" dans ce cas, vous devez démarrer le serveur 1 pour resynchroniser le serveur 2 si vous voulez réellement sacrifier les données à jour et démarrer le serveur 2 avec les données non à jour en tant que primaire : commande stop puis commande prim sur le serveur 2 à jour STOP (rouge) à jour non à jour WAIT (rouge) non à jour rfs.uptodate = down Note: La commande prim force une réintégration complète des répertoires répliqués sur la secondaire lorsqu'elle est démarrée. Voir aussi 5.9 La commande prim échoue : pourquoi? (commande primforce) page F2 11LT09 81

82 Guide de l'utilisateur de SafeKit 5.6 Mode de réplication dégradé ( ALONE (vert) dégradé) Si le processus de réplication nfsbox connait une défaillance sur la machine primaire (liée par exemple à une mauvaise configuration de la réplication de fichiers), l'application n'est pas basculée inutilement sur le serveur secondaire Le serveur primaire va dans l'état ALONE et dans un mode de réplication dégradé. Cet état dégradé est affiché dans la console web/ Contrôle sous le serveur ALONE. Le message dans le journal est "Resource rfs.degraded set to up by nfsadmin". Et safekit state v présente la ressource rfs.degraded up Le serveur primaire continue en ALONE avec un processus nfsbox qui ne réplique plus Il faut arrêter et redémarrer le serveur ALONE pour revenir dans la situation PRIM SECOND avec réplication 1. état initial le miroir est dans l'état stable serveur 1 PRIM (vert) serveur 2 SECOND (vert) PRIM (vert) SECOND (vert) 2. défaillance du processus de réplication nfsbox sur le serveur 1 le serveur 1 devient ALONE (vert) dégradé avec le message "set up of rfs.degraded called by nfsadmin" dans son log. safekit state v présente la ressource rfs.degraded=up le serveur 1 ALONE continue à exécuter l'application sans réplication le serveur 2 se met dans l'état WAIT (rouge) en attente du processus de réplication avec le message dans son journal "Action wait from failover rule degraded_server" et avec rfs.uptodate=down ALONE WAIT (vert) (rouge) rfs.degraded=up rfs.uptodate=down 3. retour à la réplication l'administrateur réalise stop ; start sur le serveur 1 ALONE le processus de réplication nfsbox est relancé sur le serveur 1 le serveur 2 réintègre les répertoires répliqués avant de devenir SECOND (vert) le serveur 1 devient PRIM (vert) PRIM (vert) SECOND (vert) F2 11LT09

83 Administration d'un module miroir 5.7 Reprise automatique ou manuelle (failover="off" - STOP (rouge) - WAIT (rouge)) La reprise automatique ou manuelle sur le serveur secondaire est définie dans userconfig.xml par <service mode="mirror" failover="on" "off">. Par défaut, si la valeur n'est pas définie, failover="on" Le mode failover="off" est utile lorsque l'on veut contrôler le basculement par un administrateur. Ce mode assure qu'une application tourne toujours sur le même serveur primaire quel que soit les opérations sur ce serveur (reboot, arrêt temporaire du module pour maintenance...). Seule une commande d'un administrateur prim ou swap peut mettre l'autre serveur en primaire 1. état initial le miroir est dans l'état stable serveur 1 PRIM (vert) serveur 2 SECOND (vert) PRIM (vert) SECOND (vert) 2. redémarrage avec failover="on" si le serveur 1 anciennement PRIM connait une défaillance et s'arrête, le serveur 2 devient automatiquement primaire ALONE (mode par défaut) 3. fonctionnement avec failover="off" si le serveur 1 anciennement PRIM connait une défaillance et s'arrête, le serveur 2 se met en WAIT (rouge) avec dans son journal le message "Failover-off configured" "Action stopstart called by failover-off" "Transition STOPSTART from failover-off" "Local state WAIT red " l'administrateur dans cette situation peut redémarrer le serveur 1 s'il n'est pas en panne : le miroir redémarre dans son ancien état serveur 1 PRIM (vert) serveur 2 SECOND (vert) l'administrateur peut décider de forcer le serveur 2 à devenir primaire avec les commandes : stop ; prim sur le serveur 2 Note : l'administrateur peut aussi forcer le serveur 2 à devenir primaire avec la commande swap lorsque les deux serveurs sont dans l'état PRIM- SECOND STOP (rouge) STOP (rouge) ALONE (vert) WAIT (rouge) Note: La commande prim force une réintégration complète des répertoires répliqués sur la secondaire lorsqu'elle est démarrée. Voir aussi 5.9 La commande prim échoue : pourquoi? (commande primforce) page F2 11LT09 83

84 Guide de l'utilisateur de SafeKit 5.8 Serveur primaire par défaut (swap automatique après réintégration) A la réintégration après panne, un serveur redevient par défaut secondaire. L'administrateur peut choisir de ramener l'application sur le serveur réintégré à un moment opportun avec la commande swap. C'est le comportement par défaut lorsque dans userconfig.xml <service> est défini sans la variable defaultprim Si l'on veut que l'application revienne automatiquement sur le serveur juste après sa réintégration, il faut configurer dans userconfig.xml <service mode="mirror" defaultprim="hostname serveur 1"> 1. état initial le serveur 1 (anciennement PRIM) connait une défaillance et s'arrête le serveur 2 secondaire devient automatiquement primaire ALONE STOP (rouge) ALONE (vert) 2. réintégration sans defaultprim le serveur 1 est relancé par la commande start : il réintègre les répertoires répliqués puis devient secondaire un administrateur peut replacer le primaire sur le serveur 1 avec la commande swap à une heure propice le swap provoque l'arrêt de l'application sur le serveur 2 et son redémarrage sur le serveur 1 SECOND (vert) PRIM (vert) 3. réintégration avec defaultprim="hostname serveur 1" le serveur 1 STOP (rouge) du cas 1 (état initial) est relancé par start il réintègre les répertoires répliqués juste après la réintégration, un swap automatique est réalisé par le serveur 1 avec les messages dans son journal : "Transition SWAP from defaultprim" "Begin of Swap" l'application est alors automatiquement arrêtée sur le serveur 2 et relancée sur le serveur 1 à la fin de l'opération, le serveur 1 est PRIM PRIM (vert) SECOND (vert) F2 11LT09

85 Administration d'un module miroir 5.9 La commande prim échoue : pourquoi? (commande primforce) Il se peut qu'une commande prim échoue : après une tentative de démarrage, le serveur repasse en STOP (rouge). 1. état initial le serveur 1 ALONE a les répertoires répliqués à jour le serveur 2 est en train de réintégrer les fichiers 2. stop sur le serveur 2 puis sur le serveur 1 arrêt du serveur 2 pendant sa réintégration : l'arrêt du serveur 2 peut se faire alors qu'un fichier est à moitié recopié (fichier corrompu) le serveur 1 est lui aussi arrêté ALONE (vert) à jour STOP (rouge) à jour SECOND (magenta) partiellement réintégré STOP (rouge) partiellement réintégré 3. commande prim sur le serveur 2 la commande prim échoue : l'échec produit les messages suivants dans le log "Data may be inconsistent for replicated directories (stopped during reintegration)" "If you are sure that this server has valid data, run safekit primforce to force start as primary" dans ce cas, il faut démarrer le serveur 1 par la commande start. Et relancer le serveur 2 avec la commande start pour terminer la réintégration des fichiers. Tant que le serveur 2 n'a pas atteint l'état SECOND vert, ses données ne sont pas intègres si vous voulez absolument démarrer sur le serveur 2 partiellement réintégré et avec des données potentiellement corrompues, utiliser la commande en ligne safekit primforce sur le serveur 2. Message dans le journal : "Action primforce called by SYSTEM/root" STOP (rouge) STOP (rouge) à jour partiellement réintégré la commande prim échoue car les données peuvent être corrompues Note: La commande primforce force une réintégration complète des répertoires répliqués sur la secondaire lorsqu'elle est démarrée. 39 F2 11LT09 85

86 Guide de l'utilisateur de SafeKit 5.10 Utiliser une troisième machine de remplacement Il est possible de changer dynamiquement l appariement des machines d un mirroir sans interruption du service et ainsi d avoir une configuration comprenant deux machines actives et plusieurs machines de remplacement, par exemple sur des sites différents. Cela peut être fait en changeant directement la configuration pendant le fonctionnenement de safekit, grâce à la capacité de reconfiguration dynamique de la commande safekit config. Ou alternativement, en changeant la résolution de nom dans le DNS et en utilisant la commande safekit update qui permet de relancer une résolution de nom pour toutes les adresses specifiées dans les sections : <heartbeat>, <rfs> et checkers, du fichier de configuration, sans arrêter le module. Note : Les commandes safekit update et safekit config ne peuvent être utilisées pour la configuration dynamique que dans les états stables ALONE (vert) ou WAIT (rouge). (voir 9.3 Commandes de contrôle page 112) Il faut tout d abord configurer un groupe de trois ou plus serveurs en déployant exactement la même configuration : Si l on opte pour la solution basée sur le changement de la configuration DNS, la configuration de safekit ne doit utiliser que des noms DNS pour les adresses des heartbeats, flux de réplication rfs et adresses extérieures des checkers. Exemple : F2 11LT09

87 Administration d'un module miroir La procédure suivante peut alors être appliquée en cas de panne prolongée d une des deux machines actives : 1. Etat initial Serveur A : PRIM Serveur B : SECOND Serveur C : STOP 2. Panne serveur B PRIM SECOND STOP (vert) (vert) (rouge) HB1/Repli1 HB2/Repli2 -/- A B C ALONE STOP (vert) (rouge) HB1/Repli1 HB2/Repli2 -/- 3. Reconfiguration Deployer une nouvelle configuration des heartbeat apairant le server A avec le serveur C Ou Faire pointer, dans le DNS, les adresses HB2/Repli2 vers le serveur C. Executer safekit update sur le serveur A 4. Rétablissement Démarrer le serveur C Après réintegration, la grappe est, à nouveau, dans l état PRIM/ SECOND Le service n a, à aucun moment, été interrompu A B C ALONE STOP (vert) (rouge) HB1/Repli1 -/- HB2/Repli2 A B C PRIM SECOND (green) (green) HB1/Repli1 -/- HB2/Repli2 A B C 39 F2 11LT09 87

89 6. Administration d'un module ferme 6.1 Mode de fonctionnement d'un module ferme page Automate d'état d'un module ferme (STOP, WAIT, UP - rouge, magenta, vert) page Démarrage d'un module ferme page Mode de fonctionnement d'un module ferme Pour tester un module ferme, voir 4.3 page Tests d'un module ferme page 61. UP UP UP (vert) (vert) (vert) ip 1.1 ip 1.2 ip 1.3 virtual ip= ip 1.20 ip 1.20 ip 1.20 ferme(app2)= app2 app2 app2 UP STOP UP (vert) (rouge) (vert) ip 1.1 ip 1.2 ip1.3 virtual ip= ip 1.20 ip 1.20 ferme(app2)= app2 app2 UP UP UP (vert) (vert) (vert) ip 1.1 ip 1.2 ip1.3 virtual ip= ip 1.20 ip 1.20 ip 1.20 ferme(app2)= app2 app2 app2 39 F2 11LT09 89

90 Guide de l'utilisateur de SafeKit 6.2 Automate d'état d'un module ferme (STOP, WAIT, UP - rouge, magenta, vert) Pour analyser un problème, voir 7 Résolution de problèmes page 93 rouge magenta rouge STOP WAIT WAIT safekit start m AM safekit stop m AM magenta vert UP UP safekit restart m AM STOP (rouge): WAIT (magenta): WAIT (rouge): UP (magenta): UP (vert): module arrêté dans la phase de démarrage bloqué à cause d'une ressource "down" exécutant les scripts applicatifs (start_both ou stop_both) stable avec application démarrée Note : C'est aussi l'automate d'un module de type light. Un module de type light se repère par <service mode="light"> dans le fichier userconfig.xml du module sous SAFE/modules/<nom module>/conf. Le type light correspond à un module s'exécutant sur un serveur sans synchronisation avec d'autres serveurs (comme peuvent le faire des modules miroir ou ferme). Un module light intègre les procédures de démarrage et d'arrêt d'une application ainsi que les checkers SafeKit qui permettent de détecter des erreurs F2 11LT09

91 Administration d'un module ferme 6.3 Démarrage d'un module ferme Il n'y a pas de procédure spéciale pour démarrer un module ferme : utiliser seulement la commande start sur tous les serveurs exécutant le module. Ci-dessous un exemple avec une ferme de 2 serveurs. 1. état initial le module ferme a été configuré sur 2 serveurs STOP (rouge) STOP (rouge) 2. commande start sur le serveur 1 et le serveur 2 message dans le journal des 2 serveurs : "farm membership: node1 node2 (group FarmProto)" "farm load: 128/256 (group FarmProto)" "Local state UP green" ressource de chaque instance du module sur les 2 serveurs : FarmProto 50% UP (vert) UP (vert) 39 F2 11LT09 91

93 7. Résolution de problèmes 7.1 Comment lire les journaux du module? page Module stable (vert) et (vert) page Module dégradé (vert) et (rouge) page Module hors service (rouge) et (rouge) page Module STOP (rouge) : redémarrer le module page Module WAIT (rouge) : réparer la ressource="down" page Module oscillant de (vert) à (magenta) page Message sur stop après maxloop page Module (vert) mais application non opérationnelle page Module (vert) mais problème de load balancing dans une ferme page Problème après boot page Problème persistant page Comment lire les journaux du module? Le journal du module peut être consulté avec : la console web/ Contrôle /Sélection du nœud/onglet Journal du module/ la console web/ Configuration ou Supervision/ sur le nœud/visualiser le journal/ la commande en ligne safekit logview m <module name> Avec le log, vous pouvez comprendre pourquoi un module n'est plus dans état stable (vert) et (vert). N'oubliez pas de regarder les message de sortie de l'application dans la console web / Contrôle /Sélection du nœud/onglet Journal applicatif/ ou dans SAFEVAR/modules/<module name>/userlog.<module name> Noter qu'un module peut quitter son état stable (vert) et (vert) à cause d'une commande administrateur : start stop restart swap stopstart forcestop Vous trouverez une liste des messages du journal en index: voir l'index page 267. Les messages dans le journal après une commande administrateur sont : "Action start called by web@<ip>/system/root" "Action stop called by web@<ip>/system/root" "Action restart called by web@<ip>/system/root" "Action swap called by web@<ip>/system/root" "Action stopstart called by web@<ip>/system/root" "Action forcestop called by web@<ip>/system/root" web@<ip>: via la console SYSTEM: ligne de commande Windows root: ligne de commande Unix Si "Stopping loop" apparaît dans le log, voir 7.9 Message sur stop après maxloop page F2 11LT09 93

94 Guide de l'utilisateur de SafeKit 7.2 Comment lire le journal de commandes du serveur? Depuis SafeKit 7.1.2, il existe un journal des commandes exécutées sur le serveur Safekit. Le journal des commandes peut être consulté avec: la console web/ Contrôle /Sélection du nœud/onglet Journal des commandes/ (sont affichées les commande s appliquant sur le module sélectionné ainsi que les commandes globales) la console web/ Configuration Avancée/Onglet du serveur/ Journal des commandes/ (sont affichées toutes les commandes executées sur le serveur) une commande pour lire le contenu du fichier SAFEVAR/commandlog stocké sur le serveur Pour plus de détails voir 10.6 Journal des commandes du serveur SafeKit page Module stable (vert) et (vert) Un module miroir stable sur 2 serveurs est dans l'état PRIM (vert) - SECOND (vert) : l'application est opérationnelle sur le serveur PRIM ; en cas de panne, le serveur SECOND est prêt à reprendre l'application. Un module ferme stable est dans l'état UP (vert) sur tous les serveurs de la ferme : l'application est opérationnelle sur tous les serveurs. 7.4 Module dégradé (vert) et (rouge) Un module miroir dégradé est dans l'état ALONE (vert) - STOP/WAIT (rouge). Il n'y a plus de serveur de reprise mais l'application est opérationnelle sur le serveur ALONE. Un module ferme dégradé est dans l'état UP (vert) sur au moins un serveur de la ferme, les autres serveurs étant dans l'état STOP/WAIT (rouge). L'application est opérationnelle sur le serveur UP. Dans le cas dégradé, il n'y a pas de procédure d'urgence à mettre en œuvre. L'analyse de l'état STOP/WAIT (rouge) peut être réalisée plus tard. Néanmoins, vous pouvez tenter de redémarrer le module : voir 7.6 Module STOP (rouge) : redémarrer le module page 95 voir 7.7 Module WAIT (rouge) : réparer la ressource="down" page F2 11LT09

95 Résolution de problèmes 7.5 Module hors service (rouge) et (rouge) Un module miroir ou ferme hors service est dans l'état STOP/WAIT (rouge) sur tous les serveurs. Dans ce cas, l'application n'est plus opérationnelle sur aucun serveur. Il faut rétablir la situation et redémarrer le module dans l'état sur au moins un serveur : voir 7.6 Module STOP (rouge) : redémarrer le module page 95 voir 7.7 Module WAIT (rouge) : réparer la ressource="down" page Module STOP (rouge) : redémarrer le module Pour redémarrer le module arrêté : console web/ Contrôle/ sur le nœud/ Démarrer ou ligne de commande SAFE/safekit start m <module name> vérifier que le module devient (vert) Et regarder les résultats du démarrage dans le journal du module et dans l'application log: console web/ Contrôle /Sélection du nœud/onglet Journal du module/ et onglet Journal applicatif ou avec la ligne de commande SAFE/safekit logview -m <module name> et SAFEVAR/modules/<module name>/userlog.<module name>). 39 F2 11LT09 95

96 Guide de l'utilisateur de SafeKit 7.7 Module WAIT (rouge) : réparer la ressource="down" Si le module est dans l'état WAIT (rouge), il attend que l'état d'une ressource devienne "up". Vous devez réparer la ressource mise à "down". Pour déterminer la ressource à réparer, utiliser les messages du journal : utiliser la console web/ Contrôle /Sélection du nœud/onglet Journal du module/ ou console web/ Contrôle /Sélection du nœud/ressources ou exécuter la ligne de commande SAFE/safekit logview m <module name> Notes : Un checker de type wait est à l'origine de l'état WAIT (rouge). Il est démarré après le script prestart et arrêté avant poststop Le checker est actif sur tous les serveurs ALONE/PRIM/SECOND/UP (vert) L'action du checker sur erreur est de positionner une ressource à down Une règle de failover sur ressource down exécute l'action stopwait Le module est mis localement dans l'état WAIT (rouge) tant que le checker positionne la ressource à down Le module sort de l'état WAIT (rouge) dès que le checker positionne la ressource à up Messages des checkers wait : fichiers non à jour localement : voir 5 Administration d'un module miroir page 77 "Potentially not uptodate data for replicated directories (wait for the start of the remote server)" "Action wait from failover rule notuptodate_server" "If you are sure that this server has valid data, run safekit prim to force start as primary" <interface check="on"> checker d'une interface réseau locale "Resource intf.ip.0 set to down by intfcheck" "Action wait from failover rule interface_failure" <ping> checker d'une adresse IP externe "Resource ping.id set to down by pingcheck" "Action wait from failover rule ping_failure" <module>: checker d'un autre module "Resource module.othermodule_ip set to down by modulecheck" "Action wait from failover rule module_failure" <tcp ident="id" when="pre"> checker d'un service TCP externe "Resource tcp.id set to down by tcpcheck" "Action wait from failover rule tcpid_failure" <custom ident="id" when="pre"> checker customisé "Resource custom.id set to down by customscript" "Action wait from failover rule customid_failure" <splitbrain> checker Resource splitbrain.uptodate set to down by splitbraincheck" "Action wait from failover rule splitbrain_failure" Fichiers non à jour localement à cause du split brain : voir Splitbrain checker (<splitbrain> tag) page F2 11LT09

97 Résolution de problèmes 7.8 Module oscillant de (vert) à (magenta) Si un module oscille de l'état (vert) à l'état (magenta), il est soumis à un checker de type restart ou stopstart qui détecte une erreur en boucle. Par défaut, au 4 ième redémarrage infructueux sur un serveur, le module s'arrête sur le serveur en STOP (rouge). Utiliser les logs SafeKit pour savoir quel checker est à l'origine de l'oscillation : utiliser la console web/ Contrôle /Sélection du nœud/onglet Journal du module/ ou exécuter la ligne de commande SAFE/safekit logview m <module name> Notes : Un checker restart ou stopstart checker est défini dans userconfig.xml par when="prim" "both" (miroir ferme) when="prim": checker démarré sur le serveur PRIM/ALONE (vert) après le script start_prim (stoppé avant stop_prim) et vérifiant l'application démarrée dans start_prim when="both": checker démarré sur tous les serveurs UP (vert) après le script start_both (stoppé avant stop_both) et vérifiant l'état de l'application démarrée dans start_both L'action du checker sur erreur est d'exécuter un restart ou stopstart du module. stopstart sur PRIM (vert) amène à une reprise du rôle de primaire sur l'autre serveur Le module est dans l'état PRIM/UP (magenta) pendant la phase de redémarrage Après plusieurs oscillations, le module s'arrête avec le message "Stopping loop" dans le journal SafeKit : voir 7.9 Message sur stop après maxloop page 98 Messages des checkers restart ou stopstart : <errd> dans userconfig.xml: checker de processus "event atleast on proc appli.exe" "Action restart stopstart called by errd" <tcp ident="id" when="prim" "both"> dans userconfig.xml: checker TCP d'une application "Resource tcp.id set to down by tcpcheck" "Action restart stopstart from failover rule tcp_failure" <custom ident="id" when="prim" "both"> dans userconfig.xml : checker customisé "Resource custom.id set to down by customscript" "Action restart stopstart from failover rule customid_failure" ou "Action restart stopstart called by customscript" 39 F2 11LT09 97

98 Guide de l'utilisateur de SafeKit 7.9 Message sur stop après maxloop Si une erreur détectée par un checker se répète plusieurs fois et successivement, le module est arrêté sur le serveur en STOP (rouge) car l'erreur est permanente et l'action du checker n'arrive pas à la corriger Si dans userconfig.xml, pas de paramètre maxloop / loop_interval dans <service> : par défaut maxloop="3", loop_interval="24" si les checkers génèrent plus de 3 redémarrages infructueux (restart, stopstart, stopwait) en moins de 24H, alors stop du module : STOP (rouge) Le compteur est remis à 0 dès lors qu'une action de type administrateur est réalisée sur le module : comme une commande start ou stop Message sur stop après maxloop "Stopping loop" F2 11LT09

99 Résolution de problèmes 7.10 Module (vert) mais application non opérationnelle Si un serveur présente un état PRIM (vert) ou ALONE (vert) ou UP (vert), il se peut que l'application soit non opérationnelle à cause d'erreurs au démarrage non détectées : regarder les messages de sortie de l'application produits par start_prim(/both)et stop_prim(/both): ils sont visibles dans la console web/ Contrôle/Sélection du nœud/onglet Journal applicatif/ ou dans SAFEVAR/modules/<module name>/userlog.<module name> vérifier dans le journal de l'application s'il y a des erreurs dans les phases de démarrage/arrêt de l'application. Attention, parfois le journal applicatif est désactivé car trop volumineux avec <user logging="none"> dans userconfig.xml du module vérifier les scripts start_prim(/both) et stop_prim(/both) du module miroir(/ferme) et userconfig.xml: ils sont visibles dans la console web/ Configuration Avancée / Modules installés/ module/ (bin et conf) ou sous SAFE/modules/<module name> Dans le cas d'une application non opérationnelle, appliquer un restart sur le module PRIM (vert) ou ALONE (vert) ou UP (vert) pour arrêter et redémarrer localement l'application (sans basculement) : sur le serveur PRIM (vert) ou ALONE (vert) ou UP (vert), exécuter la commande restart avec la console web/ Contrôle/ sur le nœud/ Redémarrer ou avec la ligne de commande SAFE/safekit restart m <nom module> vérifier que l'application est opérationnelle sur le serveur ALONE (vert) ou UP (vert) PRIM (vert) ou Si cette procédure ne fonctionne pas, appliquer un stopstart sur le module PRIM (vert) ou ALONE (vert) ou UP (vert) pour arrêter et redémarrer globalement le module et l'application (avec basculement vers le serveur SECOND dans le cas PRIM (vert)) : sur PRIM (vert) ou ALONE (vert) ou UP (vert), exécuter la commande stopstart avec la console web/ Contrôle / sur le nœud/arrêter-démarrer ou avec la ligne de commande SAFE/safekit stopstart m <nom module> vérifier que l'application est opérationnelle sur le serveur ALONE (vert) ou UP (vert) PRIM (vert) ou 39 F2 11LT09 99

100 Guide de l'utilisateur de SafeKit 7.11 Module (vert) mais problème de load balancing dans une ferme Bien que tous les serveurs de la ferme soient UP (vert), le load balancing ne fonctionne pas. L'adresse IP virtuelle définie dans SAFE/modules/<nom module>/conf/userconfig.xml (<vip>) ne répond pas correctement à toutes les demandes de connexions (userconfig.xml est visible dans la console web/ Configuration Avancée / Modules installés/ module/conf/). Dans ce cas : choisir un serveur de la ferme qui reçoit et traite des connexions sur l'adresse IP virtuelle (connexions TCP établies) : utiliser la commande (Windows) netstat an findstr <adresse IP virtuelle> ou (Unix) netstat an grep <adresse IP virtuelle> arrêter le module ferme sur tous les serveurs sauf celui qui reçoit des connexions et qui doit rester UP (vert) soit dans la console web/ Contrôle/ sur le nœud/ Arrêter ou avec la commande SAFE/safekit stop m <module name> vérifier que l'ensemble des connexions vers l'adresse IP virtuelle sont traitées par le seul serveur UP (vert) Pour une analyse plus fine sur ce sujet, voir : Test adresse IP virtuelle d'un module ferme page Test load balancing TCP sur une adresse virtuelle page Test split brain avec un module ferme page Test de la compatibilité du réseau avec l'adresse MAC invisible page Problème après boot Si vous rencontrez un problème après le boot, voir 4.1 Installation et tests après boot page Problème persistant voir l'index des messages page 267 voir 8.5 Le Call Desk pour remonter des problèmes page F2 11LT09

101 8. Accès au support Evidian 8.1 Page d accueil du site support page Clés de licence permanentes page Créer un compte page Accéder à votre compte page Le Call Desk pour remonter des problèmes page Zone de download et d upload de fichiers page Base de connaissances page Page d accueil du site support Software Keys : obtenir des clés permanentes Subscription Request : créer un compte Download : télécharger le produit ou uploader des snapshots Call desk : outil pour remonter un problème Knowledge Base : base de connaissance Ce qui est expliqué dans ce chapitre 8.2 Clés de licence permanentes Software Keys : obtenir des clés permanentes Remplir le formulaire à partir du bon de livraison envoyé suite à une commande Se munir des "hostname" et de l'os des serveurs Pour obtenir une clé temporaire pour n'importe quel "hostname" et n'importe quel OS, voir Clés de licence SafeKit page F2 11LT09 101

102 Guide de l'utilisateur de SafeKit 8.3 Créer un compte Subscription Request : créer un compte La procédure doit être exécutée une seule fois avec : - Votre identifiant client - Votre identifiant confidentiel - Une adresse unique Note : vos identifiants vous sont envoyés par mail si vous avez un contrat de support avec Evidian Ce que vous obtiendrez : un compte utilisateur et un mot de passe personnel sur le site 8.4 Accéder à votre compte Se logger en haut à droite avec votre identifiant et mot de passe Vous avez alors accès à tous les services du site support Utilisateur "Bruno Rochat" loggé Plus verrouillé F2 11LT09

103 Accès au support Evidian 8.5 Le Call Desk pour remonter des problèmes Les opérations du Call Desk Call desk : outil pour remonter un problème au support avec 2 opérations principales Création d un Call Recherche d un Call et échange avec le support sur un Call 1. Création d'un call 2. Recherche et mise à jour 3. Accès à distance 4. Rapport sur les calls 39 F2 11LT09 103

104 Guide de l'utilisateur de SafeKit Création d un Call Résumé du problème Détail du problème : scénario date et heure Attacher les snapshots Création du call Dans l'entête, préciser la version de Safekit, le type de problème et sa priorité ainsi que le nom du module et le l OS de vos serveurs Résumer le problème puis le décrire plus en détail en précisant le scénario et la date et l'heure du problème Les snapshots du module SafeKit qui pose problème sont nécessaires pour l'analyse : voir Attacher les snapshots page 105 Créer le call en appuyant sur "Submit" F2 11LT09

105 Accès au support Evidian Attacher les snapshots Indiquer si vous mettez les snapshots ici ou dans votre zone privée d'upload Snapshots ici si < 10 Moctets Lorsqu'un module SafeKit pose problème, les snapshots du module sur tous les serveurs sont nécessaires pour l'analyse Si la taille des snapshots est inférieure à 10 Moctets, vous pouvez les joindre en même temps que l'ouverture du call en cliquant sur "Add" Sinon, le temps de téléchargement des snapshots sur le site support peut durer plusieurs minutes. Dans ce cas indiquer dans "Remark text" que vous les téléchargez dans votre zone privée d'upload : voir La zone privée d upload page 108 Pour réaliser les snapshots, voir 3.5 Snapshots d un module pour le support avec la console web page 37 Ou 9.6 Commandes de support page F2 11LT09 105

106 Guide de l'utilisateur de SafeKit Consultation des réponses au Call et échange avec le support Ajouter une remarque pour continuer l'échange avec le support Echange de remarques entre le support Evidian et le client jusqu'à la fermeture du call Tous les échanges entre le support et le client se font au moyen de "Remarques" Quand le support ajoute une remarque sur un call, le client est averti par mail. C'est notamment le cas pour la première réponse du support après l'ouverture du call Après consultation de la dernière remarque du support, le client peut ajouter à son tour une nouvelle remarque L'échange a lieu jusqu à la fermeture du call en accord entre le client et le support Evidian F2 11LT09

107 Accès au support Evidian 8.6 Zone de download et d upload de fichiers zones de download et d upload Product download area : zone de téléchargement des packages SafeKit Private area [identité du client] : zone privée d upload de fichiers Récupérer le dernier package SafeKit Zone privée pour uploader ou downloader des fichiers La zone de download des packages produit Aller dans <Version 7.1>/Platforms/<Your platform>/current versions Suivant votre OS, choisir entre le package 32-bits ou 64-bits Télécharger le package safekit Pour plus d'information sur l'installation, la documentation et l'upgrade, voir 2 Installation et configuration page F2 11LT09 107

108 Guide de l'utilisateur de SafeKit La zone privée d upload Créer un répertoire problème pour un Uploader les snapshots dans ce répertoire avec 3.5 Snapshots d un module pour le support avec la console web page 37 Ou 9.6 Commandes de support page 117 Voir aussi Attacher les snapshots page 105 Vous pouvez créer un répertoire et déposer les snapshots ici Upload d'un fichier 8.7 Base de connaissances Knowledge Base : base de connaissances Recherche par exemple de tous les articles sur le composant errd de SafeKit errd Chercher un article sur le composant "errd" de SafeKit F2 11LT09

109 9. Interface ligne de commande 9.1 Ligne de commande globale au cluster page Commandes de boot et shutdown page Commandes de contrôle page Commandes de monitoring page Commandes de configuration page Commandes de support page Ligne de commande globale au cluster A peu près toutes les commandes SafeKit peuvent être appliquées sur une liste de serveurs. Les exceptions sont les commandes "safekit logview", "safekit -p" et "safekit -r" qui ne peuvent être exécutées que localement à un serveur. L'interface ligne de commandes globale requiert l'exécution du serveur web Safekit sur chacun des serveurs de la liste (voir 10.1 Configuration du serveur web de SafeKit page 119). Exécute l'action sur tous les serveurs spécifiés dans le fichier SAFEVAR/default_cluster.txt safekit -C d <action> <arg> Exemple: safekit -C d module list: liste les modules sur tous les serveurs définis dans default_cluster.txt Format CURL pour la liste dans default_cluster.txt. Exemple: safekit -C <filename> <action> <arg> Exécute l'action sur les serveurs spécifiés dans le fichier <filename> Exemple: safekit -C c:\myfarm.txt module list: liste les modules sur tous les serveurs dans myfarm.txt Format CURL pour myfarm.txt (voir exemple ci-dessus) safekit -H <url> [,<url,...] <action> <arg> Exécute l'action sur les serveurs spécifiés par la liste d'url Exemple: safekit -H module list 39 F2 11LT09 109

110 Guide de l'utilisateur de SafeKit safekit [-C d ] [-C <filename>] [-H <url>[,...]] -E <module> Exporte le <module> localement installé sur les serveurs spécifiés par -C ou -H. Sans paramètre, -C d est le paramètre par défaut Cette commande réalise les actions suivantes : crée <module>.safe à partir du module local SAFE/modules/<module> et note son id transfère et installe <module>.safe sur la liste de serveurs positionne l'id local du module sur les serveurs distants si le module était configuré localement, configure le module sur les serveurs distants Exemple: safekit -E farm exporte le module ferme local vers la liste des serveurs spécifiés dans SAFEVAR/default_cluster.txt (voir ci-dessus pour un exemple de default_cluster.txt) 9.2 Commandes de boot et shutdown Utilisez les commandes suivantes pour démarrer/arrêter les services SafeKit, configurer le démarrage automatique au boot des services et des modules, arrêter tous les modules en cours d exécution. safeadmin (Windows) service safeadmin start (Linux) /etc/rc.d/init.d/safeadmin start (AIX) safekit boot m AM [on off status] Service principal de SafeKit obligatoire et démarré automatiquement au boot. safeadmin peut être contrôlé dans l'interface Services de Windows Service principal de SafeKit obligatoire et démarré automatiquement au boot Service principal de SafeKit obligatoire et démarré automatiquement au boot Démarre automatiquement au boot ou non le module AM ("on" ou "off" ; par défaut "off") Sans l'option m AM, safekit boot status liste l'état de tous les modules au boot F2 11LT09

111 Interface ligne de commande safekit webserver [start stop restart] [sync] Contrôle le démarrage/arrêt/redémarrage du service safewebserver. Ce service est utile à la console SafeKit, aux checkers de <module> et aux commandes globales. La commande lance des processus httpd et attend le démarrage des processus. L option sync est nécessaire pour les versions de SafeKit inférieures à safekit boot [webon weboff webstatus] safekit snmpagent [start stop restart check] safekit boot [snmpon snmpoff snmpstatus] safekit shutdown Contrôle le démarrage automatique au boot du service safewebserver ("on" ou "off" ; par défaut "on") Contrôle le démarrage/arrêt du service safeagent qui met en œuvre un agent SNMP SafeKit Contrôle le démarrage automatique au boot du service safeagent ("on" ou "off" ; par défaut "off") Stoppe tous les modules en cours d exécution Le service safeadmin est configuré pour démarrer automatiquement au boot et s arrêter proprement au shutdown. A son tour, ce service démarre et arrête les modules. Sur certaines plate-formes Windows, le démarrage au boot de safeadmin échoue car la configuration réseau n est pas prête, et les modules n ont pas le temps de s arrêter proprement car le délai d attente de l arrêt du service est trop court. Si vous rencontrez ce type de problème, appliquez l une des procédures suivantes : 1. Procédure manuelle (via l éditeur d objets de stratégie de groupe) positionner en démarrage manuel le service safeadmin lancer la console MMC à l aide de la commande mmc Fichier Ajouter/Supprimer un composant logciel enfichable ; Ajouter - "Editeur d objets de stratégie de groupe" OK sous "Racine de la console"/"stratégie ordinateur local"/"configuration ordinateur"/"paramètres Windows"/"Scripts (démarrage/arrêt)", double cliquer sur "Démarrage". Cliquer sur ajouter puis entrer pour le nom du script : c:\safekit\private\bin\safekitbootstart.cmd. Ce script lance le service safeadmin. sous "Racine de la console"/"stratégie ordinateur local"/"configuration ordinateur"/"paramètres Windows"/"Scripts (démarrage/arrêt)", double cliquer sur "Arrêt du système". Cliquer sur ajouter puis entrer pour le nom du script : c:\safekit\private\bin\safekitshutdown.cmd. Ce script arrête proprement tous les modules en cours d exécution. 2. Procédure automatique (via le script addstartupshutdown.cmd) cd SAFE\private\bin\ 39 F2 11LT09 111

112 Guide de l'utilisateur de SafeKit exécuter le script addstartupshutdown.cmd Ce script ajoute dans les objets stratégies de groupe, les scripts de démarrage (safekitbootstart.cmd) et d arrêt (safekitshutdown.cmd) de SafeKit. Les administrateurs peuvent exécuter ce script à la place de la procédure décrite ci-dessus. 9.3 Commandes de contrôle safekit start m AM safekit waitstart m AM safekit stop m AM safekit waitstop m AM safekit waitstate m AM STOP ALONE UP PRIM SECOND safekit stopstart m AM safekit forcestop m AM safekit restart m AM safekit swap m AM safekit second m AM Démarre le module AM Attend la fin du démarrage du module Arrête le module AM Attend la fin de l arrêt du module Attend que le module atteigne l état stable demandé (rouge ou vert). Equivalent à "safekit stop; safekit start" Contrairement à la commande restart, la commande stopstart provoque l'arrêt complet du module et son redémarrage. Si le module était PRIM, il y a basculement du module PRIM sur l'autre serveur Force l arrêt du module lorsque des ressources sont gelées Applique les scripts d arrêt puis de démarrage de l application : il n y a pas de basculement sur l'autre serveur si le module est PRIM Echange les rôles de primaire et secondaire Commande pour un miroir seulement Force le module AM à démarrer en secondaire Echec si l autre serveur n est pas primaire Commande pour un miroir seulement Note : La commande second force un réintégration complète de tous les répertoires répliqués sur la machine secondaire lorsqu'elle est démarrée F2 11LT09

113 Interface ligne de commande safekit prim m AM Force le module AM à démarrer en primaire Echec si l autre serveur est déjà primaire Commande pour un miroir seulement Voir le bon usage de cette commande : 5.3 Premier démarrage d'un module miroir (commande prim) page 79 Note : La commande prim force une réintégration complète de tous les répertoires répliqués sur la machine secondaire lorsqu'elle est démarrée safekit errd suspend m AM safekit errd resume m AM Suspend/redémarre la détection d erreur sur les processus du module AM définis dans la section <errd> du fichier userconfig.xml Utile si on veut arrêter l application sans provoquer de fausse détection et reprise. La ressource usersetting.errd reflète l état courant. Arrête ou démarre l ensemble des checkers (interface, TCP, IP, custom, etc...). safekit checker off m AM safekit checker on m AM Cette commande est utile lors d opérations de maintenance ; lorsqu il est connu que les checkers vont détecter une panne suite à un arrêt d une partie de l infrascruture informatique et qu un basculement de serveur SafeKit n est pas souhaitée. Notes : 1. Ne peut être utilisée que sur un module démarré et dans un état stable (ALONE, UP, PRIM, SECOND, WAIT). 2. La ressource usersetting.checker reflète l état courant. 3. Un effet de bord est l exécution de la commande safekit update 39 F2 11LT09 113

114 Guide de l'utilisateur de SafeKit Permet de reconfigurer dynamiquement l attribut failover du tag service du fichier de configuration (voir <service> Attributs page 143). safekit failover off m AM safekit failover on m AM safekit update m module Notes : 1. Ne peut être utilisée que sur un module miroir démarré et dans un état stable (ALONE, PRIM, SECOND, WAIT). 2. La ressource usersetting.failover reflète l état courant. 3. Cette commande doit être éxécutée sur tous les serveurs de la grappe. Si ce n est pas le cas le comportement n est pas spécifié. 4. Un effet de bord de cette commande est l exécution de la commande safekit update Relance une résolution de nom DNS pour toutes les adresses specifiées dans les sections: heartbeat, flux de réplication rfs et checker, du fichier de configuration. Cette commande permet de changer dynamiquement l appariement des machines d un mirroir sans interruption du service et ainsi d avoir une configuration comprenant deux machines actives et plusieurs machines de remplacement (voir 5.10 Utiliser une troisième machine de remplacement page 86). Note : Ne peut être utilisée que dans les états ALONE (vert) ou WAIT (rouge). 9.4 Commandes de monitoring safekit state safekit state m AM [ v -lq] Affiche l état de tous les modules Affiche l état du module AM Avec l option verbose v, les états de toutes les ressources du module sont listés : voir l'utilité des ressources en 7.7 Module WAIT (rouge) : réparer la ressource="down" page 96 Avec l option lq, la commande retourne l état (et le code d exit): STOP (0), WAIT (1), ALONE (2), UP (2), PRIM (3), SECOND (4) F2 11LT09

115 Interface ligne de commande safekit log m AM [-s nb] [- A] [-l en fr] Affiche les <nb> derniers messages I et E du journal du module AM (-l langue en Anglais ou Français, -A ajoute les messages de debug). Par défaut s 300 Avec SafeKit < 7.1.2, utiliser l option r au lieu de A pour afficher tous les messages. safekit logview m AM [-l en fr] safekit printi printe m AM "message" safekit logview m AM A safekit logview m AM [-A] s 300 Visualise en temps réel les derniers messages I et E du journal du module AM (-l langue en Anglais ou en Français) Les scripts applicatifs start/stop peuvent écrire des messages dans le journal du module avec un niveau I ou E. Visualise tous les messages I, E et les messages de debug Visualise à partir des 300 derniers messages safekit logsave m AM [-l en fr] [-A] /tmp/f Sauvegarde les messages I et E du journal du module AM dans /tmp/f.txt (chemin absolu obligatoire) (-l langue en Anglais ou Français, -A ajoute les messages de debug) Avec SafeKit < 7.1.2, safekit logsave m AM sauvegarde tous les messages (messages I, E et debug). safekit level [ m AM] Indique la version de SafeKit et la licence Avec le paramètre AM, le script "level" du module est exécuté et ses résultats affichés 39 F2 11LT09 115

116 Guide de l'utilisateur de SafeKit 9.5 Commandes de configuration safekit config m AM A appliquer après avoir modifié dans SAFE/modules/<nom module> : userconfig.xml, start_prim/both ou stop_prim/both (miroir/ferme) Demande à chaque plugin défini dans userconfig.xml <errd>, <vip>, <rfs>, <user>... de prendre en compte la nouvelle configuration du module Cette commande peut être utilisée dans les états ALONE (vert), ou STOP et WAIT (rouge). Dans l état STOP l ensemble de la configuration peut être changée. Dans les états ALONE et WAIT, il s agit d une configuration dynamique où seul un sous ensemble de paramètres peut être modifié. Cela est permet notamment le changement d apairement des serveurs de façon à avoir des architectures avec deux serveurs actifs et des serveurs de remplacement (voir 5.10 Utiliser une troisième machine de remplacement page 86) Les paramètres qui sont modifiables dynamiquement sont indiqués en 12 Userconfig.xml page 141. safekit deconfig m AM safekit confcheck m AM safekit module install m AM [-r] SAFE/Application _Modules/AM.safe A réaliser avant désinstallation du module Demande à chaque plugin défini dans userconfig.xml <errd>, <vip>, <rfs>, <user>... de prendre en compte la déconfiguration du module Contrôle la configuration du module sous SAFE/modules/<AM> sans l appliquer Installe le module AM.safe avec le nom AM [-r] force la réinstallation du module safekit module package m AM / /newam.safe safekit module uninstall m AM safekit module list safekit module listid Package le module AM dans / /newam.safe (chemin absolu obligatoire) Commande utilisée par la console pour créer un backup dans SAFE/Application_Modules/backup/ Désinstalle le module AM. Détruit le répertoire de configuration du module SAFE/modules/<AM> Liste les noms des modules installés Liste les noms et les ids des modules installés F2 11LT09

117 Interface ligne de commande safekit module setid m AM - i id safekit module getports m AM (or i id) Positionne l id [1:25] du module AM. Un même module doit avoir le même id sur tous les serveurs Liste les ports de communication qui synchronisent le module entre les serveurs 9.6 Commandes de support safekit snapshot m AM /tmp/snapshot_xx.zip Sauvegarde le snapshot du module AM dans /tmp/snapshot_xx.zip (chemin absolu obligatoire) Un snapshot crée un dump puis récolte sous SAFEVAR/snapshot/modules/<AM> les 3 derniers dumps et les 3 dernières configurations du module pour les mettre dans le fichier.zip Pour envoyer les snapshots au support, voir 8 Accès au support Evidian page 101 safekit dump m AM safekit r "commande spéciale" Pour relever un problème en temps réel sur un serveur, générer un dump du module AM Un dump créé un directory "dump_<date>_<heure>" du côté serveur sous SAFEVAR/snapshot/modules/<AM>. Le directory "dump_<date>_<heure>" contient les logs du module et des informations sur l'état du système et des processus SafeKit au moment du dump Exécute une commande sous SAFEBIN après avoir instancié les variables d'environnement SafeKit 39 F2 11LT09 117

118 Guide de l'utilisateur de SafeKit safekit clean [all log process resource] [-m AM] Réinitialise les journaux, le fichier de ressources et arrête les principaux processus associés au module. Cette commande doit être utilisée avec précautions puisqu elle détruit des fichiers de travail et arrête des processus du module. safekit clean log m AM Détruit les journaux du module (verbeux et non verbeux). A utiliser si les journaux sont corrompus (e.g: erreurs retournées lors de l affichage du journal). safekit clean resource m AM Détruit le fichier de ressources du module. A utiliser si ce fichier est corrompu (e.g: erreurs retournées lors de l affichage des ressources). safekit clean process m AM Arrête les principaux processus du module (heart et circlog). A utiliser lorsqu à l issue du stop et du forcestop du module des processus n ont pas été arrêtés. safekit clean all m AM Valeur par défaut. «Nettoie» les journaux, le fichier de ressources et les processus F2 11LT09

119 10. Administration avancée 10.1 Configuration du serveur web de SafeKit page Notification par mail lors d'un basculement page Configuration agent SNMP page Processus et services SafeKit page Variables d'environnement et répertoires à connaître page Configuration du serveur web de SafeKit SafeKit livre le service web, safewebserver, qui s'exécute sur chaque serveur SafeKit. C'est un serveur Apache standard obligatoire pour : la console web (voir 3 La console web de SafeKit page 23) l ancienne console java (voir 15 La console java de SafeKit page 217) l'interface ligne de commande globale au cluster (voir 9.1 Ligne de commande globale au cluster page 109) les checkers de type <module> (voir 0 Module checker (<module> tags) page 178) Le service safewebserver démarre automatiquement à la fin de l'installation du package SafeKit et au reboot des serveurs. Si vous n avez pas besoin de ce service et souhaitez supprimer son démarrage automatique au boot, référez-vous à 9.2 Commandes de boot et shutdown page Fichiers de configuration La configuration de safewebserver est définie dans les fichiers livrés sous SAFE/web/conf. Il s'agit de fichiers de configuration Apache standards (voir La configuration du service est décomposée dans plusieurs fichiers qui peuvent être inclus ou non en fonction de vos besoins. Les fichiers de configuration et les ports d écoute du service par défaut sont : Fichier de configuration principal httpd.conf La configuration par défaut inclut, dans le fichier httpd.conf, la configuration non sécurisée pour les consoles SafeKit web et java. ou Fichiers de configuration pour la console web Non sécurisée (HTTP) Non sécurisée (HTTP) avec de l authentification basique httpd.webconsole.conf rôle Admin rôle Control rôle Monitor httpd.webconsoleauth.conf rôle Admin rôle Control F2 11LT09 119

120 Guide de l'utilisateur de SafeKit ou rôle Monitor Sécurisée (HTTPS) httpd.webconsolessl.conf Configuration files for the java console Non sécurisée (HTTP) httpd.safemonitor.conf Sécurisée (HTTPS) httpd.safemonitor.conf et httpd.ssl.conf Lorsque l un des fichiers précédents est modifié vous devez redémarrer le service pour charger la nouvelle configuration avec la commande : SAFE/safekit webserver restart [sync] (voir 9.2 Commandes de boot et shutdown page 110). Ne pas modifier les fichiers.default car il s agit de sauvegarde de la configuration livrée Configuration pour la console web de SafeKit Les configurations suivantes ne doivent pas être activées simultanément Configuration HTTP Après installation, l accès non sécurisé pour la console web via HTTP est activé par défaut. Pour réactiver la configuration HTTP si celle-ci avait été désactivée, modifier le fichier SAFE/web/conf/httpd.conf comme suit : Include conf/httpd.webconsole.conf #Include conf/httpd.webconsolessl.conf Pour changer le port d écoute, modifier les valeurs des champs Listen et VirtualHost dans le fichier SAFE/web/conf/httpd.webconsole.conf. Pour appliquer la nouvelle configuration, redémarrer le service avec la commande : SAFE/safekit webserver restart [sync] Configuration HTTPS Pour activer la configuration sécurisée de la console web via HTTPS, modifier le fichier SAFE/web/conf/httpd.conf comme suit : #Include conf/httpd.webconsole.conf Include conf/httpd.webconsolessl.conf Pour changer le port d écoute, modifier les valeurs des champs Listen et VirtualHost dans le fichier SAFE/web/conf/httpd.webconsolessl.conf. Pour appliquer la nouvelle configuration, redémarrer le service avec la commande : SAFE/safekit webserver restart [sync] F2 11LT09

121 Administration avancée Pour que la configuration HTTPS soit fonctionnelle, il faut d abord générer les certificats en suivant la procédure décrite en 11 Sécurisation de la console SafeKit avec HTTPS page Configuration HTPP avec de l'authentification utilisateur Vous pouvez activer l'authentification utilisateur dans le service safewebserver. Les utilisateurs auront à s'authentifier avant d'accéder au service. Pour activer l'authentification utilisateur, modifier le fichier SAFE/web/conf/httpd.conf comme suit : #Include conf/httpd.webconsole.conf Include conf/httpd.webconsoleauth.conf Pour changer le port d écoute, modifier les valeurs des champs Listen et VirtualHost dans le fichier SAFE/web/conf/httpd.webconsoleauth.conf. L authentification s appuie sur les fichiers user.conf et group.conf qui doivent contenir la configuration user/group et password. La commande SAFE/web/bin/htpasswd permet de générer ces fichiers. Exemple : pour créer un nouveau fichier user.conf file avec un nouvel utilisateur : SAFE/web/bin/htpasswd -cb c:/safekit/web/conf/user.conf username userpassword Utiliser htpasswd -? pour voir les autres options (add/delete user etc...). Pour appliquer la nouvelle configuration, redémarrer le service avec la commande : SAFE/safekit webserver restart [sync]. Pour une authentification plus avancée, voir la documentation Apache Configuration pour la console java de SafeKit Configuration HTTP Après installation, l accès non sécurisé pour la console java via HTTP est activé par défaut. Pour activer la configuration pour la console java, modifier le fichier SAFE/web/conf/httpd.conf comme suit : Include conf/httpd.safemonitor.conf Pour changer le port d écoute, modifier les valeurs des champs Listen et VirtualHost dans le fichier SAFE/web/conf/httpd.safemonitor.conf. Pour appliquer la nouvelle configuration, redémarrer le service avec la commande : SAFE/safekit webserver restart [sync] Configuration HTTPS Pour activer la configuration sécurisée de la console java via HTTPS : Activer l accès pour la console java en modifiant le fichier SAFE/web/conf/httpd.conf comme suit : 39 F2 11LT09 121

122 Guide de l'utilisateur de SafeKit Include conf/httpd.safemonitor.conf Modifier le fichier SAFE/web/conf/httpd.safemonitor.conf comme suit : Include conf/httpd.ssl.conf Et changer la valeur 9000 des champs Listen et VirtualHost par la valeur 9443 (ou une autre valeur si celle-ci ne convient pas). Pour appliquer la nouvelle configuration, redémarrer le service avec la commande : SAFE/safekit webserver restart [sync]. Pour que la configuration HTTPS soit fonctionnelle, il faut d abord générer les certificats en suivant la procédure décrite en 11 Sécurisation de la console SafeKit avec HTTPS page Configuration HTPP avec de l'authentification utilisateur Vous pouvez activer l'authentification utilisateur dans le service safewebserver. Les utilisateurs auront à s'authentifier avant d'accéder au service. Pour activer l'authentification utilisateur, décommenter dans SAFE/web/conf/httpd.safemonitor.conf : AuthUserFile C:/safekit/web/conf/user.conf AuthGroupFile C:/safekit/web/conf/group.conf AuthName "SafeKit" AuthType Basic Require valid-user user.conf et group.conf doivent contenir la configuration user/group et password. La commande SAFE/web/bin/htpasswd permet de gérer ces fichiers. Exemple : pour créer un nouveau fichier user.conf file avec un nouvel utilisateur : SAFE/web/bin/htpasswd -cb c:/safekit/web/conf/user.conf username userpassword Utiliser htpasswd -? pour voir les autres options (add/delete user etc...). Pour appliquer la nouvelle configuration, redémarrer le service avec la commande : SAFE/safekit webserver restart [sync]. Pour une authentification plus avancée, voir la documentation Apache Notification par mail lors d'un basculement Commande Description SAFE/private/bin/mailsend Client SMTP pour envoyer un mail à l'intérieur d'un script utilisateur -sub <subject> Sujet du mail -M <"msg"> Message F2 11LT09

123 Administration avancée Commande Description -d <domain> Nom de domaine pour SMTP Helo (requis) -smtp <hostname/ip> adresse IP du serveur SMTP (requis) -f <from> adresse de l'émetteur du mail -t <to,to..> adresse(s) des destinataires (requis) +cc +bc Ne pas demander de carbon copy / blind carbon copy. Exemple 1 d'intégration: La ligne suivante insérée dans le script prestart d'un module, envoie un avec le nom du module et le serveur sur lequel le module est démarré : Windows module/bin/prestart.cmd if [%3] EQU [start] ( rem do not send mail on stopstart and stopwait FOR /F "usebackq" %%i IN (`hostname`) DO SET HOSTNAME=%%i %SAFEBIN%\mailsend -d mydomain.com -smtp smtp.mydomain.com t [email protected] -f SafeKit -sub "Start module %SAFEMODULE% on %HOSTNAME%" -M "Running prestart" +cc +bc ) Unix module/bin/prestart if [ "$3" = "start" ]; then # do not send mail on stopstart and stopwait $SAFEBIN/mailsend -d mydomain.com -smtp smtp.mydomain.com t [email protected] -f SafeKit -sub "Start module $SAFEMODULE on $HOSTNAME" -M "Running prestart" +cc +bc fi La ligne suivante insérée dans le script poststop d'un module, envoie un avec le nom du module et le serveur sur lequel le module est arrêté : Windows module/bin/poststop.cmd if [%3] EQU [stop] ( rem do not send mail on stopstart and stopwait FOR /F "usebackq" %%i IN (`hostname`) DO SET HOSTNAME=%%i %SAFEBIN%\mailsend -d mydomain.com -smtp smtp.mydomain.com t [email protected] -f SafeKit -sub "Stop module %SAFEMODULE% on %HOSTNAME%" -M "Running poststop" +cc +bc ) Unix module/bin/poststop if [ "$3" = "stop" ]; then # do not send mail on stopstart and stopwait %SAFEBIN%\mailsend -d mydomain.com -smtp smtp.mydomain.com t [email protected] -f SafeKit -sub "Stop module %SAFEMODULE% on $HOSTNAME" -M "Running poststop" +cc +bc fi 39 F2 11LT09 123

124 Guide de l'utilisateur de SafeKit Exemple 2 d'intégration: Le script transition peut être utilisé pour envoyer un sur les transitions majeures. Par exemple, pour notifier qu'un module miroir devient ALONE, insérer dans le script transition les lignes suivantes : Sur Windows, module/bin/transition.cmd: IF [%1] EQU [WAIT] if [%2] EQU [ALONE] %SAFEBIN%\mailsend IF [%1] EQU [SECOND] if [%2] EQU [ALONE] %SAFEBIN%\mailsend IF [%1] EQU [PRIM] if [%2] EQU [ALONE] %SAFEBIN%\mailsend sur Unix, module/bin/transition: if [ "$1" = "WAIT" -a "$2" = "ALONE ] ; then $SAFEBIN/mailsend fi if [ "$1" = "SECOND" -a "$2" = "ALONE ] ; then $SAFEBIN/mailsend fi if [ "$1" = "PRIM" -a "$2" = "ALONE ] ; then $SAFEBIN/mailsend fi 10.3 Configuration agent SNMP La configuration du service safesnmpagent est définie dans le fichier auto-documenté SAFE/snmp/conf/snmpd.conf. C'est un fichier de configuration net-snmp standard décrit dans Par défaut, le service écoute sur le port UDP 3600 et accepte des requêtes de lecture de la communauté public et des requêtes d'écriture de la communauté privée. Les requêtes de lecture sont utilisées pour lire l'état d'un module alors que les requêtes d'écriture permettent de réaliser des actions sur le module. Des traps SNMP peuvent être envoyés par l'agent SafeKit agent lorsque les messages de niveau I et E sont logés. L'adresse IP à qui envoyer les traps doit être configurée avec la ligne trapsink SNMPManagerIPaddress dans snmpd.conf. Vous pouvez changer la configuration par défaut suivant vos besoins. Lorsque vous modifier snmpd.conf, vous devez redémarrer l'agent pour charger la nouvelle configuration : SAFE/safekit snmpagent restart. La MIB SafeKit est livrée dans SAFE/snmp/mib/safekit.mib (lire ce fichier pour avoir le détail de la MIB). Noter que la MIB inclut la définition du trap envoyée par SafeKit. La MIB SafeKit est accessible avec l'identifiant suivant (OID, prefixe des variables SNMP de SafeKit SNMP): = enterprises.bull.safe.safekit ( ). La MIB SafeKit définit : la table de modules : skmoduletable L'index dans cette table correspond à l'id du module applicatif tel qu'il est retourné par la commande SAFE/safekit module listid. A travers la MIB, vous pouvez lire et afficher l'état des modules applicatifs sur un serveur (STOP, WAIT, ALONE, UP, PRIM, SECOND) ou vous pouvez agir sur un module (start, stop, restart, swap, stopstart, prim, second). Par exemple, l'état du module d'id 1 est lu avec un get sur la variable SNMP suivante : enterprises.bull.safe.safekit.skmoduletable.skmoduleentry.skmodulecurren tstate.1 = stop (0) Utiliser la commande snmp walk pour voir l'ensemble des entrées de la MIB (commande non livrée avec le produit) F2 11LT09

125 Administration avancée La table de ressources : skresourcetable Chaque élément définit une ressource comme par exemple un checker d'interface réseau "intf " et son status (unknown, init, up, down). Exemple: requête SNMP get sur enterprises.bull.safe.safekit.skresourcetable.skresourceentry.skresourcenam e.1.2 veut dire nome de la ressource 2 dans le module applciatif 1. Le trap : Les traps sont envoyés avec l'oid enterprises.bull.safe.safekit.sktraplogmesg. Un trap contient le dernier message SafeKit de niveau I ou E de chaque module Processus et services SafeKit Services SafeKit Processus par module Processus par module safeadmin (processus safeadmin): service principal et obligatoire heart : gère les procédures de reprise vipd : synchronise une ferme de serveurs safewebserver (processus httpd) : service pour la console, les <module> checkers, les commandes globales circlog : gère le journal circulaire du module (verbeux et non verbeux) errd : gère la détection de la mort des processus safeagent (processus safeagent) : agent SNMP SafeKit (optionnel) nfsadmin, nfsbox, reintegre : réplication et réintégration de fichiers en temps réel checkers (ipcheck, intfcheck, ) 10.5 Variables d'environnement et répertoires à connaître Variable Description SAFE (rendu par safekit p) Répertoire d'installation de SafeKit : SAFE=/opt/safekit sur Unix et SAFE=C:\safekit sur Windows si SystemDrive=C: La licence est sous SAFE/conf/license.txt SAFEVAR (rendu par safekit p) Répertoire des fichiers de travail de SafeKit : SAFEVAR=C:\safekit\var sur Windows et SAFEVAR=/var/safekit sur Unix 39 F2 11LT09 125

126 Guide de l'utilisateur de SafeKit Variable Description SAFEBIN (rendu par safekit p) Répertoire d'installation des binaires SafeKit : C:\safekit\private\bin sur Windows et /opt/safekit/private/bin sur Unix. Utile pour accéder aux commandes spéciales de SafeKit SAFEMODULE Nom du module. La commande safekit n'a plus besoin du paramètre nom de module (-m AM = -m SAFEMODULE) SAFE/Application_Modules Répertoire des modules.safe installables. Une fois un module installé, le module se trouve sous SAFE/modules SAFE/modules/<nom module> et SAFEUSERBIN L'édition d'un module et de ses scripts se fait dans le répertoire SAFE/modules/<nom module>. On y trouve le fichier userconfig.xml du module et les scripts de démarrage et d'arrêt applicatif start_prim, stop_prim pour un miroir, start_both, stop_both pour une ferme (édition en direct ou via la console SafeKit) Après une configuration du module (safekit config m <nom module> ou console web/ Configuration Avancée / Modules installés/ module/ Appliquer la configuration ou console web/ Configuration/ sur le module/ Editer la configuration), les scripts sont copiés dans le répertoire d'exécution dans SAFE/private/modules/<nom module>/bin : c'est la valeur de SAFEUSERBIN (ne pas modifier les scripts à cet endroit) SAFEVAR/modules/<nom module> et SAFEUSERVAR Répertoire des fichiers de travail d'un module (SAFEUSERVAR=SAFEVAR/modules/<nom module>) Les messages d'output des scripts de démarrage et d'arrêt applicatif sont dans le fichier SAFEVAR/modules/<nom module>/userlog.<nom module>. Permet de vérifier s'il y a des erreurs au démarrage ou à l'arrêt de l'applicatif. Attention parfois le userlog est désactivé car trop volumineux avec dans userconfig.xml du module <user logging="none"> SAFEVAR/snapshot/modules/<no m module> Répertoire des dumps et des configurations remontés dans un snapshot. Voir 9.6 Commandes de support page F2 11LT09

127 Administration avancée 10.6 Journal des commandes du serveur SafeKit Depuis SafeKit 7.1.2, il existe un journal des commandes exécutées sur le serveur SafeKit. Ce journal permet d effectuer un audit des actions réalisées sur le serveur pour aider au support par exemple. Il enregistre toutes les commandes safekit qui sont exécutées sur le serveur et qui modifient le système telles que l installation d un module, sa configuration, son lancement/arrêt, le lancement/arrêt du serveur web de SafeKit, Pour consulter ce journal, il suffit de lire le contenu du fichier SAFEVAR/commandlog directement sur le serveur SafeKit ou de cliquer sur l onglet le journal de commandes depuis la console web. Ci-dessous un extrait du contenu «brut» du journal de commandes : ^ T11:17: running ^ T11:17: return ^ T11:18: running /var/safekit/tmp/mirror.safe -m mirror ^ T11:18: return /var/safekit/tmp/mirror.safe -m mirror webserver start sync 0 webserver start sync module package 0 module package ^ T11:18: running module install -M 1 - r /tmp/cgicu9rbj7 -m mirror ^ T11:18: return 0 module install -M 1 - r /tmp/cgicu9rbj7 -m mirror ^ T11:18: running ^ T11:18: return config -m mirror 0 config -m mirror ^ T12:06: running prim -u web@ m mirror ^ T12:06: return 0 prim -u web@ m mirror Chaque champ a la signification suivante : 1. Le 1 er champ correspond à la date d écriture de l entrée dans le journal 2. le 2 ème correspond au pid du processus qui exécute la commande. Il est utilisé comme identificateur de l entrée. 3. le 3 ème vaut running au lancement de la commande. Il vaut return <valeur> lorsque la commande s est terminée. La valeur est celle du code de retour. 4. le 4 ème contient le nom de la commande safekit exécutée ainsi que ses arguments. 39 F2 11LT09 127

129 11. Sécurisation de la console SafeKit avec HTTPS Vous pouvez sécuriser les communications entre la console et les serveurs web SafeKit avec le protocole HTTPS. Ce protocole repose sur la présence de divers certificats X509 sur les serveurs et les clients. Un certificat contient des informations sur l identité du sujet, une clé de chiffrement publique, l'objet de l'utilisation de la clé publique (telle que l'authentification du client ou du serveur) et une signature d'une autorité de certification. Le certificat serveur permet aux clients (comme la console SafeKit) d'authentifier le serveur web SafeKit et d'établir une connexion sécurisée par HTTPS. Le certificat client est utilisé par le serveur web SafeKit pour associer un rôle aux utilisateurs de la console web. Trois rôles sont définis : le rôle Admin, qui accorde tous les droits d'administration le rôle Control, qui accorde les droits de contrôle et de monitoring le rôle Monitor, qui accorde uniquement le droit de monitoring Cette section est organisée comme suit : 11.1 Configuration rapide page 129 Suivez la procédure décrite dans cette partie pour mettre en place rapidement un environnement sécurisé sans avoir besoin d une expertise sur Apache, HTTPS ni sur les infrastructures à clé publique. Cette procédure repose sur des outils livrés avec le package SafeKit pour créer et installer des certificats X509 signés localement et activer une préconfiguration HTTPS du serveur web SafeKit Configuration Avancée page 135 Cette partie est destinée aux administrateurs qui ont des besoins spécifiques de sécurité (comme le besoin de générer des certificats avec une autorité de certification externe) Configuration rapide Appliquer chacune des étapes décrites dans les sous-sections suivantes pour mettre en place l environnement sécurisé et autonome proposé par SafeKit. Vérifier que l'horloge système est réglée à la date et l'heure courante sur tous les clients et les serveurs. Les certificats portant une date de validité, une différence de date entre les systèmes peut avoir pour effet de les invalider. Avant de poursuivre, choisir parmi les serveurs SafeKit celui qui jouera le rôle de serveur d autorité de certification (Certificate Authority CA). Dans la suite, le serveur choisi sera appelé le serveur CA Activation du serveur CA Génération des certificats Pendant cette étape, l environnement de génération des certificats est mis en place ; les certificats de l autorité de certification et du serveur CA sont générés et installés à 39 F2 11LT09 129

130 Guide de l'utilisateur de SafeKit l emplacement attendu par la configuration HTTPS ; les trois certificats clients sont également créés. Vérifier que l'horloge système est réglée à la date et l'heure courante sur le serveur. Sur le serveur CA : 1. Se connecter en tant qu administrator/root et ouvrir une fenêtre d invite de commandes 2. Aller dans le répertoire SAFE/web/bin 3. Exécuter la commande :./initssl ca Cette commande crée un certificat CA avec un «subject name» par défaut. Pour spécifier sa valeur, exécuter plutôt la commande étendue :./initssl ca /O=My Company/OU=My Entity/CN=My Company Private Certificate Authority A l invite, entrer le mot de passe qui protègera chacun des trois certificats clients : Enter the password for the Admin role pkcs12 file (../conf/ca/private/user_admin_administrator.p12) twice: Enter Export Password: pwd1 Verifying - Enter Export Password: pwd1 Enter the password for the Control role pkcs12 file (../conf/ca/private/user_control_manager.p12) twice: Enter Export Password: pwd2 Verifying - Enter Export Password: pwd2 Enter the password for the Monitor role pkcs12 file (../conf/ca/private/user_monitor_operator.p12) twice: Enter Export Password: pwd3 Verifying - Enter Export Password: pwd3 Le mot de passe saisi sera demandé au moment de l importation du certificat client sur la station cliente. 4. Copier les certificats clients devant être exportés (fichiers.p12) dans le répertoire../conf/ca/certs Pour configurer les autres serveurs SafeKit et les clients, procéder au Démarrage du service web du serveur CA page 131. Sinon, aller directement en Activation de HTTPS sur les serveurs SafeKit page F2 11LT09

131 Sécurisation de la console SafeKit avec HTTPS Démarrage du service web du serveur CA Ce service est utilisé par : les serveurs SafeKit non-ca pour générer une signature de certificat les clients pour télécharger les certificats clients Etant donné que ce service écoute sur le port TCP 9001, s assurer que ce port n est pas déjà utilisé et n est pas bloqué par la configuration du pare-feu. Sur le serveur CA : 1. Se connecter en tant qu administrator/root et ouvrir une fenêtre d invite de commandes 2. Aller dans le répertoire SAFE/web/bin 3. Exécuter la commande :./startcaserv A l invite, entrer le mot de passe qui protègera l accès à ce service, par exemple : PasW0rD. Ce mot de passe devra être fourni pour se connecter au service web du serveur CA. Passer à la Génération des certifications pour les serveurs SafeKit (non-ca) page 131. Quand les certifications sont installées sur tous les serveurs et clients concernés, arrêter le service comme décrit en Arrêt du service web du serveur CA page Génération des certifications pour les serveurs SafeKit (non-ca) Pendant cette étape, le certificat du serveur local est généré, les certificats signés sont téléchargés depuis le serveur CA, et enfin les certificats sont installés à l emplacement prévu par la configuration HTTPS. Si cela n a pas déjà été fait, démarrer le service web du serveur CA (voir Démarrage du service web du serveur CA page 131). Vérifier que l'horloge système est réglée à la date et l'heure courante sur le serveur. Appliquer en séquence la procédure suivante sur chaque serveur SafeKit (excepté le serveur CA) : 4. Se connecter en tant qu administrator/root et ouvrir une fenêtre d invite de commandes 39 F2 11LT09 131

132 Guide de l'utilisateur de SafeKit 5. Aller dans le répertoire SAFE/web/bin 6. Exécuter la commande :./initssl req CA_admin A chaque fois que cela est demandé, entrer le mot de passe qui a été utilisé au moment du démarrage du service web du serveur CA (PasWOrD). Pour ne pas avoir à saisir le mot de passe, exécuter plutôt la commande :./initssl req CA_admin:PasW0rD CAserverIP est l adresse IP ou le nom DNS du serveur CA. Si la commande retourne l erreur "Certificate is not yet valid", cela signifie que les horloges des deux serveurs ne sont pas synchronisées. Pour corriger le problème, il faut changer la date et l heure des serveurs puis recommencer en Activation du serveur CA page 129. Passer à Activation de HTTPS sur les serveurs SafeKit page Activation de HTTPS sur les serveurs SafeKit Appliquer la procédure suivante sur tous les serveurs SafeKit : Pour accepter les connexions HTTPS depuis la console web de SafeKit, suivre Configuration HTTPS page 120 Pour accepter les connexions HTTPS depuis la console java de SafeKit, suivre Configuration HTTPS page 121 Aller en Installation des certificats sur les clients page Installation des certificats sur les clients Appliquer la procédure suivante sur toutes les stations qui tourneront la console SafeKit : Pour les clients utilisant la console web, voir Installation pour la console web page 132 Pour les clients utilisant la console java, voir Installation pour la console java page 134 Vérifier que l'horloge système est réglée à la date et l'heure courante sur les stations. Les certificats portant une date de validité, une différence de date entre les systèmes peut avoir pour effet de les invalider Installation pour la console web Pour que la console web fonctionne avec la configuration HTTPS, il faut installer le certificat client dans le navigateur web de la station de travail. Le service web du serveur CA est utilisé pour télécharger les certificats depuis le serveur CA sur la station. La F2 11LT09

133 Sécurisation de la console SafeKit avec HTTPS procédure décrite ci-dessous utilise cette facilité. Si vous ne souhaitez pas l utiliser, il faudra télécharger par un autre moyen les certificats clients et passer directement à l étape 4 de la procédure. Si cela n a pas déjà été fait, démarrer le service web du serveur CA (voir Démarrage du service web du serveur CA page 131) Sur la station de travail (celle qui tourne le navigateur web pour la console web) : 1. Lancer le navigateur et se connecter à l URL où CAserverIP est l adresse IP du serveur CA 2. Se loguer en tant que CA_admin/PasW0rD où PasW0rD est le mot de passe utilisé au moment du démarrage du service web du serveur CA. La liste des certificats téléchargeables est affichée, parmi lesquels les fichiers cacert.crt et.p Sélectionner le fichier cacert.crt (certificat du CA). Lancer l assistant Install Certificate (en IE9, cliquer sur open puis Install Certificate - voir la documentation du navigateur si IE 9 n est pas utilisé). Suivre les instructions de l assistant pour importer le certificat dans le magasin des autorités de certification racines de confiance. Tant que cette opération n aura pas été faite, le navigateur émettra des alertes de sécurité à la connnexion de la console web aux serveurs SafeKit. 4. Sélectionner l un des fichiers.p12 (certificats client) en fonction du rôle voulu pour l utilisateur de la console: choisir user_admin_administrator.p12 pour avoir tous les droits d administration (onglets Configuration, Contrôle, Supervision et Configuration Avancée). Le champ friendly-name du certificat vaut SafeKit Certificate (Admin role). choisir user_control_manager.p12 pour avoir seulement des droits de contrôle et de monitoring (onglets Contrôle and Supervision). Le champ friendly-name du certificat vaut SafeKit Certificate (Control role). Choisir user_monitor_operator.p12 pour avoir uniquement les droits de monitoring (onglet Supervision). Le champ friendly-name du certificat vaut SafeKit Certificate (Monitor role). Lancer l assistant d importation de certificat (voir l étape précédente). Suivre les instructions de l assistant pour importer le certificat dans le magasin de certificats Personnel (il s agit du magasin par défaut si vous utilisez en Windows l applet native de gestion des certificats). Lors que cela est demandé, entrer le mot de passe qui protège le certificat. Il s agit du mot de passe qui a été saisi au moment de la génération des certificats (voir Activation du serveur page 129). La connexion de la console web est refusée tant que l importation d un certificat client n a pas été faite. A ce stade, la console web est accessible en se connectant à l URL où servername est le nom ou l adresse IP du serveur SafeKit configuré pour https. En fonction du navigateur et/ou de l adresse IP du serveur, il peut être demandé à la connexion de choisir quel certificat utiliser (le champ friendly-name du certificat est affiché). 39 F2 11LT09 133

134 Guide de l'utilisateur de SafeKit Si vous avez utilisé la console web pour administrer SafeKit avant la mise en place de l environnement sécurisé, les configurations de la liste des serveurs administrés et des modules contiennent les url des nœuds avec le protocole http et le port Pour passer à l utilisation de la console en mode sécurisé : avant SafeKit Suivre la procédure décrite dans le KB SK-0048 sur depuis SafeKit Lors de la connection à to la console web transforme automatiquement toutes les url sur le protocole https et le port Mais les configurations internes ne sont pas modifiées à moins d être éditées par l utilsateur. Une fois les certificats installés sur tous les postes clients, appliquer la dernière étape Désactivation du serveur CA page Installation pour la console java Pour sécuriser l accès depuis la console java, voir 15.5 Installer le certificat dans le client JRE pour HTTPS page 224. Une fois les certificats installés sur tous les postes clients, appliquer la dernière étape Désactivation du serveur CA page Désactivation du serveur CA Cette dernière étape de la configuration rapide est optionnelle mais fortement recommandée une fois tous les certificats générés et installés Arrêt du service web du serveur CA Sur le serveur CA : 1. Se connecter en tant qu administrator/root et ouvrir une fenêtre d invite de commandes 2. Aller dans le répertoire SAFE/web/bin 3. Exécuter la commande :./stopcaserv En Windows, cette commande, en plus de l arrêt du service, détruit l entrée correspondante dans la liste des services afin d éviter son redémarrage inopiné Protection contre les violations de sécurité Cette étape n est pas obligatoire, mais en production il est préférabl de ne pas laisser accessible les fichiers sensibles F2 11LT09

135 Sécurisation de la console SafeKit avec HTTPS Les fichiers présents sur le serveur CA, dans le répertoire SAFE/web/conf/ca (en particulier les clés privées sous SAFE/web/conf/ca/private/*.keys) doivent être sauvegardés dans un espace de stockage sûr et détruits sur le serveur. Ces fichiers devront être restaurés à leur emplacement initial si le serveur CA est à nouveau nécessaire (par exemple pour sécuriser un nouveau serveur SafeKit). Pour les serveurs non-ca, il faut sauvegarder et détruire les fichiers présents sous le répertoire SAFE/web/conf/ca Configuration Avancée Renouvellement des certificats Chaque certificat possède une date d'expiration. Par défaut, la date d'expiration du certificat CA est fixée à 10 ans après la date d'installation. Par défaut, la date d'expiration des certificats serveur et client est fixée à 5 ans après la date de demande de certificat. Lorsque le certificat client est expiré, la console web ne peut se connecter aux serveurs SafeKit. Si le certificat serveur est expiré, la console web émet une alerte lors de la connexion au serveur. Une fois le certificat CA expiré, il sera impossible pour le serveur web SafeKit de valider les certificats présentés. Il est possible de renouveler les certificats ou de regénerer une requête de création de certificat à partir des clés privées utilisées précédemment. Cette procédure n est pas explicitée dans ce document. Il est proposé à la place de créer de nouveau jeu de certificats, pour remplacer les anciens : 1. Supprimer le répertoire web/conf/ca sur le serveur CA et tous les serveurs non-ca 2. Supprimer tous les certificats importés sur les stations clients 3. Appliquer la procédure décrite en 11.1 Configuration rapide page Révocation des certificats Il est possible de modifier la configuration des serveurs web SafeKit pour utiliser une liste de révocation de certificats (CRL). Cette procédure n est pas explicitée dans ce document. Il est proposé à la place de créer un nouveau jeu de certificats pour remplacer les anciens, comme en Renouvellement des certificats page Configuration des pare-feu Lorsque les pare-feu sont activés sur les postes serveurs et/ou clients, ils doivent être configurés de la manière suivante : Pour les communications HTTP entre le serveur CA et les serveurs non-ca sur le serveur CA, autoriser les connexions TCP entrantes sur le port 9001 sur les serveurs non-ca, autoriser les connexions TCP sortantes vers le port 9001 Pour les communications HTTPS entre les consoles et les serveurs SafeKit sur tous les serveurs SafeKit, autoriser les connexions TCP entrantes et sortantes sur le port 9453 pour la console web ; sur le port 9443 pour la console java sur tous les postes clients, autoriser les connexions TCP sortantes vers le port 9453 pour la console web ; vers le port 9443 pour la console java 39 F2 11LT09 135

136 Guide de l'utilisateur de SafeKit Liste des certificats La configuration HTTPS des serveurs web SafeKit présuppose la présence de certificats décrits ci-dessous. Cette configuration est incluse dans le package SafeKit mais les certificats doivent être fournis par l administrateur SafeKit. Pour l aider à mettre en place l environnement sécurisé, SafeKit livre des scripts permettant la génération automatique de certificats signés par une autorité de certification (CA) «privée». Ces scripts sont utilisés dans la procédure décrite en 11.1 Configuration rapide page 129. Cette procédure doit être adaptée, si l administrateur préfère utiliser un CA de confiance pour générer les certificats requis. Le CA peut-être soit le CA de l entreprise (dans ce cas, il faut s adresser à l administrateur de sécurité de l entreprise) ; soit un CA commercial (dans ce cas, il faut faire une requête, généralement payante, auprès du propriétaire du CA). Certificats pour les serveurs SafeKit certificats X509 obligatoires SAFE/web/conf/cacert.crt : il s agit du certificat du CA utilisé pour générer les certificats serveurs et clients (par défaut: SAFE/web/conf/ca/certs/cacert.crt), ou du certificat bundle, dans le format PEM, de tous les CA utilisés. SAFE/web/conf/server.crt : il s agit du certificat pour le serveur, en format PEM, utilisé pour authentifier le serveur. Le champ CN, ou le champ Subject Alternative Name, du certificat doit être affecté au nom DNS et/ou à l adresse IP qui sont utilisés pour accéder au serveur. SAFE/web/conf/server.key: il s agit de la clé privée, *non cryptée*, associée au certificat server.crt. certificats X509 optionnels SAFE/web/conf/admin.crt: il s agit d un certificat client, dans le format PEM, nécessaire à la commande globale sur un cluster, pour authentifier l émetteur lorsqu il se connecte au serveur distant. Le champ OU du sujet du certificat doit est être affecté à la valeur Admin. Ce certificat n est pas nécessaire si les commandes globales et la console web ne sont pas utilisées. SAFE/web/conf/admin.key: il s agit de la clé privée, *non cryptée*, associée au certificat admin.crt. Certificats pour le navigateur web Certificats X509 obligatoires Les certificats clients, stockés dans les fichiers pkcs12, doivent être importés dans le magasin de certificats Personnel du navigateur web. Les certificats clients sont émis par le CA dont le certificat est stocké sur les serveurs SafeKit sous SAFE/web/conf/cacert.crt. Le champ du sujet OU du certificat client doit être affectée à la valeur Admin, Control ou Monitor en fonction du rôle souhaité. Le certificat du CA (par défaut: SAFE/web/conf/ca/certs/cacert.crt), utilisé pour générer les autres certificats, peut être importé dans le magasin des autorités de certification racines de confiance du navigateur web F2 11LT09

137 Sécurisation de la console SafeKit avec HTTPS Internes Commands for certificate generation La configuration rapide utilise les scripts suivant pour générer les certificats. Parameters <Subject>: le sujet du certificat du CA, qui identifie le propriétaire du CA. Exemple initssl ca "/O=My Company/OU=My Unit/CN=My Company Private Certificate Authority" Description Tous les chemins d accès ci-dessous sont relatifs au répertoire SAFE/web. Cette commande crée le répertoire conf/ca utilisé par les commandes openssl. Les certificats générés sont stockés sous conf/ca/certs ; les clés privées générées sont stockées sous conf/ca/private. initssl ca [<subject>] Habituellement, il est préférable de protéger les clés privées par un mot de passe. Cela impliquant une configuration plus complexe, ce n est pas mis en place. Si besoin, voir la documentation d Apache et d OpenSSL. Création du certificat CA conf/ca/certs/cacert.crt et de la clé associée conf/ca/private/cacert.key Création du certificat du serveur conf/ca/certs/server_localca.crt et de la clé associée conf/ca/private/server_localca.key Création du certificat client pour la commande globale sur le cluster conf/ca/certs/user_admin_system.crt et de la clé associée conf/ca/private/user_admin_system.key Création des trois certificats clients (correspondant aux trois rôles Admin, Control, Monitor) et des fichiers pkcs12 associés. Dans cette phase, le script demande d entrer deux fois le mot de passe qui sera demandé à l importation du fichier pkcs12. Les fichiers générés sont : conf/ca/private/user_admin_administrator.p12 conf/ca/private/user_control_manager.p12 conf/ca/private/user_monitor_operator.p12 Les certificats clients sont utilisés pour authentifier le client lorsqu il se connecte à un serveur web en HTTPS. Pour pouvoir connecter la console web, le certificat client correspondant au rôle désiré doit d abord être importé dans le magasin des certificats du navigateur web. Copie le certificat du CA, du serveur ainsi que les certificats clients dans le répertoire conf 39 F2 11LT09 137

138 Guide de l'utilisateur de SafeKit initssl req <url> <user>[:<pas sword>]] Parameters <url>: Url du service web du serveur CA ( <user>,<password>: utilisateur et mot de passe protégeant l accès au service web. La valeur par défaut pour <user> est CA_admin. La valeur pour <password> doit être celle affectée au moment du lancement du service web. Si ce champ n est pas donné en argument, le script demandera sa saisie. Example initssl req CA_admin:PasW0rD Description Tous les chemins d accès ci-dessous sont relatifs au répertoire SAFE/web. <hostname> est le nom du serveur local. Création d une requête de certificat pour la génération du certificat serveur. La requête contient toutes les adresses IP et noms DNS associés au serveur local. La requête de certificat est stockée dans conf/ca/private/server_<hostname>.csr et la clé associée dans conf/ca/private/server_<hostname>.key. Création d une requête de certificat pour la génération du certificat client avec le rôle Admin (nécessaire pour la commande globale sur le cluster). La requête de certificat est stockée dans conf/ca/private/user_admin_<hostname>.csr et la clé associée dans conf/ca/private/user_admin_<hostname>.key. Téléchargement du certificat du CA depuis le serveur CA Téléchargement depuis le serveur CA, des certificats signés qui ont été générés à partir des requêtes construites précédemment Installation des certificats et des clés Contrôle de validité des certificats initssl req Parameters None Description Tous les chemins d accès ci-dessous sont relatifs au répertoire SAFE/web. La commande se termine après avoir généré les requêtes de certificats pour : le serveur local (conf/ca/private/server_<hostname>.csr) le certificat client avec le rôle Admin (conf/ca/private/user_admin_<hostname>.csr) Ces requêtes sont stockées dans le format base64 pour pouvoir être transmises à un CA externe tel Microsoft Active Directory Certificate Services (voir la documentation de Microsoft) F2 11LT09

139 Sécurisation de la console SafeKit avec HTTPS makeusercert <name> <role> Parameters <name> correspond au champ CN du sujet du certificat, habituellement le nom de l utilisateur du sujet <role> correspond au rôle lors de l utilisation de la console web. Les valeurs valides sont Admin ou Control ou Monitor. Examples makeusercert administrator Admin makeusercert manager Control makeusercert operator Monitor Description Tous les chemins d accès ci-dessous sont relatifs au répertoire SAFE/web. Création d une requête de certificat client (ainsi que le certificat, le fichier pkcs12, et la clé associée si la commande est exécutée sur le serveur CA) pour <name> et <role>. Lors de la génération du fichier pkcs12, le script demande d entrer deux fois le mot de passe qui sera utilisé pour protéger son accès. La clé privée non cryptée est stockée dans conf/ca/private/user_<role>_<name>.key file. Quand ils ont générés, le certificat est stocké dans conf/ca/certs/user_<role>_<name>.crt et le pkcs12 dans conf/ca/private/user_<role>_<name>.p SafeKit CA web service La configuration du service web du serveur de CA se trouve dans le fichier SAFE/web/conf/httpd.caserv.conf. Ce service implémente une sous-partie des fonctionnalités d un PKI : Le certificat CA est accessible depuis l URL name>.crt Le téléchargement de ce fichier ne nécessite pas de s authentifier. Les requêtes de certificats sont soumises par l envoi d un POST à l URL server IP>:9001/caserv. Les arguments sont : action = signrequest name = <certificate name> servercsr = <file content of the server certificate request> or usercsr = <file content of the client certificate request> 39 F2 11LT09 139

141 12. Userconfig.xml 12.1 Macro définition (<macro> tag) page Module ferme ou miroir (<service> tag) page Heartbeats (<heart>, <heartbeat >, <server> tags) page Topologie d'une ferme (<farm>, <lan>, <node> tags) page Adresse IP virtuelle (<vip> tag) page Réplication de fichiers (<rfs>, <replicated> tags) page Activer les scripts utilisateurs (<user>, <var> tags) page Hostname virtuel (<vhost>, <virtualhostname> tags) page Détection de la mort de processus (<errd>, <proc> tags) page Checkers (<check> tags) page TCP checker (<tcp> tags) page Ping checker (<ping> tags) page Interface checker (<intf> tags) page IP checker (<ip> tags) page Checker customisé (<custom> tags) page Module checker (<module> tags) page Splitbrain checker (<splitbrain> tag) page Failover machine (<failover> tag) page 181 A chaque fois que vous modifiez userconfig.xml, vous devez appliquer la nouvelle configuration sur les serveurs avec : la console web/ Configuration Avancée / Modules installés/ module/ Appliquer la configuration ou la console web/ Configuration/ sur le module/ Editer la configuration ou la commande SAFE/safekit config m AM Depuis SafeKit 7.1.2, il est possible d appliquer une nouvelle configuration alors que le module est démarré, mais uniquement dans l état ALONE (vert) et WAIT (rouge). Cette fonctionnalité est appelée configuration dynamique. Uniquement un sous-ensemble restreint de la configuration peut être modifié dynamiquement. Quand la nouvelle configuration ne peut être appliquée, un message d erreur est affiché. Les attributs de configuration pouvant être changés dynamiquement sont listés ci-après. Exemple de userconfig.xml <safe>  </safe> 39 F2 11LT09 141

142 Guide de l'utilisateur de SafeKit 12.1 Macro définition (<macro> tag) <macro> Exemple <macro name="addr1" value="aa.bb.com"/> Un exemple d utilisation de macro est donné dans 14.4 Exemple d'un flux de réplication dédié page <macro> Syntaxe <macro name="identifier" value="value" /> <macro> Attributs <macro name="identifier" value="value" /> Une chaîne de caractères qui identifie la macro. La valeur qui remplacera chaque occurrence de %identifier% dans la suite de userconfig.xml. La syntaxe %identifier% peut être aussi utilisée dans userconfig.xml pour récupérer la valeur d'une variable d'environnement de nom identifier. En cas de conflit, c'est la valeur de macro qui prime Module ferme ou miroir (<service> tag) <service> Exemple Exemple pour un module miroir : <service mode="mirror" defaultprim="alone" maxloop="3" loop_interval="24" failover="on">  </service> Exemple pour un module ferme : <service mode="farm" maxloop="3" loop_interval="24" >  </service> Des exemples de définition de <service> sont donnés dans 14.1 Exemple du module générique miroir page 197 et 14.2 Exemple du module générique ferme page F2 11LT09

143 Userconfig.xml <service> Syntaxe <service mode="mirror" "farm" "light" [failover="on" "off"] [defaultprim="alone" "server_name" "lastprim"] [maxloop="3"] [loop_interval="24"] [automatic_reboot="off" "on"]> </service> Seuls les attributs maxloop, loop_interval et automatic_reboot peuvent être modifiés dynamiquement <service> Attributs <service mode= "mirror" "farm" "light" [failover= "on" "off"] [defaultprim= "alone" "server_name" "lastprim"] Première section à définir dans un module mirror pour un module miroir. Le protocole de synchronisation entre les 2 serveurs est défini en 12.3 Heartbeats (<heart>, <heartbeat >, <server> tags) page 145. Voir le module applicatif mirror.safe en tant qu'exemple. farm pour un module ferme. Le protocole de synchronisation entre les serveurs est défini en 12.4, Topologie d'une ferme (<farm>, <lan>, <node> tags) page 147. Voir le module applicatif farm.safe en tant qu'exemple. light pour une configuration sur un seul serveur avec une détection d'erreur logicielle et un redémarrage local seulement. Pour un module miroir seulement. Si on, reprise automatique sur le serveur secondaire lorsque le serveur primaire est arrêté. Si off, lorsque le serveur primaire est arrêté, le serveur secondaire se met en attente (pas de reprise automatique). Seule une opération manuelle peut redémarrer le serveur secondaire en primaire : soit la commande prim, soit la commande swap lorsque le système est en PRIM-SECOND. Voir 5.7 Reprise automatique ou manuelle (failover="off" - STOP (rouge) - WAIT (rouge)) page 83 Valeur par défaut : on. Pour un module miroir seulement. defaultprim décide quel serveur parmi 2 serveurs est le serveur primaire par défaut pour un module applicatif. Cette option est utile quand un module est ALONE sur un serveur et que le module est démarré sur l'autre serveur. Avec defaultprim="alone", le module ALONE devient PRIM alors que le module redémarré devient SECOND. Valeur recommandée pour éviter les basculements d'application juste après la réintégration. Avec defaultprim="server_name", lorsque le module tourne sur 39 F2 11LT09 143

144 Guide de l'utilisateur de SafeKit [maxloop="3"] deux serveurs, le serveur PRIM est celui indiqué dans defaultprim. Cette valeur peut être utile dans les architectures actif/actif ou N- 1 : voir Actif/Actif : 2 modules miroirs en backup l'un de l'autre page 12 ou N-1 : N modules miroirs avec un seul backup page 13. Avec defaultprim="lastprim", le serveur redémarré redevient PRIM s'il était PRIM avant son dernier arrêt. Valeur par défaut : alone. Nombre de détections d'erreur successives avant arrêt. Cet attribut définit le maximum de "restart" ou "stopstart" appelés par les détecteurs d'erreur avant d'arrêter localement SafeKit. Ce compteur est réinitialisé à sa valeur initiale à l'expiration du timeout "loop_interval" ou lors d'une commande manuelle "safekit start, restart, swap, stopstart ". Valeur par défaut : 3. Noter qu'une commande "safekit" émise par un détecteur avec l'option "-i identity" décrémente le compteur, alors qu'une commande manuelle sans cette option ne décrémente pas le compteur. Pour plus d'information, voir 12.9 Détection de la mort de processus (<errd>, <proc> tags) page 165. La valeur de cet attribut peut être modifiée dynamiquement. [loop_interval ="24"] Intervalle de temps sur lequel "maxloop" s'applique. If positionné à 0, le compteur "maxloop" devient inactif. Valeur par défaut : 24 heures. La valeur de cet attribut peut être modifiée dynamiquement. [automatic_reboot ="off" "on"] Si positionné à on, reboot sur "safekit stopstart" au lieu de stopper puis redémarrer. Valeur par défaut : off. La valeur de cet attribut peut être modifiée dynamiquement F2 11LT09

145 Userconfig.xml 12.3 Heartbeats (<heart>, <heartbeat >, <server> tags) Les heartbeats doivent être utilisés seulement avec les modules miroirs. Pour une ferme, voir 12.4 Topologie d'une ferme (<farm>, <lan>, <node> tags) page 147. Le mécanisme basique pour synchroniser deux serveurs et détecter les défaillances d'un serveur est le heartbeat (battement de cœur), qui consiste en un échange de petits paquets UDP entre les serveurs. Normalement, on met autant de heartbeats qu'il y a de réseaux connectant les 2 serveurs. Dans une situation normale, les 2 serveurs échangent leurs états (PRIM, SECOND, les états des ressources) à travers les heartbeats et synchronisent ainsi les procédures de démarrage arrêt applicatif. Si tous les heartbeats sont perdus, cela signifie que l'autre serveur est en panne. Le serveur local décide de devenir ALONE. Bien que non obligatoire, il est préférable d'avoir deux voies de heartbeats sur deux réseaux différents afin de distinguer une panne réseau d'une panne serveur et d'éviter le cas du split brain <heart> Exemple <heart> <heartbeat ident="hb1" > <server addr=" " /> <server addr=" " /> </hearbeat> </heart> Un exemple de configuration de heartbeats avec de multiples voies est donné en 14.4 Exemple d'un flux de réplication dédié page <heart> Syntaxe <heart [port="xxxx"] [pulse="700"] [timeout="30000"] [permanent_arp="on"] > <heartbeat [port="xxxx"] [pulse="700"] [timeout="30000"] [ident="name"] > <server addr="ip1_address" "IP1_name" /> <server addr="ip2_address" "IP2_name" /> </hearbeat> </heart> Le tag <heart> et son sous-arbre peuvent être entièrement modifiés dynamiquement <heart>, <heartbeat >, <server> attributs <heart [port="xxxx"] Définis le port UDP sur lequel les heartbeats sont échangés. Défaut: dépend de l'id du module applicatif. Rendu par la commande "safekit module getports". 39 F2 11LT09 145

146 Guide de l'utilisateur de SafeKit [pulse="700"] [timeout="30000"] <heartbeat [port="xxxx"] [pulse="700"] [timeout= "30000"] [ident="name"] Le délai en milli-seconde entre 2 paquets de heartbeat. Valeur par défaut: 700 ms. Définis le timeout de détection en ms de la perte d'un heartbeat. Valeur par défaut : ms. Définition d'un heartbeart. Il y a autant de sections <heartbeat> qu'il y a de voies de heartbeats (réseaux connectant les serveurs). Au moins 1 heartbeat. Redéfinis le port de heartbeat. Par défaut le même que celui dans <heart>. Redéfinis le délai en milli-seconde entre 2 paquets de heartbeat. Par défaut le même que celui dans <heart>. Redéfinis le timeout de détection en ms de la perte d'un heartbeat. Par défaut le même que celui dans <heart>. Donne un nom au heartbeat. "heartbeat.name" peut être utilisé dans la failover machine : voir "Failover machine (<failover> tag)" page 181. ident="flow" est réservé pour le heartbeat sur la voie de réplication. Depuis la version Safekit , si vous positionnez un heartbeat ident="flow", le flux de réplication sera positionné automatiquement sur la même voie. Pour les versions précédente, <flow> </flow> est requis dans la section <rfs> : voir 12.6 Réplication de fichiers (<rfs>, <replicated> tags) page 155. [permanent_arp= "on" "off"] <server addr= "IP1_address" "IP1 _name" /> Si vous positionnez ident="flow" sans configuration <rfs>, le démarrage du module bloque dans l'état WAIT. Régulièrement, heart positionne un ARP permanent pour ses voies de heartbeats. Cette procédure peut geler heart sur certains systèmes (Linux). Dans ce cas, positionner à "off" et affecter l'arp permanent sur les voies de heartbeats au boot. Sur Linux, ceci peut être fait en ajoutant la commande suivante dans un script exécuté au boot: arp -s hostname hw_addr Valeur par défaut : on. Définition du 1 er serveur dans le heartbeat. adresse IP ou nom du 1 er serveur sur le réseau (adresse IP recommandée pour être indépendant d'une panne DNS) IPv6 supporté depuis SafeKit Les adresses du 1 er et du 2 nd serveur doivent être du même type (soit IPv4, soit IPv6) <server Définition du 2 nd serveur dans le heartbeat F2 11LT09

147 Userconfig.xml addr= "IP2_address" "IP2 _name" /> adresse IP ou nom du 2 nd serveur sur le réseau (adresse IP recommandée pour être indépendant d'une panne DNS) IPv6 supporté depuis SafeKit Topologie d'une ferme (<farm>, <lan>, <node> tags) Le mécanisme basique pour synchroniser une ferme de serveurs est un protocole de groupe qui détecte automatiquement les membres disponibles dans le groupe (protocole membership) <farm> Exemple <farm> <lan> <node name="server1" addr=" " /> <node name="server2" addr=" " /> <node name="server3" addr=" " /> </lan> </farm> Pour des exemples de configuration <farm>, voir 14.5 Exemples de partage de charge page <farm> Syntaxe <farm [port="xxxx"]> <lan [addr="broadcast/multicast IP address"]> <node name="server1" addr="ip1_address" "IP1_name" /> <node name="server2" addr="ip2_address" "IP2_name" /> <node name="server3" addr="ip3_address" "IP3_name" /> </lan> </farm> Le tag <farm> et son sous-arbre ne peuvent pas être modifiés dynamiquement <farm>, <lan>, <node> Attributs <farm [port="xxxx"] [pulse= "xxx"] Définis le port UDP sur lequel le protocole membership échange. Défaut : dépend de l'id du module applicatif. Rendu par la commande "safekit module getports". Définit la période d émission des messages du protocole d appartenance. Un pulse élevé utilise moins de bande passante, mais entraîne un délai de réaction plus long. 39 F2 11LT09 147

148 Guide de l'utilisateur de SafeKit [mlost_count= "xx"] [slost_count= "xx"] <lan <node name="identity" addr= "IP1_address" "IP1_name" Définit le nombre de périodes écoulées sans réception de message avant d élire un nouveau maître. Définit le nombre de périodes écoulées sans réception de message avant de déclarer un esclave hors ligne. Définis un LAN sur lequel s'exécute le protocole membership. Au moins un LAN. Autant de sections qu'il y a de LANs entre les serveurs. Définition d'un nœud dans la ferme. Positionner autant de nœuds qu'il y a de serveurs dans la ferme (au moins 2). Identité du nœud dans la ferme (une chaîne de caractères). Utilisée ensuite pour les règles de load balancing (voir <host> en 14.5 Exemples de partage de charge page 203). L'identité doit être la même lorsque le nœud est défini dans plusieurs LANs. Adresse IP ou nom du nœud dans le LAN (préférer une adresse IP pour être indépendant d'un serveur de noms DNS). IPv6 supporté depuis SafeKit Adresse IP virtuelle (<vip> tag) <vip> Exemple dans une architecture ferme page <vip> Exemple dans une architecture page <vip> Syntaxe page <interface_list>, <interface>, <virtual_interface>, <real_interface>, <virtual_addr> Attributs page <loadbalancing_list>, <group>, <cluster>, <host> Attributs page Qu'est-ce que le type "vmac_invisible"? page Qu est-ce que le type "vmac_directed"? page Comment fonctionne le load balancing? page <vip> prérequis page 155 Si vous installez plusieurs modules applicatifs sur le même serveur, l'adresse IP virtuelle doit être différente pour chaque module F2 11LT09

149 Userconfig.xml <vip> Exemple dans une architecture ferme <vip> <interface_list> <interface check="off" arpreroute="on" arpinterval="60" arpelapse="10"> <virtual_interface type="vmac_directed"> <virtual_addr addr=" " where="alias" check="on"/> </virtual_interface> </interface> </interface_list> <loadbalancing_list> <group name="farmproto"> <rule port="80" proto="tcp" filter="on_port"/> </group> </loadbalancing_list> </vip> Voir aussi 14.2 Exemple du module générique ferme page <vip> Exemple dans une architecture miroir <vip> <interface_list> <interface check="off" arpreroute="on"> <real_interface> <virtual_addr addr=" " where="one_side_alias" check="on"/> </real_interface> </interface> </interface_list> </vip> Voir aussi 14.1 Exemple du module générique miroir page <vip> Syntaxe Partage de charge réseau dans une architecture ferme <vip> <interface_list> <interface [check="off" "on"] [arpreroute="off" "on"] [arpinterval="60"] [arpelapse="1200"] [name="interface name"] > <virtual_interface [type="vmac_directed" "vmac_invisible"] [addr="xx:xx:xx:xx:xx"] > <virtual_addr addr="virtual_ip_name" "virtual_ip_address" [where="alias"] [check="off" "on"] [netmask="defaultnetmask"] /> 39 F2 11LT09 149

150 Guide de l'utilisateur de SafeKit </virtual_interface> </interface> </interface_list> <loadbalancing_list> <group name="group_name" <cluster> <host name="node_name" power="integer" /> </cluster> <rule [virtual_addr="*" "virtual_ip_name" "virtual_ip_address"] [port="*" "value"] proto="udp" "tcp" filter="on_addr" "on_port" "on_ipid" /> </group> </loadbalancing_list> </vip> Le tag <vip> et son sous-arbre ne peuvent pas être modifiés dynamiquement Basculement réseau dans une architecture miroir <real_interface> <virtual_addr addr="virtual_ip_name" "virtual_ip_address" where="one_side_alias" [check="off" "on"] [netmask="defaultnetmask"] /> </real_interface> </interface> </interface_list> </vip> <interface_list>, <interface>, <virtual_interface>, <real_interface>, <virtual_addr> Attributs <interface_list> <interface [check="off" "on"] Définition des adresses IP virtuelles sur une interface. Mettre autant de sections <interface> que vous avez d'interfaces réseau à configurer. Positionner un checker sur l'interface réseau. Le module est mis dans l'état WAIT tant que l'interface est down. Le nom du checker d'interface est intf.<network_ip_mask> (intf ). Valeur par défaut : off. Pour plus d'information, voir F2 11LT09

151 Userconfig.xml [arpreroute="off" "on"] Interface checker (<intf> tags) page 174. Broadcast de gratuitous ARP pour le reroutage des adresses IP virtuelles définies dans les sections <real_interface>. Valeur par défaut : off. En Windows 2008, positioner arpreroute="on" lorsque l IP virtuelle est définie au sein du tag <real_interface>. [arpinterval="60"] [arpelapse="1200"] [name="interface name"] <virtual_interface type= "vmac_invisible" "vmac_directed" [addr="xx:xx:xx:xx:xx"] <virtual_addr addr="virtual_ip_name" "virtual_ip_address" Temps en seconde entre 2 gratuitous ARP. Valeur par défaut : 60 s. Temps total pendant lequel des gratuitous ARP sont émis. Valeur par défaut : 1200 s. Unix seulement. Vous pouvez spécifiez le nom de l'interface. Exemple, positionner name="bond0" sur Linux. Par défaut, SafeKit détecte l'interface réseau à configurer à partir des adresses IP virtuelles configurées sur cette interface. A utiliser pour les modules fermes. Définition des adresses IP virtuelles configurées sur une interface Ethernet. "vmac_invisible": adresse MAC virtuelle jamais visible dans les entêtes Ethernet pour permettre le broadcast des switchs. Nécessite le support du mode promiscuous. Voir Qu'est-ce que le type "vmac_invisible"? page 154 Note : configuration possible pour un module miroir et pour un reroutage transparent sans gratuitous ARP. "vmac_directed": Associe l adresse MAC de l un des serveurs à l adresse IP virtuelle, comme pour le reste du trafic normal. Voir Qu est-ce que le type "vmac_directed"? page 155 Unicast virtual MAC address. Si non positionné, par défaut concaténation de "5A:FE" (Safe) et de la 1 ère adresse IP virtuelle en hexadécimal. Ignoré en mode "vmac_directed" Définition d'une adresse IP virtuelle. Mettre autant de lignes <virtual_addr> qu'il y a d'adresses IP virtuelles à configurer sur l'interface. Nom ou adresse IP virtuelle (préférer une adresse IP pour être indépendant de la panne du serveur de nom). 39 F2 11LT09 151

152 Guide de l'utilisateur de SafeKit where="alias" IPv6 supporté depuis SafeKit [check="off" "on"] Depuis SafeKit L'adresse IP virtuelle est définie sur tous les serveurs de la ferme en alias. Note : Dans le cas particulier d'une configuration d'un module miroir avec VMAC mettre ici where="one_side_alias". Positionner un IP checker sur l addresse virtuelle. Le module exécute un stopstart quand l IP virtuelle est détruite. Le nom de l IP checker est ip.<addr value> (ip ). Default value: off. Pour plus d informations, voir IP checker (<ip> tags) page 175. netmask="defaultnetmask" [IPV4 seulement] Par défaut, prend le netmask de l'interface. A positionner si l'interface a plusieurs netmasks. </virtual_interface> <real_interface> A utiliser pour les modules miroirs. Définition d'adresses IP virtuelle associée avec l'adresse MAC réel de l'interface. <virtual_addr addr= "virtual_ip_name" "virtual_ip_address" where="one_side_alias" En Windows 2008, positionner arpreroute="on" sur le tag <interface> englobant, afin de rerouter l adresse virtuelle lors d un basculement. Définition d'une adresse IP virtuelle. Mettre autant de lignes <virtual_addr> qu'il y a d'adresses IP virtuelles à configurer sur l'interface. Nom ou adresse IP virtuelle (préférer une adresse IP pour être indépendant de la panne du serveur de nom). IPv6 supporté depuis SafeKit Adresse mise en alias sur le serveur PRIM ou ALONE. [check="off" "on"] Depuis SafeKit Positionner un IP checker sur l addresse virtuelle. Le module exécute un stopstart quand l IP virtuelle est détruite. Le nom de l IP checker est ip.<addr value> (ip ). Default value: off. Pour plus d informations, voir IP checker (<ip> tags) page 175. netmask="defaultnetmask" Par défaut, prend le netmask de l'interface. A positionner F2 11LT09

153 Userconfig.xml si l'interface a plusieurs netmasks <loadbalancing_list>, <group>, <cluster>, <host> Attributs Pour des exemples de load balancing, voir 14.5 Exemples de partage de charge page 203. A utiliser avec un module ferme <loadbalancing_list> <group name="group_name" <cluster <host name = "node_name" power = "value" Définition d'un groupe de load balancing. Mettre autant de sections qu'il y a de groupes : un exemple est donnée en Exemple d'un load balancing multi-groupes page 205. Nom du groupe de load balancing. Définition des serveurs et des poids. Sans la section <cluster>, les règles s'appliquent sur tous les serveurs de la ferme. Définition d'un nœud dans le groupe Nom du nœud tel qu'il a été défini dans la section <farm> </farm>. Voir 12.4 Topologie d'une ferme (<farm>, <lan>, <node> tags) page 147. Poids du nœud dans le groupe. Peut-être égal à 0 si l'on veut aucun trafic sur le nœud. Pour plus d'information voir , Qu est-ce que le type "vmac_directed"? La configuration type= "vmac_directed" modifie le fonctionnement du filtre. Dans ce mode, il n y a pas de MAC virtuelle ; vu de l extérieur, l adresse IP virtuelle se comporte comme une adresse IP normale du point de vue de la résolution IP<->MAC. Le module noyau est chargé de filtrer et transmettre les paquets entrant au serveur désigné par l algorithme de partage de charge. Le mode "vmac_directed" introduit un délai pour les clients ayant résolu l adresse IP virtuelle sur l adresse MAC d un serveur qui est devenu indisponible. Ceci est comparable à ce qui se passe dans le cas <real_interface>. Les autres clients ne sont pas affectés. Pour minimiser ce délai en IPV4, positionner arpreroute="on" sur l interface correspondante, et régler les paramètres arpelapse et arpinterval. Ipv6 possède un mécanisme interne et ne nécessite pas de configuration particulière. 39 F2 11LT09 153

154 Guide de l'utilisateur de SafeKit </cluster> <rule [virtual_addr= "*" "virtual_ip_address" "virtual_ip_name"] [port="*" "value"] proto="udp" "tcp" "arp" filter="on_addr" "on_port" "on_ipid" Comment fonctionne le load balancing? page 155. Définition d'une règle de load balancing dans le groupe. Autant de lignes que de règles de load balancing. Adresses IP virtuelles concernées par le load balancing. Par défaut toutes : "*" Port TCP ou UDP sur lequel s'applique la règle de load balancing Par défaut tous les ports : "*" proto="udp" : règle de load balancing UDP. proto="tcp" : règle de load balancing TCP. proto="arp": règle de load balancing pour le protocole de résolution IP<->MAC. filter="on_addr" La règle de load balancing est réalisée sur l'adresse IP client en entrée (see Exemple d'un load balancing TCP page 203). filter="on_port" La règle de load balancing est réalisée sur le port client en entrée (see Exemple d'un load balancing TCP page 203). filter="on_ipid" La règle de load balancing est réalisée sur l'ip_id en entrée. Utile pour UDP seulement (see Exemple de load balancing UDP page 204) <vip> Description Qu'est-ce que le type "vmac_invisible"? La configuration type="vmac_invisible" associe une adresse MAC virtuelle à l adresse IP virtuelle. Avec une adresse MAC virtuelle, les paquets émis vers l'adresse IP virtuelle sont reçus par tous les serveurs. Dans un module noyau, chaque serveur décode le paquet réseau et l'accepte ou le rejette. Après une sélection à très bas niveau des paquets réseau, l'application sur le serveur gère seulement le trafic réseau sélectionné par le module noyau. Le mécanisme d'adresse MAC virtuelle consiste à associer une adresse MAC unicast dite virtuelle à l'adresse IP virtuelle. Quand un routeur ou une machine réseau recherche l'adresse IP virtuelle, les serveurs SafeKit répondent avec l'adresse MAC virtuelle (via le protocole standard). Cependant, chaque serveur utilise son adresse MAC physique pour communiquer. Ainsi, l'adresse MAC virtuelle est invisible et non localisable par les switchs Ethernet. Par défaut, les switchs émettent ce type de paquet sur tous leurs ports (flooding), ceux-ci sont alors reçus par tous les serveurs de la ferme F2 11LT09

155 Userconfig.xml Avec la technologie d'adresse MAC virtuelle, le reroutage en cas de panne et de reprise est immédiat. Tous les équipements conservent l'association adresse IP virtuelle, adresse MAC virtuelle dans leur cache ARP. Pour tester une adresse MAC virtuelle sur votre réseau, voir Test de la compatibilité du réseau avec l'adresse MAC invisible page Qu est-ce que le type "vmac_directed"? La configuration type= "vmac_directed" modifie le fonctionnement du filtre. Dans ce mode, il n y a pas de MAC virtuelle ; vu de l extérieur, l adresse IP virtuelle se comporte comme une adresse IP normale du point de vue de la résolution IP<->MAC. Le module noyau est chargé de filtrer et transmettre les paquets entrant au serveur désigné par l algorithme de partage de charge. Le mode "vmac_directed" introduit un délai pour les clients ayant résolu l adresse IP virtuelle sur l adresse MAC d un serveur qui est devenu indisponible. Ceci est comparable à ce qui se passe dans le cas <real_interface>. Les autres clients ne sont pas affectés. Pour minimiser ce délai en IPV4, positionner arpreroute="on" sur l interface correspondante, et régler les paramètres arpelapse et arpinterval. Ipv6 possède un mécanisme interne et ne nécessite pas de configuration particulière Comment fonctionne le load balancing? Dans un module kernel, l'algorithme de load balancing est réalisé par filtrage sur les l'identité des paquets en réception. Cette identité est définie par configuration dans userconfig.xml : adresse IP client, port client (i.e.: load balancing de niveau 4). L'identité est passée dans une table de hachage (une bitmap de 256 bits) qui indique si le paquet doit être accepté ou rejeté sur le serveur. Un seul filtre accepte le paquet dans la ferme de serveurs. Quand un serveur est défaillant, le protocole membership reconfigure les filtres pour redistribuer le trafic du serveur défaillant sur les serveurs disponibles. Chaque serveur peut avoir un poids (=1, 2 ) et prendre plus ou moins de trafic. Le poids est mis en œuvre par le nombre bits à 1 dans la table de hachage (la bitmap de 256 bits). Un exemple de bitmap est donné en Test load balancing TCP sur une adresse virtuelle page <vip> prérequis Voir Prérequis réseau page Réplication de fichiers (<rfs>, <replicated> tags) S'applique à un module miroir seulement. Si vous exécutez plusieurs modules simultanément, les répertoires répliqués doivent être différents pour chaque module. 39 F2 11LT09 155

156 Guide de l'utilisateur de SafeKit <rfs> Exemple Exemple en Windows : <rfs mountover="on" async="second" > <replicated dir="c:\safedir" mode="read_only"/> </rfs> Exemple en Linux : <rfs mountover="off" async="second" > <replicated dir="/safedir" mode="read_only"/> </rfs> Exemple en AIX : <rfs mountover="on" async="second" > <replicated dir="/safedir" mode="read_only"/> </rfs> Voir aussi 14.4 Exemple d'un flux de réplication dédié page <rfs> Syntaxe <rfs [mountover="on" "off"] [acl="on" "off"] [async="second" "none"] [packetsize="buffer size for read and write from clients"] [iotimeout="nb seconds"] [locktimeout="200"] [nbrei="3"] [ruzone_blocksize="65536"] [namespacepolicy="1" "3"] [reitimeout="150"] [reicommit="0"] [reidetail="on" "off"] [checktime="220000"] [checktintv="120"] > [nfsbox_options="cross" "nocross"] [scripts="off"] [reiallowedbw= ] [<flow> <server addr="ip_address_1" "IP_name_1" /> <server addr="ip_address_2" "IP_name_2" /> </flow>] <replicated dir="absolute path of a directory" [mode="read_only"] > <tocheck path="relative path of a file or subdir" /> <notreplicated path="relative path of a file or subdir" /> F2 11LT09

157 Userconfig.xml <notreplicated regexpath="regular expression on relative path of a file or subdir" /> </replicated> </rfs> Seuls les atributs aync, nbrei, reitimeout et reidetail du tag <rfs> peuvent être modifiés par une configuration dynamique. Le tag <flow>, qui décrit le flux de replication, peut également être changé dynamiquement <rfs>, <replicated> Attributs <rfs [mountover= "on" "off"] Valeur par défaut="on" sauf sur Linux à cause d'un bug NFS. Sur Linux, à la configuration du module miroir, le répertoire répliqué "/a/dir" est renommé en "/a/dir_for_safekit_replication". Le répertoire /a/dir est créé et c'est : un point de montage vers /a/dir_for_safekit_replication lorsque le module est démarré. un lien vers "/a/dir_for_safekit_replication" lorsque le module est arrêté. S'il y a une défaillance matérielle, le lien symbolique n'est pas restauré. Dans ce cas, vous devez le restaurer manuellement. Restriction Avec mountover="off", vous ne pouvez pas spécifier directement un file system root comme répertoire répliqué (car le renommage du répertoire root ne fonctionne pas). Le contournement consiste à une manipulation du fichier fstab tel qu'expliquée dans un KB sur Lorsque SafeKit est démarré, NE PAS ACCEDER les fichiers dans "/a/dir_for_safekit_replication", sinon les modifications ne seront pas répliquées et le système deviendra inconsistant. TOUJOURS ACCEDER les fichiers via "/a/dir". [acl= "on" "off"] Active la réplication des ACLs sur les fichiers et répertoires. Valeur par défaut : off. 39 F2 11LT09 157

158 Guide de l'utilisateur de SafeKit [async= "second" "none"] Restrictions sur Windows La réplication des ACLs ne fonctionnera pas si le compte SYSTEM n'a pas les droits "Full control" sur toute la forêt répliquée. Le service safeadmin s'exécute dans le compte SYSTEM. Les ACLs sont répliqués littéralement (SID), sans translation, donc les ACLs "local users/groups" ne sont pas utilisables sur le serveur distant. Le cryptage et la compression des fichiers ne sont pas supportés. Positionner async à "second" améliore les performances de la réplication de fichiers : les opérations d'écriture répliquées sont mises en cache sur le serveur secondaire et les acquittements sont envoyés plus rapidement au serveur primaire. Positionner async à "none" assure plus de sécurité : les opérations d'écriture répliquées sont mises sur disque avant d'envoyer les acquittements au serveur primaire. Avec async="second", en cas de double panne simultanée des 2 serveurs PRIM et SECOND, si le serveur PRIM ne peut pas redémarrer, alors le serveur SECOND n'a pas les données à jour sur son disque. Il y a perte de données si on force le serveur SECOND à redémarrer en primaire avec la commande prim. Valeur par défaut : second La valeur de cet attribut peut être modifiée dynamiquement. [packetsize] [iotimeout] [locktimeout= "200"] [nbrei="3"] Taille en octet des paquets de réplication NFS. Par défaut, la taille est choisie dynamiquement en fonction de la plateforme. Windows seulement. Timeout en seconde sur les IO gérées dans le filtre file system Windows. Si une IO ne peut pas être répliquée et si le timeout du filtre expire, alors le serveur PRIM devient ALONE. Si non positionné, la valeur par défaut est calculée dynamiquement. Timeout en seconde des requêtes répliquées. Si une requête ne peut pas être traitée dans cet intervalle de temps, le serveur PRIM devient ALONE Nombre de threads de réintégration s'exécutant en parallèle pour resynchroniser les fichiers. Valeur par défaut : 3. La valeur de cet attribut peut être modifiée dynamiquement. [ruzone_blocksiz Taille d'une zone pour la bitmap de modification d'un fichier F2 11LT09

159 Userconfig.xml e="65536"] [namespacepolicy ="1" "3"] [reitimeout= "150"] Ça doit être un multiple de packetsize. Par défaut octets. Windows seulement. Avec l option namespacepolicy="1", la reintegration par zones ne peut être assurée après l arrêt propre du module, puis reboot du serveur. Pour que ce cas soit supporté, il faut positionner namespacepolicy="3". Cette option exploite l USN journal du volume qui contient le répertoire répliqué (voir la commande fsutil usn pour la création du journal). Malgré cette option, la réintégration complète doit être appliquée lorsque : l USN journal associé au volume a été détruit/recréé par l administrateur une discontinuité dans le journal est détectée Default value: 1. Timeout en seconde des requêtes de réintégration. Ce timeout peut être augmenté pour éviter les arrêts de réintégration à cause d'une machine primaire chargée. La valeur de cet attribut peut être modifiée dynamiquement. [reicommit="0"] [reidetail= "on" "off"] Unix seulement. Positionner reicommit="nb blocks" pour commiter sur disque tous les (nb blocks)*packetsize KB lors de la réintégration d'un fichier (en plus du commit réalisé à la fin de la copie). Ceci peut aider la réintégration de gros fichiers mais ralentit le temps de réintégration global. Par défaut, 0 signifie pas de commit intermédiaire. Loging détaillé de la réintégration. Valeur par défaut : off. La valeur de cet attribut peut être modifiée dynamiquement. [checktime= "220000"] [checkintv= "120"] nfsbox_options=" cross" "nocross" Unix seulement. Timeout en milli secondes pour une requête null qui vérifie le bon fonctionnement local de la réplication de fichiers. Commande stopstart si le timeout est atteint. Par défaut, ms Unix seulement. Intervalle en seconde entre 2 requêtes null. Par défaut, 120 s Windows seulement. Cette option spécifie la politique à appliquer lorsqu un reparse point 39 F2 11LT09 159

160 Guide de l'utilisateur de SafeKit [scripts= "on" "off"] [reiallowedbw= "20000"] du type MOUNT_POINT est présent dans l arborescence répliquée. Cette politique est globale à tous les répertoires répliqués. Dans NTFS, les reparse point de type MOUNT_POINT représentent : soit un point de montage NTFS (par exemple D:\directory) soit un "directory junction" NTFS (en quelque sorte un lien symbolique vers une autre partie du système de fichiers) Avec l option nfsbox_options="cross", le contenu du MOUNT_POINT reparse point content itself is not replicated/reintegrated. It is evaluated and the reintegration/replication process the target content as it would do for the content of a standard directory. This is useful for instance when a replicated directory is a mount point (e.g. replicating a "drive letter" root). This is the default configuration value. When nfsbox_options="nocross", the MOUNT_POINT reparse point content itself is replicated/reintegrated, but not evaluated. Reintegration does not descend into the target of the reparse point. This is useful for instance when a replicated directory tree contains NTFS "junctions" that point to another part of the replicated tree (e.g. when replicating a postgresql database, as postgresql is known to need such objects). Valeur par défaut : "cross" scripts="on" active les callback vers les scripts _rfs_* utilisés pour mettre en œuvre une réplication de données externe (voir le module Linux DRBD.safe pour plus d'information) Valeur par défaut : "off" Quand cet attribut est défini, il spécifie la bande passante maximum susceptible d être utilisée par la phase de réintegration (par exemple KB/s), en kilo octets par secondes (KB/s). Etant donné l implémentation retenue, une fluctuation de +/- 10% de la bande passante réellement utilisée est observable. La bande passante utilisée par la réplication n est pas affectée par ce paramètre. [<flow> <server addr="ip_1" /> <server addr="ip_2" /> </flow>] Par défaut : l attribut n est pas défini et la bande passante utilisée par la réintégration n est pas limitée Depuis la version SafeKit , vous avez juste à configurer un heartbeat ident="flow" pour définir le flux de réplication : voir 12.3 Heartbeats (<heart>, <heartbeat >, <server> tags) page 145 IP_1 et IP_2 définissent le flux de réplication entre 2 adresses IP ou noms connectant les 2 serveurs. Rester cohérent avec heartbeat ident=flow" car des règles de failover par défaut sont définies sur le flux de réplication : voir Règles de failover par défaut page 183. Le flux de réplication peut être mis en œuvre par un simple câble entre 2 cartes Ethernet (configuration full duplex, avec un réseau privé and netmask ) F2 11LT09

161 Userconfig.xml Par défaut, si le flux de réplication n'est pas défini, il passe par la voie du 1 er heartbeat. IPv6 supporté depuis SafeKit Les adresses des deux serveurs doivent être du même type (soit IPv4, soit IPv6) Le sous-arbre <flow> peut être modifié dynamiquement, pour changer le flux de replication par exemple. <replicated dir="/abs_path" [mode= "read_only"] <notreplicated path="relative" /> <notreplicated regexpath="regul ar expression" /> <tocheck path="relative" /> Définition des répertoires répliqués Mettre autant de sections que de répertoires à répliquer Path absolu du répertoire à répliquer. Accès en read-only sur la machine secondaire pour éviter la corruption. Path relatif d'un fichier ou d'un sous répertoire d'un répertoire répliqué. Le fichier (ou sous répertoire) est non répliqué. Autant de lignes que de fichiers ou sous répertoire à non répliquer. Unix seulement. Expression régulière pour définir les fichiers ou sous répertoires non répliqués. Exemple (pour plus d'information, voir "man regex"): <replicated dir="/safedir"> <notreplicated regexpath=".*\.tmp" /> </replicated> Dans cet exemple, /safedir/conf/config.tmp et /safedir/log.tmp sont non répliqués alors que /safedir/conf/config.tmp.bak est répliqué. Path relatif d'un fichier ou d'un sous répertoire dans un répertoire répliqué. Vérifier sa présence avant de démarrer. Evite un démarrage sur un répertoire vide. Mettre autant de lignes que nécessaire <rfs>description Unix Sur Unix, l'interception des données répliquées est basée sur un montage NFS local. Et le flux de réplication entre les serveurs est basé sur le protocole NFS v3 / TCP. Le montage NFS des répertoires répliqués à partir de clients Unix externe n'est pas supporté. Par contre, le montage d'autres répertoires peut être réalisé avec les commandes standards Windows Sur Windows, l'interception des données est basée sur un filtre file system. Et le flux de réplication entre les serveurs est basé sur le protocole NFS v3 / TCP. Certains anti-virus peuvent empêcher le fonctionnement correct de la réplication. 39 F2 11LT09 161

162 Guide de l'utilisateur de SafeKit Sur Windows, il est possible de monter à distance un répertoire répliqué. Si vous voulez pouvoir monter avec le nom et non l'adresse IP virtuelle, vous devez positionner les valeurs suivantes dans les bases de registre des deux serveurs SafeKit : [HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Control\Lsa] "DisableLoopbackCheck"=dword: [HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Services\lanmanserver\paramete rs] "DisableStrictNameChecking"=dword: <rfs> Vérification de la réplication Vous pouvez vérifier que les fichiers sont identiques sur le primaire et le secondaire avec la commande suivante à passer sur la machine SECOND : safekit rfsverify m AM > /tmp/logverify Le fichier /tmp/logverify est un journal XML qui est rendu lisible avec la commande cat /tmp/logverify safekit -r flatlogdump -O [stdout <file name>] Il se peut qu'une erreur soit détectée alors qu'il n'y a pas de différence entre les fichiers dans les cas suivants : sur Windows à cause des modifications faites sur disque avant d'être répliquées, avec async="second" (défaut) car les lectures peuvent dépasser les écritures. Pour discriminer s'il y a erreur ou non, vous devez relancer la commande sur le serveur secondaire en s'assurant qu'il n'y plus d'activité sur le serveur primaire dans les répertoires répliqués. Sur Windows, certains fichiers modifiés avec l'option SetvalidData sont systématiquement détectés différents car ils sont étendus sans reset des données : le contenu en lecture des zones étendues est le contenu aléatoire du disque au moment de la lecture <rfs> Bande passante de réplication et de réintégration Le composant de réplication collecte sur le serveur PRIM la bande passante utilisée par les opérations d écritures de réplication et de réintégration. Deux ressources (rfs_bandwidth.replication et rfs_bandwidth.reintegration), exprimées en kilo octet par seconde (KB/s), reflètent la bande passante moyenne utilisée respectivement par la réplication et la réintégration durant les 3 dernières secondes. Si la charge de réplication est très active en écriture, une saturation du lien réseau peut se produire lors de la phase de réintégration, entraînant un ralentissement significatif de l application. Dans ce cas, l attribut <rfs> reiallowedbw peut être utilisé pour limiter la bande passante utilisée par la phase de réintégration (voir <rfs>, <replicated> Attributs page 157). Il faut cependant considérer que la limitation de la bande passante de réintégration allongera la durée de la phase de réintégration. La bande passante de réplication dépend de l activité applicative et système, sa mesure n est disponible qu à titre d information <rfs> prérequis Voir Prérequis réplication de fichiers page F2 11LT09

163 Userconfig.xml 12.7 Activer les scripts utilisateurs (<user>, <var> tags) Cette section décrit uniquement les options de configuration du tag <user>. Voir 13 Scripts applicatifs de l'utilisateur page 185 pour une description complète des scripts <user> Exemple <user logging="userlog" > <var name="varenv" value="v1" /> </user> Voir aussi 14.1 Exemple du module générique miroir page <user> Syntaxe <user [nicestoptimeout="300"] [forcestoptimeout="300"] [logging="userlog" "none"] [userlogsize="2048"] > <var name="environment_variable_1" value="value_1" /> </user> Le tag <user> et son sous-arbre peuvent être entièrement modifiés dynamiquement <user>, <var> Attributs <user [nicestoptimeout="300"] Timeout en secondes pour exécuter les scripts stop_xx. Valeur par défaut : 300 secondes. [forcestoptimeout="300"] Timeout en secondes pour exécuter les scripts stop_xx force [logging="userlog"] [logging="none"] [userlogsize="2048"] Valeur par défaut : 300 secondes. Messages stdout et stderr de l'application démarrée dans les scripts redirigés dans le journal SAFEVAR/modules/AM/userlog. AM (SAFEVAR=C:\safekit\var sur Windows et /var/safekit sur UNIX). Valeur par défaut Pas de logging des messages stdout and stderr. Taille limite en KB de userlog. Au démarrage du module, le fichier est reseté si sa taille a dépassé la limite. 39 F2 11LT09 163

164 Guide de l'utilisateur de SafeKit Valeur par défaut : 2048 KB. <var name="env_variable_1" value="value_1" /> Variable d'environnement et sa valeur exportée avant l'exécution des scripts. Mettre autant de lignes que de variables Hostname virtuel (<vhost>, <virtualhostname> tags) <vhost> Exemple <vhost> <virtualhostname name="vhostname" envfile="vhostenv" /> </vhost> Voir aussi 14.6 Exemple d'un hostname virtuel avec vhost.safe page <vhost> Syntaxe <vhost> <virtualhostname name="virtual_hostname" envfile="path_of_a_file" [when="prim" "second" "both"] /> </vhost> Le tag <vhost> et son sous-arbre ne peuvent pas être modifiés dynamiquement <vhost>, <virtualhostname> Attributs <vhost> <virtualhostname name="virtual_hostname" envfile="path_of_envfile" Définition du nom virtuel. Path d'un fichier d'environnement généré automatiquement par SafeKit à la configuration. Si le path du fichier est relatif, le fichier est généré dans les fichiers d'environnement du module, i.e.: SAFEUSERBIN Ce fichier est utilisé dans les scripts pour positionner le hostname virtuel. Voir le module vhost.safe livré avec le package Unix et Windows. [when="prim" "second" "both"] Définis quand le hostname virtuel doit être rendu. Par défaut, prim signifie quand le module est primaire (PRIM ou ALONE) F2 11LT09

165 Userconfig.xml /> </vhost> <vhost> Description Fonctionnalité <vhost> Certaines applications ont besoin de voir le même hostname quel que soit le serveur d'exécution (typiquement, elles stockent le hostname dans un fichier répliqué). Le hostname virtuel peut être présenté à ces applications alors que les autres applications voient le hostname physique des serveurs. Sur Linux La mise en œuvre est basée sur la variable d'environnement LD_PRELOAD : les fonctions gethostname et uname sont surchargées. Sur Aix La mise en œuvre est basée la variable d'environnement LIB_PATH qui pointe sur une libc avec les fonctions gethostname et uname surchargées. La nouvelle libc.a est construite à partir de la libc courante dans /var/safekit/vlibc. Cette construction a lieu au moment de la configuration du module. Sur AIX, <vhost> ne fonctionne pas avec les exécutables qui ont un bit s (set uid). Sur Windows La mise en œuvre est basée sur la variable d'environnement CLUSTER_NETWORK_NAME_ : les fonctions de l'api name query (GetComputerName, GetComputerNameEx, gethostname) sont surchargées. Pour utiliser vhost avec un service, utiliser les commandes vhostservice <service> [<file>] avant/après le démarrage/arrêt du service. Voir 14.6 Exemple d'un hostname virtuel avec vhost.safe page 205 pour un exemple complet Détection de la mort de processus (<errd>, <proc> tags) La section <errd> nécessite d'avoir défini la section <user/> <errd> Exemple <errd> <proc name="myproc" atleast="1" action="restart" class="prim" /> </errd> Voir aussi 14.7 Détection de la mort de processus avec softerrd.safe page F2 11LT09 165

166 Guide de l'utilisateur de SafeKit <errd> Syntaxe <errd [polltimer="10"] > <proc name="process name" [argregex="regular expression on process arguments, including command name"] atleast="1" action="stopstart" "restart" "stop" "executable_name" class="prim" "both "second" "sec" "othername"] [start_after="nb polling cycles"] [atmax="-1"] /> </errd> Le tag <errd> et son sous-arbre peuvent être entièrement modifiés dynamiquement <errd>, <proc> Attributs <errd polltimer="10" <proc name="process_name" class="prim" "both" "second" "sec" "othername " [argregex="regular expression on process Temps de polling entre 2 surveillances des processus. Définition du processus à surveiller. Autant de lignes que de processus. Nom du processus à surveiller. Exemple: sur UNIX, name="vi" et sur Windows name="notepad.exe". Voir <errd> Commandes page 168 pour retrouver le nom des processus. Le processus appartient à une classe. La surveillance démarre avec la commande safekit errd enable "classname" -m AM. Les fonctions enable/disable des classes "prim" "both" "second" "sec" sont automatiques et faites par SafeKit dans le plug-in <user/> après/avant start_prim/stop_prim, start_both/stop_both, start_second/stop_second, start_sec/stop_sec. Voir 13 Scripts applicatifs de l'utilisateur page 185. Avec un autre nom de classe, les fonctions enable/disable doivent être faites explicitement après/avant le démarrage/arrêt des processus de la classe. Expression régulière sur la liste des arguments du processus incluant le nom de l'exécutable. Paramètre F2 11LT09

167 Userconfig.xml arguments"] optionnel. Voir <errd> Commandes page 168 pour retrouver la liste des arguments d'un processus. Exemples sur Unix avec l'éditeur vi sur myfile ("man regex" pour plus d'information): name="vi" argregex=".*myfile.*" name="vi" argregex="/myrep/myfile.*" name="vi" argregex="/myrep/myfile" Exemples Windows avec l'éditeur notepad sur myfile ("class CatlRegExp" pour plus d'information): name="notepad.exe" argregex=".*myfile.*" name="notepad.exe" argregex="c:\\myrep\\myfile.*" name="notepad.exe" argregex="c:\\myrep\\myfile" Comme les expressions régulières sont définies dans le fichier XML userconfig.xml, certains caractères ne peuvent pas être utilisés '<' ou '>'. atleast="1" Nombre minimum de processus qui doivent s'exécuter. Si le minimum est atteint, SafeKit déclenche l'action. Exemple: name="oracle" argregex=".*db1.*" atleast="1" signifie qu'une action est déclenchée si 0 processus s'exécute sur l'instance oracle/db1. S il est positionné à "-1", ce critère n'est pas pris en compte. Dans les versions de SafeKit < 7.1.2, la valeur par défaut était "-1". action= "restart" "stopstart" "stop" "noaction" "executable_name" Action (ou handler) à exécuter sur le module. noaction réalise juste un logging de message, restart un redémarrage local et stopstart un basculement. Les commandes restart/stopstart incrémente le compteur maxloop pour vérifier que l'on n'est pas sur une faute reproductible. Voir 12.2 Module ferme ou miroir (<service> tag) page 142 Pour un handler, soit mettre le path absolu du handler, soit mettre le path relatif au répertoire bin du module ("SAFE/modules/AM/bin/"). Nous conseillons un path relatif avec un handler défini dans le module. Avec un handler spécial, une classe avec un nom propre doit être définie. Pour un handler spécial en Unix, insérer à la fin du script, exit 0 39 F2 11LT09 167

168 Guide de l'utilisateur de SafeKit Pour un handler spécial en Windows, mettre à la fin %SAFEBIN%\exitcode 0. Sinon, c'est un échec et SafeKit exécute stopstart sur le module. start_after=[nb polling cycles] Paramètres avancées atmax="-1" mem="-1" </errd> Avec un handler spécial, le compteur maxloop n'est pas incrémenté. Utiliser la commande : SAFE/safekit incloop m AM i <handler name> Cette commande incrémente le compteur et retourne 1 quand la limite est atteinte. Voir 14.7 Détection de la mort de processus avec softerrd.safe page 207 Sans le paramètre start_after, la surveillance des processus est effective immédiatement. Sinon elle est retardée de (n-1)*polltimer secondes où : n est la valeur de start_after polltimer est le paramètre de polling d'errd (10 secondes par défaut) Par exemple si start_after="3", la surveillance est retardée de 20 secondes ((3-1)*10). Le paramètre start_after est utile si le processus prend un certain temps à démarrer. Nombre maximum de processus qui peuvent s'exécuter. Si le maximum est atteint, SafeKit déclenche l'action. Par défaut, positionné à "-1": critère non pris en compte. Avec atmax="0", une action est déclenchée à chaque démarrage du processus. Occupation mémoire maximum en Kb. AIX : ps o vsz, Linux : ps o size, Windows : Champ WorkingSetSize de l objet WMI Win32Process. Si le maximum est atteint, SafeKit déclenche l action. Par défaut,positionné à -1 : critère non pris en compte <errd> Commandes Si la commande est utilisée dans un script utilisateur, alors la variable d'environnement SAFEMODULE est positionnée et le paramètre "-m AM" n'est pas nécessaire F2 11LT09

169 Userconfig.xml safekit r errdpoll_running safekit errd disable "classname" m AM safekit errd enable "classname" m AM safekit errd suspend m AM safekit errd resume m AM Stocke son résultat dans le fichier <SAFEVAR>/errdpoll_reserrd (SAFEVAR = /var/safekit sur Unix ou c:\safekit\var sur Windows) avec une ligne pour chaque processus : <pid> <command name> <command full name and arguments list> (parent=<parent pid>) Utile pour déterminer le nom des processus à surveiller et leurs arguments pour une configuration <errd> Dans les versions de SafeKit < 7.1.2, le résultat est de la forme : <pid> <command name> <cpu utilization> <memory size> <arguments list> Suspend la surveillance des processus de la classe "classname" (pour le module applicatif AM). Doit être explicitement appelé dans les scripts stop_... avant d'arrêter l'application, pour des processus dans des classes différentes de "prim" "both" "second" "sec". Redémarre la surveillance des processus de la classe "classname" (pour le module applicatif AM). Doit être explicitement appelé dans les scripts start_... après le démarrage de l'application, pour des processus dans des classes différentes de "prim" "both" "second" "sec". Suspend la surveillance des processus du module AM (sauf les processus SafeKit). Utile lorsque l'on stoppe manuellement l'application et que l'on ne veut pas de détection. Redémarre la surveillance des processus du module AM safekit errd list m AM Liste tous les processus du module AM surveillés incluant les processus SafeKit. La liste peut être également lue dans <SAFEVAR>/modules/AM/errdlist. 39 F2 11LT09 169

170 Guide de l'utilisateur de SafeKit safekit kill name="process_name " [ argregex=" "] level="kill_level" Le composant <errd> doit s'exécuter. Tue le(s) processus identifié(s) par le nom et les arguments. level="test": affiche seulement la liste des processus level="terminate" : kill les processus en Windows level="9" : kill les processus en Unix Exemples Windows ("class CatlRegExp" pour plus d'information): safekit kill name="notepad.exe" argregex=".*myfile.*" level="terminate" safekit kill name="notepad.exe" argregex="c:\\myrep\\myfile.*" level="terminate" Exemples Unix ("man regex" pour plus d'information) : safekit kill name="vi" argregex=".*myfile.*" level="9" safekit kill name="vi" argregex="/myrep/myfile.*" level="9" Checkers (<check> tags) SafeKit apporte des checkers avec des règles de failover par défaut (voir Règles de failover par défaut page 183). Les checkers sont : TCP checker (<tcp> tags) page Ping checker (<ping> tags) page Interface checker (<intf> tags) page IP checker (<ip> tags) page Checker customisé (<custom> tags) page Module checker (<module> tags) page Splitbrain checker (<splitbrain> tag) page <check> Exemple Tous les checkers se définissent dans une seule section <check> : <check>  </check> <check> Syntaxe <check> <tcp > <to /> </tcp> F2 11LT09

171 Userconfig.xml <ping > <to /> </ping> <intf > <to /> </intf> <ip > <to /> </ip> <custom /> <module > [<to />] </module> <splitbrain /> </check> Le tag <check> et son sous-arbre peuvent être entièrement modifiés dynamiquement TCP checker (<tcp> tags) Par défaut, un checker <tcp> réalise un redémarrage local du module lorsque le service TCP est down <tcp> Exemple <check> <tcp ident="r1test" when="prim" > <to addr="r1" port="80"/> </tcp> </check> Insérer le tag <tcp> dans la section <check> si celle-ci est déjà définie. Voir aussi 14.8 Exemple de checker TCP extrait de apache_farm.safe page <tcp> Syntaxe <tcp ident="tcp_checker_name" when="prim second both pre" > 39 F2 11LT09 171

172 Guide de l'utilisateur de SafeKit <to addr="ip_address" or "name_to_check" port="tcp_port_to_check" [interval="10"] [timeout="5"] /> </tcp> <tcp> Attributs <tcp ident="tcp_checker_name" when="prim second both" Positionner autant de sections <tcp> qu'il y a de checkers <tcp>. Nom du checker TCP. Utiliser cette valeur pour tester un service TCP interne à l'application Suivant cette valeur, le checker est démarré/arrêté après/avant les scripts start_prim/stop_prim, start_second/stop_second, start_both/stop_both. Action en cas de défaillance: restart du module (voir Règles de failover par défaut page 183). when="pre" <to addr="ip_@" or "name" port="value" [interval="10"] [timeout="5"] </tcp> Chaque restart incrémente le compteur maxloop : voir <service> Attributs page 143. Utiliser cette valeur pour tester un service TCP externe à l'application Le checker est démarré/arrêté après/avant les scripts prestart/poststop. Vous devez ajouter une règle de failover spéciale pour un tel checker. Typiquement : "external_tcp_service: if (tcp.tcp_checker_name == down) then wait();". Cette règle réalise un stopwait et met le module dans l'état WAIT tant que le service TCP externe ne répond pas (voir Failover machine (<failover> tag) page 181 pour plus d'information). Chaque stopwait incrémente le compteur maxloop : voir <service> Attributs page 143. adresse IP ou nom à checker (ex.: pour un service local). IPv6 supporté depuis SafeKit port TCP port à checker Temps entre 2 pollings. Valeur par défaut : 10 s. Timeout en secondes pour l'acceptation de la connexion. Par défaut, valeur : 5 s F2 11LT09

173 Userconfig.xml Ping checker (<ping> tags) Par défaut, un <ping> checker met le module dans l'état WAIT et attend que ping redevienne up <ping> Exemple <check> <ping ident="testr2" > <to addr="r2"/> </ping> </check> Insérer le tag <ping> dans la section <check> si celle-ci est déjà définie. Voir aussi 14.9 Exemple d'un checker ping page <ping> Syntaxe <ping ident="ping_checker_name" [when="pre"] > <to addr="ip_address" or "name_to_check" [interval="10"] [timeout="5"] /> </ping> <ping> Attributs <ping ident="ping_checker_name" [when="pre"] <to Mettre autant de section <ping> qu'il y a de ping checkers. Nom du checker ping Valeur par défaut Le checker est démarré/arrêté après/avant les scripts prestart/poststop. La règle de failover par défaut réalise un stopwait qui met le module dans l'état WAIT tant que le ping ne répond pas (voir Failover machine (<failover> tag) page 181 pour plus d'information). Chaque stopwait incrémente le compteur maxloop : voir <service> Attributs page F2 11LT09 173

174 Guide de l'utilisateur de SafeKit or name" [interval="10"] [timeout="5"] </ping> Adresse IP ou nom à checker IPv6 supporté depuis SafeKit Intervalle de temps entre 2 pollings. Valeur par défaut : 10 s. Timeout en seconde sur la réponse au ping. Valeur par défaut : 5 s Interface checker (<intf> tags) Par défaut, un checker <intf> arrête le module et attend que l'interface réseau soit up <intf> Exemple <check> <intf ident="test_eth0"> <to local_addr=" "/> </intf> </check> Insérer le tag <intf> dans la section <check> si celle-ci est déjà définie. Voir aussi Exemple d'un checker d'interface réseau page <intf> Syntaxe <intf ident="intf_checker_name" [when="pre"] > <to local_addr="interface_physical_ip_address"/> </intf> <intf> Attributs <intf ident="intf_checker_name" Les sections <intf> sont automatiquement générées lorsque <interface check="on"> est positionné (voir 12.5 Adresse IP virtuelle (<vip> tag) page 148). Le nom de l'interface checker (adresse IP du réseau) F2 11LT09

175 Userconfig.xml [when="pre"] <to /> </intf> Valeur par défaut Le checker est démarré/arrêté après/avant les scripts prestart/poststop. La règle de failover par défaut réalise un stopwait qui met le module dans l'état WAIT tant que le ping ne répond pas (voir Failover machine (<failover> tag) page 181 pour plus d'information). Chaque stopwait incrémente le compteur maxloop : voir <service> Attributs page 143. Adresse IP associée à l'interface à tester. IPv6 supporté depuis SafeKit IP checker (<ip> tags) Depuis SafeKit , pour simplifier la configuration, le checker customisé pour la détection de conflit d adress IP en Windows, a été remplacé par un IP checker. En Windows et en Unix, ce checker vérifie qu une adresse IP est bien configurée localement ; en Windows, il détecte en plus les conflits sur cette adresse. Par défaut, un checker <ip> exécute un stopstart local du module lorsque l adresse testée est down <ip> Exemple <check> <ip ident="ip_check" > <to addr=" " /> </ip> </check> Insérer le tag <ip> dans la section <check> si celle-ci est déjà définie. Voir aussi Exemple d IP checker page <ip> Syntaxe <ip ident="ip_checker_name" [when="prim"] > <to addr="ip_address" or "name_to_check" [interval="10"] /> </ip> 39 F2 11LT09 175

176 Guide de l'utilisateur de SafeKit <ip> Attributs <ip ident="ip_checker_name" [when="prim"] <to or name" [interval="10"] </ip> Mettre autant de section <ip> qu'il y a de checkers ip. Nom du checker ip (dont l état est affiché par la commande safekit state -v m AM). Chaque checker doit avoir un nom différent. Valeur par défaut Le checker est démarré/arrêté après/avant les scripts prestart/poststop. La règle de failover par défaut réalise un stopstart du module (voir Failover machine (<failover> tag) page 181 pour plus d'information). Chaque stopstart incrémente le compteur maxloop : voir <service> Attributs page 143. adresse IP locale ou nom DNS à tester. IPv6 supporté. Intervalle de temps entre 2 tests. Valeur par défaut : 10 s Checker customisé (<custom> tags) Un checker customisé est un programme (script ou autre) que vous développez pour checker un module. Il s'agit d'une boucle qui effectue un test suivant une période adéquate. Son rôle est de positionner une ressource à "up" ou "down". Puis, une règle de failover dans userconfig.xml décide l'action à exécuter lorsque la ressource est down <custom> Exemple <check> <custom ident="appchecker" when="prim" exec="/myapp/mychecker" /> </check> Insérer le tag <custom> dans la section <check> si celle-ci est déjà définie. Définir en plus le checker customisé ainsi que la règle de failover associée. Pour des exemples complets, voir Exemple d'un checker customisé de conflit d'adresse IP sur Windows page 212 ou Exemple d'un checker customisé sur Unix page F2 11LT09

177 Userconfig.xml <custom> Syntaxe <custom ident="custom_checker_name" when="pre prim second both" exec="executable_path" arg="executable_arguments" /> <custom> Attributs <custom ident="custom_checker_name" when="pre" when="prim" "second" "both" Positionner autant de sections <custom> qu'il y a de checkers customisés. Nom du checker customisé Un checker customisé positionne sa ressource avec la commande safekit set r custom.custom_checker_name v up down. Le checker est démarré/arrêté après/avant les scripts prestart/poststop. Vous devez écrire une règle de failover qui doit réaliser un stopwait. Typiquement: "wait_custom_checker: if (custom.custom_checker_name == down) then wait();". Elle met le module dans l'état WAIT tant que la ressource est down. Noter que l'état initial de la ressource est init et que la failover machine reste dans l'état WAIT tant que ressource n'est pas positionnée à up. Voir Failover machine (<failover> tag) page 181 pour plus d'information. Chaque stopwait incrémente le compteur maxloop : voir <service> Attributs page 143. Suivant cette valeur, le checker est démarré/arrêté après/avant les scripts start_prim/stop_prim, start_second/stop_second, start_both/stop_both. Vous devez écrire une règle de failover qui doit réaliser un restart, stopstart ou stop. Typiquement: "restart_custom_checker: if (custom.custom_checker_name == down) then restart();" (see Failover machine (<failover> tag) page 181 for more information). Chaque restart ou stopstart incrémente le compteur maxloop : voir <service> Attributs page F2 11LT09 177

178 Guide de l'utilisateur de SafeKit exec="executable_path" arg="executable_arguments" Définis le path de l'exécutable du checker customisé (un script ou un binaire). Lorsque le path est relatif, le custom checker est recherché dans SAFEUSERBIN. Mettre dans ce cas votre binaire dans "safekit/modules/am/bin/". Voir 10.5 Variables d'environnement et répertoires à connaître page 125 pour plus d'information. Nous conseillons un path relatif avec un exécutable dans le module. Définis les arguments à passer au checker customisé Module checker (<module> tags) Le checker de module teste la disponibilité d'un autre module. Le checker est démarré/arrêté après/avant les scripts prestart/poststop. Lorsque le checker de module détecte qu'un module externe est down, la failover machine réalise un stopwait et met le module local en WAIT jusqu'à ce que le module externe soit de nouveau détecté up. Le checker de module effectue également une action stopstart lorsqu'il détecte que le module externe a été redémarré (soit par un restart, un stopstart ou un failover). Chaque stopwait ou stopstart incrémente le compteur maxloop : voir <service> Attributs page 143. Le checker de module récupère l état du module en se connectant au serveur web de SafeKit qui s éxécute sur le serveur sur lequel le module est activé (voir 10.1 Configuration du serveur web de SafeKit page 119) <module> Exemple <check> <module name="mirror"> <to addr="m1host" /> </module> </check> Insérer le tag <module> dans la section <check> si celle-ci est déjà définie. Pour d autres exemples, voir 14.3 Un module ferme dépendant d'un module miroir page 201 et Exemple d'un checker de module avec master.safe et slave.safe page <module> Syntaxe <module [ident="module_checker_name"] name="external_module_name"> [<to addr=" IP_@ or name the Safekit server running the external module" [port=port of the SafeKit httpd server"] [interval="10"] [timeout="5"] />] F2 11LT09

179 Userconfig.xml </module> <module> Attributs <module name="external_module_name"] [ident="module_checker_name"] [<to or name of the server" [port=port du serveur web de SafeKit"] [interval="10"] [timeout="5"] />] </module> Positionner autant de sections <module> qu'il y a de checkers de module. Nom du checker de module. Nom du module externe à checker. Par défaut <external_module_name>_< IP_address or name of the external module to check>. Définition du/des serveurs exécutant le module externe. Par défaut, le serveur local. Adresse IP ou nom du module externe. IPv6 supporté depuis SafeKit Port du serveur web SafeKit pour le checking. Par défaut, Restriction Le checker de module ne peut pas se connecter au service web de SafeKit quand celui-ci est configuré pour HTTPS. Intervalle de temps entre 2 pollings. Par défaut : 10 s. Timeout sur la réponse à la requête check. Par défaut : 5 s Splitbrain checker (<splitbrain> tag) Depuis SafeKit , SafeKit offre un checker de splitbrain à utiliser pour des architectures miroir. Le splitbrain est une situation où, suite à une panne matérielle ou logicielle, les deux nœuds SafeKit deviennent primaires, chaque nœud croyant que l'autre ne fonctionne plus. Ceci implique que l application tourne sur les deux nœuds et, lorsque la réplication est active, les données peuvent se trouver dans un état incohérent. Pour prévenir ce phénomène, le checker de splitbrain, sur detection d isolation réseau entre les serveurs, sélectionne un unique nœud pour devenir primaire. L autre nœud devient non à jour et se bloque dans l état WAIT : 39 F2 11LT09 179

180 Guide de l'utilisateur de SafeKit Ou Jusqu à ce qu il recoive à nouveau les heartbeat de l autre serveur Si l adminitrateur le juge opportun et s assure que l autre serveur n est plus dans l état primaire, il peut forcer son démarrage en primaire (par l exécution des commandes safekit stop puis safekit prim). L élection du serveur primaire repose sur le ping d un composant externe, appellé witness. Le réseau doit être configuré de telle manière qu en cas d isolation réseau, un seul des deux serveurs a accès au witness (c est celui-ci qui sera élu primaire). Dans le cas contraire, les deux nœuds deviendront primaires <splitbrain> Exemple <check> <splitbrain ident="sbtest" exec="ping" arg=" " /> </check> Insérer le tag <splitbrain> dans la section <check> si celle-ci est déjà définie <splitbrain> Syntaxe <splitbrain ident="witness" exec="ping" arg="witness IP address " /> <splitbrain> Attributs <splitbrain ident="witness" Une seule section <splitbrain>. Nom de la ressource affichée par la commande safekit state -v m AM. splitbrain.witness représente l état du witness F2 11LT09

181 Userconfig.xml [when="pre"] exec="ping" Valeur fixe. Le checker est démarré/arrêté après/avant les scripts prestart/poststop. Sur détection de splitbrain, le serveur pour lequel splitbrain.witness= up devient primaire. Sur l autre, pour lequel splitbrain.witness= down, il y a affectation de la ressource splitbrain.uptodate à down. La règle de failover par défaut réalise un stopwait qui met le module dans l'état WAIT (voir Failover machine (<failover> tag) page 181 pour plus d'information). Chaque stopwait incrémente le compteur maxloop : voir <service> Attributs page 143. Valeur fixe. Utilise ping pour tester l accessibilité au witness et affecte la ressource splitbrain.witness. addr="ip_@ or name" </splitbrain> Adresse IP ou nom du witness IPv6 supporté Failover machine (<failover> tag) SafeKit apporte des checkers (interface réseau, ping, tcp, custom, module). Un checker vérifie l'état d'une ressource (par défaut toutes les 10 secondes) et positionne son état à up ou down (voir Checkers (<check> tags) page 170). La machine de failover évalue régulièrement (par défaut toutes les 5 secondes) l'état global de toutes les ressources et applique une action en fonction des règles de failover écrites dans un langage simple. Dans un module ferme, la machine de failover ne fonctionne que sur les états locaux des ressources alors que dans un module miroir, elle peut fonctionner sur les états locaux et les états distants des ressources. Comme les états des ressources transitent par les voies de heartbeats, il est conseillé d'avoir plusieurs voies de heartbeats (voir 12.3 Heartbeats (<heart>, <heartbeat >, <server> tags) page 145) <failover> Exemple <failover> <![CDATA[ ping_failure: if (ping.testr2 == down) then stopstart(); ]]> </failover> Voir aussi Règles de failover par défaut page 183 ou Exemple de règle de failover pour un firewall page F2 11LT09 181

182 Guide de l'utilisateur de SafeKit <failover> Syntaxe <failover [extends="yes"] [period="5000"] [handle_time="15000"]> <![CDATA[ label: if (expression) then action; ]]> </failover> Le tag <failover> et son sous-arbre ne peuvent pas être modifiés dynamiquement <failover> Attributs <failover [extends="yes" "no"] [period="5000"] Avec "yes", les nouvelles règles de failover étendent les règles par défaut (voir Règles de failover par défaut page 183). Avec "no", les règles par défaut sont écrasées (à éviter). Valeur par défaut : yes. Période entre 2 évaluations. Valeur par défaut : 5000 ms (=5 s). [handle_time="15000"] Une action (stop() stopstart() wait() restart() swap()) doit être stable pendant "handle_time" (en millisecondes) avant d'être appliquée. Valeur par défaut : millisecondes (15 secondes). handle_time doit être un multiple de period <failover> Commandes safekit set [ m AM] -r resource_class.resource_id -v resource_state safekit stopwait -i "identity" L'état d'une ressource est positionné par un checker avec cette commande Exemples : safekit set -r custom.myresource -v up safekit set -r custom.myresource -v down Equivalent à la commande wait() de la failover machine (voir Failover machine (<failover> tag) page 181). Avec stopwait, (1) poststop et prestart scripts ne sont pas appelés et (2) les checkers de type when="pre" ne sont pas stoppés F2 11LT09

183 Userconfig.xml Les autres commandes restart(), stopstart(), stop(), swap() sont équivalentes aux commandes de contrôle (avec le paramètre "-i identity" en plus) décrites en 9.3 Commandes de contrôle page 112. maxloop / loop_interval / automatic_reboot s'appliquent si le paramètre "-i identity" est passé aux commandes (voir 12.2 Module ferme ou miroir (<service> tag) page 142). Ce qui est le cas lorsque les commandes sont appelées à partir de la failover machine Règles de failover par défaut Les règles de failover par défaut sont définies dans SAFE/private/conf/include/failover.xml. Les règles pour les checkers IP et splibrain ont été rajoutés depuis la La commande WAKEUP est automatiquement générée lorsqu'aucune action "wait()" n'est applicable.  <failover> <![CDATA[ /* rule for module checkers */ module_failure: if (module.? == down) then wait(); /* rule for interface checkers */ interface_failure: if (intf.? == down) then wait(); /* rule for ping checkers */ ping_failure: if (ping.? == down) then wait(); /* rule for tcp checkers */ tcp_failure: if (tcp.? == down) then restart(); /* rules for rfs DO NOT TOUCH*/ /* rule for ip checkers */ ip_failure: if (ip.? == down) then stopstart(); /* rules for splitbrain DO NOT TOUCH */ splitbrain_failure: if (splitbrain.uptodate == down) then wait(); notuptodate_server: if ((rfs.uptodate == down && remote.rfs.uptodate == down) (rfs.swapping == down && rfs.uptodate == down && remote.rfs.uptodate == unknown) (rfs.uptodate == unknown && remote.rfs.uptodate == down) ) then wait(); lastprim_server: if (rfs.uptodate == down && remote.rfs.uptodate == down && rfs.lastprimstate == up && remote.rfs.lastprimstate == down) then rfs.uptodate=up; swap_server: if (rfs.swapping == up && rfs.uptodate == down && remote.rfs.uptodate == unknown) then rfs.uptodate=up; flow_check: if (heartbeat.flow == down && (rfs.uptodate == down rfs.uptodate == unknown)) 39 F2 11LT09 183

184 Guide de l'utilisateur de SafeKit then wait(); degraded_server: if (remote.rfs.degraded == up) then wait(); ]]> </failover> Syntaxe des règles de failover Une règle de failover a la syntaxe suivante : "label: if ( expression ) then action;" with: hostname() label ::= string action ::= stop() stopstart() wait() restart() swap() expression ::= ( expression )! expression expression && expression expression expression expression == expression expression!= expression resource ::= [local. remote.] 0/1 resource_class.resource_id resource_state hostname() isdefaultprim() "string" TRUE FALSE Retourne le hostname du serveur. isdefaultprim() Retourne TRUE si hostname() == "server_name" configuré dans <service defaultprim="server_name"> (see <service> Attributs page 143). Syntaxe ressource resource ::= [local. remote.] 0/1 resource_class.resource_id (default: local) resource_class ::= *? ping intf tcp custom module heartbeat rfs resource_id ::= *? name resource_state ::= init down up unknown init up down unknown Etat spécial d'initialisation tant que le checker n'a pas démarré. Si une ressource dans l'état init est testé dans une règle de failover, cette règle n'est pas évaluée tant que la ressource est dans l'état init. Etat OK Etat KO Etat d'une ressource distant inconnue (module arrêté à distance) F2 11LT09

185 13. Scripts applicatifs de l'utilisateur 13.1 Scripts start/stop page Automate des scripts page Scripts config et state page Variables passées aux scripts page Commandes spéciales SafeKit pour les scripts utilisateurs page Fichiers pour la console SafeKit page 190 Des exemples de scripts sont donnés en 14.1 Exemple du module générique miroir page 197 et 14.2 Exemple du module générique ferme page 199 Chaque fois que vous modifiez les scripts utilisateurs, vous devez réappliquer la configuration sur les serveurs (SAFE/safekit config m AM). Au moment de la configuration, les scripts sont copiés de SAFE/modules/<nom module>/bin dans le répertoire d'exécution SAFE/private/modules/<nom module>/bin (=SAFEUSERBIN, ne pas modifier les scripts à cet endroit). Pour activer les scripts utilisateurs, mettre le tag <user> dans userconfig.xml : see 12.7 Activer les scripts utilisateurs (<user>, <var> tags) page Scripts start/stop Tous les scripts sont appelés avec 3 paramètres : l'état courant (STOP,WAIT,ALONE,PRIM,SECOND,UP), le prochain état (STOP,WAIT,ALONE,PRIM,SECOND,UP) et l'action (start, stop, stopstart ou stopwait). start_prim stop_prim start_both stop_both start_second stop_second Scripts pour un module miroir. Démarre l'application sur le serveur "ALONE" ou "PRIM" Scripts pour un module ferme. Démarre l'application sur tous les serveurs "UP" de la ferme. Dans le cas spécial où ils existent dans un module miroir, ils sont exécutés dans les états "PRIM", "SECOND" ou "ALONE" Scripts spéciaux pour un module miroir. Exécutés sur le serveur "SECOND" Quand le serveur SECOND devient primaire, stop_second suivi de start_prim est exécuté start_sec stop_sec Scripts spéciaux pour un module miroir. Voir 13.2 Automate des scripts page F2 11LT09 185

186 Guide de l'utilisateur de SafeKit stop_[both, prim, second, sec] [force] prestart poststop transition Scripts pour tous les modules. Ces scripts sont appelés 2 fois : une fois pour un arrêt propre (sans le paramètre force en premier argument) et une fois pour un arrêt forcé (avec le paramètre force en premier argument) Scripts pour tous les modules. Exécutés au tout début du démarrage du module et à la fin. Par défaut, prestart contient stop_sec, stop_second, stop_prim, stop_both pour arrêter l'application avant de démarrer le module sous contrôle SafeKit Scripts pour tous les modules. Ce script est appelé sur changement d'état : 13.2 Automate des scripts page Automate des scripts Exemple: au démarrage, la première transition de STOP vers WAIT appelle le script transition STOP WAIT. La plupart du temps les scripts stop sont appelés 2 fois (sans l'option force puis avec l'option force). Dans ce cas, le nom du script est en italique F2 11LT09

187 Scripts applicatifs de l'utilisateur States of an Application Module on 1 Server unavailable states ("red"=blocked, "magenta"=transiting) STOP stopped (ready for starting) WAIT wait for availability of one resource mirror architecture "green"=stable state ALONE primary without secondary PRIM primary, its twin is secondary SECOND secondary, its twin is primary farm architecture ("green"=stable state) UP application module up running Transitions of an Application Module on 1 Server Local "safekit start/stop m AM": Remote "safekit start/stop m AM": "safekit swap m AM": "safekit restart m AM": transition start_both start_prim start_both start_prim PRIM PRIM stop_sec transition stop_prim stop_both transition start_sec stop_sec stop_second transition start_prim start_both start_prim start_sec STOP WAIT ALONE/UP ALONE/UP transition [prestart = stop_second ; stop_prim ; stop_both] WAIT transition start_both start_prim start_sec stop_sec stop_prim stop_both stop_second transition start_prim stop_prim transition start_second start_sec stop_prim transition start_second start_both start_second start_sec transition start_both start_second start_sec SECOND SECOND stop_sec stop_second stop_both stop_prim stop_both transition stop_sec stop_prim stop_both transition WAIT stop_sec stop_second stop_both transition stop_sec force stop_prim force stop_second force stop_both force [poststop] transition STOP 13.3 Scripts config et state config deconfig config est appelé lors de l exécution de la commande safekit config m AM. Vous pouvez exécuter dans ce script des commandes de configuration applicative. deconfig est appelé lors de l exécution de la commande safekit deconfig m AM, celle-ci étant automatiquement effectuée lors de la désinstallation du module Dans ce script, vous devez «défaire» les actions effectuées dans le script config. 39 F2 11LT09 187

188 Guide de l'utilisateur de SafeKit confcheck confcheck est appelé lors de l exécution de la commande safekit confcheck m AM. Vous pouvez exécuter dans ce script des opérations de contrôle de changement de configuration de l application. state state est appelé lors de l exécution de la commande safekit state v m AM. level level est appelé lors de l exécution de la commande safekit level m AM command Variables passées aux scripts Tous les scripts sont appelés avec 3 paramètres : l'état courant (STOP,WAIT,ALONE,PRIM,SECOND,UP), le prochain état (STOP,WAIT,ALONE,PRIM,SECOND,UP) et l'action (start, stop, stopstart ou stopwait). Les scripts stop sont appelés 2 fois : une fois pour un arrêt propre (sans le paramètre force en premier argument) et une fois pour un arrêt forcé (avec le paramètre force en premier argument). Les variables d'environnement utilisables à l'intérieur des scripts sont SAFE, SAFEBIN, SAFEUSERBIN, SAFEUSERVAR (voir 10.5 Variables d'environnement et répertoires à connaître page 125) et toutes les variables définies dans le tag <user> de userconfig.xml (voir 12.7 Activer les scripts utilisateurs (<user>, <var> tags) page 163) Commandes spéciales SafeKit pour les scripts utilisateurs Les commandes spéciales sont sous SAFE/private/bin. Les commandes peuvent être appelées directement dans les scripts utilisateurs avec %SAFEBIN%\specialcommand ou $SAFEBIN/specialcommand. En dehors des scripts, il faut utiliser la commande SAFE/safekit -r. safekit -r <special command> [<args>] <special command> <args> exécuté dans l'environnement SafeKit. Lorsque le path absolu n'est pas spécifié, la commande est recherché dans SAFEBIN=SAFE/private/bin. A utiliser lorsque les commandes spéciales sont passées hors script SafeKit Commandes pour Windows Commandes sleep, exitcode, sync %SAFEBIN%\sleep.exe <timeout value in seconds> A utiliser dans les scripts stop car net stop service n'est pas synchrone. %SAFEBIN%\exitcode.exe <exit value> Pour sortir d'un script avec une valeur d'erreur (voir 12.9 Détection de la mort de processus (<errd>, <proc> tags) page 165) %SAFEBIN%\sync.exe \\.\<drive letter:> Pour synchroniser les caches file system F2 11LT09

189 Scripts applicatifs de l'utilisateur Commande namealias %SAFEBIN%/namealias [-n -s ] <alias name> n pour ajouter un nouveau nom netbios en alias (start_prim) ou -s pour supprimer un alias netbios (stop_prim) Vous pouvez utiliser la commande SafeKit netnames (ou la commande Windows nbtstat) pour lister les informations netbios Commande firewallcfg %SAFEBIN%/firewallcfg add del Script élémentaire pour ajouter ou supprimer les règles de pare-feu Microsoft afin d autoriser les process SafeKit à communiquer entre instances de la même grappe de machines. Les administrateurs sont priés de vérifier l absence de conflit de ces règles avec la politique de sécurité en place avant de les appliquer Commandes pour Unix Gestion de la crontab $SAFEBIN/gencron [del add] <user name> [all <command name>] del pour désactiver des entrées dans stop_prim (en insérant des commentaires) ou add pour activer des entrées dans start_prim (en retirant les commentaires). Nom de l'utilisateur dans la crontab. S'applique à toutes les entrées ou au nom de la commande -c "<comment>" Entête du commentaire qui sera insérée. Par exemple, pour désactiver/activer l'entrée de la crontab : 5 0 * * * $HOME/bin/daily.job >> $HOME/tmp/out 2>&1 Insérer dans stop_prim : $SAFEBIN/gencron del admin daily.job -c "SafeKit configuration for $SAFEMODULE" Et insérer dans start_prim : $SAFEBIN/gencron add admin daily.job -c "SafeKit configuration for $SAFEMODULE" Commande bounding $SAFEBIN/boundcmd <timeout value> <command path> [<args>] Limite le temps d'exécution d'une commande 39 F2 11LT09 189

190 Guide de l'utilisateur de SafeKit boundcmd retourne l'exit code de la commande si la commande se termine et 2 sinon. Par exemple, pour flusher des données sur disque avec un timeout de 30 secondes : $SAFEBIN/boundcmd 30 /bin/sync 1>/dev/null 2>& Commandes pour Windows et Unix safekit r processtree list kill Liste les processus en cours d exécution sous forme d arbre d appel (excepté pour l option all) et arrête les processus (option kill) safekit r processtree list all Liste tous les processus en cours d exécution. safekit r processtree list <process command name> Liste les processus dont le nom de commande est celui spécifié. safekit r processtree kill <process command name> Liste et arrête les processus en cours d exécution dont le nom de commande est celui spécifié. safekit r processtree list kill <process command name> all <regular expression on the full command path and arguments> Liste (et arrête) les processus dont le nom de commande est celui spécifié et dont les arguments correspondent à l expression régulière. Exemples en Windows ("class CatlRegExp" pour plus d informations) : safekit r processtree kill notepad.exe ".*myfile.*" safekit r processtree list all mirror Exemples en Unix ("man regex" pour plus d informations) : safekit r processtree kill vi ".*myfile.*" safekit r processtree list all mirror 13.6 Fichiers pour la console SafeKit Contenu d'un module applicatif AM conf userconfig.xml userconfig.xml.template userconfig.lua Nom du module applicatif Fichier XML de configuration utilisateur Usage interne uniquement Usage interne uniquement F2 11LT09

191 Scripts applicatifs de l'utilisateur macro.lua bin prestart start_prim or start_both stop_prim or stop_both poststop web index.html index.lua htmlib.lua manifest.xml Usage interne uniquement Script utilisateur exécuté au démarrage du module Script utilisateur pour démarrer l application en miroir ou ferme Script utilisateur pour arrêter l application en miroir ou ferme Script utilisateur exécuté à l arrêt du module Fichier pour la console web de SafeKit Fichier pour la console web et java de SafeKit Usage interne uniquement Fichier pour la console java de SafeKit Cette arborescence: se trouve sur le serveur, sous le répertoire SAFE/modules/AM, pour chaque module installé peut être parcourue à partir de la console web/ Configuration Avancée A chaque fois que vous modifiez l un des ces fichiers, il faut appliquer la nouvelle configuration sur tous les serveurs Fichiers pour la console web AM/conf/userconfig.xml La console web analyse le contenu du fichier AM/conf/userconfig.xml pour afficher le résumé sur la configuration du module. Le tag <application_module> est rempli lors de l action Editer la configuration et est utilisé pour l affichage de l état du module dans la console web pour : définir les nœuds de la grappe utiliser un affichage personnalisé (champ displayname) Extrait de userconfig.xml d un module miroir <?xml version="1.0"?>  <!DOCTYPE safe> <safe> <application_module description="generic mirror module" displayname="appli" name="mirror" id="1" timestamp="0"> <clusternode uri=" displayname="server1"/> <clusternode uri=" displayname="server2"/> <resource name="heartbeat.0" displayname="public"/> 39 F2 11LT09 191

192 Guide de l'utilisateur de SafeKit <resource name="heartbeat.flow" displayname="private"/> </application_module> </safe> Fichiers sous SAFE/Application_Modules/webconsole/monitor Par défaut, les modules pouvant être administrés sous les onglets Contrôle et Supervision de la console web, sont tous les modules installés sur les serveurs administrés (voir 3.2 Configurer les serveurs SafeKit à administrer avec la console web page 24). Ceux-ci peuvent être remplacés par une liste personnalisée de modules à administrer. Pour cela, la liste des modules doit être spécifiée dans un fichier en format xml. Ce fichier peut être créé et édité à travers la console web : Dans l onglet Configuration Avancée Dossier Application_Modules aller dans le répertoire webconsole/monitor copier le fichier default.xml, qui décrit la liste des modules à administrer par défaut, dans un nouveau fichier, par exemple <myconf>.xml éditer ce nouveau fichier à l aide de l éditeur de la console web (l éditeur est lancé par un double-clic sur le fichier). Changer les valeurs et/ou ajouter des modules à administrer. L éditeur est lancé en mode texte. Il possède également un mode syntaxique XML dédié à la configuration des modules à administrer. Changer le mode d édition en cliquant sur le bouton radio «Texte /XML» pour basculer du mode texte pur au mode XML intelligent. En mode XML, cliquer sur le bouton «Insérer» active le mode insertion. Dans ce mode, les tags XML valides possibles apparaissent en caractères gras de couleur verte. Un clic sur ce type de tag en insère une copie à l endroit approprié. Cliquer sur le bouton «Effacer» active le mode «suppression». Dans ce mode, cliquer sur un tag ou un attribut supprime celui-ci du document. Lorsque la souris est positionnée sur un élément de ce type, la portion du document concernée par l éventuelle suppression est affichée en rouge et rayée F2 11LT09

193 Scripts applicatifs de l'utilisateur Dans les onglets Contrôle et Supervision Vous pourrez sélectionner soit la vue par défaut, soit la nouvelle vue que vous venez de définir AM/web/index.html ou AM/web/index.lua index.html est une page HTML, contenant du javascript, qui est affichée par la console web/assistant de configuration lors de l action Editer la configuration, au moment de la saisie des paramètres (voir Editer la configuration du module page 32). Vous pouvez éditer ce fichier afin de personnaliser la saisie. Si le fichier index.html n est pas présent (c est le cas pour les anciens modules), la console web utilise à la place le fichier index.lua (voir AM/web/index.lua page 195). Exemple de index.html pour le module générique mirror.safe Dans cet exemple, une section <div> a été commentée pour ne pas afficher la partie concernant la saisie de la configuration de la réplication temps réel. <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01//EN" " <html> <head> <title>safekit: Modules Deployment</title> <meta name="title" content="safekit Modules Deployment" /> <meta http-equiv="x-ua-compatible" content="ie=edge" /> <meta charset="utf-8"></meta> <script> $(function(){ // // Additional page specific functions (integrator must write this) // 39 F2 11LT09 193

194 Guide de l'utilisateur de SafeKit </script> </head> <body> <h1 class="conftitle"> Supply Mirror Module Parameters </h1>  <div id="rendertargets"> <div class="sectioncontainer"> <table id="macrotarget" class="xmltemplateexpand" rel="#macros"></table> </div> <div id="hbtable" class="sectioncontainer"> <div class="sectionlabel">heartbeat Networks</div> <button id="addhb" class="xmlnodenewbtn" rel="heart/heartbeat" name="#hbtarget" title="add a heartbeat">new heartbeat</button> <div id='hbtarget' class="xmltemplateexpand" rel="#hb"> </div> </div>  <div id="viptable" class="sectioncontainer"> <div class="sectionlabel"> <span> Virtual IP Configuration </span> F2 11LT09

195 Scripts applicatifs de l'utilisateur <button class="xmlsinglenode xmlnodenewbtn" rel="service/vip" name="#viptarget" title="define a cluster IP address configuration">define</button> </div> <div class="ifexists xmlremoveifempty" rel="vip" name="#viptarget"> <button class="xmlnodenewbtn" rel="vip interface" name="#viptarget" title="add a cluster IP address on a new interface">new interface</button> <div id="viptarget" class="xmltemplateexpand" rel="#vip"></div> </div> </div> </div> </body> </html> Fichiers pour la console java AM/manifest.xml C est un fichier XML qui contient : description : ce champ est utilisé dans la console java pour donner une description du module title + description : ces champs sont affichés dans la console java dans l onglet Server Admin pour l installation-désinstallation du module Exemple de manifest.xml pour le module générique mirror.safe  <application_module title="mirror Module for SafeKit 7.0" description="generic mirror module" AM/web/index.lua Ce fichier est une page HTML/lua affichée pour la saisie des paramètres du module (soit dans la console web/assistant de configuration, soit dans la console java/quick Configure): "lua" est un langage utilisé dans index.lua et encadré par [$ $]. Des fonctions de htmlib.lua sont appelées dans index.lua. Pour plus d'information sur lua, voir XPath est utilisé dans index.lua dans les inputs des formes HTML (<input name="xpathpointertowrite" value="xpathpointertoread">) pour lire et écrire les variables de userconfig.xml. Pour plus d'information sur Xpath, voir lorsque index.lua est chargé, lua est exécuté du côté serveur pour récupérer les valeurs dans userconfig.xml et userconfig.xml.template et pour les afficher dans la page HTML en appliquant index.lua, lua est exécuté du côté serveur pour sauver les valeurs d'input de la page HTML dans userconfig.xml puis userconfig.xml est appliqué comme nouvelle configuration 39 F2 11LT09 195

196 Guide de l'utilisateur de SafeKit la librairie htmlib.lua inclut la configuration des heartbeats, des adresses IP virtuelles, de la réplication de fichiers Exemple d index.lua pour le module générique mirror.safe <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN">   [$ -- load htmllib library dofile(getenv('html_library_path')..'htmlib.lua') $] <html> <head> <meta content="text/html; charset=iso "> <title>mirror.safe</title> </head> <body> [$ -- build HTML Application Module Header openamheader("mirror Architecture with Real Time File Replication and Failover"); -- Generate HTML for macro configuration genmacroconfig(); -- Generate HTML for heartbeat configuration (1 to 5 heartbeats) genmirrorheartbeatconfig(1,5); -- Generate HTML for rfs configuration (0 to 10 replicated dir) genrfsconfig(0,10); -- Generate HTML for vip configuration (0 to 1 virtual IP) genvipconfig(0,1, 'Virtual IP Configuration','Virtual IP is accessible only on the primary server.'); -- End of Config closeamheader(); $] </body> </html> F2 11LT09

197 14. Exemples de userconfig.xml et scripts utilisateurs 14.1 Exemple du module générique miroir page Exemple du module générique ferme page Un module ferme dépendant d'un module miroir page Exemple d'un flux de réplication dédié page Exemples de partage de charge page Exemple d'un hostname virtuel avec vhost.safe page Détection de la mort de processus avec softerrd.safe page Exemple de checker TCP extrait de apache_farm.safe page Exemple d'un checker ping page Exemple d'un checker d'interface réseau page Exemple d IP checker page Exemple d'un checker customisé de conflit d'adresse IP sur Windows page Exemple d'un checker customisé sur Unix page Exemple d'un checker de module avec master.safe et slave.safe page Exemple de règle de failover pour un firewall page Autres exemples page Exemple du module générique miroir userconfig.xml (pour plus d'information, voir 12 Userconfig.xml page 141)  <!DOCTYPE safe> <safe> <service mode="mirror" defaultprim="alone" maxloop="3" loop_interval="24" failover="on">   <heart pulse="700" timeout="30000"> <heartbeat ident="0"> <server addr=" "/> <server addr=" "/> </heartbeat> <heartbeat ident="flow"> <server addr=" "/> <server addr=" "/> </heartbeat> </heart> <rfs async="second" acl="off" locktimeout="200" nbrei="3" iotimeout="300"> <replicated dir="c:\test1replicated" mode="read_only"/> <replicated dir="c:\test2replicated" mode="read_only"/> </rfs> <vip> <interface_list> <interface check="on" arpreroute="on"> 39 F2 11LT09 197

198 Guide de l'utilisateur de SafeKit <real_interface> <virtual_addr addr=" " where="one_side_alias"/> </real_interface> </interface> </interface_list> </vip> <user nicestoptimeout="300" forcestoptimeout="300" logging="userlog"/> </service> </safe> start_prim.cmd (pour plus d'information, voir 13 Scripts applicatifs de l'utilisateur page off rem Script called on the primary server for starting application services rem For logging into SafeKit log use: rem "%SAFE%\safekit" printi printe "message" rem stdout goes into Application log echo "Running start_prim %*" set res=0 rem Fill with your services start call set res=%errorlevel% if %res% == 0 goto end :stop "%SAFE%\safekit" printe "start_prim failed" rem uncomment to stop SafeKit when critical rem "%SAFE%\safekit" stop -i "start_prim" :end stop_prim.cmd (pour plus d'information, voir 13 Scripts applicatifs de l'utilisateur page off rem Script called on the primary server for stopping application services rem For logging into SafeKit log use: rem "%SAFE%\safekit" printi printe "message" rem rem rem 2 stop modes: rem rem - graceful stop rem call standard application stop with net stop rem rem - force stop (%1=force) rem kill application's processes F2 11LT09

199 Exemples de userconfig.xml et scripts utilisateurs rem rem rem stdout goes into Application log echo "Running stop_prim %*" set res=0 rem default: no action on forcestop if "%1" == "force" goto end rem Fill with your services stop call rem If necessary, uncomment to wait for the stop of the services rem "%SAFEBIN%\sleep" 10 if %res% == 0 goto end "%SAFE%\safekit" printe "stop_prim failed" :end 14.2 Exemple du module générique ferme userconfig.xml (pour plus d'information, voir 12 Userconfig.xml page 141)  <!DOCTYPE safe> <safe> <service mode="farm" maxloop="3" loop_interval="24">   <farm> <lan> <node name="node1" addr=" "/> <node name="node2" addr=" "/> </lan> <lan> <node name="node1" addr=" "/> <node name="node2" addr=" "/> </lan> </farm> <vip> <interface_list> <interface check="on" arpreroute="on"> <virtual_interface type="vmac_directed"> <virtual_addr addr=" " where="alias"/> </virtual_interface> </interface> </interface_list> <loadbalancing_list> <group name="farmproto">  <rule port="9000" proto="tcp" filter="on_port"/> </group> </loadbalancing_list> </vip> 39 F2 11LT09 199

200 Guide de l'utilisateur de SafeKit <user nicestoptimeout="300" forcestoptimeout="300" logging="userlog"/> </service> </safe> start_both.cmd (pour plus d'information, voir 13 Scripts applicatifs de l'utilisateur page off rem Script called on all servers for starting applications rem For logging into SafeKit log use: rem "%SAFE%\safekit" printi printe "message" rem stdout goes into Application log echo "Running start_both %*" set res=0 rem Fill with your services start call set res=%errorlevel% if %res% == 0 goto end :stop set res=%errorlevel% "%SAFE%\safekit" printe "start_both failed" rem uncomment to stop SafeKit when critical rem "%SAFE%\safekit" stop -i "start_both" :end stop_both.cmd (pour plus d'information, voir 13 Scripts applicatifs de l'utilisateur page off rem Script called on all servers for stopping application rem For logging into SafeKit log use: rem "%SAFE%\safekit" printi printe "message" rem rem rem 2 stop modes: rem rem - graceful stop rem call standard application stop with net stop rem rem - force stop (%1=force) rem kill application's processes rem rem rem stdout goes into Application log echo "Running stop_both %*" F2 11LT09

201 Exemples de userconfig.xml et scripts utilisateurs set res=0 rem default: no action on forcestop if "%1" == "force" goto end rem Fill with your services stop call rem If necessary, uncomment to wait for the stop of the services rem "%SAFEBIN%\sleep" 10 if %res% == 0 goto end "%SAFE%\safekit" printe "stop_both failed" :end 14.3 Un module ferme dépendant d'un module miroir La ferme n'est démarrée que si le miroir est disponible. Pour plus d'information sur la configuration, voir Module checker (<module> tags) page 178. userconfig.xml (pour plus d'information, voir 12 Userconfig.xml page 141)  <!DOCTYPE safe> <safe> <service mode="farm">  <farm> <lan> <node name="node1" addr=" "/> <node name="node2" addr=" "/> </lan> </farm>  <vip> <interface_list> <interface check="off" arpreroute="on"> <virtual_interface type="vmac_directed"> <virtual_addr addr=" " where="alias" /> </virtual_interface> </interface> </interface_list> <loadbalancing_list> <group name="w3iis" > <rule port="80" proto="tcp" filter="on_addr" /> </group> </loadbalancing_list> </vip>  <check> 39 F2 11LT09 201

202 Guide de l'utilisateur de SafeKit <module name="mirror"> <to addr=" "/> </module> <tcp ident="w3iis_80" when="both" > <to addr=" " port="80" interval="120" timeout="5" /> </tcp> </check>  <user/> </service> </safe> 14.4 Exemple d'un flux de réplication dédié Pour plus d'information sur la configuration, 12.6 Réplication de fichiers (<rfs>, <replicated> tags) page 155 userconfig.xml (voir 12 Userconfig.xml page 141) <!DOCTYPE safe> <safe> <macro name="repli_ip1" value=" " /> <macro name="repli_ip2" value=" " /> <service mode="mirror"> <heart> <! 2 nd heartbeat special for dedicated replicated network --> <heartbeat> <server addr=" " /> <server addr=" " /> </heartbeat> <heartbeat ident="flow"> <server addr="%repli_ip1%" /> <server addr="%repli_ip2%" /> </heartbeat> </heart> <vip> <interface_list> <interface check="on" arpreroute="on"> <real_interface> <virtual_addr addr=" " where="one_side_alias"/> </real_interface> </interface> </interface_list> </vip> <rfs> F2 11LT09

203 Exemples de userconfig.xml et scripts utilisateurs <! define flow for SafeKit release < > <flow> <server addr="%repli_ip1%" /> <server addr="%repli_ip2%" /> </flow>  <replicated dir="c:\replicated_dir"> <notreplicated path="file1" /> </replicated> </rfs> </service> </safe> 14.5 Exemples de partage de charge Exemple d'un load balancing TCP Avec le fichier de configuration userconfig.xml suivant, vous définissez une ferme de 3 serveurs avec partage de charge et reprise sur les ports TCP 9000 (serveur web SafeKit), 23 (Telnet), 80 (HTTP), 443 (HTTPS), 8080 (HTTP proxy) and 389 (LDAP). Avec HTTP et HTTPS, le partage de charge est défini sur l'adresse IP client ("on_addr") et non sur le port TCP client ("on_port"), pour assurer que le même client est toujours connecté sur le même serveur sur plusieurs connexions TCP (service à état versus service sans état ; voir 1.3 Module ferme : partage de charge réseau et reprise sur panne page 11) userconfig.xml (pour plus d'information, voir 12 Userconfig.xml page 141) <!DOCTYPE safe> <safe> <service mode="farm"> <farm> <lan> <node name="panoramix" addr=" "/> <node name="alix" addr=" "/> <node name="idefix" addr=" "/> </lan> </farm> <vip> <interface_list> <interface check="on" arpreroute= on > <virtual_interface type="vmac_directed"> <virtual_addr addr=" " where="alias" /> </virtual_interface> </interface> </interface_list> <loadbalancing_list> <group name="tcpservices" > <cluster> <host name="panoramix" power="1" /> <host name="alix" power="1" /> <host name="idefix" power="1" /> </cluster> <rule port="9000" proto="tcp" filter="on_port" /> <rule port="23" proto="tcp" filter="on_port" /> 39 F2 11LT09 203

204 Guide de l'utilisateur de SafeKit <rule port="80" proto="tcp" filter="on_addr" /> <rule port="443" proto="tcp" filter="on_addr" /> <rule port="8080" proto="tcp" filter="on_addr" /> <rule port="389" proto="tcp" filter="on_port" /> </group> </loadbalancing_list> </vip> </service> </safe> Exemple de load balancing UDP Avec le fichier userconfig.xml suivant, vous définissez une ferme de 3 serveurs avec partage de charge et reprise sur les services UDP 53 (DNS) et 1645 (RADIUS). userconfig.xml (pour plus d'information, voir 12 Userconfig.xml page 141) <!DOCTYPE safe> <safe> <service mode="farm"> <farm> <lan> <node name="panoramix" addr=" "/> <node name="alix" addr=" "/> <node name="idefix" addr=" "/> </lan> </farm> <vip> <interface_list> <interface check="on"> <virtual_interface type="vmac_invisible"> <virtual_addr addr=" " where="alias" /> </virtual_interface> </interface> </interface_list> <loadbalancing_list> <group name="udpservices" > <cluster> <host name="panoramix" power="1" /> <host name="alix" power="1" /> <host name="idefix" power="1" /> </cluster> <rule port="53" proto="udp" filter="on_ipid" /> <rule port="1645" proto="udp" filter="on_ipid" /> </group> </loadbalancing_list> </vip> </service> </safe> Avec "on_ipid", le load balacing est réalisé sur le champ "IP identifier" dans l'entête IP du packet. Le load balancing fonctionne même si le client présente la même adresse IP client et le même port en entrée F2 11LT09

205 Exemples de userconfig.xml et scripts utilisateurs Exemple d'un load balancing multi-groupes Avec le fichier userconfig.xml suivant, vous définissez une ferme de 3 serveurs avec une priorité pour le trafic HTTP pour le serveur 1, HTTPS pour le serveur 2 et proxy http pour le serveur 3. userconfig.xml (pour plus d'information, voir 12 Userconfig.xml page 141) <!DOCTYPE safe> <safe> <service mode="farm"> <farm> <lan> <node name="panoramix" addr=" "/> <node name="alix" addr=" "/> <node name="idefix" addr=" "/> </lan> </farm> <vip> <interface_list> <interface check="on"> <virtual_interface type="vmac_invisible"> <virtual_addr addr=" " where="alias" /> </virtual_interface> </interface> </interface_list> <loadbalancing_list> <group name="http_service" > <cluster> <host name="panoramix" power="3" /> <host name="alix" power="1" /> <host name="idefix" power="1" /> </cluster> <rule port="80" proto="tcp" filter="on_addr" /> </group> <group name="https_service" > <cluster> <host name="panoramix" power="1" /> <host name="alix" power="3" /> <host name="idefix" power="1" /> </cluster> <rule port="443" proto="tcp" filter="on_addr" /> </group> <group name="httpproxy_service" > <cluster> <host name="panoramix" power="1" /> <host name="alix" power="1" /> <host name="idefix" power="3" /> </cluster> <rule port="8080" proto="tcp" filter="on_addr" /> </group> </loadbalancing_list> </vip> </service> </safe> 14.6 Exemple d'un hostname virtuel avec vhost.safe Le module de démonstration vhost.safe montre comment positionner un hostname virtuel avec SafeKit (voir 12.8 Hostname virtuel (<vhost>, <virtualhostname> tags) page 164). 39 F2 11LT09 205

206 Guide de l'utilisateur de SafeKit userconfig.xml <vhost> <virtualhostname name="virtualname" envfile="vhostenv.cmd" /> </vhost> Ci-dessous start_prim et stop_prim extraits de vhost.safe sur Windows. Sur Unix, regardez start_prim et stop_prim dans vhost.safe livré avec le package SafeKit on set res=0 FOR /F %%x IN ('hostname') DO SET servername=%%x %SAFE%\safekit printi "hostname out of vhost environment is "%servername% rem rem Set virtual hostname rem CALL %SAFEUSERBIN%\vhostenv.cmd rem Next commands use the virtual hostname FOR /F %%x IN ('hostname') DO SET servername=%%x %SAFE%\safekit printi "hostname in vhost environment is "%servername% rem rem WARNING: previous virtual hostname setting is insufficient rem to change the hostname for services. If one service needs the rem virtual hostname, you need also to uncomment the following rem rem %SAFE%\private\bin\vhostservice SERVICE_TO_BE_DEFINED rem rem Start the service rem net start "SERVICE_TO_BE_DEFINED" > nul if not %errorlevel% == 0 goto stop %SAFE%\safekit printi "SERVICE_TO_BE_DEFINED started" if %res% == 0 goto end :stop set res=%errorlevel% %SAFE%\safekit printi "start_prim failed" rem uncomment to stop SafeKit when critical rem %SAFE%\safekit stop -i "start_prim" :end on set res= F2 11LT09

207 Exemples de userconfig.xml et scripts utilisateurs FOR /F %%x IN ('hostname') DO SET servername=%%x %SAFE%\safekit printi "hostname out of vhost environment is "%servername% rem rem Set virtual hostname in nice stop phase rem CALL %SAFEUSERBIN%\vhostenv.cmd rem Next commands use the virtual hostname FOR /F %%x IN ('hostname') DO SET servername=%%x %SAFE%\safekit printi "hostname in vhost environment is "%servername% rem default: no action on forcestop if "%1" == "force" goto end rem rem Stop the service rem net stop "SERVICE_TO_BE_DEFINED" > nul %SAFE%\safekit printi "SERVICE_TO_BE_DEFINED stopped" rem rem WARNING: if the virtual hostname was set for services in rem start_prim.cmd uncomment the following to restore the real rem hostname in force stop phase. rem rem %SAFE%\private\bin\vhostservice SERVICE_TO_BE_DEFINED if %res% == 0 goto end %SAFE%\safekit printi "stop_prim failed" :end 14.7 Détection de la mort de processus avec softerrd.safe Le module softerrd.safe est un module de démonstration de la surveillance de la mort de processus. Les tests consistent à killer les processus mybin, myotherbin ou myappli avec la commande safekit kill. Pour mybin et myotherbin, SafeKit exécute des actions standard restart et stop. Sur kill de myappli, SafeKit exécute le handler spécial restart_myappli.cmd qui manuellement incrémente le compteur maxloop et redémarre le processus myappli. Ci-dessous les scripts pour Windows. Pour Unix, regardez le module softerrd.safe livré avec le package Unix. userconfig.xml (pour plus d'information, voir 12.9 Détection de la mort de processus (<errd>, <proc> tags) page 165) <!DOCTYPE safe> <safe> <service mode="mirror"> <heart timeout="10000"> 39 F2 11LT09 207

208 Guide de l'utilisateur de SafeKit <heartbeat> <server addr="net1_physicalserver1" /> <server addr="net1_physicalserver2" /> </heartbeat> </heart> <errd> <proc name="mybin.exe" atleast="1" action="restart" class="prim" /> <proc name="myotherbin.exe" atleast="1" action="stop" class="second" /> <proc name="myappli.exe" atleast="1" action="restart_myappli" class="myappli" /> </errd>  <user/> </service> </safe> on set res=0 %SAFE%\safekit printi "start mybin " start %SAFEUSERBIN%\mybin.exe %SAFE%\safekit printi "start myappli " start %SAFEUSERBIN%\myappli.exe %SAFE%\safekit errd enable myappli if %res% == 0 goto end :stop set res=%errorlevel% %SAFE%\safekit printi "start_prim failed" rem uncomment to stop SafeKit when critical rem %SAFE%\safekit stop -i "start_prim" :end on set res=0 rem default: no action on forcestop if "%1" == "force" goto end %SAFE%\safekit printi "stop mybin " %SAFE%\safekit kill -level="terminate" -name="mybin.exe" %SAFE%\safekit printi "stop myappli " %SAFE%\safekit errd disable myappli %SAFE%\safekit kill -level="terminate" -name="restart_myappli.cmd" F2 11LT09

209 Exemples de userconfig.xml et scripts utilisateurs %SAFE%\safekit kill -level="terminate" -name="myappli.exe" if %res% == 0 goto end %SAFE%\safekit printi "stop_prim failed" :end on rem Template for script called by errd on error detection instead of standard restart %SAFE%\safekit printi "restart_myappli" rem first disable monitoring of the application %SAFE%\safekit errd disable myappli rem increment loop counter %SAFE%\safekit incloop -i "restart_myappli" if %errorlevel% == 0 goto next rem max loop reached %SAFE%\safekit stop -i "restart_myappli" %SAFEBIN%\exitcode 0 :next rem max loop not reached : go on restarting the application %SAFE%\safekit printi "Restart myappli" %SAFE%\safekit kill -level="terminate" -name="myappli.exe" start %SAFEUSERBIN%\myappli.exe rem finally, enable monitoring of the application %SAFE%\safekit errd enable myappli %SAFEBIN%\exitcode Exemple de checker TCP extrait de apache_farm.safe Le checker teste le service web Apache sur l'adresse IP virtuelle. L'action par défaut quand le service TCP est down est de redémarrer le module (voir Règles de failover par défaut page 183). userconfig.xml (pour plus d'information, voir TCP checker (<tcp> tags) page 171)   <check> <tcp ident="apache_80" when="both" > <to 39 F2 11LT09 209

210 Guide de l'utilisateur de SafeKit addr="virtual_ip_addr_to_be_defined " port="80" interval="120" timeout="5" /> </tcp> </check> 14.9 Exemple d'un checker ping Le checker ping suivant teste un routeur d'adresse IP L'action par défaut lorsque le routeur est down et de stopper localement le module et d'attendre que le ping redevienne up (voir Règles de failover par défaut page 183). userconfig.xml (pour plus d'information, voir Ping checker (<ping> tags) page 173) <check > <ping ident="router"> <to addr=" "/> </ping> </check> Exemple d'un checker d'interface réseau <interface check="on"> est positionné (voir 12.5 Adresse IP virtuelle (<vip> tag) page 148) de la manière suivante : userconfig.xml <vip> <interface_list> <interface check="on"> <real_interface> <virtual_addr addr=" " where="one_side_alias"/> </real_interface> </interface> </interface_list> </vip> L'action par défaut lorsque l'interface est down et de stopper localement le module et d'attendre que l'interface redevienne up (voir Règles de failover par défaut page 183). A partir de cette configuration, SafeKit génère automatiquement un checker <intf> (voir Interface checker (<intf> tags) page 174). Sur Windows <check> <intf when="pre" ident=" " intf="{8358a0ee-2f3f-4fee-a33b-edc406c0c858}"> <to local_addr=" "/> </intf> </check> F2 11LT09

211 Exemples de userconfig.xml et scripts utilisateurs Où {8358A0EE-2F3F-4FEE-A33B-EDC406C0C858} est l'identité de l'interface réseau avec le réseau et avec comme première adresse IP (SAFE/safekit r vip_if_ctrl L). Sur Unix <check> <intf when="pre" ident=" " intf="eth2"> <to local_addr=" "/> </intf> </check> Où eth2 est l'identité de l'interface réseau avec le réseau et avec comme première adresse IP (ifconfig a) Exemple d IP checker Ci-dessous, l exemple d une configuration d IP checker générée automatiquement lorsque l option <virtual_addr check="on" > est positionnée (voir 12.5 Adresse IP virtuelle (<vip> tag) page 148). Dans le fichier userconfig.xml, l adresse virtuelle est définie comme suit : userconfig.xml <vip> <interface_list> <interface check="on" arpreroute="on"> <real_interface> <virtual_addr addr=" " where="one_side_alias" check="on"/> </real_interface> </interface> </interface_list> </vip> L action par défaut lorsque le checker détecte que l adresse n est plus configurée est d exécuter un stopstart du module (voir Règles de failover par défaut page 183). Configuration La configuration générée est (pour plus d informations voir IP checker (<ip> tags) page 175): <check> <ip ident=" " when="prim"> <to addr=" "/> </ip> </check> 39 F2 11LT09 211

212 Guide de l'utilisateur de SafeKit Exemple d'un checker customisé de conflit d'adresse IP sur Windows Le fichier userconfig.xml suivant gère le cas de conflit d'adresse IP virtuelle sur Windows. Depuis SafeKit , vous pouvez remplacer cette configuration par l option check="on" dans le tag <virtual_addr > (voir 12.5 Adresse IP virtuelle (<vip> tag) page 148). userconfig.xml (pour plus d'information, voir Checker customisé (<custom> tags) page 176) <vip> <interface_list> <interface arpreroute="on"> <real_interface> <virtual_addr addr="ip1.10" where="one_side_alias"/> </real_interface> </interface> </interface_list> </vip> <check> <custom ident="ipconflict" when="prim" exec="%safebin%\ipconflictcheck.exe" arg="-d A wait ip1.10" /> </check> <failover> <![CDATA[ ipconflict: if ((custom.ipconflict == down) ) then stopstart(); ]]> </failover> Exemple d'un checker customisé sur Unix L'exemple de checker customisé suivant est un script shell Unix de nom "is_process_here" qui cherche si le processus "proc" s'exécute. Si le processus ne tourne pas, le module s'arrête et se met dans WAIT jusqu'à ce que le processus redémarre. Les paramètres de "is_process_here" sont : 1. Le nom du checker ("custom.mandatory_process"). 2. Le nom du processus à rechercher ("proc"). 3. La période de polling (60 secondes). Si AM est le nom du module, le script "is_process_here" doit être placé sous "SAFE/modules/AM/bin/". userconfig.xml (pour plus d'information, voir Checker customisé (<custom> tags) page 176)... <check> <custom ident="mandatory_process" when="pre" exec="is_process_here" F2 11LT09

213 Exemples de userconfig.xml et scripts utilisateurs arg="proc 60" /> </check>... <failover> <![CDATA[ /* special line for the custom checker added to the default failover rules */ proc_has_disappeared: if (custom.mandatory_process == down) then wait(); ]]> </failover> Pour plus d'information, voir Failover machine (<failover> tag) page 181. Script is_process_here #! /bin/ksh # This script is a UNIX script # Make an infinite loop with periodic wake up # $1 = module name (AM) # $2 = custom checker name(custom.mandatory_process) # $3,$4 = parameters of <custom arg="proc 60"> module_name=$1 custom_name=$2 proc_name=$3 sleep_period=$4 while true do # Look if the process is alive or not ps -ef grep $proc_name grep -v grep grep -v "is_process_here" > /dev/null if [ $? -eq 0 ] then # Process was found. # Set our state to up + a SafeKit log message $SAFE/safekit set -r $custom_name -v up $SAFE/safekit printi "Mandatory process is here" else # Process was not found $SAFE/safekit set -r $custom_name -v down $SAFE/safekit printi "Mandatory process is not here" fi # wait for a while, as long as indicated sleep $sleep_period done A chaque fois que vous modifiez le script sous SAFE/modules/AM/bin/, vous devez appliquer la configuration sur les serveurs (SAFE/safekit config m AM). 39 F2 11LT09 213

214 Guide de l'utilisateur de SafeKit Exemple d'un checker de module avec master.safe et slave.safe Cet exemple présente 2 modules livrés avec SafeKit : master.safe and slave.safe. Le module master définit les ressources partagées par tous les slaves comme l'adresse IP virtuelle ou les répertoires répliqués. Les modules slaves contiennent le démarrage et l'arrêt de plusieurs applications isolées dans différents modules. Chaque module slave peut être arrêté et démarré indépendamment sans que les autres modules soient arrêtés et sans déconfigurer les ressources du module master. Le module master est un miroir : il inclut dans ses scripts le démarrage/arrêt des modules slaves. Chaque module slave est un module light avec les scripts de démarrage/arrêt d'une application et la détection d'erreur. Chaque module slave est dépendant des défaillances du module maître avec le checker de module suivant : userconfig.xml des slaves (pour plus d'information, voir Module checker (<module> tags)page 178) <check> <module name="master"/> </check> Il s agit d une configuration synthétique à la place de : <module name="master"> <to addr=" " port="9000"/> </module> Si vous avez modifé le port d écoute du serveur web de SafeKit (voir 10.1 Configuration du serveur web de SafeKit page 119), remplacez la configuration synthétique par la configuration complète et changez la valeur du port Exemple de règle de failover pour un firewall L'exemple suivant permet de traiter le cas d'interfaces réseau débranchés sur 2 firewalls et évite que les 2 firewalls partent dans l'état WAIT. userconfig.xml (pour plus d'information, voir 12 Userconfig.xml page 141) <failover extends="no"> <![CDATA[  one_ill: if ( (intf.? == DOWN ping.? == DOWN) && remote.intf.* == UP && remote.ping.* == UP) then wait(); <!-- Rule 2. If we are together ill and if I am not the default primary, then I F2 11LT09

215 Exemples de userconfig.xml et scripts utilisateurs go to WAIT --> both_ill: if ( (intf.? == DOWN ping.? == DOWN) && (remote.intf.? == DOWN remote.ping.? == DOWN) && isdefaultprim() == FALSE ) then wait();  heartbeat_loss: if ( intf.* == UP && ping.* == UP && remote.intf.* == UP && remote.ping.* == UP && heartbeat.? == DOWN && isdefaultprim() == FALSE ) then wait(); ]]> </failover> Autres exemples De nombreux modules de démonstration sont livrés avec le package SafeKit. Vous pouvez les installer avec la console web (voir Configurer un module depuis Application_Modules page 49) pour voir userconfig.xml et les scripts utilisateurs développés dans chacun d'eux. 39 F2 11LT09 215

217 15. La console java de SafeKit Notez que la console java est l'ancienne console de SafeKit et qu'elle est maintenant remplacée par la console web qui apporte de nouvelles fonctionnalités (voir 3 La console web de SafeKit page 23) Installer et démarrer la console SafeKit page Installer et configurer un module avec la console page Contrôler et monitorer un module avec la console page Snapshots d un module pour le support avec la console page Installer le certificat dans le client JRE pour HTTPS page Installer et démarrer la console SafeKit Installer la console Peut être installé sur station de travail distante A partir de la station de travail, se connecter au serveur: Télécharger safemonitor.jar en cliquant sur le lien safemonitor. Du côté serveur, safemonitor.jar est sous SAFE/web/htdocs/safekit/safemonitor Installer une JRE sur la station de travail (au moins 5.0 avec java version) Démarrer la console SafeKit : java jar safemonitor.jar Onglet Server Admin : connecter la console aux serveurs Onglet Quick Configure : configuration des paramètres principaux d un module Onglet Expert Configure : configuration du module complet Onglet Control :start/stop d un module Onglet Monitor : état/couleur d un module En haut à gauche, la version de la console "SafeMonitor v7.0.x.y" est donnée. Vérifier qu'elle correspond à la version de SafeKit installé sur les serveurs (commande en ligne SAFE/safekit level). Si ce n'est pas le cas, télécharger le nouveau fichier safemonitor.jar : voir Installer la console page F2 11LT09 217

218 Guide de l'utilisateur de SafeKit Connecter la console SafeKit aux serveurs Onglet Server Admin (1) Bouton (2) Entrer l adresse IP ou le nom du serveur. Eventuellement mettre dans Display name le nom du serveur dans la GUI (3) La console est connectée au serveur Répéter l'opération (1) (2) (3) pour tous les serveurs à connecter Si la console est sur un poste distant connecté aux serveurs à travers un proxy, configurer les paramètres du proxy avec File/Proxy Configuration Sauver une configuration de votre GUI File/Save GUI config. : sauvegarde la GUI dans un fichier xml Démarrer à partir d une sauvegarde : java -jar safemonitor.jar -file gui.xml Dans gui.xml, paramètres avancés. ex.: control_mode désactive les onglets (monitor_only, control_only, monitor_and_control, admin_and_monitor_and_control, all) Faire le chargement d'un fichier gui.xml sauvegardé seulement après avoir installé les modules. En effet, tous les modules installés sont automatiquement connectés à la console sauf dans le cas où l'on part d'une configuration statique de la GUI sauvegardée dans un fichier F2 11LT09

219 La console java de SafeKit 15.2 Installer et configurer un module avec la console Installer un module SafeKit Onglet Server Admin (1) Sélectionner un serveur + bouton pour charger la liste des modules du serveur vers la console (2) Choisir un module de type ferme ou miroir dans Backup ou Template (3) Eventuellement, donner lui un autre nom en accord avec votre application. Puis, cliquer sur install (4) Attendre la fin d'installation: Succès (vert) Répéter l opération (1) (2) (3) (4) sur les autres serveurs. Installer les modules dans le même ordre pour que chaque module ait le même Id sur tous les serveurs : (5) pour réaligner les Ids en cas de problème Pour un premier test de SafeKit : suivre cette procédure sur les deux serveurs installer mirror.safe et farm.safe Les modules.safe dans Server Admin se situent dans SAFE/Application_Modules sur les serveurs. Et ils sont installés dans SAFE/modules/<nom_module> A partir de Server Admin, le bouton uninstall permet de désinstaller un module installé : avant désinstallation, fermer tous les éditeurs, explorer de fichiers, shells ou cmd sous SAFE/modules/<nom module> et SAFEVAR/modules/<nom module> (au risque sinon que la désinstallation du module se passe mal) après désinstallation, le module désinstallé est stocké dans la zone Backup La commande en ligne équivalente au bouton install est : safekit module install m <nom module> SAFE/Application_Modules/<nom module>.safe Les commandes en ligne équivalentes au bouton uninstall sont: safekit deconfig m <nom module> (1) safekit module package m <nom module> SAFE/Application_Modules/Backup/<nom module>.safe safekit module uninstall m <nom module> (4) (2) (2) (5) (3) farm 39 F2 11LT09 219

220 Guide de l'utilisateur de SafeKit Quick Configure d un module SafeKit Onglet Quick Configure (1) Sélectionner un module + bouton pour charger la configuration à partir des serveurs vers la console (1) (2) Entrer les nouveaux paramètres du module dans la console (3) Déposer les nouveaux paramètres de la console vers tous les serveurs en sélectionnant le module et en appuyant sur le bouton (4) Appliquer les nouveaux paramètres sur tous les serveurs avec le bouton Compile (le module doit être arrêté sur les serveurs) (5) Vérifier le succès des commandes sur les serveurs : Succès (vert) (5) (3) (4) (5) (2) Pour un premier test de SafeKit : suivre cette procédure pour configurer mirror et farm pour chaque module, entrer les 2 adresses IP physiques ip1.1 et ip 1.2 des 2 serveurs Le déploiement des nouveaux paramètres via Quick Configure va changer le fichier userconfig.xml du côté serveur sous SAFE/modules/<nom module>/conf : du côté des serveurs, fermer les éditeurs lancés sur userconfig.xml avant d'appliquer à partir de la console (au risque sinon que le déploiement se passe mal) F2 11LT09

221 La console java de SafeKit Expert Configure d un module SafeKit Onglet Expert Configure (1) Sélectionner un module + bouton pour charger tous ses fichiers de configuration à partir des serveurs vers la console (2) Editer et modifier les fichiers du module dans la console : userconfig.xml sous conf, user scripts sous bin (3) Déposer les fichiers de config de la console vers les serveurs en sélectionnant le module et en appuyant sur le bouton (4) Appliquer les nouveaux fichiers sur les serveurs avec le bouton Compile (le module doit être arrêté sur les serveurs) (5) Vérifier le succès des commandes sur les serveurs : Succès (vert) Pour un premier test de SafeKit : appliquer cette procédure aux modules mirror et farm ouvrir le fichier userconfig.xml pour voir la configuration de chaque module ouvrir les scripts start et stop pour voir les procédures de démarrage et d'arrêt de l'application Le déploiement via Expert Configure va détruire le répertoire complet de configuration du module SAFE/modules/<nom module> et le reconstruire à partir des modifications faites dans la console : du côté serveur, fermer tous les éditeurs, explorer de fichiers, shells ou cmd sous SAFE/modules/<nom module> (au risque sinon que le déploiement se passe mal) Les fichiers, les scripts et les sous répertoires d'un module sous SAFE/modules/<nom module> sont tous chargés dans la console avec mais ne sont pas tous rendus visibles dans la console (dépend du paramétrage de manisfest.xml) Il n'est pas possible de créer de nouveaux fichiers ou répertoires à partir de la console. Les créations doivent être réalisées du côté serveur sous SAFE/modules/<nom module> puis remontées dans la console avec Distribuer votre propre module applicatif avec SafeKit : une fois votre module construit et validé, sauver le dans un fichier monappli.safe avec le bouton (6) puis, après une nouvelle installation de SafeKit sur de nouveaux serveurs, déposer monappli.safe sous SAFE/Application_Modules du coup, dans l'onglet "Server Admin", votre module monappli.safe apparait dans la liste des modules qui peuvent être installés (3) (1) (5) (5) (4) (2) (6) 39 F2 11LT09 221

222 Guide de l'utilisateur de SafeKit 15.3 Contrôler et monitorer un module avec la console Contrôler un module SafeKit : Start/Stop (1) (2) (3) (3) (4) Onglet Control (1) Sélectionner un module puis sélectionner un serveur puis click droit (2) Accès aux commandes autorisées sur le module : View, Start, Stop (3) Vérifier le succès des commandes sur les serveurs : Succès (vert) (4) Dans la fenêtre en bas, commande en ligne correspondant au bouton Pour un premier test de SafeKit, essayer les commandes sur les modules mirror et farm. Attention au premier démarrage d'un module miroir et aux démarrages suivants : voir 5.3 Premier démarrage d'un module miroir (commande prim) page 79 voir 5.5 Démarrage d'un module miroir avec les données à jour ( STOP (rouge) - WAIT (rouge)) page 81 Pour continuer les tests d'un module miroir ou ferme, voir 4 Tests page 51. Pour comprendre et vérifier le bon fonctionnement d'un module : voir 5 Administration d'un module miroir page 77 voir 6 Administration d'un module ferme page 89 voir 7 Résolution de problèmes page F2 11LT09

223 La console java de SafeKit Monitorer un module SafeKit Identité du serveur Identité du module Etat et couleur (vert) disponible (magenta) transitoire (rouge) indisponible Onglet Monitor Visibilité d un module et de son état sur les serveurs Réarranger les icônes la première fois, puis File/Save GUI config. Pour plus d'information sur les changements d'état : voir 5.2 Automate d'état d'un module miroir (STOP, WAIT, ALONE, PRIM, SECOND - rouge, magenta, vert) page 78 voir 6.2 Automate d'état d'un module ferme (STOP, WAIT, UP - rouge, magenta, vert) page F2 11LT09 223

224 Guide de l'utilisateur de SafeKit 15.4 Snapshots d un module pour le support avec la console Onglet Control Sélectionner un module, puis sélectionner un serveur, puis click droit, puis Support, puis Get the Snapshot Dans la fenêtre popup, sélectionner un répertoire sur votre disque local, puis cliquer sur Ok Attendre la fin de la création du snapshot jusqu à avoir Succès (vert) Fichier créé dans le répertoire : snapshot_<module><serveur>.zip Répéter l opération sur l autre serveur Envoyer les snapshots au support Dump pour relever un problème en temps réel Snapshot à envoyer au support Evidian Notes : Un dump créé un directory "dump_<date>_<heure>" du côté serveur sous SAFEVAR/snapshot/modules/<nom module>. Le directory "dump_<date>_<heure>" contient le journal du module et des informations sur l'état du système et des processus SafeKit au moment du dump Un snapshot crée un dump puis récolte sous SAFEVAR/snapshot/modules/<nom module> les 3 derniers dumps et les 3 dernières configurations du module pour les mettre dans le fichier.zip Pour envoyer les snapshots au support, voir 8 Accès au support Evidian page Installer le certificat dans le client JRE pour HTTPS Cette procédure est une étape de la mise en place de la 11 Sécurisation de la console SafeKit avec HTTPS page Copier le certificat SAFE/web/conf/cacert.crt du serveur CA vers la station de travail (celle qui exécute SafeMonitor). 2. Aller dans le home directory JRE de la station de travail (dépendant de votre installation ; ex. : C:\Program File\Java\j2re1.5.0 sur une machine Windows). 3. Avec les droits administrateur/root, exécuter la commande suivante : 4. bin/keytool -import -storepass changeit -trustcacerts -keystore lib/security/cacerts - file <ANYPATH>/cacert.crt F2 11LT09

225 La console java de SafeKit où <ANYPATH> est le path du répertoire contenant le fichier cacert.crt. 5. Pour vérifier que le certificat est correctement installé : Ouvrir le panneau de configuration du Java Plugin (sur une station de travail UNIX, démarrer bin/controlpanel; sur une station Windows, ouvrir le Control Panel et démarrer le Java PlugIn). Cliquer sur l onglet security puis le bouton certificate. Puis, cliquer sur l onglet system et sélectionner signer CA list. Vous devez voir dans la liste affichée, le nom (CN) pour votre certificat. Dans SafeMonitor / Server Admin, lors de l ajout d un serveur, sélectionner HTTPS au lieu de HTTP et utiliser le port 9443 au lieu du port F2 11LT09 225

227 16. Logiciels tiers 16.1 Liste des logiciels tiers page Détails des licences page Liste des logiciels tiers SafeKit utilise les logiciels tiers suivants: libxml libxslt Net-SNMP Apache curl cgic OpenSSL Lua HTTPClient Spread Info-ZIP libnet - MIT license Utilisé par tous les composants du framework SafeKit - MIT license Utilisé pour convertir le journal de SafeKit en un format privé - BSD like + BSD license Utilisé par l agent SNMP SafeKit - Apache license Utilisé par la console web, la console java, les commandes distribuées et les checkers entre modules - Curl license Utilisé par la console web et les commandes distribuées - Cgic license Utilisé par la console web, la console java, les commandes distribuées et les checkers entre modules - Apache style license Utilisé lorsqu on sécurise la console web, la console java, les commandes distribuées et les checkers entre modules - MIT license Utilisé par la commande safekit config et la console java - Gnu LGPL license Utilisé par la console java - BSD like license Ancien protocole de communication dans une ferme. Remplacé à partir de SafeKit 7.1 par un protocole propriétaire. - BSD like license Utilisé pour le pack/unpack d un template.safe Mike D. Schiffman - BSD license Utilisé par arpreroute et ping SafeKit utilise les logiciels tiers suivants uniquement pour la console Web : jquery - MIT + GPL license jquery est une librairie javascript compacte, performante et riche en 39 F2 11LT09 227

228 Guide de l'utilisateur de SafeKit jquery-ui jquery contextmenu fonctionnalités - MIT + GPL license jquery UI étend jquery avec des fonctionnalités de gestion de l interface utilisateur, la définition de widgets et de thèmes. - MIT license and GPL v3 Gestionnaire de menu contextuel. Il n est plus utilsé depuis SafeKit jquery lang - Copyright 2011 Irrelon Software Limited codemirror codemirror-ui Utilisé pour la traduction des messages affichés dans la console web - MIT-style license Editeur texte développé par Marijn Haverbeke - MIT License Simple interface graphique, basée sur le widget codemirror et développée par Jeremy Green Remerciements à FamFam ( pour les icônes «Silk Icons». Remerciements à Icojam ( pour les icônes «Minicons Coloria». Remerciements à itweek ( pour les icônes «Knob buttons toolbar icons» Détails des licences libxml Except where otherwise noted in the source code (e.g. the files hash.c, list.c and the trio files, which are covered by a similar licence but with different Copyright notices) all the files are: Copyright (C) Daniel Veillard. All Rights Reserved. Permission is hereby granted, free of charge, to any person obtaining a copy of this software and associated documentation files (the "Software"), to deal in the Software without restriction, including without limitation the rights to use, copy, modify, merge, publish, distribute, sublicense, and/or sell copies of the Software, and to permit persons to whom the Software is furnished to do so, subject to the following conditions: The above copyright notice and this permission notice shall be included in all copies or substantial portions of the Software F2 11LT09

229 Logiciels tiers THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY, FIT- NESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE DANIEL VEILLARD BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM, OUT OF OR IN CON- NECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE SOFTWARE. Except as contained in this notice, the name of Daniel Veillard shall not be used in advertising or otherwise to promote the sale, use or other dealings in this Software without prior written authorization from him. Net-SNMP License Various copyrights apply to this package, listed in various separate parts below. Please make sure that you read all the parts Part 1: CMU/UCD copyright notice: (BSD like) Copyright 1989, 1991, 1992 by Carnegie Mellon University Derivative Work , Copyright 1996, The Regents of the University of California All Rights Reserved Permission to use, copy, modify and distribute this software and its documentation for any purpose and without fee is hereby granted, provided that the above copyright notice appears in all copies and that both that copyright notice and this permission notice appear in supporting documentation, and that the name of CMU and The Regents of the University of California not be used in advertising or publicity pertaining to distribution of the software without specific written permission. CMU AND THE REGENTS OF THE UNIVERSITY OF CALIFORNIA DISCLAIM ALL WARRANTIES WITH REGARD TO THIS SOFTWARE, INCLUDING ALL IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS. IN NO EVENT SHALL CMU OR THE REGENTS OF THE UNIVERSITY OF CALIFORNIA BE LIABLE FOR ANY SPECIAL, INDIRECT OR CONSEQUENTIAL DAMAGES OR ANY DAMAGES WHATSOEVER RESULTING 39 F2 11LT09 229

230 Guide de l'utilisateur de SafeKit FROM THE LOSS OF USE, DATA OR PROFITS, WHETHER IN AN ACTION OF CONTRACT, NEGLIGENCE OR OTHER TORTIOUS ACTION, ARISING OUT OF OR IN CONNECTION WITH THE USE OR PERFORMANCE OF THIS SOFTWARE Part 2: Networks Associates Technology, Inc copyright notice (BSD) Copyright (c) , Networks Associates Technology, Inc All rights reserved. Redistribution and use in source and binary forms, with or without modification, are permitted provided that the following conditions are met: * Redistributions of source code must retain the above copyright notice, this list of conditions and the following disclaimer. * Redistributions in binary form must reproduce the above copyright notice, this list of conditions and the following disclaimer in the documentation and/or other materials provided with the distribution. * Neither the name of the Networks Associates Technology, Inc nor the names of its contributors may be used to endorse or promote products derived from this software without specific prior written permission. THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS ``AS IS'' AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL THE COPYRIGHT HOLDERS OR CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE Part 3: Cambridge Broadband Ltd. copyright notice (BSD) Portions of this code are copyright (c) , Cambridge Broadband Ltd. All rights reserved F2 11LT09

231 Logiciels tiers Redistribution and use in source and binary forms, with or without modification, are permitted provided that the following conditions are met: * Redistributions of source code must retain the above copyright notice, this list of conditions and the following disclaimer. * Redistributions in binary form must reproduce the above copyright notice, this list of conditions and the following disclaimer in the documentation and/or other materials provided with the distribution. * The name of Cambridge Broadband Ltd. may not be used to endorse or promote products derived from this software without specific prior written permission. THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDER ``AS IS'' AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL THE COPYRIGHT HOLDER BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE Part 4: Sun Microsystems, Inc. copyright notice (BSD) Copyright 2003 Sun Microsystems, Inc., 4150 Network Circle, Santa Clara, California 95054, U.S.A. All rights reserved. Use is subject to license terms below. This distribution may include materials developed by third parties. Sun, Sun Microsystems, the Sun logo and Solaris are trademarks or registered trademarks of Sun Microsystems, Inc. in the U.S. and other countries. Redistribution and use in source and binary forms, with or without modification, are permitted provided that the following conditions are met: 39 F2 11LT09 231

232 Guide de l'utilisateur de SafeKit * Redistributions of source code must retain the above copyright notice, this list of conditions and the following disclaimer. * Redistributions in binary form must reproduce the above copyright notice, this list of conditions and the following disclaimer in the documentation and/or other materials provided with the distribution. * Neither the name of the Sun Microsystems, Inc. nor the names of its contributors may be used to endorse or promote products derived from this software without specific prior written permission. THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS ``AS IS'' AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL THE COPYRIGHT HOLDERS OR CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE Part 5: Sparta, Inc copyright notice (BSD) Copyright (c) , Sparta, Inc All rights reserved. Redistribution and use in source and binary forms, with or without modification, are permitted provided that the following conditions are met: * Redistributions of source code must retain the above copyright notice, this list of conditions and the following disclaimer. * Redistributions in binary form must reproduce the above copyright notice, this list of conditions and the following disclaimer in the documentation and/or other materials provided with the distribution. * Neither the name of Sparta, Inc nor the names of its contributors may be used to endorse or promote products derived from this software without specific prior written permission F2 11LT09

233 Logiciels tiers THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS ``AS IS'' AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL THE COPYRIGHT HOLDERS OR CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE Part 6: Cisco/BUPTNIC copyright notice (BSD) Copyright (c) 2004, Cisco, Inc and Information Network Center of Beijing University of Posts and Telecommunications. All rights reserved. Redistribution and use in source and binary forms, with or without modification, are permitted provided that the following conditions are met: * Redistributions of source code must retain the above copyright notice, this list of conditions and the following disclaimer. * Redistributions in binary form must reproduce the above copyright notice, this list of conditions and the following disclaimer in the documentation and/or other materials provided with the distribution. * Neither the name of Cisco, Inc, Beijing University of Posts and Telecommunications, nor the names of their contributors may be used to endorse or promote products derived from this software without specific prior written permission. THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS ``AS IS'' AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL THE COPYRIGHT HOLDERS OR CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR 39 F2 11LT09 233

234 Guide de l'utilisateur de SafeKit OTHERWISE) ARISING IN ANY WAY OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE Part 7: Fabasoft R&D Software GmbH & Co KG copyright notice (BSD) Copyright (c) Fabasoft R&D Software GmbH & Co KG, 2003 Author: Bernhard Penz Redistribution and use in source and binary forms, with or without modification, are permitted provided that the following conditions are met: * Redistributions of source code must retain the above copyright notice, this list of conditions and the following disclaimer. * Redistributions in binary form must reproduce the above copyright notice, this list of conditions and the following disclaimer in the documentation and/or other materials provided with the distribution. * The name of Fabasoft R&D Software GmbH & Co KG or any of its subsidiaries, brand or product names may not be used to endorse or promote products derived from this software without specific prior written permission. THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDER ``AS IS'' AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL THE COPYRIGHT HOLDER BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE Part 8: Apple Inc. copyright notice (BSD) Copyright (c) 2007 Apple Inc. All rights reserved. Redistribution and use in source and binary forms, with or without modification, are permitted provided that the following conditions are met: F2 11LT09

235 Logiciels tiers 1. Redistributions of source code must retain the above copyright notice, this list of conditions and the following disclaimer. 2. Redistributions in binary form must reproduce the above copyright notice, this list of conditions and the following disclaimer in the documentation and/or other materials provided with the distribution. 3. Neither the name of Apple Inc. ("Apple") nor the names of its contributors may be used to endorse or promote products derived from this software without specific prior written permission. THIS SOFTWARE IS PROVIDED BY APPLE AND ITS CONTRIBUTORS "AS IS" AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL APPLE OR ITS CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE Part 9: ScienceLogic, LLC copyright notice (BSD) Copyright (c) 2009, ScienceLogic, LLC All rights reserved. Redistribution and use in source and binary forms, with or without modification, are permitted provided that the following conditions are met: * Redistributions of source code must retain the above copyright notice, this list of conditions and the following disclaimer. * Redistributions in binary form must reproduce the above copyright notice, this list of conditions and the following disclaimer in the documentation and/or other materials provided with the distribution. * Neither the name of ScienceLogic, LLC nor the names of its contributors may be used to endorse or promote products derived 39 F2 11LT09 235

236 Guide de l'utilisateur de SafeKit from this software without specific prior written permission. THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS ``AS IS'' AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL THE COPYRIGHT HOLDERS OR CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE. Apache Apache License Version 2.0, January TERMS AND CONDITIONS FOR USE, REPRODUCTION, AND DISTRIBUTION 1. Definitions. "License" shall mean the terms and conditions for use, reproduction, and distribution as defined by Sections 1 through 9 of this document. "Licensor" shall mean the copyright owner or entity authorized by the copyright owner that is granting the License. "Legal Entity" shall mean the union of the acting entity and all other entities that control, are controlled by, or are under common control with that entity. For the purposes of this definition, "control" means (i) the power, direct or indirect, to cause the direction or management of such entity, whether by contract or otherwise, or (ii) ownership of fifty percent (50%) or more of the outstanding shares, or (iii) beneficial ownership of such entity. "You" (or "Your") shall mean an individual or Legal Entity exercising permissions granted by this License F2 11LT09

237 Logiciels tiers "Source" form shall mean the preferred form for making modifications, including but not limited to software source code, documentation source, and configuration files. "Object" form shall mean any form resulting from mechanical transformation or translation of a Source form, including but not limited to compiled object code, generated documentation, and conversions to other media types. "Work" shall mean the work of authorship, whether in Source or Object form, made available under the License, as indicated by a copyright notice that is included in or attached to the work (an example is provided in the Appendix below). "Derivative Works" shall mean any work, whether in Source or Object form, that is based on (or derived from) the Work and for which the editorial revisions, annotations, elaborations, or other modifications represent, as a whole, an original work of authorship. For the purposes of this License, Derivative Works shall not include works that remain separable from, or merely link (or bind by name) to the interfaces of, the Work and Derivative Works thereof. "Contribution" shall mean any work of authorship, including the original version of the Work and any modifications or additions to that Work or Derivative Works thereof, that is intentionally submitted to Licensor for inclusion in the Work by the copyright owner or by an individual or Legal Entity authorized to submit on behalf of the copyright owner. For the purposes of this definition, "submitted" means any form of electronic, verbal, or written communication sent to the Licensor or its representatives, including but not limited to communication on electronic mailing lists, source code control systems, and issue tracking systems that are managed by, or on behalf of, the Licensor for the purpose of discussing and improving the Work, but excluding communication that is conspicuously marked or otherwise designated in writing by the copyright owner as "Not a Contribution." "Contributor" shall mean Licensor and any individual or Legal Entity on behalf of whom a Contribution has been received by Licensor and subsequently incorporated within the Work. 2. Grant of Copyright License. Subject to the terms and conditions of this License, each Contributor hereby grants to You a perpetual, 39 F2 11LT09 237

238 Guide de l'utilisateur de SafeKit worldwide, non-exclusive, no-charge, royalty-free, irrevocable copyright license to reproduce, prepare Derivative Works of, publicly display, publicly perform, sublicense, and distribute the Work and such Derivative Works in Source or Object form. 3. Grant of Patent License. Subject to the terms and conditions of this License, each Contributor hereby grants to You a perpetual, worldwide, non-exclusive, no-charge, royalty-free, irrevocable (except as stated in this section) patent license to make, have made, use, offer to sell, sell, import, and otherwise transfer the Work, where such license applies only to those patent claims licensable by such Contributor that are necessarily infringed by their Contribution(s) alone or by combination of their Contribution(s) with the Work to which such Contribution(s) was submitted. If You institute patent litigation against any entity (including a cross-claim or counterclaim in a lawsuit) alleging that the Work or a Contribution incorporated within the Work constitutes direct or contributory patent infringement, then any patent licenses granted to You under this License for that Work shall terminate as of the date such litigation is filed. 4. Redistribution. You may reproduce and distribute copies of the Work or Derivative Works thereof in any medium, with or without modifications, and in Source or Object form, provided that You meet the following conditions: (a) You must give any other recipients of the Work or Derivative Works a copy of this License; and (b) You must cause any modified files to carry prominent notices stating that You changed the files; and (c) You must retain, in the Source form of any Derivative Works that You distribute, all copyright, patent, trademark, and attribution notices from the Source form of the Work, excluding those notices that do not pertain to any part of the Derivative Works; and (d) If the Work includes a "NOTICE" text file as part of its distribution, then any Derivative Works that You distribute must include a readable copy of the attribution notices contained within such NOTICE file, excluding those notices that do not F2 11LT09

239 Logiciels tiers pertain to any part of the Derivative Works, in at least one of the following places: within a NOTICE text file distributed as part of the Derivative Works; within the Source form or documentation, if provided along with the Derivative Works; or, within a display generated by the Derivative Works, if and wherever such third-party notices normally appear. The contents of the NOTICE file are for informational purposes only and do not modify the License. You may add Your own attribution notices within Derivative Works that You distribute, alongside or as an addendum to the NOTICE text from the Work, provided that such additional attribution notices cannot be construed as modifying the License. You may add Your own copyright statement to Your modifications and may provide additional or different license terms and conditions for use, reproduction, or distribution of Your modifications, or for any such Derivative Works as a whole, provided Your use, reproduction, and distribution of the Work otherwise complies with the conditions stated in this License. 5. Submission of Contributions. Unless You explicitly state otherwise, any Contribution intentionally submitted for inclusion in the Work by You to the Licensor shall be under the terms and conditions of this License, without any additional terms or conditions. Notwithstanding the above, nothing herein shall supersede or modify the terms of any separate license agreement you may have executed with Licensor regarding such Contributions. 6. Trademarks. This License does not grant permission to use the trade names, trademarks, service marks, or product names of the Licensor, except as required for reasonable and customary use in describing the origin of the Work and reproducing the content of the NOTICE file. 7. Disclaimer of Warranty. Unless required by applicable law or agreed to in writing, Licensor provides the Work (and each Contributor provides its Contributions) on an "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied, including, without limitation, any warranties or conditions of TITLE, NON-INFRINGEMENT, MERCHANTABILITY, or FITNESS FOR A PARTICULAR PURPOSE. You are solely responsible for determining the appropriateness of using or redistributing the Work and assume any risks associated with Your exercise of permissions under this License. 39 F2 11LT09 239

240 Guide de l'utilisateur de SafeKit 8. Limitation of Liability. In no event and under no legal theory, whether in tort (including negligence), contract, or otherwise, unless required by applicable law (such as deliberate and grossly negligent acts) or agreed to in writing, shall any Contributor be liable to You for damages, including any direct, indirect, special, incidental, or consequential damages of any character arising as a result of this License or out of the use or inability to use the Work (including but not limited to damages for loss of goodwill, work stoppage, computer failure or malfunction, or any and all other commercial damages or losses), even if such Contributor has been advised of the possibility of such damages. 9. Accepting Warranty or Additional Liability. While redistributing the Work or Derivative Works thereof, You may choose to offer, and charge a fee for, acceptance of support, warranty, indemnity, or other liability obligations and/or rights consistent with this License. However, in accepting such obligations, You may act only on Your own behalf and on Your sole responsibility, not on behalf of any other Contributor, and only if You agree to indemnify, defend, and hold each Contributor harmless for any liability incurred by, or claims asserted against, such Contributor by reason of your accepting any such warranty or additional liability. END OF TERMS AND CONDITIONS APPENDIX: How to apply the Apache License to your work. To apply the Apache License to your work, attach the following boilerplate notice, with the fields enclosed by brackets "[]" replaced with your own identifying information. (Don't include the brackets!) The text should be enclosed in the appropriate comment syntax for the file format. We also recommend that a file or class name and description of purpose be included on the same "printed page" as the copyright notice for easier identification within third-party archives. Copyright [yyyy] [name of copyright owner] Licensed under the Apache License, Version 2.0 (the "License"); you may not use this file except in compliance with the License. You may obtain a copy of the License at F2 11LT09

241 Logiciels tiers Unless required by applicable law or agreed to in writing, software distributed under the License is distributed on an "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied. See the License for the specific language governing permissions and limitations under the License. APACHE HTTP SERVER SUBCOMPONENTS: The Apache HTTP Server includes a number of subcomponents with separate copyright notices and license terms. Your use of the source code for the these subcomponents is subject to the terms and conditions of the following licenses. For the mod_mime_magic component: /* * mod_mime_magic: MIME type lookup via file magic numbers * Copyright (c) Cisco Systems, Inc. * * This software was submitted by Cisco Systems to the Apache Group in July * Future revisions and derivatives of this source code must * acknowledge Cisco Systems as the original contributor of this module. * All other licensing and usage conditions are those of the Apache Group. * * Some of this code is derived from the free version of the file command * originally posted to comp.sources.unix. Copyright info for that program * is included below as required. * * - Copyright (c) Ian F. Darwin, Written by Ian F. Darwin. * * This software is not subject to any license of the American Telephone and * Telegraph Company or of the Regents of the University of California. * * Permission is granted to anyone to use this software for any purpose on any * computer system, and to alter it and redistribute it freely, subject to * the following restrictions: * 39 F2 11LT09 241

242 Guide de l'utilisateur de SafeKit * 1. The author is not responsible for the consequences of use of this * software, no matter how awful, even if they arise from flaws in it. * * 2. The origin of this software must not be misrepresented, either by * explicit claim or by omission. Since few users ever read sources, credits * must appear in the documentation. * * 3. Altered versions must be plainly marked as such, and must not be * misrepresented as being the original software. Since few users ever read * sources, credits must appear in the documentation. * * 4. This notice may not be removed or altered. * * */ For the modules\mappers\mod_imagemap.c component: "macmartinized" polygon code copyright 1992 by Eric Haines, [email protected] For the server\util_md5.c component: /************************************************************************ * NCSA HTTPd Server * Software Development Group * National Center for Supercomputing Applications * University of Illinois at Urbana-Champaign * 605 E. Springfield, Champaign, IL * [email protected] * * Copyright (C) 1995, Board of Trustees of the University of Illinois * ************************************************************************ * * md5.c: NCSA HTTPd code which uses the md5c.c RSA Code * * Original Code Copyright (C) 1994, Jeff Hostetler, Spyglass, Inc. * Portions of Content-MD5 code Copyright (C) 1993, 1994 by Carnegie Mellon * University (see Copyright below). * Portions of Content-MD5 code Copyright (C) 1991 Bell Communications * Research, Inc. (Bellcore) (see Copyright below) F2 11LT09

243 Logiciels tiers * Portions extracted from mpack, John G. Myers - [email protected] * Content-MD5 Code contributed by Martin Hamilton ([email protected]) * */ /* these portions extracted from mpack, John G. Myers - [email protected] */ /* (C) Copyright 1993,1994 by Carnegie Mellon University * All Rights Reserved. * * Permission to use, copy, modify, distribute, and sell this software * and its documentation for any purpose is hereby granted without * fee, provided that the above copyright notice appear in all copies * and that both that copyright notice and this permission notice * appear in supporting documentation, and that the name of Carnegie * Mellon University not be used in advertising or publicity * pertaining to distribution of the software without specific, * written prior permission. Carnegie Mellon University makes no * representations about the suitability of this software for any * purpose. It is provided "as is" without express or implied * warranty. * * CARNEGIE MELLON UNIVERSITY DISCLAIMS ALL WARRANTIES WITH REGARD TO * THIS SOFTWARE, INCLUDING ALL IMPLIED WARRANTIES OF MERCHANTABILITY * AND FITNESS, IN NO EVENT SHALL CARNEGIE MELLON UNIVERSITY BE LIABLE * FOR ANY SPECIAL, INDIRECT OR CONSEQUENTIAL DAMAGES OR ANY DAMAGES * WHATSOEVER RESULTING FROM LOSS OF USE, DATA OR PROFITS, WHETHER IN * AN ACTION OF CONTRACT, NEGLIGENCE OR OTHER TORTIOUS ACTION, ARISING * OUT OF OR IN CONNECTION WITH THE USE OR PERFORMANCE OF THIS * SOFTWARE. */ /* * Copyright (c) 1991 Bell Communications Research, Inc. (Bellcore) * * Permission to use, copy, modify, and distribute this material * for any purpose and without fee is hereby granted, provided * that the above copyright notice and this permission notice * appear in all copies, and that the name of Bellcore not be * used in advertising or publicity pertaining to this * material without the specific, prior written permission * of an authorized representative of Bellcore. BELLCORE 39 F2 11LT09 243

244 Guide de l'utilisateur de SafeKit * MAKES NO REPRESENTATIONS ABOUT THE ACCURACY OR SUITABILITY * OF THIS MATERIAL FOR ANY PURPOSE. IT IS PROVIDED "AS IS", * WITHOUT ANY EXPRESS OR IMPLIED WARRANTIES. */ For the srclib\apr\include\apr_md5.h component: /* * This is work is derived from material Copyright RSA Data Security, Inc. * * The RSA copyright statement and Licence for that original material is * included below. This is followed by the Apache copyright statement and * licence for the modifications made to that material. */ /* Copyright (C) , RSA Data Security, Inc. Created All rights reserved. License to copy and use this software is granted provided that it is identified as the "RSA Data Security, Inc. MD5 Message-Digest Algorithm" in all material mentioning or referencing this software or this function. License is also granted to make and use derivative works provided that such works are identified as "derived from the RSA Data Security, Inc. MD5 Message-Digest Algorithm" in all material mentioning or referencing the derived work. RSA Data Security, Inc. makes no representations concerning either the merchantability of this software or the suitability of this software for any particular purpose. It is provided "as is" without express or implied warranty of any kind. */ These notices must be retained in any copies of any part of this documentation and/or software. For the srclib\apr\passwd\apr_md5.c component: /* * This is work is derived from material Copyright RSA Data Security, Inc. * * The RSA copyright statement and Licence for that original material is F2 11LT09

245 Logiciels tiers * included below. This is followed by the Apache copyright statement and * licence for the modifications made to that material. */ /* MD5C.C - RSA Data Security, Inc., MD5 message-digest algorithm */ /* Copyright (C) , RSA Data Security, Inc. Created All rights reserved. License to copy and use this software is granted provided that it is identified as the "RSA Data Security, Inc. MD5 Message-Digest Algorithm" in all material mentioning or referencing this software or this function. License is also granted to make and use derivative works provided that such works are identified as "derived from the RSA Data Security, Inc. MD5 Message-Digest Algorithm" in all material mentioning or referencing the derived work. RSA Data Security, Inc. makes no representations concerning either the merchantability of this software or the suitability of this software for any particular purpose. It is provided "as is" without express or implied warranty of any kind. These notices must be retained in any copies of any part of this documentation and/or software. */ /* * The apr_md5_encode() routine uses much code obtained from the FreeBSD 3.0 * MD5 crypt() function, which is licenced as follows: * * "THE BEER-WARE LICENSE" (Revision 42): * <[email protected]> wrote this file. As long as you retain this notice you * can do whatever you want with this stuff. If we meet some day, and you think * this stuff is worth it, you can buy me a beer in return. Poul-Henning Kamp * */ For the srclib\apr-util\crypto\apr_md4.c component: * This is derived from material copyright RSA Data Security, Inc. 39 F2 11LT09 245

246 Guide de l'utilisateur de SafeKit * Their notice is reproduced below in its entirety. * * Copyright (C) , RSA Data Security, Inc. Created All * rights reserved. * * License to copy and use this software is granted provided that it * is identified as the "RSA Data Security, Inc. MD4 Message-Digest * Algorithm" in all material mentioning or referencing this software * or this function. * * License is also granted to make and use derivative works provided * that such works are identified as "derived from the RSA Data * Security, Inc. MD4 Message-Digest Algorithm" in all material * mentioning or referencing the derived work. * * RSA Data Security, Inc. makes no representations concerning either * the merchantability of this software or the suitability of this * software for any particular purpose. It is provided "as is" * without express or implied warranty of any kind. * * These notices must be retained in any copies of any part of this * documentation and/or software. */ For the srclib\apr-util\include\apr_md4.h component: * * This is derived from material copyright RSA Data Security, Inc. * Their notice is reproduced below in its entirety. * * Copyright (C) , RSA Data Security, Inc. Created All * rights reserved. * * License to copy and use this software is granted provided that it * is identified as the "RSA Data Security, Inc. MD4 Message-Digest * Algorithm" in all material mentioning or referencing this software * or this function. * * License is also granted to make and use derivative works provided * that such works are identified as "derived from the RSA Data * Security, Inc. MD4 Message-Digest Algorithm" in all material * mentioning or referencing the derived work F2 11LT09

247 Logiciels tiers * * RSA Data Security, Inc. makes no representations concerning either * the merchantability of this software or the suitability of this * software for any particular purpose. It is provided "as is" * without express or implied warranty of any kind. * * These notices must be retained in any copies of any part of this * documentation and/or software. */ For the srclib\apr-util\test\testmd4.c component: * * This is derived from material copyright RSA Data Security, Inc. * Their notice is reproduced below in its entirety. * * Copyright (C) , RSA Data Security, Inc. Created All * rights reserved. * * RSA Data Security, Inc. makes no representations concerning either * the merchantability of this software or the suitability of this * software for any particular purpose. It is provided "as is" * without express or implied warranty of any kind. * * These notices must be retained in any copies of any part of this * documentation and/or software. */ For the srclib\apr-util\xml\expat\conftools\install-sh component: # # install - install a program, script, or datafile # This comes from X11R5 (mit/util/scripts/install.sh). # # Copyright 1991 by the Massachusetts Institute of Technology # # Permission to use, copy, modify, distribute, and sell this software and its # documentation for any purpose is hereby granted without fee, provided that # the above copyright notice appear in all copies and that both that # copyright notice and this permission notice appear in supporting # documentation, and that the name of M.I.T. not be used in advertising or 39 F2 11LT09 247

248 Guide de l'utilisateur de SafeKit # publicity pertaining to distribution of the software without specific, # written prior permission. M.I.T. makes no representations about the # suitability of this software for any purpose. It is provided "as is" # without express or implied warranty. # For the srclib\pcre\install-sh component: # # Copyright 1991 by the Massachusetts Institute of Technology # # Permission to use, copy, modify, distribute, and sell this software and its # documentation for any purpose is hereby granted without fee, provided that # the above copyright notice appear in all copies and that both that # copyright notice and this permission notice appear in supporting # documentation, and that the name of M.I.T. not be used in advertising or # publicity pertaining to distribution of the software without specific, # written prior permission. M.I.T. makes no representations about the # suitability of this software for any purpose. It is provided "as is" # without express or implied warranty. For the pcre component: PCRE LICENCE PCRE is a library of functions to support regular expressions whose syntax and semantics are as close as possible to those of the Perl 5 language. Release 5 of PCRE is distributed under the terms of the "BSD" licence, as specified below. The documentation for PCRE, supplied in the "doc" directory, is distributed under the same terms as the software itself. Written by: Philip Hazel <[email protected]> University of Cambridge Computing Service, Cambridge, England. Phone: Copyright (c) University of Cambridge All rights reserved. Redistribution and use in source and binary forms, with or without F2 11LT09

249 Logiciels tiers modification, are permitted provided that the following conditions are met: * Redistributions of source code must retain the above copyright notice, this list of conditions and the following disclaimer. * Redistributions in binary form must reproduce the above copyright notice, this list of conditions and the following disclaimer in the documentation and/or other materials provided with the distribution. * Neither the name of the University of Cambridge nor the names of its contributors may be used to endorse or promote products derived from this software without specific prior written permission. THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS" AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL THE COPYRIGHT OWNER OR CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE. End PCRE LICENCE For the test\zb.c component: /* ZeusBench V1.01 =============== This program is Copyright (C) Zeus Technology Limited This program may be used and copied freely providing this copyright notice is not removed. This software is provided "as is" and any express or implied waranties, including but not limited to, the implied warranties of merchantability and fitness for a particular purpose are disclaimed. In no event shall Zeus Technology Ltd. be liable for any direct, indirect, incidental, special, 39 F2 11LT09 249

250 Guide de l'utilisateur de SafeKit exemplary, or consequential damaged (including, but not limited to, procurement of substitute good or services; loss of use, data, or profits; or business interruption) however caused and on theory of liability. Whether in contract, strict liability or tort (including negligence or otherwise) arising in any way out of the use of this software, even if advised of the possibility of such damage. Written by Adam Twiss March 1996 Thanks to the following people for their input: Mike Belshe Michael Campanella */ For the expat xml parser component: Copyright (c) 1998, 1999, 2000 Thai Open Source Software Center Ltd and Clark Cooper Permission is hereby granted, free of charge, to any person obtaining a copy of this software and associated documentation files (the "Software"), to deal in the Software without restriction, including without limitation the rights to use, copy, modify, merge, publish, distribute, sublicense, and/or sell copies of the Software, and to permit persons to whom the Software is furnished to do so, subject to the following conditions: The above copyright notice and this permission notice shall be included in all copies or substantial portions of the Software. THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY, FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE SOFTWARE F2 11LT09

251 Logiciels tiers curl COPYRIGHT AND PERMISSION NOTICE Copyright (c) , Daniel Stenberg, All rights reserved. Permission to use, copy, modify, and distribute this software for any purpose with or without fee is hereby granted, provided that the above copyright notice and this permission notice appear in all copies. THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY, FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT OF THIRD PARTY RIGHTS. IN NO EVENT SHALL THE AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE SOFTWARE. Except as contained in this notice, the name of a copyright holder shall not be used in advertising or otherwise to promote the sale, use or other dealings in this Software without prior written authorization of the copyright holder. cgic Basic License CGIC, copyright by Thomas Boutell and Boutell.Com, Inc. Permission is granted to use CGIC in any application, commercial or noncommercial, at no cost. HOWEVER, this copyright paragraph must appear on a "credits" page accessible in the public online and offline documentation of the program. Modified versions of the CGIC library should not be distributed without the attachment of a clear statement regarding the author of the modifications, and this notice may in no case be removed. Modifications may also be submitted to the author for inclusion in the main CGIC distribution. OpenSSL LICENSE ISSUES ============== The OpenSSL toolkit stays under a dual license, i.e. both the conditions of the OpenSSL License and the original SSLeay license apply to the toolkit. See below for the actual license texts. Actually both licenses are BSD-style 39 F2 11LT09 251

252 Guide de l'utilisateur de SafeKit Open Source licenses. In case of any license issues related to OpenSSL please contact OpenSSL License /* ==================================================================== * Copyright (c) The OpenSSL Project. All rights reserved. * * Redistribution and use in source and binary forms, with or without * modification, are permitted provided that the following conditions * are met: * * 1. Redistributions of source code must retain the above copyright * notice, this list of conditions and the following disclaimer. * * 2. Redistributions in binary form must reproduce the above copyright * notice, this list of conditions and the following disclaimer in * the documentation and/or other materials provided with the * distribution. * * 3. All advertising materials mentioning features or use of this * software must display the following acknowledgment: * "This product includes software developed by the OpenSSL Project * for use in the OpenSSL Toolkit. ( * * 4. The names "OpenSSL Toolkit" and "OpenSSL Project" must not be used to * endorse or promote products derived from this software without * prior written permission. For written permission, please contact * [email protected]. * * 5. Products derived from this software may not be called "OpenSSL" * nor may "OpenSSL" appear in their names without prior written * permission of the OpenSSL Project. * * 6. Redistributions of any form whatsoever must retain the following * acknowledgment: * "This product includes software developed by the OpenSSL Project * for use in the OpenSSL Toolkit ( * * THIS SOFTWARE IS PROVIDED BY THE OpenSSL PROJECT ``AS IS'' AND ANY F2 11LT09

253 Logiciels tiers * EXPRESSED OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE * IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR * PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL THE OpenSSL PROJECT OR * ITS CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, * SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT * NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; * LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) * HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, * STRICT LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) * ARISING IN ANY WAY OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED * OF THE POSSIBILITY OF SUCH DAMAGE. * ==================================================================== * * This product includes cryptographic software written by Eric Young * ([email protected]). This product includes software written by Tim * Hudson ([email protected]). * */ Original SSLeay License /* Copyright (C) Eric Young ([email protected]) * All rights reserved. * * This package is an SSL implementation written * by Eric Young ([email protected]). * The implementation was written so as to conform with Netscapes SSL. * * This library is free for commercial and non-commercial use as long as * the following conditions are aheared to. The following conditions * apply to all code found in this distribution, be it the RC4, RSA, * lhash, DES, etc., code; not just the SSL code. The SSL documentation * included with this distribution is covered by the same copyright terms * except that the holder is Tim Hudson ([email protected]). * * Copyright remains Eric Young's, and as such any Copyright notices in * the code are not to be removed. * If this package is used in a product, Eric Young should be given attribution * as the author of the parts of the library used. * This can be in the form of a textual message at program startup or 39 F2 11LT09 253

254 Guide de l'utilisateur de SafeKit * in documentation (online or textual) provided with the package. * * Redistribution and use in source and binary forms, with or without * modification, are permitted provided that the following conditions * are met: * 1. Redistributions of source code must retain the copyright * notice, this list of conditions and the following disclaimer. * 2. Redistributions in binary form must reproduce the above copyright * notice, this list of conditions and the following disclaimer in the * documentation and/or other materials provided with the distribution. * 3. All advertising materials mentioning features or use of this software * must display the following acknowledgement: * "This product includes cryptographic software written by * Eric Young ([email protected])" * The word 'cryptographic' can be left out if the rouines from the library * being used are not cryptographic related :-). * 4. If you include any Windows specific code (or a derivative thereof) from * the apps directory (application code) you must include an acknowledgement: * "This product includes software written by Tim Hudson ([email protected])" * * THIS SOFTWARE IS PROVIDED BY ERIC YOUNG ``AS IS'' AND * ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE * IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE * ARE DISCLAIMED. IN NO EVENT SHALL THE AUTHOR OR CONTRIBUTORS BE LIABLE * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL * DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS * OR SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) * HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT * LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY * OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF * SUCH DAMAGE. * * The licence and distribution terms for any publically available version or * derivative of this code cannot be changed. i.e. this code cannot simply be * copied and put under another distribution licence * [including the GNU Public Licence.] */ F2 11LT09

255 Logiciels tiers Lua Copyright Lua.org, PUC-Rio. Permission is hereby granted, free of charge, to any person obtaining a copy of this software and associated documentation files (the "Software"), to deal in the Software without restriction, including without limitation the rights to use, copy, modify, merge, publish, distribute, sublicense, and/or sell copies of the Software, and to permit persons to whom the Software is furnished to do so, subject to the following conditions: The above copyright notice and this permission notice shall be included in all copies or substantial portions of the Software. THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY, FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE SOFTWARE. HTTPClient * Copyright (C) Ronald Tschalär * * This library is free software; you can redistribute it and/or * modify it under the terms of the GNU Lesser General Public * License as published by the Free Software Foundation; either * version 2 of the License, or (at your option) any later version. * * This library is distributed in the hope that it will be useful, * but WITHOUT ANY WARRANTY; without even the implied warranty of * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the GNU * Lesser General Public License for more details. * * You should have received a copy of the GNU Lesser General Public * License along with this library; if not, write to the Free * Software Foundation, Inc., 59 Temple Place, Suite 330, Boston, * MA , USA * * For questions, suggestions, bug-reports, enhancement-requests etc. * I may be contacted at: * * [email protected] * * The HTTPClient's home page is located at: * * 39 F2 11LT09 255

256 Guide de l'utilisateur de SafeKit Spread Version 1.0 June 26, 2001 Copyright (c) Spread Concepts LLC. All rights reserved. Redistribution and use in source and binary forms, with or without modification, are permitted provided that the following conditions are met: 1. Redistributions of source code must retain the above copyright notice, this list of conditions and the following disclaimer and request. 2. Redistributions in binary form must reproduce the above copyright notice, this list of conditions and the following disclaimer and request in the documentation and/or other materials provided with the distribution. 3. All advertising materials (including web pages) mentioning features or use of this software, or software that uses this software, must display the following acknowledgment: "This product uses software developed by Spread Concepts LLC for use in the Spread toolkit. For more information about Spread see 4. The names "Spread" or "Spread toolkit" must not be used to endorse or promote products derived from this software without prior written permission. 5. Redistributions of any form whatsoever must retain the following acknowledgment: "This product uses software developed by Spread Concepts LLC for use in the Spread toolkit. For more information about Spread, see 6. This license shall be governed by and construed and enforced in accordance with the laws of the State of Maryland, without reference to its conflicts of law provisions. The exclusive jurisdiction and venue for all legal actions relating to this license shall be in courts of competent subject matter jurisdiction located in the State of Maryland. TO THE MAXIMUM EXTENT PERMITTED BY APPLICABLE LAW, SPREAD IS PROVIDED UNDER THIS LICENSE ON AN AS IS BASIS, WITHOUT WARRANTY OF ANY KIND, EITHER EXPRESSED OR IMPLIED, INCLUDING, WITHOUT LIMITATION, WARRANTIES THAT SPREAD IS FREE OF DEFECTS, MERCHANTABLE, FIT FOR A PARTICULAR PURPOSE OR NON-INFRINGING. ALL WARRANTIES ARE DISCLAIMED AND THE ENTIRE RISK AS TO THE QUALITY AND PERFORMANCE OF THE CODE IS WITH YOU. SHOULD ANY CODE PROVE DEFECTIVE IN ANY RESPECT, YOU (NOT THE COPYRIGHT HOLDER OR ANY OTHER CONTRIBUTOR) ASSUME THE COST OF ANY NECESSARY SERVICING, REPAIR OR CORRECTION. THIS DISCLAIMER OF WARRANTY CONSTITUTES AN ESSENTIAL PART OF THIS LICENSE. NO USE OF ANY CODE IS AUTHORIZED HEREUNDER EXCEPT UNDER THIS DISCLAIMER. TO THE MAXIMUM EXTENT PERMITTED BY APPLICABLE LAW, IN NO EVENT SHALL THE COPYRIGHT HOLDER OR ANY OTHER CONTRIBUTOR BE LIABLE FOR ANY SPECIAL, INCIDENTAL, INDIRECT, OR CONSEQUENTIAL DAMAGES FOR LOSS OF PROFITS, REVENUE, OR FOR LOSS OF INFORMATION OR ANY OTHER LOSS. YOU EXPRESSLY AGREE TO FOREVER INDEMNIFY, DEFEND AND HOLD HARMLESS THE COPYRIGHT HOLDERS AND CONTRIBUTORS OF SPREAD AGAINST ALL CLAIMS, DEMANDS, SUITS OR OTHER ACTIONS ARISING DIRECTLY OR INDIRECTLY FROM YOUR ACCEPTANCE AND USE OF SPREAD F2 11LT09

257 Logiciels tiers Although NOT REQUIRED, we at Spread Concepts would appreciate it if active users of Spread put a link on their web site to Spread's web site when possible. We also encourage users to let us know who they are, how they are using Spread, and any comments they have through either ([email protected]) or our web site at ( Info-ZIP This is version 2009-Jan-02 of the Info-ZIP license. The definitive version of this document should be available at ftp://ftp.info-zip.org/pub/infozip/license.html indefinitely and a copy at Copyright (c) Info-ZIP. All rights reserved. For the purposes of this copyright and license, "Info-ZIP" is defined as the following set of individuals: Mark Adler, John Bush, Karl Davis, Harald Denker, Jean-Michel Dubois, Jean-loup Gailly, Hunter Goatley, Ed Gordon, Ian Gorman, Chris Herborth, Dirk Haase, Greg Hartwig, Robert Heath, Jonathan Hudson, Paul Kienitz, David Kirschbaum, Johnny Lee, Onno van der Linden, Igor Mandrichenko, Steve P. Miller, Sergio Monesi, Keith Owens, George Petrov, Greg Roelofs, Kai Uwe Rommel, Steve Salisbury, Dave Smith, Steven M. Schweda, Christian Spieler, Cosmin Truta, Antoine Verheijen, Paul von Behren, Rich Wales, Mike White. This software is provided "as is," without warranty of any kind, express or implied. In no event shall Info-ZIP or its contributors be held liable for any direct, indirect, incidental, special or consequential damages arising out of the use of or inability to use this software. Permission is granted to anyone to use this software for any purpose, including commercial applications, and to alter it and redistribute it freely, subject to the above disclaimer and the following restrictions: Redistributions of source code (in whole or in part) must retain the above copyright notice, definition, disclaimer, and this list of conditions. Redistributions in binary form (compiled executables and libraries) must reproduce the above copyright notice, definition, disclaimer, and this list of conditions in documentation and/or other materials provided with the distribution. Additional documentation is not needed for executables where a command line license option provides these and a note regarding this option is in the executable's startup banner. The sole exception to this condition is redistribution of a standard UnZipSFX binary (including SFXWiz) as part of a self-extracting archive; that is permitted without inclusion of this license, as long as the normal SFX banner has not been removed from the binary or disabled. Altered versions--including, but not limited to, ports to new operating systems, existing ports with new graphical interfaces, versions with modified or added functionality, and dynamic, shared, or static library versions not from Info-ZIP--must be plainly marked as such and must not be misrepresented as being the original source or, if binaries, compiled from the original source. Such altered versions also must not be misrepresented as being Info-ZIP releases--including, but not limited to, labeling of the altered versions with the names "Info-ZIP" (or any variation thereof, including, but not limited to, different capitalizations), "Pocket UnZip," "WiZ" or "MacZip" without the explicit permission of Info-ZIP. Such altered versions are further prohibited from misrepresentative use of the Zip-Bugs or Info-ZIP addresses or the Info-ZIP URL(s), such as to imply Info-ZIP will provide support for the altered versions. Info-ZIP retains the right to use the names "Info-ZIP," "Zip," "UnZip," "UnZipSFX," "WiZ," "Pocket UnZip," "Pocket Zip," and "MacZip" for its own source and binary releases. Libnet * Copyright (c) 1998, 1999, 2000 Mike D. Schiffman <[email protected]> * All rights reserved. * * Redistribution and use in source and binary forms, with or without * modification, are permitted provided that the following conditions * are met: 39 F2 11LT09 257

258 Guide de l'utilisateur de SafeKit * 1. Redistributions of source code must retain the above copyright * notice, this list of conditions and the following disclaimer. * 2. Redistributions in binary form must reproduce the above copyright * notice, this list of conditions and the following disclaimer in the * documentation and/or other materials provided with the distribution. * * THIS SOFTWARE IS PROVIDED BY THE AUTHOR AND CONTRIBUTORS ``AS IS'' AND * ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE * IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE * ARE DISCLAIMED. IN NO EVENT SHALL THE AUTHOR OR CONTRIBUTORS BE LIABLE * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL * DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS * OR SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) * HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT * LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY * OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF * SUCH DAMAGE F2 11LT09

259 Table des matières Guide de l'utilisateur de SafeKit Logiciel de haute disponibilité pour applications critiques... 1 Vue générale... 3 Index Architectures de haute disponibilité Définition d'un module SafeKit -intégration d'application Module miroir : réplication temps réel synchrone et reprise sur panne Réplication de fichiers et reprise sur panne Etape 1. Etat normal d'un miroir Etape 2. Reprise sur panne Etape 3. Réintégration après panne Etape 4. Retour à la normale Solution de réplication synchrone qui ne perd pas de données en cas de panne Module ferme : partage de charge réseau et reprise sur panne Partage de charge réseau et reprise sur panne Principe d'une adresse IP virtuelle avec partage de charge réseau Critères de partage de charge pour les services web à état et sans état Combiner les modules miroir et ferme Actif/Actif : 2 modules miroirs en backup l'un de l'autre N-1 : N modules miroirs avec un seul backup Mixte ferme/miroir : partage de charge réseau, réplication de fichiers et reprise sur panne Installation et configuration Installation de SafeKit Télécharger le package Répertoires d'installation et espace disque Installer le package Clés de licence SafeKit Caractéristiques spécifiques à chaque OS Recommandation pour une installation d'un module miroir Prérequis matériel Prérequis réseau Prérequis application Prérequis réplication de fichiers Recommandation pour une installation d'un module ferme Prérequis matériel Prérequis réseau Prérequis application Procédure d'upgrade Quand procéder à un upgrade? Préparer l'upgrade F2 11LT09 259

260 Guide de l'utilisateur de SafeKit Désinstallation Réinstallation Désinstallation complète de SafeKit Documentation produit La console web de SafeKit Démarrer la console web Lancer un navigateur web Connecter la console à un serveur SafeKit Configurer les serveurs SafeKit à administrer avec la console web Configurer un module avec la console web Sélectionner le module à configurer L assistant de configuration Contrôler un module avec la console web Snapshots d un module pour le support avec la console web Superviser les modules avec la console web Gérer les modules avec la console web Configuration avancée d un module L assistant de configuration avancée Désinstaller un module Publier un modèle de module (.safe) Configurer un module depuis Application_Modules Restreindre les accès à la console web Restriction basée sur le port de connexion Restriction basée sur une authentification basique Restriction basée sur des certificats clients Tests Installation et tests après boot Test installation package Test licence et version Test des services et processus SafeKit après boot Test démarrage de la console web Tests d'un module miroir Test start d'un module miroir sur 2 serveurs STOP (rouge) Test stop d'un module miroir sur le serveur PRIM (vert) Test start du module miroir dans l'état STOP (rouge) Test restart du module miroir dans l'état PRIM (vert) Test swap du module miroir d'un serveur vers l'autre Test adresse IP virtuelle d'un module miroir Test réplication de fichiers d'un module miroir Test shutdown d'un module miroir sur le serveur PRIM (vert) F2 11LT09

261 4.2.9 Test power-off d'un module miroir sur le serveur PRIM (vert) Test split brain avec un module miroir Continuer les tests de votre module miroir avec les checkers Tests d'un module ferme Test start d'un module ferme sur les serveurs STOP (rouge) Test stop d'un module ferme sur un serveur UP (vert) Test restart d'un module ferme sur un serveur UP (vert) Test adresse IP virtuelle d'un module ferme Test load balancing TCP sur une adresse virtuelle Test split brain avec un module ferme Test de la compatibilité du réseau avec l'adresse MAC invisible (vmac_invisible) Test shutdown d'un module ferme sur un serveur UP (vert) Test power-off d'un module ferme sur un serveur UP (vert) Continuer les tests du module ferme avec les checkers Tests des checkers communs à un miroir et une ferme Test <errd>: checker de processus avec action restart ou stopstart Test <tcp> checker de l'applicatif local avec action restart ou stopstart Test <tcp> checker d'un service externe avec action wait Test <interface check="on"> sur une interface réseau locale avec action wait Test <ping> checker avec action wait Test <module> checker avec action wait Test <custom> checker avec action wait Test <custom> checker avec action restart ou stopstart Administration d'un module miroir Mode de fonctionnement d'un module miroir Automate d'état d'un module miroir (STOP, WAIT, ALONE, PRIM, SECOND - rouge, magenta, vert) Premier démarrage d'un module miroir (commande prim) Différents cas de réintégration (utilisation des bitmaps) Démarrage d'un module miroir avec les données à jour ( STOP (rouge) - WAIT (rouge)) Mode de réplication dégradé ( ALONE (vert) dégradé) Reprise automatique ou manuelle (failover="off" - STOP (rouge) - WAIT (rouge)) Serveur primaire par défaut (swap automatique après réintégration) La commande prim échoue : pourquoi? (commande primforce) Utiliser une troisième machine de remplacement Administration d'un module ferme Mode de fonctionnement d'un module ferme Automate d'état d'un module ferme (STOP, WAIT, UP - rouge, magenta, vert) F2 11LT09 261

262 Guide de l'utilisateur de SafeKit 6.3 Démarrage d'un module ferme Résolution de problèmes Comment lire les journaux du module? Comment lire le journal de commandes du serveur? Module stable (vert) et (vert) Module dégradé (vert) et (rouge) Module hors service (rouge) et (rouge) Module STOP (rouge) : redémarrer le module Module WAIT (rouge) : réparer la ressource="down" Module oscillant de (vert) à (magenta) Message sur stop après maxloop Module (vert) mais application non opérationnelle Module (vert) mais problème de load balancing dans une ferme Problème après boot Problème persistant Accès au support Evidian Page d accueil du site support Clés de licence permanentes Créer un compte Accéder à votre compte Le Call Desk pour remonter des problèmes Les opérations du Call Desk Création d un Call Attacher les snapshots Consultation des réponses au Call et échange avec le support Zone de download et d upload de fichiers zones de download et d upload La zone de download des packages produit La zone privée d upload Base de connaissances Interface ligne de commande Ligne de commande globale au cluster Commandes de boot et shutdown Commandes de contrôle Commandes de monitoring Commandes de configuration Commandes de support F2 11LT09

263 10. Administration avancée Configuration du serveur web de SafeKit Fichiers de configuration Configuration pour la console web de SafeKit Configuration pour la console java de SafeKit Notification par mail lors d'un basculement Configuration agent SNMP Processus et services SafeKit Variables d'environnement et répertoires à connaître Journal des commandes du serveur SafeKit Sécurisation de la console SafeKit avec HTTPS Configuration rapide Activation du serveur CA Génération des certifications pour les serveurs SafeKit (non-ca) Activation de HTTPS sur les serveurs SafeKit Installation des certificats sur les clients Désactivation du serveur CA Configuration Avancée Renouvellement des certificats Révocation des certificats Configuration des pare-feu Liste des certificats Internes Userconfig.xml Macro définition (<macro> tag) <macro> Exemple <macro> Syntaxe <macro> Attributs Module ferme ou miroir (<service> tag) <service> Exemple <service> Syntaxe <service> Attributs Heartbeats (<heart>, <heartbeat >, <server> tags) <heart> Exemple <heart> Syntaxe <heart>, <heartbeat >, <server> attributs Topologie d'une ferme (<farm>, <lan>, <node> tags) <farm> Exemple <farm> Syntaxe F2 11LT09 263

264 Guide de l'utilisateur de SafeKit <farm>, <lan>, <node> Attributs Adresse IP virtuelle (<vip> tag) <vip> Exemple dans une architecture ferme <vip> Exemple dans une architecture miroir <vip> Syntaxe <interface_list>, <interface>, <virtual_interface>, <real_interface>, <virtual_addr> Attributs <loadbalancing_list>, <group>, <cluster>, <host> Attributs <vip> Description Réplication de fichiers (<rfs>, <replicated> tags) <rfs> Exemple <rfs> Syntaxe <rfs>, <replicated> Attributs <rfs>description Activer les scripts utilisateurs (<user>, <var> tags) <user> Exemple <user> Syntaxe <user>, <var> Attributs Hostname virtuel (<vhost>, <virtualhostname> tags) <vhost> Exemple <vhost> Syntaxe <vhost>, <virtualhostname> Attributs <vhost> Description Détection de la mort de processus (<errd>, <proc> tags) <errd> Exemple <errd> Syntaxe <errd>, <proc> Attributs <errd> Commandes Checkers (<check> tags) <check> Exemple <check> Syntaxe TCP checker (<tcp> tags) <tcp> Exemple <tcp> Syntaxe <tcp> Attributs Ping checker (<ping> tags) <ping> Exemple <ping> Syntaxe <ping> Attributs Interface checker (<intf> tags) <intf> Exemple F2 11LT09

265 <intf> Syntaxe <intf> Attributs IP checker (<ip> tags) <ip> Exemple <ip> Syntaxe <ip> Attributs Checker customisé (<custom> tags) <custom> Exemple <custom> Syntaxe <custom> Attributs Module checker (<module> tags) <module> Exemple <module> Syntaxe <module> Attributs Splitbrain checker (<splitbrain> tag) <splitbrain> Exemple <splitbrain> Syntaxe <splitbrain> Attributs Failover machine (<failover> tag) <failover> Exemple <failover> Syntaxe <failover> Attributs <failover> Commandes Règles de failover par défaut Scripts applicatifs de l'utilisateur Scripts start/stop Automate des scripts Scripts config et state Variables passées aux scripts Commandes spéciales SafeKit pour les scripts utilisateurs Commandes pour Windows Commandes pour Unix Commandes pour Windows et Unix Fichiers pour la console SafeKit Contenu d'un module applicatif Fichiers pour la console web Fichiers pour la console java Exemples de userconfig.xml et scripts utilisateurs Exemple du module générique miroir F2 11LT09 265

266 Guide de l'utilisateur de SafeKit 14.2 Exemple du module générique ferme Un module ferme dépendant d'un module miroir Exemple d'un flux de réplication dédié Exemples de partage de charge Exemple d'un load balancing TCP Exemple de load balancing UDP Exemple d'un load balancing multi-groupes Exemple d'un hostname virtuel avec vhost.safe Détection de la mort de processus avec softerrd.safe Exemple de checker TCP extrait de apache_farm.safe Exemple d'un checker ping Exemple d'un checker d'interface réseau Exemple d IP checker Exemple d'un checker customisé de conflit d'adresse IP sur Windows Exemple d'un checker customisé sur Unix Exemple d'un checker de module avec master.safe et slave.safe Exemple de règle de failover pour un firewall Autres exemples La console java de SafeKit Installer et démarrer la console SafeKit Installer la console Démarrer la console SafeKit : java jar safemonitor.jar Connecter la console SafeKit aux serveurs Sauver une configuration de votre GUI Installer et configurer un module avec la console Installer un module SafeKit Quick Configure d un module SafeKit Expert Configure d un module SafeKit Contrôler et monitorer un module avec la console Contrôler un module SafeKit : Start/Stop Monitorer un module SafeKit Snapshots d un module pour le support avec la console Installer le certificat dans le client JRE pour HTTPS Logiciels tiers Liste des logiciels tiers Détails des licences Table des matières Index des messages de journal du module F2 11LT09

267 Index des messages de journal du module Action "Action forcestop called by 93, 112 "Action prim called by 112 "Action primforce called by SYSTEM/root", 85 "Action restart called by 61, 93, 112 "Action restart stopstart called by customscript", 75, 97, 112 "Action restart stopstart called by errd", 68, 97, 112 "Action restart stopstart from failover rule tcp_failure", 69, 97, 112 "Action second called by 79, 112 "Action shutdown called by SYSTEM", 58, 67, 110 "Action start called at boot time", 58, 59, 67, 110 "Action start called automatically", 68, 69, 75 "Action start called by 54, 61, 93, 112 "Action stop called by 54, 61, 93, 112 "Action stopstart called by failover-off", 83, 112 "Action stopstart called by modulecheck", 73, 112 "Action stopstart called by 93, 112 "Action stopstart from failover rule customid_failure", 75, 97, 112 "Action swap called by 55, 93, 112 "Action wait from failover rule customid_failure", 74, 96 "Action wait from failover rule tcpid_failure", 70, 96 "Action wait from failover rule degraded_server", 82 "Action wait from failover rule interface_failure", 71, 96 "Action wait from failover rule module_failure", 73, 96 "Action wait from failover rule notuptodate_server", 81, 96 "Action wait from failover rule ping_failure", 72, 96 "Action wait from failover rule splitbrain_failure", 96 Réplication et réintegration "Copied <reintegration statistics>", 57 "Data may be inconsistent for replicated directories (stopped during reintegration)", 85 "Data may not be uptodate for replicated directories (wait for the start of the remote server)", 79, 81, 96 "If you are sure that this server has valid data, run safekit prim to force start as primary", 79, 81, 96 "If you are sure that this server has valid data, run safekit primforce to force start as primary", F2 11LT09 267

268 Guide de l'utilisateur de SafeKit "Reintegration ended (synchronize)", 57 "Updating directory tree from /replicated", 57 Load-balancing "farm load: 128/256 (group FarmProto)", 91, 64, 65 "farm membership: node1 (group FarmProto)", 64, 65 "farm membership: node1 node2 (group FarmProto)", 91, 64, 65 "farm membership: node2 (group FarmProto)", 65 Local state "Local state ALONE green", 78, 54, 60 "Local state PRIM green", 78,54 "Local state SECOND green",78, 54 "Local state UP green",90,91 "Local state WAIT red", 96, 83 Remote state "Remote state ALONE green", 78,60 "Remote state PRIM green", 78, 54 "Remote state SECOND green",78, 54 "Remote state UNKNOWN grey", 59, 60 Resource "Resource custom.id set to down by customscript", 74, 75, 96, 97 "Resource custom.id set to up by customscript", 74 "Resource heartbeat.0 set to down by heart", 59, 60 "Resource heartbeat.flow set to down by heart", 59, 60 "Resource intf.ip.0 set to down by intfcheck", 71, 96 "Resource intf.ip.0 set to up by intfcheck", 71 "Resource module.othermodule_ip set to down by modulecheck", 73, 96 "Resource module.othermodule_ip set to up by modulecheck", 73 "Resource ping.id set to down by pingcheck", 72, 96 "Resource ping.id set to up by pingcheck", 72 "Resource rfs.degraded set to up by nfsadmin", 82 "Resource tcp.id set to down by tcpcheck", 69, 70, 96, 97 "Resource tcp.id set to up by tcpcheck", F2 11LT09

269 Script "Script start_prim", 185, 54, 55, 58, 59 "Script stop_prim", 185, 54, 58, 60 "Script start_both", 185, 61, 67 "Script stop_both", 185, 61 Transition "Transition RESTART STOPSTART from failover rule customid_failure", 75 "Transition STOPSTART from failover-off", 83 "Transition SWAP from defaultprim", 84 "Transition SWAP from SYSTEM", 55 "Transition WAIT_TR from failover rule customid_failure", 74 "Transition WAIT_TR from failover rule interface_failure", 71 "Transition WAKEUP from failover rule Implicit_WAKEUP", 70, 71, 72, 73, 74 Autres messages "Begin of Swap", 55, 84 "End of stop", 54, 61, 58, 67 "event atleast on proc appli.exe", 68, 97 "Failover-off configured", 83 "Previous halt unexpected", 59, 67 "Reason of failover: no heartbeat", 59 "Reason of failover: remote stop", 54, 58 "Requested prim start aborted ", 85 "Split brain recovery: exiting alone", 60 "Split brain recovery: staying alone", 60 "Stopping loop", 98, 68, 69, 70, 71, 72, 73, 74, 75, 97 "Virtual IP <ip 1.10 of mirror> set", 56 "Virtual IP <ip1.20 of farm> set", F2 11LT09 269

270 39 F2 11LT09 270

Montrer encore