Comment réduire les risques d'erreur humaine dans les salles serveurs distribuées et les armoires de câblage distantes grâce à des solutions



Documents pareils
SOMMAIRE. 1. Architecture proposée. 2. Constituants de la solution. 3. Supervision DATA CENTER OPTION SERVICE

Merci d'avoir choisi notre système d'alarme intelligent. Veuillez lire ce manuel avant l'installation afin de la faire fonctionner correctement.

portnox pour un contrôle amélioré des accès réseau Copyright 2008 Access Layers. Tous droits réservés.

AQUAGENIUZ Système de surveillance/ controle de l eau

Unités de distribution d'alimentation (PDU) :

Manuel d'utilisation du détecteur de fumée

Dell Server PRO Management Pack 4.0 pour Microsoft System Center Virtual Machine Manager Guide d'installation

POUR MAC Guide de démarrage rapide. Cliquez ici pour télécharger la version la plus récente de ce document

PARAGON SYSTEM BACKUP 2010

Installation du SLIS 4.1

Le management immobilier intelligent

La surveillance réseau des Clouds privés

Extrait de Plan de Continuation d'activité Octopuce

Protection de l'alimentation APC pour solutions Cisco VoIP et téléphonie IP

SYSTEME D ALARME CONNECTE. Guide d installation et d utilisation

HEBERGEMENT DANS LE DATACENTER GDC2 DE VELIZY

Guide d utilisation. Français. APC Smart-UPS SC 250/450 VA 110/120/230 V CA. Onduleur monobloc Montage en baie/tour

Comment le logiciel de gestion de l infrastructure du datacenter améliore la planification et réduit les coûts opérationnels

conséquence, en cas d'une alarme pour les biens, d'une intrusion non permise ou d'une tentative, ou en cas d'une alarme pour les personnes, d'un

Seules les personnes intelligentes consultent le manuel.

Guide d'utilisation du Serveur USB

Annexe de la fiche technique HP Datacenter Care - Flexible Capacity Service

BALISE GPS. Modèle EOLE. MANUEL INSTALLATEUR Version 3.4 GPS+GSM+SMS/GPRS

De nouveaux horizons pour votre Datacenter

Chapitre 1 : Introduction aux bases de données

HEBERGEMENT DANS LE DATACENTER GDC2 DE VELIZY

ManageEngine IT360 : Gestion de l'informatique de l'entreprise

Guide. Prévention Habitat. libea.fr

Cadre de développement et d'évaluation des programmes de maintenance des datacenters

Outils de Communications Onduleurs pour PC, Serveurs & Réseaux. SOLUTIONS LOGICIELS ET MONITORING POUR ONDULEURS JUSQU'À 30 kva

HAM841K CENTRALE D'ALARME POUR SYSTEMES DE SECURITE COMMERCIAUX ET D'HABITATION

THEGREENBOW FIREWALL DISTRIBUE TGB::BOB! Pro. Spécifications techniques

Routeur Wi-Fi N300 (N300R)

MultiPlus sans limites

Service d'installation et de démarrage de la solution de stockage réseau HP StoreEasy 1000/3000

VRM Monitor. Aide en ligne

MANUEL D UTILISATION (simplifié) DE LA CENTRALE LS-30

Conception d une infrastructure «Cloud» pertinente

Product positioning. Caméra Cloud d'extérieur PoE HD DCS-2310L/ Caméra Cloud HD sans fil d'extérieur DCS-2332L

Logiciel de gestion de données

Surveillance de réseau : un élément indispensable de la sécurité informatique

La sécurité physique et environnementale

ORACLE DIAGNOSTIC PACK 11G

Guide d'installation du connecteur Outlook 4

DEFINITION DU DATACENTER

Asset Management Software Client Module. Manuel d utilisation

Les mains dans la bête

CODE DU TRAVAIL Art. R Art. R Art. R Art. R

Communication et connectivité

FlatBox. Système d Alarme de Sécurité GSM / Sans Fil

Backup Exec 2014 Management Pack for Microsoft SCOM. - Guide de l'utilisateur

Guide de déploiement

CA ARCserve Backup Patch Manager pour Windows

Spécifications de l'offre Surveillance d'infrastructure à distance

Le réseau IP et son impact sur la vidéosurveillance. Livre blanc

GSM/GPRS/GPS Traceur Véhicule G-1000 PRO Manuel D utilisation

L'univers simple des appareils intelligents

Electricité et mise à la terre

MANUEL D'INSTALLATION DU SYSTEME D'ALARME. Nous vous remercions d'avoir acheté le système d'alarme Egardia.

Sage CRM. 7.2 Guide de Portail Client

Sécuriser un équipement numérique mobile TABLE DES MATIERES

Répéteur Wi-Fi GUIDE D'INSTALLATION

MODE D EMPLOI HAA51 DETECTEUR PASSIF D INTRUSION A INFRAROUGE INTRODUCTION

Manuel d'installation

Administration Centrale : Opérations

Symantec Protection Suite Enterprise Edition Protection éprouvée pour les terminaux, la messagerie et les environnements Web

DATA CENTER. Règles d'ingénierie du Data Center DATA CENTER

Objectif. Participant. Prérequis. Pédagogie. Oracle Enterprise Manager 10g Grid Control Rel 2. 5 Jours [35 Heures]

Panda Managed Office Protection. Guide d'installation pour les clients de WebAdmin


Somfy, parce que votre sécurité mérite une alarme sur-mesure

Fronius IG. Onduleurs centraux PV POWERING YOUR FUTURE

Infrastructure Management & Monitoring for Business-Critical Continuity. LIFE.net. Diagnostics et service à distance

AVIS URGENT RELATIF À LA SÉCURITÉ

Préparer la synchronisation d'annuaires

300TB. 1,5milliard LE CLOUD ONBASE / L'EXPÉRIENCE COMPTE. Le Cloud OnBase, par Hyland DOCUMENTS. Plus de. Plus de. Plus de.

SP-1101W/SP-2101W Quick Installation Guide


Manuel d utilisation de la plate-forme de gestion de parc UCOPIA. La mobilité à la hauteur des exigences professionnelles

Comprendre ITIL 2011

Maximiser la performance de vos projets immobilier de bureaux

epowerswitch 8XM+ Fiche technique

Gestion et impression

Guide d'utilisation EasyMP Monitor Ver.4.31

Guide d'utilisation EasyMP Monitor Ver.4.52

Trousse de sécurité d'alarme - NVR

Boîte à outils OfficeScan

Retrospect 7.7 Addendum au Guide d'utilisation

GUIDE D UTILISATION. Réglages par défaut. Installation. Panneau de configuration de l'unité principale: Sirène D alarme. maison.

Maximiser la performance de vos projets immobiliers de bureaux

Security Service de Services sécurité. Protocole de surveillance des alarmes de sécurité

Module 0 : Présentation de Windows 2000

Installation d une camera vidéo de surveillance à distance de personnes dépendantes sur PC et téléphone portable (Smartphone)

Manuel d utilisation du modèle

La Gestion Technique Centralisée. Qu est ce que c est? A quoi ça sert?

Network Camera. Camera. Network. Guide d installation v1.1. Installation Guide v R1.1. Anglais. Français. Espagnol. Allemand R1.

G. Méthodes de déploiement alternatives

KeContact P20-U Manuel

Transcription:

Comment réduire les risques d'erreur humaine dans les salles serveurs distribuées et les armoires de câblage distantes grâce à des solutions de surveillance Livre Blanc nn Révision 0 Par Dennis Bouley > Résumé Général Les interruptions inopinées de salles serveurs et d'armoires de câblage distantes sont la hantise des responsables informatiques. Les anecdotes de pannes de salles serveurs dues à une erreur humaine, un manque de compétence ou simplement à la malchance sont légion. Ce livre blanc propose une analyse de plusieurs scénarios d'incidents et explique comment un simple système de surveillance peut suffire à limiter les risques de panne. Table Des Matières Cliquez sur une section pour y accéder directement Introduction 2 Simple ou Complexe? La nature des pannes consécutives à une erreur humaine Témoignages d'événements inattendus 2 4 5 Composants d'un système de surveillance Quelques autres récits d'incidents 5 10 Conclusion 13 Ressources 14 by Schneider Electric. Les livres blancs APC font maintenant partie de la bibliothèque Schneider Electric produite par le Datacenter Science Center de Schneider Electric DCSC@Schneider-Electric.com

Introduction Les responsables informatiques ont souvent des anecdotes à raconter sur des pannes inopinées s'étant produites dans des salles serveurs distribuées et des armoires de câblage distantes. L'analyse de ces récits fait ressortir une même tendance : le manque d'information. Ce manque d'information conduit à des erreurs humaines lesquelles provoquent des pannes. Les opérateurs et administrateurs subissent de fortes pressions faute de données disponibles en temps réel, qui leur permettraient d'éviter les erreurs humaines. Examinez les statistiques suivantes : Il y aurait 2,9 millions de salles serveurs et d'armoires de câblage rien qu'aux États- Unis 1 Plus de 70 % des pannes de datacenters signalées sont le résultat direct d'une erreur humaine 2 Le présent livre blanc fait le point sur les pannes fréquentes des salles serveurs distribuées et des armoires de câblage distantes. Suivent des recommandations de solutions intégrant des logiciels de surveillance et d'automatisation et des capteurs et caméras de surveillance vidéo, en vue de réduire le nombre de pannes consécutives à des erreurs humaines dans ces petits environnements distribués (voir la Figure 1). Closed Circuit TV Dry Contact Humidity Sensor Temp Sensor Camera Figure 1 Une surveillance intelligente à différents niveaux peut contribuer à réduire les erreurs humaines Fluid Detector Camera Camera Door Sensor Management appliance UPS Particle Sensor Remote Management Console Management Appliance 1 IDC, Building, Planning, and Operating the Next-Generation Data Center, Michelle Bailey, 2008 2 Uptime Institute, Data Center Site Infrastructure Tier Standard: Operational Sustainability, 2010 Schneider Electric Datacenter Science Center Livre Blanc 103 Rev 0 2

Simple ou Complexe? Deux questions se posent quant à la perspective d'installer des systèmes de surveillance dans de petits environnements informatiques distants, de type armoires de câblage et salles de serveurs. La première concerne l'installation. L installation d un système de surveillance est-elle complexe? Autrement dit, quelle est la durée nécessaire pour recueillir les caractéristiques des équipements devant être surveillés, puis pour saisir ces informations (imaginez un scénario multisite avec des centaines d'équipements)? Comment le système distingue-til les caméras des climatiseurs, onduleurs, détecteurs de chaleur, etc.? Et comment attribuer aux équipements les adresses IP nécessaires pour communiquer leur statut? La seconde interrogation porte sur les heures de travail que peuvent représenter d'éventuels changements apportés sur le site distant, aux systèmes d'alimentation, de refroidissement, ainsi qu'aux équipements de surveillance de l'environnement. Par exemple, comment mettre à niveau un microprogramme et comment modifier un seuil de température? Ces dernières années, les progiciels de surveillance ont tellement évolué qu ils offrent désormais le choix aux utilisateurs d'effectuer eux-mêmes l'installation ou de solliciter une assistance extérieure pour l'installation. Ce service externe permet généralement à l'utilisateur de disposer d un système opérationnel sous 1 ou 2 jours. Les progiciels de surveillance sont fournis indépendamment, sous forme de code distribuable/téléchargeable, ou d'ores et déjà chargés dans un serveur monté en rack. Le système peut être installé à distance ou dans un datacenter central (en cas de dizaines ou de centaines d'armoires de câblage à gérer par exemple). Une fois que le serveur d'administration est branché, il suffit à l'opérateur de télécharger le client sur un ordinateur portable pour amorcer la procédure d'identification des équipements d'alimentation, de refroidissement et d'environnement, ainsi que de l'activité humaine qu'il faudra surveiller. Les onduleurs, systèmes de refroidissement et caméras de sécurité modernes sont généralement équipés des cartes d'interface réseau (NIC) dont ils ont besoin pour communiquer. L'opérateur n'a plus qu'à définir l'adresse IP ou la plage d'adresses IP dédiée(s) à la surveillance des équipements de la manière illustrée par la Figure 2. Certains systèmes sont même conçus pour balayer automatiquement le réseau à la recherche des équipements d'alimentation, de refroidissement et de sécurité qu'il faudra surveiller. Cette capacité d'autodétection simplifie grandement la procédure d'installation et de mise en service. Une fois que le système a «détecté» les équipements distants, il commence à les surveiller. Schneider Electric Datacenter Science Center Livre Blanc 103 Rev 0 3

Figure 2 Configurer les adresses IP de plusieurs équipements consiste simplement à saisir une série de chiffres (capture d'écran d'une boîte de dialogue de l'application InfraStruxure Central de Schneider Electric) Certains systèmes de surveillance et d'automatisation permettent également de regrouper les équipements d'un même lieu, d'une même rangée d'un lieu, ou encore en fonction de leur type (ex. regroupement de tous les équipements de refroidissement, tous les tableaux de distribution, tous les compteurs, toutes les caméras, etc.). Cette stratégie de regroupement permet de définir des règles et des seuils pour chaque groupe. Les paramètres seuils les plus fréquents incluent la température, l'humidité, le statut ouvert ou fermé (pour les portes de racks, par exemple). Chaque fois qu'un seuil est dépassé, une alarme envoyée par e-mail ou SMS alerte l'administrateur système. Il faut toutefois veiller à réserver les alarmes aux seuls événements et changements majeurs de l'environnement distant. Sinon, l'administrateur risque de recevoir un trop grand nombre d alarmes par heure et risque donc de finir par désactiver et ignorer les alarmes. Il faut donc trouver le juste équilibre afin que chaque alarme communiquée à l'administrateur système soit considérée comme légitime ou importante. Un système de surveillance moderne simplifie également l'exécution des mises à jour au niveau des salles serveurs et des armoires de câblage. Fini les interventions sur site de techniciens pour installer des mises à niveau de microprogrammes. En effet, de nombreux systèmes de surveillance automatisent désormais la configuration des changements à l'échelle du réseau, depuis un point central. La nature des pannes consécutives à une erreur humaine Les salles serveurs distribuées et les armoires de câblage distantes ne reçoivent pas le même degré d'attention, ni les mêmes investissements que les grands sites dédiés à des datacenters stratégiques. Les grands sites centraux bénéficient de la présence d'experts et sont souvent équipés du dernier cri en matière de technologie de sécurité, ainsi que d'une multitude de redondances intégrées. À l'inverse, dans les salles serveurs distribuées et les Schneider Electric Datacenter Science Center Livre Blanc 103 Rev 0 4

armoires de câblage distantes, chaque membre du personnel assume souvent plusieurs responsabilités, dont la surveillance de ces salles. Ces installations sont souvent moins bien sécurisées que les sites dédiés, plus vastes et sophistiqués, et sont victimes de davantage de pannes. En définitive, même si une salle serveurs ou une armoire de câblage est bien planifiée, elle sera toujours exposée au risque de panne inopinée. Certains responsables informatiques sont certains d'avoir tout prévu. Ils sont fiers de la conception de leur salle serveurs. Pourtant, il suffit d'un technicien mal informé ou d'un gardien un peu moins vigilant pour que tout leur plan s'écroule en moins de cinq secondes. Figure 3 Les petites salles serveurs distantes sont davantage exposées à l'imminence d'un accident La liste des événements ci-dessous illustre la manière dont l'absence d'un système simple de surveillance et d'automatisation peut engendrer des pannes dans les armoires de câblage et salles serveurs. Souvent, soit il n'y a personne sur site, soit la personne présente n'est pas toujours en mesure d'alerter les administrateurs du risque de panne. Or, à une heure près, la détection d'une défaillance de l'unité de refroidissement peut faire toute la différence pour éviter une panne générale. En effet, une alerte en temps réel permet aux administrateurs de superviser un basculement qui évite l'interruption de service. Témoignages d'événements inattendus Voici quelques cas d'erreurs humaines : Un administrateur système en charge du local serveur d'une succursale distante intervient pour comprendre pourquoi les serveurs sont en panne. Il se rend compte que, lors de travaux de rénovation, les ouvriers avaient emballé les racks avec du film plastique rétractable pour protéger les serveurs de la poussière. Comme ils n'avaient pas informé la direction informatique qu'ils allaient procéder de la sorte, tous les serveurs étaient sous tension quand ils les ont emballés. Les serveurs ont donc surchauffé etcessé de fonctionner. Un haut dirigeant d'une entreprise ne parvenant pas à se connecter à Internet a décidé de prendre les choses en main. Il s'est alors rendu dans la salle serveurs, s est saisi du câble du routeur et a branché son portable directement à Internet, contournant ainsi tous les services de pare-feu et de chiffrement et exposant le système de l'entreprise à des virus extérieurs et autres programmes malveillants. Dans le cadre de travaux de réparation, un plombier a percé un trou dans le plafond juste au-dessus d'un serveur Exchange. De plus, il avait mal réparé les conduites sur lesquelles il travaillait. Au milieu de la nuit, de l'eau a commencé à s'écouler des conduites. Bien entendu, l'eau s est écoulée jusqu'au trou dans le plafond et a goutté sur le serveur Exchange, qui est maintenant définitivement hors d'usage. Schneider Electric Datacenter Science Center Livre Blanc 103 Rev 0 5

Des agents d'entretien devaient nettoyer une salle serveurs. Voyant des moutons de poussière autour des racks de serveurs, mais aussi à l'intérieur, les portes des racks étant partiellement ouvertes, ils ont fait ce qu'ils pensaient bon : ils ont nettoyé l'intérieur des racks et des serveurs avec du lave-vitre. Personne ne les avait informés des protocoles spécifiques d'entretien. Un fournisseur travaillant dans une zone protégée par un système à gaz halon a allumé un chalumeau au gaz propane sans en informer personne, ni désactiver le système halon. Un fournisseur a éteint un tableau de distribution électrique pour y installer un disjoncteur. Or ce tableau alimentait le serveur principal d'une succursale. Beaucoup de visiteurs ignorent ce qui est ou non autorisé dans de les locaux techniques de ce type. Composants d'un système de surveillance Pour concevoir un système de surveillance dont la principale fonction sera de limiter le risque d'erreur humaine dans des salles serveurs distantes, il faut considérer quatre composants essentiels : une surveillance vidéo, des capteurs, des sorties de rack intelligentes, ainsi que des logiciels de surveillance et d'automatisation. Le Table 1 récapitule les solutions décrites ici. Surveillance vidéo et capteurs Comment prévenir de telles situations? Il existe dans le commerce des systèmes de surveillance et d'automatisation évolutifs, capables d'enregistrer des vidéos de surveillance et d organiser et de distribuer des alertes critiques en fonction de l'événement détecté. C'est ce qu'illustre la Figure 4. Ces systèmes assurent la surveillance des systèmes d'alimentation, de refroidissement, de l'avant et de l'arrière des racks, ainsi que de l'environnement. Ils peuvent ainsi déclencher une notification immédiate en cas de défaillance et permettre l'évaluation rapide de la situation, de manière à résoudre au plus tôt les événements d'infrastructure critiques, qui nuiraient sinon à la disponibilité du système informatique. Imaginez l'aide qu'aurait apportée un tel système de surveillance et d'automatisation dans les scénarios ci-dessus mettant en avant un manque de communication entre les différentes parties : Un système de surveillance et d'automatisation de l'infrastructure physique, complété par un circuit de caméras de sécurité qui aurait suivi l'activité humaine dans les rangées, aurait déclenché l'enregistrement vidéo dès l'activation des détecteurs de mouvement. Ainsi, même en l'absence de technicien informatique sur site, l'activité des ouvriers en train d'emballer les serveurs aurait été enregistrée, ce qui aurait déclenché une alerte à l'attention de l'administrateur. Celui-ci aurait alors pu émettre une instruction d abandon pour arrêter les systèmes et ainsi éviter la panne. Schneider Electric Datacenter Science Center Livre Blanc 103 Rev 0 6

Figure 4 Exemple de surveillance vidéo déclenchée par un détecteur de mouvement pour limiter le risque d'erreur humaine (capture d'écran d'une boîte de dialogue de l'application InfraStruxure Central d'apc by Schneider Electric) Un système de surveillance et d'automatisation pourrait également activer et désactiver les équipements par fermeture des contacts secs basse tension des commutateurs de sortie. Cette approche peut servir pour commander le verrouillage des racks (voir la Figure 5). Les relais d'alimentation peuvent être exécutés manuellement ou être configurés en réponse à des alertes automatiques suite au dépassement d'un seuil ou à d'autres alarmes. Sachant que le personnel d'entretien intervient en dehors des heures de bureau, le système aurait pu être programmé pour verrouiller tous les racks après 18 h. Une personne autorisée aurait pu les ouvrir manuellement ou à distance, mais ils seraient restés fermés jusqu'au lendemain matin pour tous les autres visiteurs potentiels. Les caméras sont surtout utiles quand la salle serveurs sert à des applications de paiement par carte. Les exigences de conformité aux réglementations de la Payment Card Industry (PCI) sont de plus en plus strictes. Certains États imposent aux entreprises qu'elles informent leurs clients de chaque faille mettant en péril la confidentialité des données. Les numéros des cartes de paiement seront bientôt inclus dans la définition des informations personnelles. Quand ce sera le cas, les entreprises jugées négligentes ou aux protocoles de sécurité insuffisants s'exposeront à des pénalités ou poursuites. À l'avenir, les entreprises qui justifieront de niveaux de sécurité conformes PCI pourront prétendre à des avantages financiers directs. La surveillance vidéo est un des nombreux critères de la certification PCI. Un système de gestion par caméra permet de contrôler les allées et venues dans la salle serveurs ou autour d'une armoire de câblage distante, qu'il s'agisse de membres du personnel, de fournisseurs, d'agents de sécurité, de gardiens ou autres visiteurs. Il suffit d'interroger le système pour savoir qui a pénétré dans la pièce, à quelle heure et si la personne a débranché un câble ou raccordé un nouvel équipement. Il est possible de programmer un système de ce type pour qu'il commence à enregistrer dès qu'il détecte un mouvement. L'administrateur peut aussi se connecter à distance au système pour activer la caméra la plus proche d'un visiteur afin de surveiller ses faits et gestes. Certains systèmes équipés de haut-parleurs permettent aussi à l'administrateur de s'adresser au visiteur depuis le micro de son ordinateur portable pour lui communiquer des instructions ou l avertir (ex. «Quoi que vous fassiez, ne touchez jamais au bouton rouge!»). Schneider Electric Datacenter Science Center Livre Blanc 103 Rev 0 7

Figure 5 Possibilité de commande à distance de la sécurité d'un rack pour empêcher les intrusions Sorties de rack intelligentes Il s'agit de bandeaux de prises, longs et fins, montés au fond d'un rack, à l'intérieur (voir le Table 1). Aussi appelés «PDU montés en rack», ces équipements permettent de recycler à distance l alimentation vers les équipements verrouillés. Ils réduisent la durée des pannes en permettant de réamorcer rapidement l'équipement et évitent d avoir à se rendre sur site pour le redémarrer. Ces bandeaux de prises permettent aussi aux utilisateurs de configurer la séquence suivant laquelle l alimentation est activée ou désactivée pour chaque sortie. La mise en séquence permet de déterminer à l avance quel équipement mettre sous tension en premier afin que d autres équipements qui dépendent de cette unité puissent fonctionner correctement. Au démarrage, les unités intelligentes de distribution de l'alimentation évitent une surcharge initiale et donc le risque de surcharge des circuits et de perte de charge consécutive. En cas de surcharge des circuits, le système de surveillance affiche des projections graphiques de l'utilisation électrique moyenne et des pics d'utilisation et calcule la consommation réelle au moyen des PDU en rack (sorties de rack intelligentes). L'administrateur système a donc une visibilité de la consommation de chaque rack et peut décider en connaissance de cause où placer des éventuels équipements supplémentaires. Logiciels de surveillance et d'automatisation Un système de gestion et d'automatisation confère à l'administrateur quantité de données qui l'aident à limiter les pannes consécutives à des erreurs humaines. Voici quelques exemples de composants d'un système de surveillance et d'automatisation vendus dans le commerce pour les armoires de câblage distantes et les salles serveurs : Schneider Electric Datacenter Science Center Livre Blanc 103 Rev 0 8

Table 1 Détail de solution Composant de la solution Rôle Avantage Exemples Surveillance et automatisation Alarme État de l'équipement Création de rapports Configuration Contrôle Le dépassement des seuils définis par l'utilisateur, pour la température et l'humidité par exemple, déclenche des alarmes sous forme de SMS, d'e-mail ou de messages du système L'accès aux multiples rapports de données d historique permet d'identifier précocement les tendances problématiques Possibilité de configurer de façon groupée les mêmes caractéristiques (par ex. verrouillage des racks, seuils de température) sur plusieurs équipements similaires en même temps Redémarrage à distance des équipements arrêtés à partir d'un ordinateur portable Enregistrement vidéo déclenché par un mouvement ou une alerte Équipement de surveillance vidéo Observation de l'activité humaine Détection et enregistrement des mouvements, permettant d'associer l'enregistrement à un accès ou une alerte environnementale, pour accélérer le diagnostic La conservation des données relatives à une erreur ou une brèche de sécurité permet d'éviter qu'une panne se reproduise Sorties de rack intelligentes Démarrage et arrêt à distance des serveurs Mesure de la consommation d énergie Garantie de l intégrité des données en cas de panne prolongée Gestion des prises à distance de manière à désactiver les prises inutilisées (pour empêcher les surcharges) ou à recycler l alimentation vers les équipements verrouillés (réduit les pannes coûteuses et évite d avoir à se déplacer jusqu aux équipements). Possibilité de configurer la séquence suivant laquelle l alimentation est activée ou désactivée pour chaque sortie, ce qui permet d'éviter une surcharge initiale et donc le risque de surcharge des circuits et de perte de charge consécutive. Capteurs Verrous des portes, verrous des racks, détection de fluides, surveillance thermique, surveillance de la qualité de l'air Détection des accès non autorisés par contacteur de porte Détection de fumée et de particules en suspension Surveillance de la température dans des endroits précis Schneider Electric Datacenter Science Center Livre Blanc 103 Rev 0 9

Alarme et notification Les alarmes programmées d'un système servent de déclencheur. Par exemple, si le seuil de température en bas d'un rack est fixé à 16 C, une alarme se déclenche dès que ce seuil est dépassé. Celle-ci émet différents types d'alertes : par e-mail, SMS, publication d'un message sur un site Web, ou appel téléphonique. Ces alertes peuvent être sophistiquées, comme un e-mail envoyé à un smartphone, avec graphique des températures dans la salle serveurs au cours des quatre dernières heures. Il peut aussi s'agir d'un simple message par e-mail indiquant que telle porte de rack, qui devrait être fermée, est ouverte depuis plus de deux minutes. État de l'équipement Un système de surveillance de base se compose d'un logiciel et d'un serveur physique dédié. Le serveur est un référentiel central des informations relatives à tous les équipements configurés dans la salle serveurs. Il recueille et catalogue les informations des capteurs et caméras, ainsi que les profils des systèmes et les seuils paramétrés. Le niveau de surveillance peut être plus ou moins détaillé. Par exemple, il peut y avoir trois capteurs de température par rack, un en bas, un au milieu et un en haut du rack, car les températures peuvent énormément varier. L'administrateur sait alors instantanément quels onduleurs supportent des charges excessives et peut établir une ordonnance de cessation et d'abstention afin d'arrêter les systèmes du point de vente avant qu'ils ne tombent en panne. Les alertes d'état sont aussi très utiles pour surveiller les batteries. Il suffit qu'une seule batterie lâche pour provoquer l'arrêt de la charge critique. Il faut remplacer aussi vite que possible les batteries défectueuses, pourtant on oublie souvent de vérifier l'état des batteries des onduleurs sur les sites distants. Or, il est bien moins cher de remplacer une ou deux batteries que de risquer la panne générale d'une armoire ou d'un serveur. Une surveillance minimale suffit à éviter ces situations. Rapports d'analyse Il est possible de convertir les données recueillies par un système de surveillance en rapports personnalisés à l'attention de l'administrateur. Avant, pour connaître les températures de salles serveurs distantes en dehors des heures habituelles, les administrateurs devaient demander au personnel de sécurité ou à des tiers d'aller lire et relever manuellement l'information sur les thermomètres fixés au mur. À présent, il leur suffit de consulter l'historique pour constater que la température baisse de 12 C la nuit. En comparant les rapports sur 48 heures, 1 semaine ou plus, l'administrateur prend connaissance du problème et peut demander à ce qu'il soit résolu (par exemple, si le système de climatisation de confort du bâtiment sert à refroidir partiellement ou totalement la salle serveurs). Les données du système de surveillance peuvent aussi révéler l'existence d'une anomalie symptomatique d'un problème bien plus grave. Et du point de vue de la sécurité, l'administrateur informatique peut s'appuyer sur ces rapports pour savoir qui a accédé à tel rack et pendant combien de temps. Dans le cas des stations point de vente d'un magasin, le système de surveillance des onduleurs peut produire des rapports de la charge supportée par chaque onduleur. S'il est prévu que les onduleurs doivent tous être à 50 % de charge, il est alors très simple d'identifier ceux qui supportent une charge excessive. L'administrateur sait alors instantanément quels onduleurs supportent des charges excessives et peut émettre une instruction d abandon afin d'arrêter les systèmes du point de vente avant qu'ils ne tombent en panne. Configuration automatisée Dès l'installation d'un équipement, celui-ci est référencé dans le système central de surveillance et d'automatisation. Ainsi, l'administrateur peut appliquer ultérieurement des changements de configuration groupés à plusieurs équipements de son choix. Dans le cas des verrous de porte des racks d'une salle serveurs, cela signifie qu'il n'est pas nécessaire de configurer le verrouillage des portes une par une. L'administrateur peut décider d'appliquer le même paramétrage de sécurité aux 50 portes (avant et arrière) des racks. Contrôle Le fait d'avoir accès aux données détaillées du système de surveillance et d'automatisation simplifie considérablement le travail des administrateurs. Le système peut, par exemple, identifier le circuit électrique et illustrer les relations et dépendances entre systèmes physiques. Ceci accélère et simplifie les diagnostics de source du problème. Schneider Electric Datacenter Science Center Livre Blanc 103 Rev 0 10

Certains systèmes peuvent aussi recommander le meilleur emplacement d'installation d'un nouvel équipement d'après les ports réseau et les raccordements électriques disponibles ; une information très utile pour éviter qu'un rack soit à cours d'alimentation. D'autres systèmes prévoient les conséquences de la défaillance d'un dispositif sur les équipements alimentés pour identifier instantanément l impact sur la ou les applications critiques concernées. Ainsi informé, l'administrateur peut préparer un plan de prévention pour limiter les répercussions des problèmes sur l'activité. En ayant davantage de contrôle sur l'environnement, via les informations historiques et les alertes, les administrateurs peuvent le gérer plus simplement. Si l'entreprise a déjà investi dans des systèmes de vidéosurveillance et de centralisation de la surveillance et de l'automatisation, il ne lui coûtera pas beaucoup plus d'installer des capteurs de température, d'humidité, du point de rosée et d'autres critères environnementaux. Équipé de relevés d'informations environnementales et des enregistrements de vidéosurveillance, l'administrateur a tout ce qu'il lui faut pour régler les problèmes au plus tôt et réduire le risque d'erreur humaine. Quelques autres récits d'incidents C'est souvent la méconnaissance des systèmes d'alimentation et de refroidissement qui rendent ceux-ci particulièrement vulnérables aux erreurs humaines. Voici quelques exemples de risques encourus. Un onduleur dans une salle serveurs avait surchauffé simplement parce que des lots de papier toilette entreposés sur le dessus de l'unité empêchaient la circulation de l air. Pour un projet temporaire, une petite salle serveurs avait été installée dans les étages d'un immeuble de bureaux. L'équipe qui s'en était chargée avait privilégié des équipements économiques mais conformes aux spécifications. Elle avait notamment décidé d'utiliser un climatiseur domestique pour refroidir le local, ses spécifications thermiques étant appropriées pour dissiper la chaleur générée. La première panne est intervenue rapidement. Le technicien d'intervention a alors découvert que la température était de 43 C dans le local informatique. En effet, la prise d'air et la sortie d'air du climatiseur avaient été installées dans le même petit local. Les prises libres dans les locaux serveur ou armoires de câblage sont une source d incidents. En effet, il n'est pas rare que des installations tombent en panne simplement parce que des équipements non autorisés ont été branchés à une prise de confort disponible. Il ne faut par exemple JAMAIS brancher un aspirateur ou une perceuse à une prise alimentée par un onduleur. Dans un cas, un court-circuit dû à une perceuse a entraîné la de mise à la terre d'un disjoncteur et donc la panne d'une bonne partie du local serveurs. Dans un magasin d'une grande chaîne, personne n'était suffisamment compétent pour intervenir au niveau de la salle serveurs ou de l'armoire de câblage. Quand les agents de caisse sont arrivés au travail, ils ont constaté que les caisses enregistreuses étaient en panne. La direction a contacté le siège, qui leur a conseillé de contourner l'onduleur et de se raccorder directement au secteur jusqu'à ce qu'on leur livre une batterie. Une fois la batterie livrée, il a fallu envoyer sur place un technicien qualifié pour l'installer. Ce jour-là, le magasin a perdu des milliers de dollars de transactions, mais la perte aurait pu être plus lourde encore s'il y avait eu une panne électrique. Un autre magasin subissait des arrêts intempestifs de ses stations point de vente. Or, chaque fois que les systèmes s'arrêtaient, il fallait réétalonner les balances de pesée des marchandises, ce qui entraînait des interruptions de service prolongées. Après enquête, le directeur informatique du magasin s'est rendu compte que les employés branchaient sans autorisation des appareils à l'onduleur relié aux stations du point de vente. Il pouvait s'agir de petits radiateurs électriques ou de ventilateurs. Comme l'installation était conçue pour la consommation électrique normale des stations, il suffisait de petites surcharges pour provoquer la panne. Schneider Electric Datacenter Science Center Livre Blanc 103 Rev 0 11

Tout un rack de serveurs est tombé en panne après qu'un administrateur informatique a surchargé, sans le vouloir, une barrette d'alimentation qui était déjà au maximum de sa capacité. Quiconque s'est déjà occupé de salles serveurs, quel que soit le contexte, a un témoignage d'erreur humaine à rajouter à ceux évoqués ici. Heureusement, il existe aujourd'hui des outils de surveillance pour informer les opérateurs à distance et leur permettre d'éviter les pannes inopinées de ces environnements. Schneider Electric Datacenter Science Center Livre Blanc 103 Rev 0 12

Conclusion Les salles serveurs et petites armoires de câblage distantes se développent et tombent souvent en panne suite à une erreur humaine. Il est difficile de gérer ces petits datacenters. En effet, nombre d entre eux sont totalement automatisés et insuffisamment supervisés. Or, des logiciels de surveillance et d'automatisation complétés par des capteurs, des sorties de rack intelligentes et des caméras de surveillance vidéo permettent de réduire nettement le nombre des interruptions consécutives à des erreurs humaines dans ces petits environnements. Les administrateurs ont ainsi accès aux données critiques qui leur permettent de gérer l'environnement à distance et d'identifier les problèmes potentiels avant qu'ils ne provoquent des pannes. À propos de l'auteur Dennis Bouley est analyste de recherche sénior au sein du Centre de données scientifiques de Schneider Electric. Il est diplômé en journalisme et en français de l Université de Rhode Island et possède un Certificat annuel de la Sorbonne à Paris. Il a publié de nombreux articles dans des journaux mondiaux traitant des environnements infrastructurels physiques et informatiques des datacenters et a rédigé plusieurs livres blancs pour le Green Grid. Schneider Electric Datacenter Science Center Livre Blanc 103 Rev 0 13

Ressources Cliquez sur l'icône pour accéder aux ressources Consultez tous les livres blancs whitepapers.apc.com Consultez tous les outils TradeOff Tools tools.apc.com Contactez-nous Pour des commentaires sur le contenu de ce livre blanc: Datacenter Science Center DCSC@Schneider-Electric.com Si vous êtes client et que vous avez des questions relatives à votre projet de datacenter: Contactez votre représentant Schneider Electric www.apc.com/support/contact/index.cfm Schneider Electric Datacenter Science Center Livre Blanc 103 Rev 0 14