Orchestration de la supervision Orange / DESI Soazig Gault - Orange CRiP Thématique Gouvernance & ITIL, Serveurs & Outillage de la Production 21/01/2014
Contexte 2007-2009: Généralisation d un outil Serveur Automation 2011: Introduction de l orchestrateur Introduction dans nos outils d exploitation de l orchestrateur, prioritairement pour gérer la production de nouvelles VM. Etudes pour son utilisation dans le domaine de l exploitation et supervision prévues en 2012 2012: Initiation des travaux pour la supervision orchestrée sur une alarme 2013: Développement d un flow générique de supervision orchestrée permettant son déploiement
Urbanisme des outils BEM Portail Equipements réseau Serveurs Network Automation Orchestrateur Serveur Automation Référentiels Outils Ajout d outils et des fonctionnalités en fonction des besoins
Organisation Autour de l outil de Serveur Automation Tous les administrateurs systèmes peuvent potentiellement développer des automatismes propres à leur métier ou leurs application Une équipe centralisée s occupe de la maitrise d œuvre autour de l outil (architecture, évolutions fonctionnelles et techniques, soutien N3 de l application, ) du contact avec l éditeur de l accompagnement métier des utilisateurs et des développeurs de la mise en place de règles de développement de la gestion d un catalogue des développements (en cours) de la mise à disposition de certains développements génériques Autour de l outil d orchestration Une équipe assure la maitrise d œuvre Une équipe gère l ensemble des développements de flows (c est-à-dire intégration des développements avec les différents outils)
Organisation du projet «orchestration supervision» Chef de projet issu de la direction de la supervision Définition du besoin Pilotage des développements et tests d intégration Pilotage du déploiement Communication auprès des utilisateurs Chef de projet orchestration Analyse globale du besoin. Identification des outils. Conception générale MOE des différents outils Développement des interfaces (incluant les tests) Développeur sur l outil d orchestration Conception détaillée Développement (mode itératif pour ajuster au besoin)
Projet d orchestration de la supervision Objectif du projet: L orchestrateur va jouer le rôle du superviseur en essayant de résoudre le problème détecté avec des opérations prédéfinies. Si l incident est résolu il va acquitter l alarme s il n est pas résolu, il va l escalader auprès de l exploitant
Description du flow d orchestration d alarmes BEM génération d une l alarme transmission à la BEM non orchestrable? Interrogation WAB pour nom du Job BladeLogic 1 oui lancement du flow générique 2 Execution job BladeLogic 3 pas d intervention humaine requise résultat traçage et escalade ou clôture besoin d une intervention humaine traitement manuel
Description du flow d orchestration d alarmes BEM C est un flow générique orchestrant potentiellement tout type d alarme Fonctionnement global une alarme déclarée «orchestrable» dans le WAB, transmise à la BEM, sera interceptée par Maestro (non présentée au Superviseur) lancement du flow le flow interroge le WAB pour connaître les actions effectuer télé-action? EDS cible? exécution de la téléaction avec codes retours normalisés si OK {Création / Reporting / Clôture} Océane si inconnu Présentation de l alarme au Superviseur si KO {Création / Reporting / Escalade} Océane si pas de téléaction ou erreur {Création / Reporting / Escalade} Océane
Design du flow d orchestration d alarmes BEM 1 2 3 4 5 1 ère valo des variables BEM interrogation du WAB exécution téléaction Bladelogic 2 ème valo réalisation du process Supervision
Un flow fixe mais malléable Le flow générique est fixe et ne peut être modifié (en dehors d une nouvelle version, d un correctif, etc.) Le comportement du flow dépend de l interrogation du WAB qui indiquera la téléaction Bladelogic à lancer La téléaction Bladelogic est la partie variable du mécanisme
Introduction d une nouvelle alarme avec vigilance Actions préalables identifier les alarmes pouvant être orchestrées (en fonction du volume et de la fiabilité de la résolution par téléalarme) adapter ou développer la Télé-action pour que le résultat soit interprétable par l orchestrateur Actions pour la mise en production éliminer les alarmes inutiles ajuster et prévoir les blackouts et les maintenances faire corriger les alarmes «à problème» Actions post-mise en production surveillance du bon fonctionnement global surveillance des volumes d escalade Ces analyses sont réalisées via un infocentre «évolué» autour de la supervision permettant de faire des analyses sur les volumes et/ou sur des cas spécifiques, ainsi que des simulations de cas spécifiques.
Les limites de l orchestration L orchestrateur n a pas la bienveillance d un superviseur blackout et/ou maintenance non positionnés lors d interventions programmées surcroit de tickets l orchestrateur n a pas la mémoire d un superviseur Vigilance sur les répétitions d alarmes alarme «à problème» (rafale, «périodique») surcroit de tickets
Les verrous techniques ajoutés Mise en place de verrous pour traiter les rafales d alarmes pour: Eviter de masquer des pics d alarmes unitaires qui auraient une autre cause racine Protéger les outils en aval Verrous mis en place à la source Même alarme sur même serveur présentée Limitation de la fréquence d alarme traitée (1 toutes les XX s) Si retard sur la présentation > à un délais -> Présentation au superviseur Verrous mis en place sur l orchestrateur Limitation du nombre de sollicitations simultanées de BladeLogic dans le cadre du flow d orchestration des alarme
Questions?
Glossaire Océane: Outil de gestion des tickets EDS: Entité qui sera sollicitée par Océane en cas d escalade BEM: Outil de fédération et consolidation des alarmes provenant de sources différentes (Patrol, Nagios, ) WAB: Web d administration de la BEM. Référentiel d alarmes et fiches consignes correspondantes