Recherche d indicateurs et de tendances via des plugins pour Nagios groupe Quasar IN2P3 Le 11/09/2014
Sommaire Groupe de Travail Quasar IN2P3 Initier/accompagner les démarches qualité Réflexion sur les indicateurs et les tendances Outils pour mesurer / quantifier Nagios : Outils pour suivre la qualité des services? Exemples de plugins : Pnp4nagios, Openmange, tcptraffic, postfix, postfixsend, ldapmonitor, Cups, http Alerte par SMS Mesure de disponibilité des services Trends, Availability Report Evolution de Nagios Proposition d indicateurs / tendances pour l IPHC Définir les orientations 11/09/2014 sébastien Geiger IPHC 2
Recherche des indicateurs / tendances Participation au groupe Quasar de l in2p3 => Initier/accompagner les démarches qualité menées dans les services informatiques Fiches de description de services Catalogue de services Services desks Indicateurs et tendances Evaluation des outils Les indicateurs et tendances Connaitre et suivre la qualité d un service Mesurer l amélioration en continu Mesurer la disponibilité, consommation des moyens humains, matériels, financiers 11/09/2014 sébastien Geiger IPHC 3
Indicateurs et Itil Issus des bonnes pratiques Qui connait mieux le SI que les informaticiens? Connaitre son infrastructure, ses services Les indicateurs d Itil Recommandations génériques Indicateurs livrés en standard Issus des habitudes de l intégrateur pour le package négocié Pas forcément issu de ou adaptés à l informatique Ne répondent pas ou peu au besoin Voire peuvent être contre-productifs! Inquiétude des collaborateurs Détournement des indicateurs pour surveiller la productivité des informaticiens Les ASR ne veulent pas faire du secrétariat, remplir des formulaires Documentation payante, sociétés de certification Domaine qui peux s auto-entretenir seul sans fournir d amélioration 11/09/2014 sébastien Geiger IPHC 4
Quel indicateur, pour quel usage dans un service informatique Responsable du système d information Efficacité du support Satisfaction des utilisateurs Satisfaction des collaborateurs Réduction des coûts Responsable d équipe Répartition équitable de la charge Compétence des collaborateurs Efficacité du travail fourni Surveillance des fournisseurs de services Responsable de processus et de fonction Service Desk Qualité des données Qualité de la qualification Documentation Processus de gestion d incident Efficacité du support Répartition de la charge Satisfaction des utilisateurs Traitement des problèmes Efficacité du processus Résoudre les dysfonctionnements en organisant et en contrôlant l'utilisation des ressources 11/09/2014 sébastien Geiger IPHC 5
Quels indicateurs, pour les utilisateurs d un service informatique Trouver les données permettant de mieux faire connaitre le SI aux utilisateurs Utilisateurs => consommateurs des services informatiques Pour un indicateur, c est de connaitre son évolution qui est important => mesurer l amélioration continue Pour la direction, il faut trouver un indicateur clé qui répond : oui/non, l objectif est atteint ou pas Outils informatiques adaptés (accueil visiteurs, collaboration externe,..) Pour les groupes de recherche, il faut trouver des indicateurs qui suggèrent ce qui doit être amélioré pour atteindre les objectifs Chargé de maintenir ou faire évoluer les solutions dédiés à leurs thématiques Pour les utilisateurs, il faut trouver des indicateurs qui définissent la tendance dans l amélioration du service Outil informatique fonctionnel, répondant aux besoins 11/09/2014 sébastien Geiger IPHC 6
Trouver les indicateurs Un besoin pour chacun de nous (Service informatique) Mettre en avant les indicateurs fournissant des informations utiles au pilotage du SI, par exemple : justifier une augmentation de la charge de travail améliorer la qualité (taux de satisfaction en hausse) Ne pas mettre en porte-à-faux un collaborateur Rendre les collaborateurs d une même équipe solidaires des résultats Prévoir de mettre en place des réunions de présentation : Présenter les résultats Interpréter les résultats et s assurer qu il y a une adhésion à cette compréhension Valider les calculs effectués Définir de nouveaux objectifs 11/09/2014 sébastien Geiger IPHC 7
Mieux connaitre son SI Chacun de nous fait déjà de la supervision Chacun de nous cherche à améliorer ses objectifs Chacun de nous est impliqué dans son travail Pas d outils pour le mesurer, quantifier accessible à tous les admins prendre en compte les évolutions fournir de soi-même ces indicateurs de valeur => recherche de ces indicateurs / tendances dans les services Messagerie: mailbox, relay smtps, passerelle smtp, webmail, agenda Service: stockage, virtualisation, serveur d impression, authentification Gestion des comptes: création, modification, fermeture, gestion annuaire, alias Support utilisateurs : satisfaction des utilisateurs, résolution des problèmes Achat : logiciels, matériel =>Besoin d outils de gestion de configuration, de supervision, de performance Itop, Glpi, Ocs, Nagios, Cacti, Shinken, zabbix, ganglia Outils de satisfaction? (exemple : Dell, club sportif, stages, agence de voyage: envois d enquête de satisfaction) 11/09/2014 sébastien Geiger IPHC 8
Nagios & les Plugins standards Plugins standards fournis par EPEL Plus de 70 plugins Par défaut : disque, swap, load, ram, ntp, time, ping Machine spécifique : mysql, ldap Peuvent être utilisés : flexlm, http, tcp, pop, imap, smtp Fournissent des indicateurs sur le fonctionnement du service audité Code de retour: OK, WARNING, CRITICAL, UNKNOWN PerfData : données optionnelles de performance qui peuvent être traitées par une application externe Valeurs enregistrées dans des fichiers RRDTool (Round-Robin Database) Taille max par défaut par lecture : 4KB de données Période d activité 8h-18h ou 24h/24h Fréquence de vérification : 10 minutes 11/09/2014 sébastien Geiger IPHC 9
Nagios et recherche d indicateurs Audit des services Etat du service (fonctionnalité, taux de disponibilité) Remonter les performances Répartis sur plusieurs serveurs =>Nagios fournit 2 modes de connexion En mode actif via NRPE En mode passif via NSCA Évolution dans le temps Représentation graphique, tendance 11/09/2014 sébastien Geiger IPHC 10
Nagios & autres plugins Pnp4nagios Ce plugin permet d analyser les valeurs des PerfData Ces valeurs peuvent être visualisées graphiquement Définition de template pour l affichage des courbes Par défaut, il y a des graphiques sous 4h, 25h, une semaine, un mois, un an Support d échelle de temps, de zoom sur les graphiques, export au format pdf Configuration simple, console web, écrit en php 11/09/2014 sébastien Geiger IPHC 11
Pnp4nagios Représentation graphique pour un control 11/09/2014 sébastien Geiger IPHC 12
check_openmanage Openmanage Information sur le matériel cpu, ram, ventilateur, disque, raid, alimentation, pilote à mettre à jour Déclenchement d un évènement : exécution d une commande [envoi d un mail] Pas de déclenchement lors du retour à l état normal de fonctionnement Installation côté serveur d openmange Documentation dans le trac Installation du service nrpe yum install epel-release yum install nrpe nagios-plugins-openmanage nagios-plugins-disk nagios-plugins-load vi /etc/nagios/nrpe.cfg allowed_hosts=127.0.0.1,nagiossrvip command[check_openmanage]=/usr/lib64/nagios/plugins/check_openmanage chkconfig nrpe on service nrpe restart 11/09/2014 sébastien Geiger IPHC 13
check_openmanage Configuration des définitions dans Nagios ##openmanage## define service { name srv-dellomsa use generic-service service_description check_command check_interval 60 Dell OMSA check_nrpe!check_openmanage } Ajouter le service au serveur à surveiller define service { } use host_name srv-dellomsa sbgpcsxx 11/09/2014 sébastien Geiger IPHC 14
check_openmanage Avertissements : Par mail lors d une perte d alimentation ***** Nagios ***** Notification Type: PROBLEM Service: Dell OMSA Host: sbgpcsxx Address: aa.bb.cc.dd State: CRITICAL Date/Time: Thu May 15 15:32:30 CEST 2014 Additional Info: Power Supply 0 [AC]: Presence Detected, AC Lostbr/Voltage sensor 18 [PS1 Voltage 1] reads 0 V Par le statut des services ou serveurs dans l interface html de Nagios 11/09/2014 sébastien Geiger IPHC 15
check_openmanage Indicateurs Fiabilité du matériel Nombre d interventions Taux de panne des disques, ventilateurs Représentation graphique Délais d intervention (temps pour corriger le défaut) Matériel garanti en J+1, définir les SLA en fonction Autres? 11/09/2014 sébastien Geiger IPHC 16
check_tcptraffic 1/2 Mesure Volume sortant, volume entrant et volume total Indicateurs? Utilisation de la bande passante du serveur Type de matériel nécessaire ( +- complexe, HA, disponibilité, criticité des données) Remarques Calcul du trafic entre deux relevés de Nagios => ne peut pas être utilisé depuis deux serveur Nagios en même temps. Seuil d alerte fixé en fonction de la vitesse de connexion Déclenche dès qu il y a une grosse copie de fichiers => idéal, définir un seuil et une durée minimale Exemple : 80% de bande passante, avec un temps de 30 minutes 11/09/2014 sébastien Geiger IPHC 17
check_tcptraffic 2/2 11/09/2014 sébastien Geiger IPHC 18
Service de réception de mails Indicateurs? Taux d utilisation de la messagerie Disponibilité du service de réception de la messagerie Mesure les mails entrants, mails remis, forwarded, bounced Ecriture du plugin en 2 partie Met les logs de postfix toutes les 10 dans un fichier Utilisation pflogsumm pour analyser les logs Pflogsumm fournit 20 indicateurs depuis les logs Calcule les perfdata depuis l analyse de pflogsumm 11/09/2014 sébastien Geiger IPHC 19
check_postfix Graphique Chiffres clés : recevied ~ 10000mails/j, delivered : ~ 15000mails/j Période 8h-18h: 9000 mails, 1 mail toutes les 4s Un mail général => 350 utilisateurs Taille des messages reçus? 11/09/2014 sébastien Geiger IPHC 20
postfixsend Mesure : le nombre de mails envoyé par smtp ou smtps Le nombre de destinataires par mail envoyé Autre : taille des mails envoyés? Ecriture du plugin en 2 parties Ecrit les logs de postfix toutes les 10 dans un fichier Calcul des perfdata depuis ce fichier Définir un seuil d alerte si trop de messages envoyés par un utilisateur ou @IP Action à entreprendre? fail2ban ip? 11/09/2014 sébastien Geiger IPHC 21
postfixsend Chiffres clés Send: ~ 2600mails/j Dest: ~13 (destinataire aliase)/mail, Max 60 destinataires, Max 33 mails envoyé en 10 minutes Graphique 11/09/2014 sébastien Geiger IPHC 22
postfixsend et Phishing Phishing Que se passe-t-il si un compte est compromit? Actions possible Utiliser SPF, limiter le nombre destinataires / mail Limiter le nombre de mails / utilisateur / période Graphique 11/09/2014 sébastien Geiger IPHC 23
Messagerie Indicateurs : disponibilité générale de la messagerie prise en comptes de l état de fonctionnement des différents éléments Mesure : Cumuler plusieurs indicateurs réception, envoi, quota, matériel, temps de traitement d un mail, HA? Remarques : Comment calculer un niveau de disponibilité avec plusieurs indicateurs Mode fonctionnel, mais dégradé si on est sur le serveur de secours Formule mathématique Via un plugin Nagios multicritère? Pas de réponse actuellement 11/09/2014 sébastien Geiger IPHC 24
Ldapmonitor Indicateurs Disponibilité du service: déjà fait à l IPHC Usage et évolution du service => statistiques sur les requêtes, authentification, recherche, modifications, ajouts, suppressions, nombre d enregistrement Mesure Statistique fournie par le serveur OpenLdap Configuration de l accès à la base monitor sur les serveurs LDAP Ecriture du plugin pour avoir les valeurs bind, ubin, add, mod, del, rnd, search, ops Calcul delta par rapport à la dernière mesure 11/09/2014 sébastien Geiger IPHC 25
ldapmonitor Problème de répartition de charge entre ldap1 et ldap2 ldap1 98% ldap2 2% Nombreuses connexions depuis les services web, owcloud, Augmentation du nombre de stations, mauvaise configuration sur un poste? 11/09/2014 sébastien Geiger IPHC 26
http, cups, passerelle smtp Check_http Mesure du temps de réponse pour une URL Date d expiration d un certificat SSL check_http -w 5 -c 10 -C 30 --ssl -H sbgmail.in2p3.fr -p 465 WARNING - Certificate sbgmail.in2p3.fr' expires in 29 day(s) (07/05/2014 23:59). Impressions check_cups_queue : Nombre de tâches dans la file, Age de la tâche Check_nt+ script externe : idem CUPS Passerelle smtp Nombre de spams, virus Mails légitimes, rejetés, retardés 11/09/2014 sébastien Geiger IPHC 27
Alertes par SMS Nagios est compatible avec plusieurs matériel RasPI (100 ) / foxbox-lx800 (650 ) Cisco 810 => permet d avoir un réseau dédié Configuration Nagios pour l envois des SMS Utile pour les services critiques 2ème solution pour avertir les ASR Si le mail ne fonctionne plus 11/09/2014 sébastien Geiger IPHC 28
Nagios et les trends Les Trends permettent de suivre les changements d état d un service. On peut choisir d afficher une période de 24h ou plus. En 2013 98% En 2014 100% Amélioration liée au changement de solution de virtualisation (vmware vers proxmox ) 11/09/2014 sébastien Geiger IPHC 29
Nagios et les Les «Availability Reports» Les «Availability Report» permettent de mesurer la disponibilité du service pourcentage de temps unité de temps Période d activité / période de surveillance =>horaire de travail des utilisateurs 11/09/2014 sébastien Geiger IPHC 30
Nagios version 4 Avenir de Nagios Annonce de la dernière version Problème entre l équipe de développement et la communauté d utilisateurs Beaucoup de projets concurrents : centron, cacti, openmns, shinken, zabbix Evaluation d autres produits de supervision plus complets Tableaux de bord, Rapport, Indicateurs ITIL 11/09/2014 sébastien Geiger IPHC 31
Idées d Indicateurs / tendances Serveur d impression (CUPS, Windows) Remonter le nombre de jobs d impression, File d impression bloquée Charge en fonction du temps => horaire des grandes impressions Imprimantes Etat : bourrage papier, manque de papier, imprimante hors ligne, Toner presque vide Volumes : Nombre de pages imprimées, nombre de pages par document Indications par jour, mois, années => ventilation des 30 imprimantes et copieurs en fonction de l utilisation (géographique, type d impression, coût) Services Desk ( Machines clientes / Utilisateurs / Logiciels / Remontée des informations de l inventaire ) nombre de logiciels avec licences, machines => ITop Achat de matériel / logiciel (Linux, Mac, Windows) Budget des machines achetées, inventaire administratif, devis + factures =>ITop Budget groupe, service, plateforme =>ITop Nombre de demandes de support (service desk, connexion réseau, gestion des comptes) =>Itop Incident de sécurité (ZNeTS) =>faire un ticket dans itop Et le côté humain, contact avec les utilisateurs du laboratoire accueillir des visiteurs, accompagner les nouvelles demandes (connexions réseau, outils de synchronisation, formation, migration) => Répartition du temps, comment la mesurer? Efficacité du support, satisfaction des utilisateurs, satisfaction des collaborateurs =>quel outil, faire des sondages? Gestion des coûts => mutualisation des outils et des infrastructures entre les départements du laboratoire Serveur de licence ou de jeton Nombre de licences libres / utilisées Statistiques d utilisation des licences Autres? 11/09/2014 sébastien Geiger IPHC 32
Gestion de la performance et IPHC Continuer à collecter des informations Systèmes de l IPHC (Linux, Windows, département DRS, DEPE, DSA) réseau? avoir une visualisation des indicateurs clés, complémentaires de la solution déjà utilisée, carte des équipements actifs et des débits Services : impression, authentification, gestion des machines logiciels Généraliser l utilisation : sbgmic, sbgli, sbgbackup, serveurs de stockage des expériences Mutualisation de la solution Système: service généraux, grille, virtualisation, cloud Réseau: trafic serveur, switch, routeur, wifi, vpn Backup: trafic réseau, volume sauvegardé, heure de backup, charge Disponibilité des services Evolution des métriques sur 5 ans Fournir aux utilisateurs un état de l ensemble de services sous forme d un tableau de bord 11/09/2014 sébastien Geiger IPHC 33
NagVis NagVis est un addon de visualisation pour Nagios Permet de visualiser des cartes, avec sous sousensembles Support du trafic réseau sous forme de weathermap lines Exemples 11/09/2014 sébastien Geiger IPHC 34
Définir les orientations Face à la complexité croissante des technologies de l information, la gestion des services informatiques s impose comme un réel défi. 3 pôles Inventaire, Gestion de configuration: Itop, OcsInventory Supervision: Nagios, SyslogNG Gestion de la performance : Cacti, MRTG, Zabbix, Shinken, Pnp4Nagios, NagVis,Ganglia Avantages Administrateur système et réseau Identifier rapidement l impact d un actif (CI) sur les processus métiers de l entreprise Automatiser certaines tâches opérationnelles Faciliter la documentation des actifs Responsable informatique Contrôler les coûts opérationnels Avoir une vision globale du système informatique Accéder rapidement à des rapports d analyse consolidés Responsabiliser ses équipes Améliorer la satisfaction client Utilisateur de service informatique Accès simple au catalogue des services IT Savoir ou en est une demande Connaître le statut du système d information Avoir un point d entrée unique pour toutes les demandes IT Inconvénients Changer les habitudes de chacun Réorganiser les responsabilités Quel bénéfice pour le fonctionnement du SI Craintes des collaborateurs, gestion des incidents par ticket 11/09/2014 sébastien Geiger IPHC 35
annexe Liens http://wiki.en.it-processmaps.com/index.php/itil_key_performance_indicators liste d indicateurs https://www.linkedin.com/today/post/article/20130905053105-64875646-the-75- kpis-every-manager-needs-to-know 75 indicateurs a connaitre d un point de vu ITIL https://www.ucisa.ac.uk/~/media/files/members/activities/itil/service_operation/inc ident_management/itil_im%20kpis%20and%20reports%20pdf.ashx recommandations http://www.smartkpis.com/ exemples d indicateurs. http://www.leandigestion.fr/elegance-des-indicateurs-smart-kpi/ petite recommandation, d'un point de vue du lean managment http://www.thinkmind.org/download.php?articleid=emerging_2013_3_30_40082 un article sur les indicateurs dans le cloud, mais cela peux aussi se faire sur nos SI http://www.icorp.com.mx/linkclick.aspx?fileticket=aaqp5b9jr5q=&tabid=38 Exemples d indicateurs pour la gestion d un parc informatique 11/09/2014 sébastien Geiger IPHC 36