Pourquoi superviser?



Documents pareils
Exploitation d un calculateur

Principaux utilisateurs du Réseau

Retour d expérience sur Prelude

FazaANGEL supervision pro-active

1 LE L S S ERV R EURS Si 5

Mon Sommaire. INEO.VPdfdf. Sécurisations des accès nomades

White Paper - Livre Blanc

Architectures d implémentation de Click&DECiDE NSI

DATASET / NETREPORT, propose une offre complète de solutions dans les domaines suivants:

La Latecion protection anti-intrusion Web Web Le concept «Zero effort Security» La protection des applications Extranet

Gamme d appliances de sécurité gérées dans le cloud

Extrait de Plan de Continuation d'activité Octopuce

MOBILITE. Datasheet version 3.0

Ordinateur central Hôte ERP Imagerie/Archivage Gestion des documents Autres applications d'administration. Messagerie électronique

Catalogue «Intégration de solutions»

Release Notes POM v5

ZABBIX est distribué sous licence GNU General Public License Version 2 (GPL v.2).

Table des matières 1. Chapitre 1 Introduction à Nagios et la supervision

Pilot4IT Monitoring : Mesurez la qualité et la performance perçue de vos applications.

Orange Business Services. Direction de la sécurité. De l utilisation de la supervision de sécurité en Cyber-Defense? JSSI 2011 Stéphane Sciacco

Manuel d utilisation de la plate-forme de gestion de parc UCOPIA. La mobilité à la hauteur des exigences professionnelles

NetCrunch 6. Superviser

Contrôle d accès Centralisé Multi-sites

NFS Maestro 8.0. Nouvelles fonctionnalités

ADMINISTRATION EXADATA

Zabbix. Solution de supervision libre. par ALIXEN

Le contrat SID-Hébergement

Réseau - Sécurité - Métrologie - Data Center. Le leader du marché allemand des UTM débarque en France avec des arguments forts!

Nos solutions d hébergement mutualisés

Migration vers l'open-source de l infrastructure de pare-feu du campus CNRS d Orléans

VMware vsphere 5 Préparation à la certification VMware Certified Professional 5 Data Center Virtualization (VCP5-DCV) - Examen VCP510

Produits et grille tarifaire. (septembre 2011)

Audits Sécurité. Des architectures complexes

CH.3 SYSTÈMES D'EXPLOITATION

Supervision & Maintenance des centrales photovoltaïques en toiture GARANTIR LA PERFORMANCE DE VOS INVESTISSEMENTS DANS LE TEMPS

La sécurité dans les grilles

SOLUTION POUR CENTRE D'APPEL

IBM Tivoli Monitoring, version 6.1

Les modules SI5 et PPE2

Article 2 : Conseils et meilleures pratiques pour gérer un cloud privé

ACQUISITION. Traitement de l image. Classement. Préparation. Ouverture. Performance

NVR Fusion IV. Pour quels marchés? Caractéristiques Matériel. Logiciel

«clustering» et «load balancing» avec Zope et ZEO

Formations. «Produits & Applications»

SOLUTIONS DE SECURITE DU DOCUMENT DES SOLUTIONS EPROUVEES POUR UNE SECURITE SANS FAILLE DE VOTRE SYSTEME MULTIFONCTIONS SHARP DOCUMENT SOLUTIONS

CLOUD CP3S SOLUTION D INFRASTRUCTURE SOUMIS À LA LÉGISLATION FRANÇAISE. La virtualisation au service de l entreprise. Évolutivité. Puissance.

THE GLOBAL EVENT MANAGER

AudiParc Recommandations IMPORTANTES. AudiParc Principe de fonctionnement. AudiParc Installation Déployement

Configuration matériel. Tâche 2 : Installation proprement dite de l application sur un serveur de test virtualisé sous VmWare Workstation.

Présentation de la solution Open Source «Vulture» Version 2.0

Nos Solutions PME VIPDev sont les Atouts Business de votre entreprise.

DREAL proposition DNS et hébergement. magazine le 14 septembre 2011 DREAL comparatif hébergement

Présentation de l outil d administration de réseau Nagios

Sans trop entrer dans les détails, la démarche IO Model consiste à : Pour cela, Microsoft découpe la maîtrise de l infrastructure en quatre niveaux :

Master d'informatique. Réseaux. Supervision réseaux

ITIL et SLAs La qualité de service nous concerne tous!

FAMILLE EMC VPLEX. Disponibilité continue et mobilité des données dans et entre les datacenters AVANTAGES

Routeurs de Services Unifiés DSR-1000N DSR-500N DSR-250N

Windows Server 2012 R2 Administration avancée - 2 Tomes

Coffret Distributeur de DJ10: Distributeur de jetons (Avec PC embarqué Siemens et suite logicielle)

Version de novembre 2012, valable jusqu en avril 2013

Description du produit

Administration Réseau

Gestion des incidents de sécurité. Une approche MSSP

Windows Internet Name Service (WINS)

Monitoring d un Datacenter du concept à la réalisation

en version SAN ou NAS

VERTELIS SUITE Suite logicielle pour optimiser votre performance énergétique

FAMILLE EMC VPLEX. Disponibilité continue et mobilité des données dans et entre les datacenters

SOMMAIRE. 1. Architecture proposée. 2. Constituants de la solution. 3. Supervision DATA CENTER OPTION SERVICE

Gestion de clusters de calcul avec Rocks

Une solution complète pour télésurveiller et télégérer vos installations photovoltaïques

ProCurve Manager Plus 2.2

PHP. Performances. Audit et optimisation LAMP. Julien Pauli. Cyril Pierre de Geyer. Guillaume Plessis. Préface d Armel Fauveau

Solutions globales de monitoring sans fil

Contrôle de l Activité et Gestion des Menaces dans un environnement Réseau Distribué. INTERDATA Présentation Q1Labs

Sauvegarde et restauration de données

Cloud Computing et SaaS

vbladecenter S! tout-en-un en version SAN ou NAS

Easy to. report. Connexion. Transformation. Stockage. Construction. Exploitation. Diffusion

Projet Sécurité des SI

Communiqué de lancement. Sage 100 Entreprise Edition Etendue Module CRM inclus

Windows 2000: W2K: Architecture. Introduction. W2K: amélioration du noyau. Gamme windows W2K pro: configuration.

NACIRI Mehdi. Rapport de stage : Mise en place d un moyen pour anticiper les pannes des serveurs de l IUT. Promotion BTS SIO Option SISR

Cours n 12. Technologies WAN 2nd partie

Lowinski Marc Mansour Chiguer Dominique N'Diaye SI7. OBJECTIF MISSION 3 : Trouver 2 ou 3 outils gratuits Définir les fonctionnalités de ces outils.

Ingénierie des réseaux

La surveillance réseau des Clouds privés

Ce manuel vous accompagne au long des procédures d installation et de restauration de PheBuX 2004 [alternative solutions]

Fiche Technique. Cisco Security Agent

contexte cahier des charges critères de choix fonctionnalités configuration en pratique Bilan Conclusion Backuppc Logiciel de sauvegarde

NRC : N KG/2985/M info@mecreco.cd, mecrecocoocec@yahoo.fr

Compacité sans compromis de performances

Windows Server 2012 Administration avancée

La Gestion des Applications la plus efficace du marché

Pré-requis techniques

Pour une visibilité optimale de vos investissements, PRO-MEGA vous présentent la solution Serverscheck dédiée aux installations BTS!

INTERSYSTEMS CACHÉ COMME ALTERNATIVE AUX BASES DE DONNÉES RÉSIDENTES EN MÉMOIRE

Introduction. MFOOD Système de gestion pour le froid commercial. Caractéristiques et Avantages

Transcription:

Pourquoi superviser? Olivier Brand-Foissac CNRS / Laboratoire de Physique Théorique - Orsay ANGD Mathrice - Nov 2009

Plan 1 Introduction 2 Constitution 3 Choix des types de mesure 4 Choix d un superviseur

Plan 1 Introduction Définitions Une nécessité? 2 Constitution 3 Choix des types de mesure 4 Choix d un superviseur

Monitoring et Supervision Monitoring Monitoring means the periodic inspection by [..] a directed function or activity and includes watching during performance, checking, and tracking progress, updating a supervisor of progress or accomplishment by the person monitored, and contacting a supervisor as needed for direction and consultation. Supervision "Supervision" means the guidance by a registered one for the accomplishment of a function or activity. The guidance consists of the activities included in monitoring as well as establishing the initial direction, delegating, setting expectations, directing activities and courses of action, critical watching, overseeing, evaluating, and changing a course of action. Source [Minnesota Administrative Rules - 2008]

Monitoring et Supervision En informatique, monitoring et supervision se distinguent par : Monitoring local, proximité, courte portée précision temps réel attaché à la performance orienté diagnostic Supervision regrouppement, global, longue portée concentration, concaténation, consolidation temps différé attaché au service orienté présentation (reporting), pilotage

Monitoring et Supervision En informatique, monitoring et supervision se distinguent par : Monitoring local, proximité, courte portée précision temps réel attaché à la performance orienté diagnostic Supervision regrouppement, global, longue portée concentration, concaténation, consolidation temps différé attaché au service orienté présentation (reporting), pilotage

Supervision La supervision centralise le monitoring local. Peut effectuer du monitoring ciblé à distance Seront abordés ultérieurement : Comment superviser? Les protocoles mis en œuvre Quelques outils de supervision? pas d exhaustivité : plus de 1500 projets sur sourceforge...

Une nécessité? En quoi la supervision est-elle utile? s assurer du fonctionnement (bon, optimal) des ressources gagner du temps! gagner de la précision (fiabilité)! En quoi la supervision est-elle nécessaire? contrôler la disponibilité des services/fonctions contrôler l utilisation des ressources vérifier qu elles sont suffisantes (dynamique) vérifier l équilibrage de charge faciliter le diagnostic des pannes (pannes avérées) prévenir les pannes/défauts/débordements (pannes latentes) prévoir les évolutions (gestion de cluster) > en termes de ressources (CPU, stockage, fluides,...) > en termes de capacités (accès et utilisation des ressources) > en termes de disponibilités (attente en files, contentions, HA)

Une nécessité? En quoi la supervision est-elle utile? s assurer du fonctionnement (bon, optimal) des ressources gagner du temps! gagner de la précision (fiabilité)! En quoi la supervision est-elle nécessaire? contrôler la disponibilité des services/fonctions contrôler l utilisation des ressources vérifier qu elles sont suffisantes (dynamique) vérifier l équilibrage de charge faciliter le diagnostic des pannes (pannes avérées) prévenir les pannes/défauts/débordements (pannes latentes) prévoir les évolutions (gestion de cluster) > en termes de ressources (CPU, stockage, fluides,...) > en termes de capacités (accès et utilisation des ressources) > en termes de disponibilités (attente en files, contentions, HA)

Une nécessité? En quoi la supervision est-elle utile? s assurer du fonctionnement (bon, optimal) des ressources gagner du temps! gagner de la précision (fiabilité)! En quoi la supervision est-elle nécessaire? contrôler la disponibilité des services/fonctions contrôler l utilisation des ressources vérifier qu elles sont suffisantes (dynamique) vérifier l équilibrage de charge faciliter le diagnostic des pannes (pannes avérées) prévenir les pannes/défauts/débordements (pannes latentes) prévoir les évolutions (gestion de cluster) > en termes de ressources (CPU, stockage, fluides,...) > en termes de capacités (accès et utilisation des ressources) > en termes de disponibilités (attente en files, contentions, HA)

Une nécessité? En quoi la supervision est-elle utile? s assurer du fonctionnement (bon, optimal) des ressources gagner du temps! gagner de la précision (fiabilité)! En quoi la supervision est-elle nécessaire? contrôler la disponibilité des services/fonctions contrôler l utilisation des ressources vérifier qu elles sont suffisantes (dynamique) vérifier l équilibrage de charge faciliter le diagnostic des pannes (pannes avérées) prévenir les pannes/défauts/débordements (pannes latentes) prévoir les évolutions (gestion de cluster) > en termes de ressources (CPU, stockage, fluides,...) > en termes de capacités (accès et utilisation des ressources) > en termes de disponibilités (attente en files, contentions, HA)

Une nécessité? En quoi la supervision est-elle utile? s assurer du fonctionnement (bon, optimal) des ressources gagner du temps! gagner de la précision (fiabilité)! En quoi la supervision est-elle nécessaire? contrôler la disponibilité des services/fonctions contrôler l utilisation des ressources vérifier qu elles sont suffisantes (dynamique) vérifier l équilibrage de charge faciliter le diagnostic des pannes (pannes avérées) prévenir les pannes/défauts/débordements (pannes latentes) prévoir les évolutions (gestion de cluster) > en termes de ressources (CPU, stockage, fluides,...) > en termes de capacités (accès et utilisation des ressources) > en termes de disponibilités (attente en files, contentions, HA)

Une nécessité? En quoi la supervision est-elle utile? s assurer du fonctionnement (bon, optimal) des ressources gagner du temps! gagner de la précision (fiabilité)! En quoi la supervision est-elle nécessaire? contrôler la disponibilité des services/fonctions contrôler l utilisation des ressources vérifier qu elles sont suffisantes (dynamique) vérifier l équilibrage de charge faciliter le diagnostic des pannes (pannes avérées) prévenir les pannes/défauts/débordements (pannes latentes) prévoir les évolutions (gestion de cluster) > en termes de ressources (CPU, stockage, fluides,...) > en termes de capacités (accès et utilisation des ressources) > en termes de disponibilités (attente en files, contentions, HA)

Une nécessité? En quoi la supervision est-elle utile? s assurer du fonctionnement (bon, optimal) des ressources gagner du temps! gagner de la précision (fiabilité)! En quoi la supervision est-elle nécessaire? contrôler la disponibilité des services/fonctions contrôler l utilisation des ressources vérifier qu elles sont suffisantes (dynamique) vérifier l équilibrage de charge faciliter le diagnostic des pannes (pannes avérées) prévenir les pannes/défauts/débordements (pannes latentes) prévoir les évolutions (gestion de cluster) > en termes de ressources (CPU, stockage, fluides,...) > en termes de capacités (accès et utilisation des ressources) > en termes de disponibilités (attente en files, contentions, HA)

Une nécessité? En quoi la supervision est-elle utile? s assurer du fonctionnement (bon, optimal) des ressources gagner du temps! gagner de la précision (fiabilité)! En quoi la supervision est-elle nécessaire? contrôler la disponibilité des services/fonctions contrôler l utilisation des ressources vérifier qu elles sont suffisantes (dynamique) vérifier l équilibrage de charge faciliter le diagnostic des pannes (pannes avérées) prévenir les pannes/défauts/débordements (pannes latentes) prévoir les évolutions (gestion de cluster) > en termes de ressources (CPU, stockage, fluides,...) > en termes de capacités (accès et utilisation des ressources) > en termes de disponibilités (attente en files, contentions, HA)

Une nécessité? En quoi la supervision est-elle utile? s assurer du fonctionnement (bon, optimal) des ressources gagner du temps! gagner de la précision (fiabilité)! En quoi la supervision est-elle nécessaire? contrôler la disponibilité des services/fonctions contrôler l utilisation des ressources vérifier qu elles sont suffisantes (dynamique) vérifier l équilibrage de charge faciliter le diagnostic des pannes (pannes avérées) prévenir les pannes/défauts/débordements (pannes latentes) prévoir les évolutions (gestion de cluster) > en termes de ressources (CPU, stockage, fluides,...) > en termes de capacités (accès et utilisation des ressources) > en termes de disponibilités (attente en files, contentions, HA)

Une nécessité? En quoi la supervision est-elle utile? s assurer du fonctionnement (bon, optimal) des ressources gagner du temps! gagner de la précision (fiabilité)! En quoi la supervision est-elle nécessaire? contrôler la disponibilité des services/fonctions contrôler l utilisation des ressources vérifier qu elles sont suffisantes (dynamique) vérifier l équilibrage de charge faciliter le diagnostic des pannes (pannes avérées) prévenir les pannes/défauts/débordements (pannes latentes) prévoir les évolutions (gestion de cluster) > en termes de ressources (CPU, stockage, fluides,...) > en termes de capacités (accès et utilisation des ressources) > en termes de disponibilités (attente en files, contentions, HA)

Une nécessité? En quoi la supervision est-elle utile? s assurer du fonctionnement (bon, optimal) des ressources gagner du temps! gagner de la précision (fiabilité)! En quoi la supervision est-elle nécessaire? contrôler la disponibilité des services/fonctions contrôler l utilisation des ressources vérifier qu elles sont suffisantes (dynamique) vérifier l équilibrage de charge faciliter le diagnostic des pannes (pannes avérées) prévenir les pannes/défauts/débordements (pannes latentes) prévoir les évolutions (gestion de cluster) > en termes de ressources (CPU, stockage, fluides,...) > en termes de capacités (accès et utilisation des ressources) > en termes de disponibilités (attente en files, contentions, HA)

Une nécessité? En quoi la supervision est-elle utile? s assurer du fonctionnement (bon, optimal) des ressources gagner du temps! gagner de la précision (fiabilité)! En quoi la supervision est-elle nécessaire? contrôler la disponibilité des services/fonctions contrôler l utilisation des ressources vérifier qu elles sont suffisantes (dynamique) vérifier l équilibrage de charge faciliter le diagnostic des pannes (pannes avérées) prévenir les pannes/défauts/débordements (pannes latentes) prévoir les évolutions (gestion de cluster) > en termes de ressources (CPU, stockage, fluides,...) > en termes de capacités (accès et utilisation des ressources) > en termes de disponibilités (attente en files, contentions, HA)

Plan 1 Introduction 2 Constitution Mécanismes Acquisition Analyse Actions automatiques Contrôles / Pilotage Briques de base Protocoles Stockages Présentation 3 Choix des types de mesure 4 Choix d un superviseur

Mécanismes Quatre phases de la chaîne monitoring-supervision : 1 Collecte des données (acquisition). ciblage (définir ce qui sera mesuré) acquisition (faire la mesure) comment la faire (quels outils) d où la faire (actif, passif) stockage (où placer les métriques, dans quel format) 2 Analyse des données recueillies. (extraction/filtrage, synthèse) immédiate (temps réel ou peu différé) en différé (à posteriori, la nuit,...)

Mécanismes Quatre phases de la chaîne monitoring-supervision : 1 Collecte des données (acquisition). ciblage (définir ce qui sera mesuré) acquisition (faire la mesure) comment la faire (quels outils) d où la faire (actif, passif) stockage (où placer les métriques, dans quel format) 2 Analyse des données recueillies. (extraction/filtrage, synthèse) immédiate (temps réel ou peu différé) en différé (à posteriori, la nuit,...)

Mécanismes Quatre phases (suite) : 3 Actions (automatiques) déclenchées par l analyse. alertes (actif) ré-actions (actif) traitement (pré-conditionnement, visuels graphiques, passif) 4 Pilotage (actions de l opérateur). déclencher l analyse (différée) renouveler mesure/analyse action sur l objet de la mesure (ouverture/fermeture de ports réseaux, etc.)

Mécanismes Quatre phases (suite) : 3 Actions (automatiques) déclenchées par l analyse. alertes (actif) ré-actions (actif) traitement (pré-conditionnement, visuels graphiques, passif) 4 Pilotage (actions de l opérateur). déclencher l analyse (différée) renouveler mesure/analyse action sur l objet de la mesure (ouverture/fermeture de ports réseaux, etc.)

Acquisition Sélection des objets des mesures et des quantités associées (taux de charge, valeur/taux remplissage, présence/absence, etc.) Choix des fréquences de collecte granularité et précision des données influence sur le volume Choix des outils de collecte avec agent (permanent) (process permanent local (démon), mesures en continu ou temporisées, influence sur les performances de l hôte) sans agent (ou agent non-permanent) (déclenchement à distance ou local (cron,...), influence sur la qualité des mesures) Stockage et format des données lieu du stockage, format (nécessité ou non d un décodage) (local et/ou distant, historique, cumulatif, redondance,...) date et lieu de l événement synchronisation des horloges!

Acquisition Sélection des objets des mesures et des quantités associées (taux de charge, valeur/taux remplissage, présence/absence, etc.) Choix des fréquences de collecte granularité et précision des données influence sur le volume Choix des outils de collecte avec agent (permanent) (process permanent local (démon), mesures en continu ou temporisées, influence sur les performances de l hôte) sans agent (ou agent non-permanent) (déclenchement à distance ou local (cron,...), influence sur la qualité des mesures) Stockage et format des données lieu du stockage, format (nécessité ou non d un décodage) (local et/ou distant, historique, cumulatif, redondance,...) date et lieu de l événement synchronisation des horloges!

Acquisition Sélection des objets des mesures et des quantités associées (taux de charge, valeur/taux remplissage, présence/absence, etc.) Choix des fréquences de collecte granularité et précision des données influence sur le volume Choix des outils de collecte avec agent (permanent) (process permanent local (démon), mesures en continu ou temporisées, influence sur les performances de l hôte) sans agent (ou agent non-permanent) (déclenchement à distance ou local (cron,...), influence sur la qualité des mesures) Stockage et format des données lieu du stockage, format (nécessité ou non d un décodage) (local et/ou distant, historique, cumulatif, redondance,...) date et lieu de l événement synchronisation des horloges!

Acquisition Sélection des objets des mesures et des quantités associées (taux de charge, valeur/taux remplissage, présence/absence, etc.) Choix des fréquences de collecte granularité et précision des données influence sur le volume Choix des outils de collecte avec agent (permanent) (process permanent local (démon), mesures en continu ou temporisées, influence sur les performances de l hôte) sans agent (ou agent non-permanent) (déclenchement à distance ou local (cron,...), influence sur la qualité des mesures) Stockage et format des données lieu du stockage, format (nécessité ou non d un décodage) (local et/ou distant, historique, cumulatif, redondance,...) date et lieu de l événement synchronisation des horloges!

Analyse Extraire les informations utiles et exploiter les données recueillies (comparaison de valeurs seuils, recherche de mot-clés, calculs,...) à destination de concaténation, de regroupement, de filtrage à destination d actions automatiques (déclenchement d alertes,...) à destination visuelle (éléments de tableau de bord, graphiques) en pré-conditionnement (reformatage avec ou sans pertes, consolidation)

Analyse Extraire les informations utiles et exploiter les données recueillies (comparaison de valeurs seuils, recherche de mot-clés, calculs,...) à destination de concaténation, de regroupement, de filtrage à destination d actions automatiques (déclenchement d alertes,...) à destination visuelle (éléments de tableau de bord, graphiques) en pré-conditionnement (reformatage avec ou sans pertes, consolidation)

Analyse Extraire les informations utiles et exploiter les données recueillies (comparaison de valeurs seuils, recherche de mot-clés, calculs,...) à destination de concaténation, de regroupement, de filtrage à destination d actions automatiques (déclenchement d alertes,...) à destination visuelle (éléments de tableau de bord, graphiques) en pré-conditionnement (reformatage avec ou sans pertes, consolidation)

Analyse Extraire les informations utiles et exploiter les données recueillies (comparaison de valeurs seuils, recherche de mot-clés, calculs,...) à destination de concaténation, de regroupement, de filtrage à destination d actions automatiques (déclenchement d alertes,...) à destination visuelle (éléments de tableau de bord, graphiques) en pré-conditionnement (reformatage avec ou sans pertes, consolidation)

Actions Informatives Dans le but de diffuser l information, selon une criticité établie alerte par email (listes ciblées, différents niveaux de destinataires) alerte par action locale (trap d agent, création de fichier, etc.) alerte par action distante (dépôt de fichier, télé-alarme, appel de page web) garder les traces d alertes

Actions Informatives Dans le but de diffuser l information, selon une criticité établie alerte par email (listes ciblées, différents niveaux de destinataires) alerte par action locale (trap d agent, création de fichier, etc.) alerte par action distante (dépôt de fichier, télé-alarme, appel de page web) garder les traces d alertes

Actions Informatives Dans le but de diffuser l information, selon une criticité établie alerte par email (listes ciblées, différents niveaux de destinataires) alerte par action locale (trap d agent, création de fichier, etc.) alerte par action distante (dépôt de fichier, télé-alarme, appel de page web) garder les traces d alertes

Actions Informatives Dans le but de diffuser l information, selon une criticité établie alerte par email (listes ciblées, différents niveaux de destinataires) alerte par action locale (trap d agent, création de fichier, etc.) alerte par action distante (dépôt de fichier, télé-alarme, appel de page web) garder les traces d alertes

Actions Opératives Dans le but de provoquer des modifications Auto-action (pare-feu,...) Auto-extinction (seuil de température,...) Nettoyages/rotations divers (caches, historisation, fichiers temporaires,...) Relance d acquisition

Actions Opératives Dans le but de provoquer des modifications Auto-action (pare-feu,...) Auto-extinction (seuil de température,...) Nettoyages/rotations divers (caches, historisation, fichiers temporaires,...) Relance d acquisition

Actions Opératives Dans le but de provoquer des modifications Auto-action (pare-feu,...) Auto-extinction (seuil de température,...) Nettoyages/rotations divers (caches, historisation, fichiers temporaires,...) Relance d acquisition

Actions Opératives Dans le but de provoquer des modifications Auto-action (pare-feu,...) Auto-extinction (seuil de température,...) Nettoyages/rotations divers (caches, historisation, fichiers temporaires,...) Relance d acquisition

Pilotage Contrôles par l opérateur : sans action (visuels, tableaux de bord) avec action recherche ponctuelle (dans les traces) recherche statistique (fréquence des défauts, émergeance de problèmes,...)

Pilotage Contrôles par l opérateur : sans action (visuels, tableaux de bord) avec action recherche ponctuelle (dans les traces) recherche statistique (fréquence des défauts, émergeance de problèmes,...) Attention Confidentialité (certaines données, traces, peuvent faire l objet d un accès limité) Veiller au respect de la législation

Protocoles d interrogation/transmission La supervision s appuie sur des protocoles standardisés (voire normalisés) Il seront détaillé dans l exposé suivant.

Stockage des métriques Stockage des mesures : fichiers de logs (bruts, concaténés, filtrés,...) stockages en bases de données (RRD, Round-Robin Database, SQL,...) formats spécifiques d outils

Stockage des métriques Stockage des mesures : fichiers de logs (bruts, concaténés, filtrés,...) stockages en bases de données (RRD, Round-Robin Database, SQL,...) formats spécifiques d outils Gestion du stockage des métriques : locale ou distante avec ou sans historisation (logrotate, durée de conservation...) centralisée ou non redondante ou non (disponibilité, intégrité) le volume du stockage doit être estimé et surveillé!

Présentation Interfaces de présentation des tableaux de bord vue(s) synthétique(s) (souvent en pages web) plus ou moins de détails, de profondeur de visualisation historisation et consolidation statistique (avec ou sans perte d information) textes et/ou graphiques (RRDtool)

Présentation Interfaces de présentation des tableaux de bord vue(s) synthétique(s) (souvent en pages web) plus ou moins de détails, de profondeur de visualisation historisation et consolidation statistique (avec ou sans perte d information) textes et/ou graphiques (RRDtool)

Présentation Interfaces de présentation des tableaux de bord vue(s) synthétique(s) (souvent en pages web) plus ou moins de détails, de profondeur de visualisation historisation et consolidation statistique (avec ou sans perte d information) textes et/ou graphiques (RRDtool)

Présentation Interfaces de présentation des tableaux de bord vue(s) synthétique(s) (souvent en pages web) plus ou moins de détails, de profondeur de visualisation historisation et consolidation statistique (avec ou sans perte d information) textes et/ou graphiques (RRDtool)

Plan 1 Introduction 2 Constitution 3 Choix des types de mesure Sondes actives / passives Stockage des mesures Précision vs performance Que contrôler? 4 Choix d un superviseur

Sondes actives / passives Sondes actives Avantages proximité, indépendance pas d influences extérieures grain fin mesures plus fréquentes Inconvénients influence sur l hôte stockage

Sondes actives / passives Sondes actives Avantages proximité, indépendance pas d influences extérieures grain fin mesures plus fréquentes Inconvénients influence sur l hôte stockage Sondes passives Avantages moins (non) intrusives alerte pas absence stockage volumineux Inconvénients portée limitée (accès) sécurité fréquence des mesures limitée

Stockage des mesures Stockage local Avantages immédiat flux élevé Inconvénients influence sur l hôte accès/intégrité (crash) volume limité capacité d alertes limitées

Stockage des mesures Stockage local Avantages immédiat flux élevé Stockage distant Avantages plus disponible alertes Inconvénients influence sur l hôte accès/intégrité (crash) volume limité capacité d alertes limitées Inconvénients dépendant du réseau veiller à la sécurité flux limité influence sur réseaux

Précision vs performance Souvent choisir entre précision des mesures et performance de la machine : Bonne précision : fréquence élevée des mesures sonde embarquée impacte CPU et disque de l hôte Bonne performance : fréquence des mesures plus étagée sonde distante impacte le réseau L idéal dépend certainement de la situation : > routine : performance > crise : précision

Précision vs performance Souvent choisir entre précision des mesures et performance de la machine : Bonne précision : fréquence élevée des mesures sonde embarquée impacte CPU et disque de l hôte Bonne performance : fréquence des mesures plus étagée sonde distante impacte le réseau L idéal dépend certainement de la situation : > routine : performance > crise : précision

Précision vs performance Souvent choisir entre précision des mesures et performance de la machine : Bonne précision : fréquence élevée des mesures sonde embarquée impacte CPU et disque de l hôte Bonne performance : fréquence des mesures plus étagée sonde distante impacte le réseau L idéal dépend certainement de la situation : > routine : performance > crise : précision

Précision vs performance Souvent choisir entre précision des mesures et performance de la machine : Bonne précision : fréquence élevée des mesures sonde embarquée impacte CPU et disque de l hôte Bonne performance : fréquence des mesures plus étagée sonde distante impacte le réseau L idéal dépend certainement de la situation : > routine : performance > crise : précision

Précision vs performance Souvent choisir entre précision des mesures et performance de la machine : Bonne précision : fréquence élevée des mesures sonde embarquée impacte CPU et disque de l hôte Bonne performance : fréquence des mesures plus étagée sonde distante impacte le réseau L idéal dépend certainement de la situation : > routine : performance > crise : précision

Que contrôler? Quelques exemples au niveau du fonctionnement des machines (serveurs, stations, équipements réseaux) l utilisation système (%cpu, nbre de cores utilisés, chgt de contextes) nombre de processus (contentions, zombies) utilisation de la mémoire (cache, swap, fautes) utilisation des disques (lectures/écritures, wait sur I/O, remplissage, pannes, t o ) utilisation des réseaux (débits, latences, bande passante utilisée, taux d erreurs) température processeurs, température du boîtier vitesse de rotation des ventillateurs sécurité (nbre d authentifications, tunnels, nbre de tentatives échouées de login, scans) disponibilité des services (files d attente batch, interfaces, DHCP, DNS, LDAP,...) compteurs hardware si disponibles et pertinents (mcelog, collectd,...) sabordage de runs (atteinte de limite de temps, plantages, bouclages)...

Que contrôler? Quelques exemples au niveau du fonctionnement des machines (serveurs, stations, équipements réseaux) l utilisation système (%cpu, nbre de cores utilisés, chgt de contextes) nombre de processus (contentions, zombies) utilisation de la mémoire (cache, swap, fautes) utilisation des disques (lectures/écritures, wait sur I/O, remplissage, pannes, t o ) utilisation des réseaux (débits, latences, bande passante utilisée, taux d erreurs) température processeurs, température du boîtier vitesse de rotation des ventillateurs sécurité (nbre d authentifications, tunnels, nbre de tentatives échouées de login, scans) disponibilité des services (files d attente batch, interfaces, DHCP, DNS, LDAP,...) compteurs hardware si disponibles et pertinents (mcelog, collectd,...) sabordage de runs (atteinte de limite de temps, plantages, bouclages)...

Que contrôler? Quelques exemples au niveau du fonctionnement des machines (serveurs, stations, équipements réseaux) l utilisation système (%cpu, nbre de cores utilisés, chgt de contextes) nombre de processus (contentions, zombies) utilisation de la mémoire (cache, swap, fautes) utilisation des disques (lectures/écritures, wait sur I/O, remplissage, pannes, t o ) utilisation des réseaux (débits, latences, bande passante utilisée, taux d erreurs) température processeurs, température du boîtier vitesse de rotation des ventillateurs sécurité (nbre d authentifications, tunnels, nbre de tentatives échouées de login, scans) disponibilité des services (files d attente batch, interfaces, DHCP, DNS, LDAP,...) compteurs hardware si disponibles et pertinents (mcelog, collectd,...) sabordage de runs (atteinte de limite de temps, plantages, bouclages)...

Que contrôler? Quelques exemples au niveau du fonctionnement des machines (serveurs, stations, équipements réseaux) l utilisation système (%cpu, nbre de cores utilisés, chgt de contextes) nombre de processus (contentions, zombies) utilisation de la mémoire (cache, swap, fautes) utilisation des disques (lectures/écritures, wait sur I/O, remplissage, pannes, t o ) utilisation des réseaux (débits, latences, bande passante utilisée, taux d erreurs) température processeurs, température du boîtier vitesse de rotation des ventillateurs sécurité (nbre d authentifications, tunnels, nbre de tentatives échouées de login, scans) disponibilité des services (files d attente batch, interfaces, DHCP, DNS, LDAP,...) compteurs hardware si disponibles et pertinents (mcelog, collectd,...) sabordage de runs (atteinte de limite de temps, plantages, bouclages)...

Que contrôler? Quelques exemples au niveau du fonctionnement des machines (serveurs, stations, équipements réseaux) l utilisation système (%cpu, nbre de cores utilisés, chgt de contextes) nombre de processus (contentions, zombies) utilisation de la mémoire (cache, swap, fautes) utilisation des disques (lectures/écritures, wait sur I/O, remplissage, pannes, t o ) utilisation des réseaux (débits, latences, bande passante utilisée, taux d erreurs) température processeurs, température du boîtier vitesse de rotation des ventillateurs sécurité (nbre d authentifications, tunnels, nbre de tentatives échouées de login, scans) disponibilité des services (files d attente batch, interfaces, DHCP, DNS, LDAP,...) compteurs hardware si disponibles et pertinents (mcelog, collectd,...) sabordage de runs (atteinte de limite de temps, plantages, bouclages)...

Que contrôler? Quelques exemples au niveau du fonctionnement des machines (serveurs, stations, équipements réseaux) l utilisation système (%cpu, nbre de cores utilisés, chgt de contextes) nombre de processus (contentions, zombies) utilisation de la mémoire (cache, swap, fautes) utilisation des disques (lectures/écritures, wait sur I/O, remplissage, pannes, t o ) utilisation des réseaux (débits, latences, bande passante utilisée, taux d erreurs) température processeurs, température du boîtier vitesse de rotation des ventillateurs sécurité (nbre d authentifications, tunnels, nbre de tentatives échouées de login, scans) disponibilité des services (files d attente batch, interfaces, DHCP, DNS, LDAP,...) compteurs hardware si disponibles et pertinents (mcelog, collectd,...) sabordage de runs (atteinte de limite de temps, plantages, bouclages)...

Que contrôler? Quelques exemples au niveau du fonctionnement des machines (serveurs, stations, équipements réseaux) l utilisation système (%cpu, nbre de cores utilisés, chgt de contextes) nombre de processus (contentions, zombies) utilisation de la mémoire (cache, swap, fautes) utilisation des disques (lectures/écritures, wait sur I/O, remplissage, pannes, t o ) utilisation des réseaux (débits, latences, bande passante utilisée, taux d erreurs) température processeurs, température du boîtier vitesse de rotation des ventillateurs sécurité (nbre d authentifications, tunnels, nbre de tentatives échouées de login, scans) disponibilité des services (files d attente batch, interfaces, DHCP, DNS, LDAP,...) compteurs hardware si disponibles et pertinents (mcelog, collectd,...) sabordage de runs (atteinte de limite de temps, plantages, bouclages)...

Que contrôler? Quelques exemples au niveau du fonctionnement des machines (serveurs, stations, équipements réseaux) l utilisation système (%cpu, nbre de cores utilisés, chgt de contextes) nombre de processus (contentions, zombies) utilisation de la mémoire (cache, swap, fautes) utilisation des disques (lectures/écritures, wait sur I/O, remplissage, pannes, t o ) utilisation des réseaux (débits, latences, bande passante utilisée, taux d erreurs) température processeurs, température du boîtier vitesse de rotation des ventillateurs sécurité (nbre d authentifications, tunnels, nbre de tentatives échouées de login, scans) disponibilité des services (files d attente batch, interfaces, DHCP, DNS, LDAP,...) compteurs hardware si disponibles et pertinents (mcelog, collectd,...) sabordage de runs (atteinte de limite de temps, plantages, bouclages)...

Que contrôler? Quelques exemples au niveau du fonctionnement des machines (serveurs, stations, équipements réseaux) l utilisation système (%cpu, nbre de cores utilisés, chgt de contextes) nombre de processus (contentions, zombies) utilisation de la mémoire (cache, swap, fautes) utilisation des disques (lectures/écritures, wait sur I/O, remplissage, pannes, t o ) utilisation des réseaux (débits, latences, bande passante utilisée, taux d erreurs) température processeurs, température du boîtier vitesse de rotation des ventillateurs sécurité (nbre d authentifications, tunnels, nbre de tentatives échouées de login, scans) disponibilité des services (files d attente batch, interfaces, DHCP, DNS, LDAP,...) compteurs hardware si disponibles et pertinents (mcelog, collectd,...) sabordage de runs (atteinte de limite de temps, plantages, bouclages)...

Que contrôler? Quelques exemples au niveau du fonctionnement des machines (serveurs, stations, équipements réseaux) l utilisation système (%cpu, nbre de cores utilisés, chgt de contextes) nombre de processus (contentions, zombies) utilisation de la mémoire (cache, swap, fautes) utilisation des disques (lectures/écritures, wait sur I/O, remplissage, pannes, t o ) utilisation des réseaux (débits, latences, bande passante utilisée, taux d erreurs) température processeurs, température du boîtier vitesse de rotation des ventillateurs sécurité (nbre d authentifications, tunnels, nbre de tentatives échouées de login, scans) disponibilité des services (files d attente batch, interfaces, DHCP, DNS, LDAP,...) compteurs hardware si disponibles et pertinents (mcelog, collectd,...) sabordage de runs (atteinte de limite de temps, plantages, bouclages)...

Que contrôler? Quelques exemples au niveau du fonctionnement des machines (serveurs, stations, équipements réseaux) l utilisation système (%cpu, nbre de cores utilisés, chgt de contextes) nombre de processus (contentions, zombies) utilisation de la mémoire (cache, swap, fautes) utilisation des disques (lectures/écritures, wait sur I/O, remplissage, pannes, t o ) utilisation des réseaux (débits, latences, bande passante utilisée, taux d erreurs) température processeurs, température du boîtier vitesse de rotation des ventillateurs sécurité (nbre d authentifications, tunnels, nbre de tentatives échouées de login, scans) disponibilité des services (files d attente batch, interfaces, DHCP, DNS, LDAP,...) compteurs hardware si disponibles et pertinents (mcelog, collectd,...) sabordage de runs (atteinte de limite de temps, plantages, bouclages)...

Que contrôler? Quelques exemples au niveau du fonctionnement des machines (serveurs, stations, équipements réseaux) l utilisation système (%cpu, nbre de cores utilisés, chgt de contextes) nombre de processus (contentions, zombies) utilisation de la mémoire (cache, swap, fautes) utilisation des disques (lectures/écritures, wait sur I/O, remplissage, pannes, t o ) utilisation des réseaux (débits, latences, bande passante utilisée, taux d erreurs) température processeurs, température du boîtier vitesse de rotation des ventillateurs sécurité (nbre d authentifications, tunnels, nbre de tentatives échouées de login, scans) disponibilité des services (files d attente batch, interfaces, DHCP, DNS, LDAP,...) compteurs hardware si disponibles et pertinents (mcelog, collectd,...) sabordage de runs (atteinte de limite de temps, plantages, bouclages)...

Que contrôler? Quelques exemples au niveau environnemental ou périphérique température de salle (climatiseurs) niveau d eau (innondation, fuites, hygrométrie,...) état des onduleurs (% capacité, temps de disponibilité, état des batteries) utilisation des ressources (remplissage des disques, temps de calculs,...) intrusions logiques (login d utilisateur sur des systèmes restreints,...) intrusions réseaux (correspondance adresses MAC-IP, scans) intrusions personnelles (salle système, bâtiment) statistiques (taux d utilisation par utilisateur/groupe,...)...

Que contrôler? Quelques exemples au niveau environnemental ou périphérique température de salle (climatiseurs) niveau d eau (innondation, fuites, hygrométrie,...) état des onduleurs (% capacité, temps de disponibilité, état des batteries) utilisation des ressources (remplissage des disques, temps de calculs,...) intrusions logiques (login d utilisateur sur des systèmes restreints,...) intrusions réseaux (correspondance adresses MAC-IP, scans) intrusions personnelles (salle système, bâtiment) statistiques (taux d utilisation par utilisateur/groupe,...)...

Que contrôler? Quelques exemples au niveau environnemental ou périphérique température de salle (climatiseurs) niveau d eau (innondation, fuites, hygrométrie,...) état des onduleurs (% capacité, temps de disponibilité, état des batteries) utilisation des ressources (remplissage des disques, temps de calculs,...) intrusions logiques (login d utilisateur sur des systèmes restreints,...) intrusions réseaux (correspondance adresses MAC-IP, scans) intrusions personnelles (salle système, bâtiment) statistiques (taux d utilisation par utilisateur/groupe,...)...

Que contrôler? Quelques exemples au niveau environnemental ou périphérique température de salle (climatiseurs) niveau d eau (innondation, fuites, hygrométrie,...) état des onduleurs (% capacité, temps de disponibilité, état des batteries) utilisation des ressources (remplissage des disques, temps de calculs,...) intrusions logiques (login d utilisateur sur des systèmes restreints,...) intrusions réseaux (correspondance adresses MAC-IP, scans) intrusions personnelles (salle système, bâtiment) statistiques (taux d utilisation par utilisateur/groupe,...)...

Que contrôler? Quelques exemples au niveau environnemental ou périphérique température de salle (climatiseurs) niveau d eau (innondation, fuites, hygrométrie,...) état des onduleurs (% capacité, temps de disponibilité, état des batteries) utilisation des ressources (remplissage des disques, temps de calculs,...) intrusions logiques (login d utilisateur sur des systèmes restreints,...) intrusions réseaux (correspondance adresses MAC-IP, scans) intrusions personnelles (salle système, bâtiment) statistiques (taux d utilisation par utilisateur/groupe,...)...

Que contrôler? Quelques exemples au niveau environnemental ou périphérique température de salle (climatiseurs) niveau d eau (innondation, fuites, hygrométrie,...) état des onduleurs (% capacité, temps de disponibilité, état des batteries) utilisation des ressources (remplissage des disques, temps de calculs,...) intrusions logiques (login d utilisateur sur des systèmes restreints,...) intrusions réseaux (correspondance adresses MAC-IP, scans) intrusions personnelles (salle système, bâtiment) statistiques (taux d utilisation par utilisateur/groupe,...)...

Que contrôler? Quelques exemples au niveau environnemental ou périphérique température de salle (climatiseurs) niveau d eau (innondation, fuites, hygrométrie,...) état des onduleurs (% capacité, temps de disponibilité, état des batteries) utilisation des ressources (remplissage des disques, temps de calculs,...) intrusions logiques (login d utilisateur sur des systèmes restreints,...) intrusions réseaux (correspondance adresses MAC-IP, scans) intrusions personnelles (salle système, bâtiment) statistiques (taux d utilisation par utilisateur/groupe,...)...

Que contrôler? Quelques exemples au niveau environnemental ou périphérique température de salle (climatiseurs) niveau d eau (innondation, fuites, hygrométrie,...) état des onduleurs (% capacité, temps de disponibilité, état des batteries) utilisation des ressources (remplissage des disques, temps de calculs,...) intrusions logiques (login d utilisateur sur des systèmes restreints,...) intrusions réseaux (correspondance adresses MAC-IP, scans) intrusions personnelles (salle système, bâtiment) statistiques (taux d utilisation par utilisateur/groupe,...)...

Que contrôler? Quelques exemples au niveau environnemental ou périphérique température de salle (climatiseurs) niveau d eau (innondation, fuites, hygrométrie,...) état des onduleurs (% capacité, temps de disponibilité, état des batteries) utilisation des ressources (remplissage des disques, temps de calculs,...) intrusions logiques (login d utilisateur sur des systèmes restreints,...) intrusions réseaux (correspondance adresses MAC-IP, scans) intrusions personnelles (salle système, bâtiment) statistiques (taux d utilisation par utilisateur/groupe,...)...

Cas particuliers Les périphériques spécialisés qui intègrent leur propre système de supervision : systèmes de stockage : cartes/baies de RAID (3Ware, PERC,...) switches manageables périphériques : imprimantes, scanners,... Comment intégrer ces moniteurs dans le tableau de bord?

1 Introduction 2 Constitution 3 Choix des types de mesure 4 Choix d un superviseur

Choix d un superviseur Quelques critères de choix d un superviseur : capacité d analyse et de restitution offre et variété des dispositifs d alerte notoriété, pérennité souplesse de configuration et de déploiement nombre et type de sondes existant (celles dont j (aur)ai besoin!) protocoles utilisés / supportés possibilité / complexité d extensions (plugins,...) architecture générale (multi-site, limites de capacités) look and feel impact local/distant capacité à collaborer avec d autres moyens de supervision / monitoring...

Conclusion le monitoring/supervision est nécessaire beaucoup d outils disponibles choix adapté en fonction des configuration/contraintes adopter une démarche qualité : évolutivité de la solution