Fiche Pratique ITIL Club des Responsables d Infrastructures et de Production Améliorer le pilotage des Opérations Informatiques Les Opérations Informatiques sont sensibilisées depuis plusieurs années aux enjeux de Performance et contribuent, comme le reste de la DSI, aux objectifs d optimisation des coûts auxquels elles sont soumises. Alors que les indicateurs dont elles disposent sont essentiellement tournés vers la qualité de service et l efficacité, force est de constater qu il existe peu ou pas d indicateur susceptible de mesurer, et donc de piloter, l efficience des Opérations Informatiques. Celles-ci sont d ailleurs souvent confrontées à un paradoxe : alors que la plupart des indicateurs sont au vert, des difficultés, pointant souvent du doigt l efficience des Opérations, sont constatées ça et là, responsables, entre autres, de mécontentement, de perte d énergie, ou de stress. Pire encore, ces difficultés peuvent décrédibiliser les indicateurs qualitatifs existants. L amélioration du pilotage des Opérations Informatiques a été discutée au sein du GT ITIL du CRiP, à partir de travaux réalisés dans le cadre d un Think Tank animé par ORSYP. Le Think Tank ORSYP est une initiative qui rassemble depuis 2010 un groupe d une vingtaine de décideurs autour du pilotage des Opérations Informatiques par la Performance. Un premier livre blanc, publié en 2011, propose de transposer à l informatique un indicateur innovant issu des méthodes industrielles : le Taux de Rendement Synthétique (TRS). Cet indicateur permet à l industrie d identifier les gaspillages et de suivre l amélioration de la Performance d une production. Un second livre blanc, publié en 2013, présente le résultat de l application du TRS dans les organisations des membres du Think Tank. Le TRS : un KPI sans équivalent dans l IT Le TRS (Taux de Rendement Synthétique) est un indicateur sans grandeur, multiplication de trois taux : taux de disponibilité, taux de performance, taux de qualité. Mai 2014 1
Le Think Tank utilise le TRS de deux manières différentes : Comme un outil de pilotage global, en réponse à la question «Quelle est la performance globale de l exploitation des services rendus aux utilisateurs?» Comme un outil de pilotage ciblé, en réponse à la question «Quelle est la performance unitaire d un processus en particulier?» NOTE : Les notions de Disponibilité, Performance et Qualité sont ici utilisées dans leur définition industrielle. L application du TRS à un nouveau périmètre (tel qu un processus) nécessite de spécifier ce que sont la Disponibilité et la Performance de la chaîne de production elle-même (l efficacité opérationnelle des activités du processus) et ce qu est la Qualité en bout de chaîne de production (ce que produit le processus). Il ne faut donc pas les confondre avec les notions de disponibilité, performance et qualité applicatives. L utilisation du TRS comme outil de pilotage global Le TRS est apparu comme un indicateur dont la mise en place pour les services d exploitation permet de : Factualiser et communiquer sur l efficience des Opérations Informatiques, sous une forme synthétique et compréhensible, au travers de la Qualité, de la Performance et de la Disponibilité des services délivrés, Faire évoluer les indicateurs existants dans les contrats d infogérance des fournisseurs et des mainteneurs, Analyser les causes et mettre en place les leviers d amélioration permettant d améliorer le pilotage opérationnel de l ensemble des acteurs de l exploitation. Les services concernent l ensemble des services délivrés aux utilisateurs : les services Métier (sites web et applications Métier) et les services Généraux (messagerie, accès internet, ). Les principes de mesure de «l usine» informatique sont relativement similaires à ceux d une usine classique, pour laquelle l objectif est d avoir le moins d incidents possible, une charge de maintien en condition opérationnelle optimale et une qualité proche du «zéro défaut». TRS Disponibilité Performance Qualité Objet Objectif Gestion du réactif Minimum de temps de gestion de l événementiel (arrêts de production, contrôles) Gestion des opérations planifiées Conformité du plan de charge, standardisation du temps de maintenance Résultat du point de vue utilisateurs Zéro Défaut Mesure Incidents Mises en Production Disponibilité du Service La mesure peut être réalisée chaque mois, principalement sur la base des informations présentes dans l outil ITSM et des outils de supervision existants. Cette démarche a permis l identification et la mise en œuvre d améliorations dont les effets ont pu être constatés et partagés par le biais de l indicateur synthétique. En particulier, l application du TRS sur l ensemble du catalogue de service a permis d effectuer des analyses comparées de performance par ligne de service et de discuter de ces points en comité de Pilotage avec les infogérants. 2
L utilisation du TRS comme outil de pilotage ciblé Le TRS a été mis en place par les membres du Think Tank sur une diversité de processus pour lesquels l objectif visé était l amélioration de l efficience : Gestion des mises en production, Gestion des demandes, Gestion des incidents, Gestion des événements. Le retour d expérience partagé au sein du GT ITIL, est décrit ci-après : Ce retour d expérience porte sur : Le processus de mise en production, Le processus de gestion des événements. La méthodologie appliquée comporte les étapes suivantes : Les actions préparatoires - Identifier le périmètre sur lequel le TRS doit être mesuré, - Impliquer plus particulièrement les acteurs et les sensibiliser au calcul de l indicateur et à son utilisation, - Identifier le système de mesure qui permet de calculer cet indicateur, et mettre en place le système de collecte Le pilotage de la performance à proprement parler - Mesurer le TRS, - Identifier les gaspillages, - Mettre en place les leviers d amélioration. L industrialisation du système de mesure peut s avérer nécessaire en fonction du contexte (complexité du principe de mesure, présence ou non d outils existants, importance de la charge nécessaire pour récupérer les informations, ) 1. Premier retour d expérience : Le processus de mise en production Contexte Le processus, mis en place depuis plusieurs années, est formalisé, systématiquement appliqué et contrôlé au travers de nombreux points de mesures. A priori, le processus fonctionne correctement du point de vue des Opérations Informatiques et apporte la satisfaction demandée par les Chefs de Projet des applications. Toutefois, une analyse plus détaillée révèle qu il existe des applications pour lesquelles : Les dates clés sont difficiles à respecter, Des incidents sont constatés après le démarrage, Les équipes dépensent une énergie excessive à suivre le processus, ce qui a un impact négatif et est source de stress tant pour les Exploitants que pour les Chefs de Projet des applications, Le coût de mise en production n est pas optimisé. La mise en place du TRS a pour but de factualiser le ressenti, d identifier les points critiques du processus et de mettre en place collectivement les améliorations à apporter. Principes de mesure Le TRS des Mises en Production est calculé par la multiplication des taux de Qualité, de Performance et de Disponibilité en suivant les principes de calcul suivants : Le taux de Qualité est calculé en fonction du taux de respect, par l application, des engagements de service (SLA) et des standards d exploitabilité (conformes aux exigences opérationnelles), Le taux de Performance est calculé en fonction du respect et des objectifs de charge (surcharge) et des objectifs de délai de réalisation des différentes activités (retard), Le taux de Disponibilité est calculé en fonction du respect des dates clés du processus de mise en production, par rapport à ses engagements vis-àvis du projet applicatif. Pour la Disponibilité et la Performance, la mesure porte donc sur l «usine», c est-à-dire sur les étapes de réalisation du processus. Pour la Qualité, la mesure porte sur ce qui est produit par l usine, c est-à-dire sur l application, une fois basculée en production, pendant la période de Vérification de Service Régulier. 3
Analyse des mesures et mise en place des leviers Les premières mesures mettent en évidence un taux de Qualité élevé, mais le TRS est pénalisé par un taux de Performance et un taux de Disponibilité en retrait. En calculant un TRS par application, la valeur du TRS est faible, voire très faible, pour certaines applications. L analyse collective des causes, facilitée par l arbre des gaspillages IT produit par le Think Tank (voir annexe), aboutit à la mise en place d actions correctives. 2. Second retour d expérience : Le processus de Gestion des Evénements Contexte Le processus de Gestion des Evénements est interconnecté avec le processus de gestion des incidents. Dans le cadre d un enchaînement de ces deux processus, les principales étapes clés sont : 1. La détection des événements et leur signalement sur une console, 2. La prise en compte des événements par une équipe de supervision, matérialisée dans certains cas par la création d un ticket d incident, 3. Le traitement et la résolution de l incident, soit par l équipe de supervision, soit par une équipe tierce. Alors que les engagements de niveaux de service sur le délai écoulé entre la survenance d un incident et sa résolution sont globalement respectés, une mesure du TRS sur la gestion des événements (étapes 1 et 2) a néanmoins été jugée intéressante à expérimenter. Principes de mesure Le TRS de la Gestion des Evénements est calculé par la multiplication des taux de Qualité, de Performance et de Disponibilité en suivant les principes de calcul suivants : La Disponibilité est mesurée par rapport à la disponibilité des outils et des équipes en charge de la supervision, La Performance est mesurée par rapport à la durée de prise en compte des événements, La Qualité est mesurée par rapport à la pertinence des événements. Analyse des mesures Les premières mesures mettent en évidence un TRS très faible, lié à : Une qualité insuffisante, engendrée principalement par des événements générés pendant les plages de maintenance programmées : pour les changements planifiés à l avance, la gestion des événements doit théoriquement être ajustée pour ne pas tenir compte des «fausses» alertes induites par ces changements. En pratique, cet ajustement n est pas systématiquement réalisé. Une performance insuffisante, causée par des délais de prise en compte anormalement longs : - Soit parce que des événements sont générés en dehors des plages de support définies dans les conventions de service : de ce fait, certains événements sont signalés la nuit alors qu ils ne sont pris en compte qu en journée, conformément aux engagements décrits dans la Convention, - Soit parce que le délai de prise en compte est supérieur au délai standard. 4
Il est intéressant de noter que l engagement de «bout en bout», porté par les Opérations Informatiques, incluant la prise en compte d un événement et son traitement, est en fait respecté grâce à un délai de traitement particulièrement court. La mise en place du TRS sur le processus de Gestion des Evénements permet donc de mettre en évidence une sous-performance au niveau de ce processus. Mise en place des leviers Les leviers prioritaires définis et mis en place sont : Sensibilisation de l équipe de supervision au délai de prise en compte, Modifications de paramétrage pour exclure les plages de maintenance programmées et aligner les plages de surveillance aux Conventions de Service. 3. Conclusion Les cas d application du TRS sont multiples et les retours d expérience mettent en évidence les avantages suivants : Un suivi pérenne de la Performance, par un indicateur de référence factuel, Une identification rapide et pertinente des gaspillages, par : - Une analyse fine des causes, - Une démarche à la carte, - Une analyse systématique des dysfonctionnements, Un plan d amélioration continue adapté et partagé, impliquant tous les acteurs concernés. Questions / Réponses partagées au sein du GT ITIL du CRiP Comment les principes de mesure relatifs aux taux de Qualité / Disponibilité / Performance sont-ils définis? La définition des principes de mesure nécessite un travail en commun, réalisé généralement par les acteurs des Opérations Informatiques. Les kits méthodologiques en cours d élaboration par le Think Tank proposeront des définitions pour les processus qui ont déjà été étudiés. De manière générale, il faut veiller à rester simple, en s appuyant si possible sur les outils existants et en fixant si besoin un périmètre de départ restreint pour obtenir des retours rapides. 5
Le TRS permet-il de se benchmarker? En théorie, oui. En pratique, le benchmark impose d utiliser les mêmes principes de mesure et les mêmes seuils. A titre d exemple, l exigence en termes de qualité peut être différente d un contexte à un autre. En pratique, la spécification commune des modalités d application du TRS et le partage régulier des résultats, difficultés et solutions ont permis aux différents membres de comparer leur résultats, tant en interne (dans le temps, sur différentes unités de production) qu en externe. Sur ce dernier point, la comparaison fait d autant plus de sens que : - Les principes fondamentaux sont respectés (exemple : ne pas mélanger Performance Opérationnelle et Performance Economique), - Le même périmètre est mesuré (exemple : Processus de gestion des événements au sens ITIL ), - Les mêmes règles de calcul sont appliquées (exemple : Fiche Technique du Think Tank), - Les mesures sont réalisées à partir des mêmes outils (exemple : outils ITSM). Annexe et liens utiles Est-il possible d automatiser le calcul du TRS? Le calcul peut, dans certains cas, être automatisé par le biais de développements spécifiques. Sur certains processus, l automatisation peut être réalisée en s appuyant sur l outil ITSM. Une initiative a d ailleurs été prise dans ce domaine avec un éditeur ITSM pour que le TRS soit intégré à l outil. Le TRS peut-il être mis en œuvre pour un Service Desk? Oui, cette mise en œuvre est actuellement réalisée dans le cadre des travaux 2013-2014 du Think Tank. La mise en place peut se faire selon deux volets : - un TRS «opérationnel» basé sur les indicateurs techniques, - un TRS «perception des utilisateurs» basé sur les enquêtes de satisfaction. La mesure des deux TRS permet de corréler le résultat opérationnel et la perception utilisateur, et d apporter des améliorations pertinentes. 1. Arbre des gaspillages IT défini par le Think Tank 2. Liens utiles Les rapports des travaux du Think Tank sont accessibles sur le lien suivant (en français et en anglais) : http://www.orsyp.fr/thinktank Le Think Tank est ouvert à toute organisation souhaitant adopter la démarche et l enrichir par ses retours d expérience. A ce jour, 13 sociétés différentes ont mesuré 28 TRS sur 6 périmètres d application différents. Rédaction : Groupe de Travail ITIL et Processus de Production - Pilotes Eric Bouvet - ARKEMA, Lionel Rolland - GDF SUEZ - Création Fred.lameche - www.anousdejouer.fr Club des Responsables d Infrastructures et de Production 24 rue Erlanger 75016 Paris - contact@crip-asso.fr www.crip-asso.fr En application de la loi du 11 mars 1957, il est interdit de reproduire ; sous forme de copie, photocopie, reproduction, traduction ou conversion, le présent ouvrage que ce soit mécanique ou électronique, intégralement ou partiellement, sur quelque support que ce soit, sans autorisation du CRiP. 6