Atteindre l'excellence du service dans la gestion des incidents majeurs

La plupart des entreprises modernes dépendent des technologies à un tel point qu'il en résulte un risque important de problèmes techniques créant des problèmes de stabilité informatique et remettant à leur tour en cause les capacités fonctionnelles d'une organisation.

Une réponse rapide et efficace et un processus de gestion des incidents majeurs bien conçu sont les clés de l'atténuation de ce risque.

Chaque semaine, des incidents majeurs font la une des journaux : failles de sécurité dues à des pirates informatiques, pannes de système et exposition des données des clients. Ce ne sont que ceux qui font les gros titres - d'innombrables autres incidents majeurs se produisent chaque jour, qui ont un impact sur les opérations internes des entreprises, leur rentabilité et le flux de biens et de services, et qui détournent les dirigeants de leur rôle principal, qui est de faire avancer l'agenda de leur entreprise.

L'enquête 2016 de Dimensional Research auprès de plus de 400 professionnels de l'entreprise et de l'informatique a révélé que 82% des personnes interrogées ont déclaré que les temps d'arrêt des applications métier avaient un impact significatif sur le chiffre d'affaires de leur entreprise. L'exposition au risque et la réponse aux incidents majeurs sont en tête des préoccupations de la plupart des cadres, car ils voient leurs pairs lutter pour gérer les situations de crise - sachant que leur carrière personnelle et l'avenir de leur entreprise peuvent dépendre de leur performance pendant quelques heures ou quelques jours.

La gestion réussie d'un incident majeur peut permettre à une entreprise de reprendre rapidement ses activités normales, de préserver sa réputation sur le marché et de minimiser son impact financier. Les incidents bien gérés peuvent même offrir l'opportunité d'une amélioration continue en fournissant des informations plus approfondies et aider l'entreprise à continuer à accélérer la réalisation de ses objectifs. Si un incident n'est pas géré avec succès, l'impact durable peut conduire à la disparition de l'entreprise.

L'impact des incidents majeurs

La plupart des entreprises disposent de processus et de ressources suffisants pour fonctionner en mode de crise pendant une courte période (quelques heures à quelques jours). Au-delà de cette période, la fatigue du personnel, l'accumulation de problèmes et la perte de mécanismes de contrôle essentiels peuvent entraîner une baisse rapide de la satisfaction des clients, des problèmes de conformité et des problèmes de réconciliation qui rendent un rétablissement complet plus difficile, plus coûteux et plus long (si tant est qu'un rétablissement complet puisse être réalisé).

Au-delà de l'impact opérationnel immédiat, la gestion d'un incident majeur peut affecter la perception des clients et la confiance à long terme dans l'entreprise et ses produits. Dans un contexte où la concurrence des insurgés et des nouveaux modèles commerciaux ne cesse de s'intensifier, où les marges bénéficiaires se réduisent et où le coût d'acquisition de nouveaux clients augmente, la fidélisation et la satisfaction des clients sont essentielles pour assurer la pérennité des revenus. Les clients comprennent que les problèmes technologiques surviennent - ils sont eux aussi des consommateurs et des utilisateurs de technologies confrontés aux mêmes risques que les entreprises.

Tout comme les opérations internes des entreprises, la plupart des clients ont un certain niveau de tolérance pour les perturbations à court terme dans leurs interactions avec les entreprises et dans les produits et services qu'ils achètent et utilisent. En revanche, des perturbations prolongées, une mauvaise communication et l'incapacité à rétablir le service en temps voulu peuvent éroder considérablement la tolérance et la bonne volonté des clients, ce qui risque de nuire de façon permanente à leurs relations et aux possibilités d'affaires futures.

Les impacts opérationnels internes et les problèmes de réputation des clients finiront par miner les performances financières actuelles et futures d'une entreprise, les dommages collatéraux augmentant au fur et à mesure que l'incident se poursuit. Les problèmes récurrents aggravent également l'impact des incidents majeurs - si cela se produit une fois, c'est pardonnable ; si cela se reproduit, des têtes peuvent tomber. Les cadres en sont conscients et ont commencé à consacrer de plus en plus de temps à améliorer leur compréhension des risques inhérents à la dépendance technologique de leur entreprise, à élaborer des stratégies d'atténuation et à préparer leur organisation à la survenue probable d'incidents majeurs ayant un impact sur l'activité.

...si cela se produit une fois, alors c'est pardonnable ; si cela se produit à nouveau, alors des têtes pourraient tomber.

Gestion des incidents et gestion des incidents majeurs - Pourquoi les entreprises ont-elles besoin d'une approche différente et distincte ?

La plupart des entreprises ont mis en place des processus de gestion des incidents pour faire face aux perturbations quotidiennes mineures à modérées. Ces processus sont construits à partir de méthodes éprouvées de service à la clientèle et/ou basés sur des pratiques standard de gestion des services informatiques (telles que celles que l'on trouve dans ITIL). Les processus de gestion des incidents sont généralement efficaces pour traiter le grand nombre d'incidents et de demandes de service à impact relativement faible auxquels une entreprise est confrontée en rapport avec ses systèmes informatiques. Les incidents majeurs, cependant, sont différents de leurs homologues plus petits et quotidiens et nécessitent une approche différente et distincte.

Impact et fréquence

Les incidents majeurs ou de haute gravité (comme leur nom l'indique) sont ceux qui ont un impact important et significatif sur l'organisation. Ces incidents (espérons-le) ne se produisent pas très souvent, mais lorsqu'ils se produisent, des fonctions entières de l'entreprise peuvent être affectées. Une entreprise type du classement Fortune 500 peut rencontrer une poignée d'incidents majeurs au cours d'un trimestre, contre des centaines (ou, dans certains cas, des milliers) d'incidents normaux chaque jour. Un incident normal n'affecte généralement que quelques utilisateurs et les accords de niveau de service (SLA) de réponse et de résolution sont souvent prolongés afin de maintenir les coûts opérationnels à un niveau bas. Pour les incidents majeurs, le coût de l'impact dépasse largement le coût de la résolution et les facteurs clés de succès sont le temps de réponse et la qualité de la réponse au problème.

Compétences et qui est impliqué

Le personnel du service d'assistance ayant une formation et des compétences techniques limitées est souvent celui qui doit s'occuper des fonctions quotidiennes de gestion des incidents - ce qui signifie que la plupart des incidents sont de nature routinière et répétitive et peuvent être résolus efficacement par des diagnostics de base, des arbres de décision/de connaissance binaires et des réponses écrites. Les problèmes plus difficiles sont acheminés vers des équipes d'escalade de deuxième et troisième niveau disposant d'une expertise technique, mais l'objectif est toujours d'utiliser les ressources les moins techniques (et les moins chères) disponibles pour résoudre l'incident. Les incidents majeurs nécessitent une approche différente en matière de ressources. Le temps est un facteur essentiel ; l'objectif est donc d'utiliser les ressources humaines qui peuvent résoudre l'incident le plus rapidement possible et éviter ainsi une période prolongée d'impact sur l'activité. Ces ressources sont généralement des experts en la matière hautement qualifiés (et très bien payés), dotés d'une grande expérience et de compétences techniques approfondies en matière de dépannage.

Processus

Ces dernières années, la tendance a été de faire évoluer les processus de gestion des incidents vers le libre-service, l'automatisation et l'engagement asynchrone avec le personnel d'assistance (c'est-à-dire les interactions par e-mail avec le personnel des centres d'appels internationaux). Cette " approche de déviation " est conçue pour optimiser le processus de gestion des incidents pour l'évolutivité et réduire l'interaction humaine, mais elle se fait au détriment d'un temps accru pour résoudre les incidents plus complexes. Les processus relatifs aux incidents majeurs doivent être optimisés de manière presque exactement inverse, l'efficacité de la solution et le temps de résolution étant les éléments les plus critiques et les considérations relatives au coût des ressources et à l'automatisation étant reléguées au second plan. La façon dont ces processus doivent être optimisés fait qu'il est très difficile de considérer l'un comme un sous-ensemble de l'autre. En plus de la confusion des processus, les conflits de ressources et les priorités différentes peuvent entraîner une sous-performance des deux processus.

Pour qu'un processus de gestion des incidents majeurs soit efficace, les organisations doivent considérer 3 étapes majeures qui doivent être gérées au cours de cycles courts et itératifs, au fur et à mesure que de nouvelles informations sont disponibles : le triage, le diagnostic et la prise de décision. Le triage permet d'évaluer l'impact et de rassembler toutes les données disponibles afin de spécifier le problème et de comprendre quelles sont les ressources nécessaires à sa résolution (avant de sauter sur un pont téléphonique avec 50 autres personnes !) Le diagnostic est essentiel pour analyser les symptômes (et les causes possibles, si nécessaire) ainsi que pour combler les lacunes d'information afin de déterminer les actions de restauration les plus efficaces. Enfin, la prise de décision consiste à comprendre et à évaluer les options tout en gardant les risques constamment visibles et, bien sûr, à les exécuter efficacement.

Communications

Les communications relatives à la gestion des incidents se limitent généralement à une interaction directe entre l'utilisateur qui signale le problème et la personne ou l'équipe qui travaille à sa résolution. L'escalade et, par conséquent, la sensibilisation de la direction à l'incident sont considérées comme un "échec" ou une exception au processus initial et ajoutent des coûts inutiles à l'entreprise.

Les incidents majeurs sont différents en ce sens que des communications actives et étendues avec les parties prenantes sont non seulement utiles pour évaluer avec précision l'impact, mais elles permettent également de gérer les attentes et d'insuffler aux parties prenantes la confiance que l'incident est sous contrôle. Lors de nombreux incidents majeurs, les perceptions créées par les communications avec les parties prenantes jouent un rôle plus important dans la détermination de l'impact global que le problème technique et les symptômes associés. Une communication efficace en cas d'incident majeur doit cibler 4 groupes distincts de parties prenantes.

  1. La communauté d'utilisateurs dont les activités sont directement affectées par l'incident.
  2. Les parties prenantes indirectement ou potentiellement touchées dont la confiance est susceptible d'être affectée par la gestion de l'incident.
  3. Les équipes internes et les PME qui peuvent avoir besoin de participer au diagnostic et à la résolution des incidents (cela peut également inclure les représentants des fournisseurs).
  4. Support et gestion informatique

Gestion des perceptions

Les incidents majeurs suscitent souvent des réactions émotionnelles et des dynamiques de foule qui peuvent inclure une variété de facteurs d'influence alors que les incidents normaux n'impliquent généralement qu'un ou quelques utilisateurs dont les perceptions sont typiquement liées directement à l'incident lui-même. Lors d'un incident majeur, non seulement l'impact entraîne une propagation rapide de l'information par le bouche à oreille, mais il n'est pas rare que des employés désœuvrés introduisent dans le mélange de communication des spéculations, des déductions, des interprétations non informées des événements, des préjugés et des commentaires secondaires sur la façon dont l'incident est géré.

Le contrôle du flux des communications et la gestion des perceptions sont essentiels à la gestion des incidents majeurs. Si les messages officiels de l'équipe de gestion des incidents majeurs ne sont pas clairs, opportuns et fournissent les informations que les parties prenantes attendent, il y a un risque que la désinformation prenne le dessus sur les messages officiels, ce qui entraînera une plus grande confusion et une expérience négative pour le client.

Participation de l'exécutif et prise de décision

Outre l'impact global sur la technique et les performances, les incidents majeurs et les activités requises pour les résoudre dépassent souvent les limites des fonctions commerciales, ce qui entraîne des problèmes d'autorité décisionnelle. Les incidents majeurs requièrent presque toujours une certaine forme d'implication de la direction pour aider à l'analyse de l'impact, à la communication et à la prise de décisions clés nécessaires pour lever les obstacles, afin que les problèmes puissent être résolus. Il s'agit d'un environnement à enjeux élevés, où la direction doit évaluer les résultats attendus de certaines actions par rapport à leurs risques. Cela nécessite non seulement une appropriation claire, mais aussi des données claires et accessibles sur ce que l'on sait et ce que l'on ignore de l'incident en cours. Un processus de gestion des incidents majeurs doit inclure des lignes directrices interfonctionnelles et décisionnelles afin d'éviter les retards et la confusion lors d'un incident majeur actif.

Il peut être difficile d'atténuer les symptômes, mais il peut être encore plus difficile de s'attaquer aux causes.

Les défis de la gestion des incidents majeurs ne s'arrêtent pas lorsque le service est rétabli. Comme pour les processus normaux de gestion des incidents, l'objectif principal lors d'un incident majeur "réel" est d'atténuer l'impact et de prendre des mesures correctives pour que l'entreprise retrouve un fonctionnement normal. La compréhension de la cause profonde et la mise en œuvre d'actions pour éviter que le problème ne se reproduise relèvent des processus de gestion des problèmes. Compte tenu de l'impact commercial accru d'un incident majeur, il est courant que les dirigeants assurent un suivi actif pour garantir que la cause profonde est identifiée et que des actions préventives sont mises en œuvre en temps utile.

Dans de nombreux cas, les attentes des dirigeants en matière de gestion des problèmes sont irréalistes, ce qui pose un double problème.

  1. Dépasser les symptômes de l'incident et identifier les véritables causes profondes. Dans la confusion de la gestion de l'incident majeur actif, les informations de diagnostic critiques sont souvent perdues ou détruites, ce qui empêche l'identification des causes profondes.
  2. Obtenir le soutien et l'établissement de priorités pour les actions préventives et la mise en œuvre des correctifs une fois que l'entreprise a retrouvé un fonctionnement normal. Pendant que l'entreprise est activement touchée, il y a souvent une attitude de "faire tout ce qui doit être fait" qui disparaît rapidement une fois le service rétabli.

Pour éviter ces deux écueils, il est nécessaire de mettre en place un processus de gestion des incidents et des problèmes hautement intégré et majeur, dans lequel les "informations sur les causes" critiques sont activement sécurisées et documentées et où l'amélioration du service se poursuit. Ce n'est qu'à cette condition qu'une véritable stabilité informatique pourra être atteinte sur une longue période.

Conformité ou atténuation de l'impact

L'abus persistant des données et des technologies a amené les gouvernements et les organismes de réglementation du monde entier à imposer aux entreprises un large éventail d'exigences de conformité pour garantir la sécurité, la fidélité et la bonne gestion de certains types de technologies et de données. Pour maintenir et vérifier la conformité à ces réglementations, la plupart des entreprises ont mis en place une série de contrôles de processus et de systèmes afin de s'assurer que les actions des individus sont conformes aux obligations de l'entreprise.

Lors d'un incident majeur, ces contrôles peuvent devenir encombrants et empêcher un diagnostic et une résolution efficaces de la situation.

Lorsque cela se produit, les dirigeants de l'entreprise et le personnel de soutien sont souvent confrontés au choix suivant : "briser le verre en cas d'urgence" - contourner les mécanismes de contrôle et risquer la non-conformité réglementaire ou maintenir les mécanismes de contrôle et prolonger l'impact de l'incident.

C'est l'équivalent commercial du choix que doivent faire les médecins des salles d'urgence lorsqu'ils doivent sauver le patient ou un membre.

Selon la situation et la nature des contrôles contournés, cette décision peut avoir des conséquences réglementaires et avoir un impact sur les performances futures de l'entreprise. C'est l'équivalent pour l'entreprise du choix que doivent faire les médecins des salles d'urgence lorsqu'ils doivent sauver le patient ou un membre. Le processus de gestion des incidents majeurs d'une entreprise doit en tenir compte et fournir une politique et des processus d'exception clairement définis si l'on envisage de les contourner. Dans la plupart des cas, les organismes de réglementation accepteront des exceptions bien documentées comme un substitut suffisant aux mécanismes de contrôle normaux, il est donc essentiel de planifier à l'avance.

La plupart des incidents majeurs sont des situations temporaires et l'entreprise pourra (avec un peu de chance) reprendre ses activités normales, ce qui inclut les contrôles de conformité des processus et des systèmes. Outre l'impact immédiat du contournement des contrôles de conformité, les entreprises doivent prendre en compte les défis et les implications du rétablissement des mécanismes de contrôle après qu'ils aient été contournés pendant un certain temps. Une fois l'incident résolu, cela peut nécessiter un certain nombre d'activités de suivi qui risquent d'être coûteuses et de prendre du temps. Il est important d'en tenir compte au moment de prendre la décision de "briser la vitre".

N'attendez pas qu'il soit trop tard !

Les dirigeants d'entreprise ne peuvent pas contrôler le moment où les incidents majeurs se produiront, mais ils peuvent contrôler la manière dont l'entreprise gère les incidents majeurs et y répond. L'excellence globale du service, qui comprend un processus de gestion des incidents majeurs efficace et bien compris, est la clé pour répondre rapidement à l'incident, résoudre les impacts immédiats, préserver la réputation de l'entreprise et atténuer le risque opérationnel et le risque pour le client.

Le processus de gestion des incidents majeurs doit être distinct du processus de gestion des incidents quotidiens normaux et être optimisé pour une résolution rapide et efficace, en plus d'une communication réfléchie et opportune avec les parties prenantes. Pendant un incident actif, le personnel de soutien et les dirigeants doivent s'appuyer sur la gestion des incidents majeurs pour les aider à prendre le contrôle du processus de bout en bout et à guider leurs activités :

  • Comprendre l'incident et les symptômes
  • Atténuer l'impact et gérer les risques
  • S'assurer que les décisions sont visibles et fondées sur des données.
  • Évaluer les causes possibles (si nécessaire)
  • Gérer les perceptions et les attentes
  • Retour à la normale

La bonne gestion des incidents majeurs n'est peut-être pas aussi convaincante pour de nombreux responsables informatiques et de support que, par exemple, les nouvelles initiatives de changement, mais une mauvaise gestion peut certainement être désastreuse. En tant que leader dans le domaine de la résolution de problèmes, Kepner-Tregoe travaille depuis plus de 60 ans avec ses clients pour améliorer leurs capacités à gérer les incidents majeurs dans les opérations et l'informatique, et pour les aider à atteindre l'excellence en matière de service.

Auteur

Christoph Goldenstern

Vice-président de la stratégie et de l'excellence du service

Christoph est un leader du conseil avec plus de 20 ans d'expérience dans l'aide aux organisations dans les domaines de la stratégie, de l'amélioration des opérations et des services. En tant que membre de l'équipe de direction de KT et vice-président mondial de la stratégie et de l'excellence des services, il est responsable de la stratégie commerciale de KT ainsi que de ses solutions de gestion des services informatiques et de support technique.

Nous travaillons dur pour créer un contenu vraiment utile et unique. Nous vous remercions de votre intérêt !

Inscrivez-vous ou connectez-vous à votre compte pour lire l'intégralité de l'article.

Related

Connaissance des processus et connaissance du contenu. Laquelle est la plus importante ?

Déplacer vers la gauche ? Non, "Shift Down" pour le succès des services de soutien.

Nous contacter

Pour des demandes de renseignements, des détails ou une proposition !