Si un arbre tombe dans les bois et que personne n'est là pour l'entendre, fait-il du bruit ? Des incidents majeurs et des pannes technologiques se produisent tous les jours, mais peu d'entre eux font la une des journaux ou provoquent le mécontentement des clients. Ce n'est pas parce que les clients sont insensibles aux problèmes technologiques ou ont de faibles attentes, ni parce que les incidents qui se produisent ne sont pas des problèmes majeurs pour les entreprises. Si vous n'entendez pas parler de la plupart des incidents et pannes majeurs, c'est parce que les fournisseurs de services et les services informatiques des entreprises sont de plus en plus conscients de l'importance et de l'impact de la gestion de ces situations et prennent des mesures préventives pour les éviter. Voici quelques-unes des mesures que votre entreprise peut prendre pour éviter que vos pannes ne fassent la une des journaux :
Services de conception pour la résilience - Les problèmes techniques et les pannes de composants sont inévitables. Un service bien conçu pour la résilience comprend des capacités de redondance, de surveillance, de diagnostic et d'atténuation de l'impact pour permettre au service de rester disponible pour l'utilisateur final, même si un ou plusieurs composants venaient à tomber en panne. Les entreprises adoptent de plus en plus de nouvelles architectures et technologies dotées de capacités de résilience intégrées et analysent activement les systèmes existants pour évaluer la vulnérabilité et le risque.
Atténuer l'impact sur les utilisateurs - Même les services les mieux conçus ne sont pas parfaits et, comme ils dépendent des personnes et de la technologie, ils sont susceptibles de tomber en panne. Ce n'est pas parce qu'une panne ou un événement se produit que le service sera indisponible pour les utilisateurs. Dans de nombreux cas, les entreprises peuvent atténuer l'impact sur les utilisateurs par le biais de processus secondaires et de solutions de contournement, ce qui permet une disponibilité partielle du service lorsque des caractéristiques essentielles ou des fonctionnalités complètes fonctionnent à des niveaux de performance dégradés. Cette disponibilité partielle du service doit être évaluée et déclenchée via un processus rigoureux de gestion des incidents (majeurs) afin de garantir que les actions sont efficaces et ne créent pas d'incidents secondaires.
Gérer la visibilité externe - La durée et l'impact de l'interruption de service sont essentiels pour déterminer si les parties externes sont conscientes qu'une situation critique est en train de se produire. L'autre facteur important est la façon dont (et si) votre entreprise communique l'incident aux parties externes. Comme dans l'analogie de l'arbre, la plupart des parties externes ne seront pas au courant de l'interruption de service, à moins que quelqu'un ne leur en parle. Dans certaines situations, les exigences contractuelles imposent une notification. Des périodes d'interruption prolongées et/ou un impact significatif sur l'utilisateur final peuvent augmenter la probabilité que les parties externes prennent conscience de l'interruption. En cas de doute, il faut communiquer de manière proactive. Dans ces situations, les communications doivent se concentrer sur la fourniture de mises à jour claires, spécifiques et basées sur des données concernant les informations les plus critiques sur la situation, l'impact, la cause et la résolution, saisies au cours du processus de traitement de l'incident.
Rétablir les services d'abord - En raison de la variabilité normale (attendue) des performances de la technologie, les utilisateurs ne sont souvent pas conscients qu'une panne se produit. Il est important de faire la différence entre la résolution de la panne ou du problème et le rétablissement du service aux utilisateurs. Les utilisateurs ne connaissent que la disponibilité du service, et non l'état des composants sous-jacents. Si les services aux utilisateurs finaux sont rétablis rapidement, il se peut qu'ils ne se rendent jamais compte du problème. La résolution du problème sous-jacent suit souvent un calendrier distinct. L'individu doit donc savoir quand il se trouve en mode de gestion des incidents ou en mode de gestion des problèmes.
La plupart de ces actions sont facilitées par un processus efficace de gestion des incidents majeurs qui permet au personnel de l'entreprise d'être préparé, de faire preuve de conscience de la situation et d'être réactif et décisif lorsqu'un problème critique ou une panne survient. Les incidents majeurs doivent être traités différemment des incidents opérationnels quotidiens normaux en raison de leur impact sur les utilisateurs et du risque qu'ils représentent pour l'entreprise. Dans le cadre de votre programme global d'excellence des services, envisagez de revoir vos processus de gestion des incidents majeurs et des risques, en plus de la conception des services que vous fournissez. Avec une stratégie efficace et bien exécutée, vos pannes de service ne deviendront pas un sujet d'actualité et vos utilisateurs finaux seront heureux et productifs.
Kepner-Tregoe est le leader du secteur en matière de processus de résolution de problèmes et d'excellence du service pour les opérations et l'informatique. Avec plus de 60 ans d'expérience de travail avec des organisations de tous les secteurs et de toutes les régions du monde, les experts de KT comprennent ce qu'il faut faire pour que vos processus passent de l'efficacité à la haute performance.