Surveillance des problèmes récurrents : Un aspect essentiel de l'efficacité des opérations

Depuis des années, les services informatiques progressistes traitent les incidents répétitifs en recherchant leur cause profonde et en résolvant définitivement le problème sous-jacent qui en est à l'origine. Cela a permis d'améliorer la disponibilité du service en réglant définitivement les problèmes plutôt que de simplement rétablir le service.

Dans de nombreuses organisations, il faut déployer des efforts considérables pour effectuer le niveau d'analyse nécessaire à la recherche de la cause profonde, ce qui conduit à se concentrer uniquement sur les problèmes les plus importants : ceux qui sont visibles pour les clients externes ou qui pourraient mettre l'entreprise à genoux. Et s'il était possible de traiter les problèmes récurrents avant qu'ils ne provoquent une défaillance ? Des techniques structurées d'analyse des problèmes, combinées à une augmentation de la portée de la gestion et de la surveillance des événements, peuvent aider une organisation à être plus efficace dans la prévention des incidents.

La plupart des efforts de surveillance se concentrent sur l'identification des pannes et la dégradation des performances, alors que la prévision d'une condition qui pourrait conduire à un incident si elle n'est pas traitée et sa résolution permanente peuvent en fait empêcher l'incident de se produire en premier lieu.

Pratiques de surveillance communes

Les organisations surveillent de nombreuses zones communes :

  • État du réseau et des circuits (haut / bas) et trafic
  • Opérations de l'équilibreur de charge
  • Fonctionnalité des serveurs et des serveurs virtuels
  • Performances des applications
  • Violations de la sécurité
  • Environnement du centre de données (température, électricité, etc.)

Alors que la gestion des événements, comme la gestion proactive des problèmes, avait une portée limitée en raison de l'incapacité à corréler trop d'informations, des capacités d'agrégation de données et d'intelligence opérationnelle sont désormais disponibles dans de nombreux outils. Celles-ci permettent à une organisation de surveiller pratiquement tout ce qui fournit des données pouvant être collectées. Considérez les avantages de :

  • Agrégation de schémas normaux de trafic de données sur un réseau, de sorte qu'une variation par rapport à ces schémas peut être détectée par l'utilisation de l'intelligence artificielle, identifiant ainsi une violation potentielle du service.
  • Suivi du comportement de l'application par rapport à l'utilisation de la mémoire du serveur, du disque et du CPU pour comprendre les plages normales, ce qui permet d'identifier un impact potentiel dû à un changement de code avant qu'il n'affecte les performances.
  • Surveillance de l'utilisation de l'espace disque et de l'espace de table afin que l'augmentation de la taille de la base de données puisse être traitée avant qu'un impact ne se fasse sentir (dans un environnement virtuel, cela peut être géré automatiquement, empêchant ainsi tout incident potentiel de se produire).

L'objectif ici est de collecter autant d'informations sur l'environnement opérationnel que les capteurs et les outils de surveillance peuvent fournir, puis de les combiner avec l'utilisation d'outils d'intelligence artificielle et opérationnelle pour identifier les variations des résultats attendus. En conjonction avec un bon outil de gestion des événements, ceux-ci peuvent alors être classés de manière appropriée :

  • Critique : la variation indique une panne d'un système critique.
  • Majeur : la variation indique la perte d'une caractéristique/fonction d'un service.
  • Mineure : il y a une dégradation des performances ou une autre dégradation de la fonctionnalité.
  • Avertissement : aucune dégradation ou panne ne s'est produite, mais un seuil est en train de se rapprocher. Une intervention immédiate pourrait atténuer un incident opérationnel
  • Informatif : une variation par rapport au fonctionnement normal s'est produite, mais elle n'est pas encore assez critique pour susciter une inquiétude.

En général, les alertes critiques et majeures déclenchent des procédures formelles de gestion des incidents (majeurs) et, en fin de compte, une analyse des causes profondes et une réparation si elles sont étendues ou répétitives. Il s'agit d'une gestion réactive des problèmes qui fonctionne bien pour éliminer les incidents coûteux et répétitifs. Toutefois, le traitement des alertes mineures, d'avertissement et d'information répétitives permet de corriger la cause avant que le premier incident ne se produise.

Le défi pour de nombreuses organisations réside dans la capacité à traiter plusieurs problèmes à la fois. Lorsqu'une organisation s'efforce de traiter les problèmes critiques et majeurs en temps voulu, l'idée d'élargir le champ d'action est accueillie avec beaucoup de cynisme. Pourtant, dans les environnements opérationnels actuels, il est essentiel d'atteindre ce niveau afin de réduire le coût des interruptions de fonctionnement.

La clé est de combiner des techniques structurées de résolution de problèmes avec la capacité d'utiliser l'apprentissage automatique et l'intelligence artificielle pour enregistrer et classer les problèmes afin que les ingénieurs informatiques puissent concentrer leurs efforts de résolution de problèmes plus rapidement et avec de meilleures données dans le processus d'analyse. Les techniques Kepner-Tregoe, combinées à l'expansion du programme de surveillance, peuvent aider une organisation à atteindre cet objectif.

Pour commencer

La réalisation de cet objectif est un processus itératif.

Étape 1: Tout d'abord, une organisation opérationnelle doit être capable de réagir avec succès aux incidents critiques et majeurs. Dans la mesure du possible, des réponses automatisées doivent être disponibles pour rétablir le service. Ce n'est qu'en cas d'échec que la notification aux équipes appropriées doit devenir nécessaire. La réponse automatisée permet non seulement de rétablir plus rapidement les problèmes de service de base, mais aussi de disposer de plus de temps pour s'attaquer à la cause profonde et éliminer définitivement le problème le plus important (remarque : dans certains cas, une réponse automatisée qui apporte un changement qui atténue le problème est la première étape, et la résolution permanente peut être un objectif à plus long terme).

Étape 2 : Une fois que les problèmes critiques sont "maîtrisés", la collecte de données provenant d'alertes mineures, d'avertissements et d'alertes informatives doit être utilisée pour établir des modèles. C'est là que la capacité d'utiliser l'intelligence opérationnelle et d'autres outils d'analyse automatique peut aider à identifier les problèmes potentiels répétitifs. Même s'il n'est pas nécessaire de les traiter immédiatement, ils doivent être enregistrés comme des problèmes, analysés et traités à l'aide d'un pansement temporaire automatisé pour les empêcher de conduire à des incidents. Lorsque la solution de fortune ne fonctionne pas, les équipes appropriées doivent être informées afin de remédier à la situation. avant que des incidents significatifs ne se produisent.

Étape 3: La troisième et dernière étape consiste à rechercher la solution permanente aux problèmes auxquels on a appliqué des pansements. Il s'agit de déterminer la cause, d'utiliser des techniques structurées d'analyse des problèmes et de régler définitivement ceux qu'il est logique de résoudre d'un point de vue financier. Il n'est pas nécessaire de tout résoudre : si une réponse automatisée à un problème mineur empêche un incident de se produire, l'automatisation est tout ce qu'il faut.

En fin de compte, l'intérêt de cet exercice est d'utiliser les outils qui sont maintenant disponibles pour étendre la portée d'une pratique de surveillance et de gestion des événements, puis d'utiliser cette expansion pour empêcher des incidents coûteux de se produire. Ce niveau d'analyse et de réponse peut non seulement protéger le flux de revenus de l'organisation, mais aussi assurer la confiance dans les opérations de contact avec les clients.

À propos de Kepner-Tregoe

Depuis plus de 60 ans, Kepner-Tregoe est le leader du secteur en matière de processus de résolution de problèmes et d'excellence du service. Les experts de KT ont aidé les entreprises à améliorer leur niveau de performance en matière de gestion des incidents et des problèmes grâce à des outils, des formations et des conseils, ce qui a permis de mettre en place des équipes de gestion des services très efficaces, prêtes à répondre aux problèmes les plus critiques de votre entreprise.

Pour en savoir plus sur la façon dont Kepner-Tregoe peut mettre en place ce système dans votre organisation.

Image du blog 1
Incidents et problèmes - les deux faces d'une même médaille
Image du blog 1
Problème résolu ! S'attaquer à un défaut récurrent
Image du blog 1
"C'EST DE RETOUR" : Le dilemme du problème récurrent
Image du blog 1
Cartographier le chemin des organisations de support vers une gestion proactive des problèmes

Nous contacter

Pour des demandes de renseignements, des détails ou une proposition !