再発する問題の監視。効果的なオペレーションのための重要な要素

長年にわたり、先進的なITオペレーションでは、繰り返し発生するインシデントに対して、根本的な原因を探り、実際に問題を引き起こした根本的な問題を恒久的に解決することで対処してきました。これにより、単にサービスを復旧させるのではなく、問題を恒久的に解決することで、サービスの可用性が向上しました。

多くの組織では、根本的な原因を見つけるために必要なレベルの分析を行うには多大な労力を必要とします。その結果、外部のお客様に見える問題や、ビジネスを停止させる可能性のある大きな問題だけに焦点が当てられてしまいます。もし、繰り返し起こる問題を、障害が発生する前に解決することができるとしたらどうでしょうか。構造化された問題分析技術と、イベント管理・監視の範囲を拡大することで、組織はインシデント防止をより効果的に行うことができます。

モニタリングの多くは、障害やパフォーマンスの低下を特定することに重点が置かれていますが、対処しなければインシデントにつながる可能性のある状態を予測し、それを恒久的に解決することで、実際にはインシデントの発生を未然に防ぐことができます。

モニタリングの共通点

組織のモニターには多くの共通点があります。

  • ネットワークや回線の状態(アップ/ダウン)、トラフィック
  • ロードバランサーの運用
  • サーバーおよび仮想サーバー機能
  • アプリケーション性能
  • セキュリティ侵害
  • データセンターの環境(温度、電気など)

イベント管理は、プロアクティブな問題管理と同様に、多くの情報を関連付けることができないために範囲が限定されていましたが、現在では多くのツールセットでデータ集約とオペレーショナル・インテリジェンス機能が利用できるようになっています。これにより、データを収集できるものであれば、ほぼすべてのものを監視することができます。そのメリットを考えてみましょう。

  • ネットワーク上のデータトラフィックの通常のパターンを集計し、人工知能を用いてこれらのパターンからの変動を検出し、サービス違反の可能性を特定すること。
  • サーバーのメモリ、ディスク、CPU使用率に対するアプリケーションの動作を追跡して正常な範囲を把握し、パフォーマンスに影響を与える前にコード変更による潜在的な影響を特定する能力を提供する。
  • ディスクやテーブルの使用状況を監視し、データベースのサイズが大きくなった場合に、影響が出る前に対処できるようにする(仮想環境では自動的に管理され、潜在的なインシデントの発生を防ぐことができる)。

ここでの目標は、センサーや監視ツールが提供できる限りの運用環境に関する情報を収集し、これに人工知能や運用知能のツールを組み合わせて、予想される結果の変動を特定することです。優れたイベント管理ツールを併用することで、これらを適切に分類することができます。

  • クリティカル:重要なシステムが停止していることを示す変動。
  • Major(メジャー):サービスの特徴や機能が失われた状態を指す。
  • 軽度:性能などの機能低下があるもの
  • 警告:劣化や障害は発生していないが、閾値に近づいている。すぐに介入すれば、運用上の事故を軽減できる可能性がある
  • 情報提供:通常の運用とは異なる現象が発生したが、懸念を抱くほど重大ではないこと。

一般的に、重大なアラートは、正式な(メジャーな)インシデント管理手順のトリガーとなり、広範囲または反復的な場合には、最終的には根本原因の分析と修復が行われます。これはリアクティブな問題管理であり、コストのかかる反復的なインシデントをなくすためには有効です。しかし、反復的なマイナー、警告、情報のアラートに対処することで、最初のインシデントが発生する前に原因を修正する機会を得ることができます。

多くの組織にとっての課題は、一度に複数の課題に対処する能力にあります。重要な問題にタイムリーに対処することに苦労している組織では、範囲を拡大することを考えるとかなり冷ややかな目で見られますが、今日の運用環境では、運用停止のコストを回避するためには、このレベルに到達することが重要です。

重要なのは、構造化された問題解決手法と、機械学習や人工知能を使って問題を記録・分類する機能を組み合わせることで、ITエンジニアがより迅速に、より良いデータを分析プロセスに流しながら問題解決に集中できるようにすることです。Kepner-Tregoeの技術と監視プログラムの拡張を組み合わせることで、組織はこれを達成することができます。

はじめに

これを達成するためには、反復的なプロセスが必要です。

ステップ1:第一に、運用組織は重大なインシデントにうまく対応できなければなりません。可能な限り、自動化された対応でサービスを復旧させる必要があります。これができない場合にのみ、適切なチームへの通知が必要となります。自動化された対応は、基本的なサービス問題をより迅速に復旧させるだけでなく、根本的な原因に対処し、より大きな問題を恒久的に解決するための時間を増やします(注:場合によっては、問題を軽減するための変更を行う自動化された対応が最初のステップであり、恒久的な解決はより長期的な目標であることもあります)。

Step 2: 重要な問題が「コントロール」された後は、マイナーなアラート、警告、情報提供などのデータを収集してパターンを確立する必要があります。ここでは、オペレーショナル・インテリジェンスやその他の自動分析ツールを使用することで、潜在的な繰り返し問題を特定することができます。すぐに対処する必要はないかもしれませんが、問題として記録し、分析し、インシデントにつながるのを防ぐために自動化された一時的なバンドエイドの両方で対処する必要があります。バンドエイドがうまくいかない場合は、適切なチームに通知し、問題に対処してもらう必要があります。 重大なインシデントが発生する前に.

ステップ3:最後の3つ目のステップは、応急処置を施した問題の恒久的な解決策を探すことです。これは、構造化された問題分析技術を用いて原因を究明し、財務的な観点から解決することに意味があるものを恒久的に解決することを意味します。すべてを解決する必要はありません。些細な問題に自動対応することでインシデントの発生を防ぐことができれば、自動化だけで十分です。

最終的には、この演習の価値は、現在利用可能なツールを使用して、監視およびイベント管理の範囲を拡大し、この拡大を利用してコストのかかるインシデントの発生を防ぐことにあります。このようなレベルの分析と対応は、組織の収益源を守るだけでなく、顧客対応業務の信頼性を高めることにもつながります。

Kepner-Tregoeについて

Kepner-Tregoe社は、60年以上にわたり、問題解決とサービス・エクセレンス・プロセスにおける業界のリーダーとして活躍してきました。KT社の専門家は、ツール、トレーニング、コンサルティングを通じて、企業のインシデントおよび問題管理のパフォーマンスレベルを向上させ、企業の最も重要な問題に対応できる効果的なサービスマネジメントチームを構築しています。

Kepner-Tregoe社がお客様の組織でどのようにこの設定を行うかについては、こちらをご覧ください。

ブログ画像1
インシデントとトラブル、表裏一体の関係
ブログ画像1
問題解決繰り返される不具合に対処する
ブログ画像1
"IT'S BACK":再発問題のジレンマ
ブログ画像1
プロアクティブな問題管理へのサポート組織の道筋を描く

私たちは以下の専門家です:

お問い合わせ

お問い合わせ、詳細、ご提案はこちらから