重大インシデント対応。大規模インシデント対応の計画に待ったをかけるな

現在進行中のパンデミックは、何か大きな問題が起こったときに備えておくことの重要性を再認識させてくれます。Covid-19の脅威が明らかになったとき、サプライチェーンの混乱、PPEの在庫や機器の不足、相反する医療政策が、最適な明快さとスピードで対応する能力を妨げました。

ITダウンタイムのコストは膨大なものになる

大規模なインシデントや高熱のインシデントとは、大規模かつ重大な影響を与えるものです。ITシステムへの依存度が高い組織では、このようなインシデントが頻繁に起こることはありませんが、発生した場合には、迅速かつ計画的な対応が重要となります。ITダウンタイムのコストは膨大なものになります。推定コストは、小企業では1分あたり$427、中堅・大企業では1分あたり$9,000となっています。E コマース大手のアマゾンでは、数年前にダウンタイムのコストを以下のように見積もっていました。 $220,000/分。

日常的なインシデント管理プロセスは、比較的影響の少ない大量のITインシデントやサービスリクエストに対処するのに効果的です。インシデント管理プロセスは、セルフサービス、自動化、サポートスタッフとの非同期のやり取り(グローバルコールセンターと電子メールのやり取りなど)に移行する傾向にあります。限られたトレーニングと技術的なスキルを持つサービスデスクの担当者は、基本的な診断、二値化されたディシジョンツリーやナレッジツリー、スクリプト化された応答によって、日常的なインシデント管理機能に対応することができます。より困難な問題は、技術的な専門知識を持つ第2、第3階層のエスカレーションチームに回されますが、その目的は、インシデントを解決するために利用可能な最小限の技術的かつ安価なリソースを適用することにあります。

大規模なインシデントは、日々の小規模なインシデントとは異なり、別のアプローチが必要となります。通常のインシデントでは、数人のユーザーにしか影響を与えません。大規模インシデントの場合は、影響のコストが解決のコストをはるかに上回ります。成功の鍵となるのは、対応時間と対応の質です。時間は非常に重要であるため、ビジネスへの影響を最小限に抑えるために、インシデントを最も早く解決できる人材を適用することが目標となります。このような人材は一般的に、高度な訓練を受け、高い報酬を得ている、豊富な経験と深い技術的トラブルシューティングのスキルを持つ対象分野の専門家です。目標は、迅速に対応し、当面の影響を解決し、組織の評判を維持し、業務上および顧客のリスクを軽減することです。

認識の管理が重要

活発なインシデントが発生している間、サポートスタッフやエグゼクティブは、エンド・ツー・エンドのプロセスをコントロールし、活動を導くために、主要なインシデント管理リソースに頼らなければなりません。

  • 事件と症状の理解
  • 影響の緩和とリスクの管理
  • 意思決定が可視化され、データに基づいて行われるようにする
  • 考えられる原因の評価(必要に応じて)
  • 認識と期待の管理
  • 正常な状態に戻ること

大規模インシデントの管理に失敗すると悲惨なことになります。大規模インシデントの管理には、コミュニケーションの流れをコントロールし、認識を管理することが重要です。大規模インシデント管理チームからの公式メッセージが明確かつタイムリーでなければ、誤った情報が公式メッセージを上回ってしまい、結果的に混乱が拡大し、お客様にネガティブな体験をさせてしまう可能性があります。

全体的な技術やパフォーマンスへの影響に加えて、大規模インシデントの活動はビジネス機能の境界を越えて行われることが多く、意思決定の権限問題が発生します。このような状況では、経営陣は、ある行動によって期待される結果とそのリスクを比較検討しなければなりません。そのためには、何が分かっているかだけでなく、何が分かっていないかについても、明確でアクセス可能なデータが必要です。大規模インシデント管理プロセスには、活発な大規模インシデントが発生している間の遅延や混乱を避けるために、部門横断的な意思決定のガイドラインが含まれている必要があります。

インシデントが解決しても、それで終わりではない

大規模インシデント管理の課題は、サービスが復旧しても終わりではありません。通常のインシデント管理プロセスと同様に、「ライブ」の大規模インシデント時の主な目的は、影響を軽減し、是正措置を講じてビジネスを通常のオペレーションに戻すことです。ここで問題管理が必要となり、根本原因を完全に理解する必要があります。根本原因を特定し、問題の再発を防ぐためのアクションを実行することは、困難を伴います。 大規模なインシデントが発生した際には、重要な診断情報が失われたり、破壊されたりして、根本原因の特定が困難になることがあります。真のIT安定性を実現するためには、重要な「原因情報」を確保して文書化し、サービスの改善を確実に継続するための、統合された大規模インシデントおよび問題管理プロセスが必要です。

ITダウンタイムのコストと脅威は膨大なものになります。大規模インシデント対応への投資は、ITの安定性と継続的なビジネスの成功を維持するために不可欠です。

Kepner-Tregoeについて

ソフトウェアやテンプレートが問題を解決するのではありません。人が問題を解決するのです。

どのような人たちですか?好奇心旺盛で、優れた質問をし、事実に基づいて判断し、リーダーとしての権限を与えられている人。プレッシャーの中でも集中力を失わず、自信を持ってやるべきことをやる。このような問題解決型のリーダーは、お客様やKepner-Tregoeの中で見つけることができます。Kepner-Tregoeは60年以上にわたり、何千もの企業に何百万もの問題を解決する力を与えてきました。メーカーの数百万ドルのコスト削減、証券取引所のITサービスの復旧、そしてアポロ13号の宇宙からの帰還を支援することができれば、お客様のビジネスを成功に導くことができます。

ブログ画像1
大規模インシデント管理 - 変更が大失敗したときに備えるために
ブログ画像1
NYSEのシステム停止は計画が重要:インシデントマネジメントのプレイブックに必要な10の要素
ブログ画像1
インシデントマネジメントにおけるKTプロセスの活用
ブログ画像1
インシデント&プロブレムマネジメントのスーパースターになるには

私たちは以下の専門家です:

お問い合わせ

お問い合わせ、詳細、ご提案はこちらから