ITサポートに潜む潜在的なクロコダイル

スティーブ・ホワイト

ガゼルが夜眠れないのはなぜだろう?それは、川や水飲み場に潜むワニが警告なしに襲ってくるのではないかと考えるからかもしれません。賢いガゼルは、ワニの数が少ないことを祈り、群れの端に留まることを避けます。

群れの真ん中にいることは、生き延びるために重要なことです。ITサポートの現場では、新しいソフトウェアがリリースされると、この生存本能の影響を実感します。アーリーアダプターはそれをロードして遊びますが、それをすぐにコアビジネスツールとして使う人はほとんどいません。賢いガゼルは、水が試されるまで待つのです。賢いガゼルは、後れを取らないようについていくことも知っている。おろおろしているガゼルは、ベンダーがサポートを終了したミッションクリティカルなアプリケーションを使用しているため、リスクを抱えている。

警戒を怠ると、簡単に脆弱になり、群れから外れてしまいます。リリースされたばかりのテストされていないコードを本番機に搭載したり、テストされていないハードウェアを本番環境に導入したりすると、ワニが回り始めます。遅れをとるのは、システムを更新せず、異国のソリューションを使用する場合です。サポートが終了したソフトウェアやハードウェアは、「百利あって一利なし」です。さらに、ハードウェアとソフトウェアをシステム統合して一点ものにしたり、コアコードを変更して独自性を出したりすると、"群れ "の保護を受けられなくなります。脆弱性は、システムを能力以上に酷使するエキゾチックな負荷やプロファイル、あるいは特定のアプリケーションのためにソフトウェアやファームウェアのパラメータを極端に調整することで増大します。

図1は、このようなリスクを伴う行動が、IT組織をいかに脆弱にするかを示しています。いったん群れの端に立つと、そこに潜む潜在的なワニに簡単に襲われてしまいます。


図1. 群れから組織を切り離すリスキーな行動

残念ながら、標準的な構成とソフトウェアを使用し、最新の情報を入手し、パフォーマンスの許容範囲内に収めるという、群れの真ん中にいるだけでは、生き残りの保証にはなりません。 お腹を空かせたワニの数を減らすことが、生き残るための本当の鍵です。

私たちコンサルタントが目にする最悪のIT事故は、診断されていない問題と不十分に完了した変更に起因するものです。診断されていない問題を適切な方法でまとめることは、奇跡的なことであり、悪い方法では、壊滅的な失敗を引き起こします。

例えば、フォーチュン500社に名を連ねるあるグローバル企業では、他の企業と同様にITシステムを利用して、現行のハードウェアや人気のソフトウェアで受注、製造計画、配送スケジュール、請求書の発行を行っていますが、約3週間にわたり、何を製造し、出荷し、請求書を発行すべきかが分からなくなってしまいました。この事件は、PRの観点からうまく処理されたため、メディアには載らず、会社は引き続き繁栄しています。しかし、3週間の間、ワニがガゼルの真ん中にいて、協調性を欠いた行動をとり、中核となるITシステムをダウンさせてしまったのです。

害虫駆除、つまりワニの数を減らすことで、ワニが無心になってあなたを傷つけようとする機会を減らすことができます。では、ワニはどこに潜んでいるのでしょうか?彼らは、あなたの診断されていないIT問題のバックログの中で襲い掛かろうとしています。

診断されていないIT問題の数が多ければ多いほど、1つ、2つ、あるいは多数の問題が、無邪気な変化を伴って、何らかの興味深い方法で相互に作用する機会が増えます。 あなたのシステムをダウンさせる.IT問題の根本的な原因を見つけた組織は、問題が診断されていない組織よりも、数学的に見てITが安定する可能性が高くなります。両方の問題がある場合 潜伏 (あなたはそれらを知っています-どこかのキューに入っていたり、制御されていない大量の変更の中にあったり、貧弱なハウスキーピングの中に隠れていたりします)そして 潜在的 (今はまだ何の影響もない)が、やがて共謀して予想外のダメージを与える。

ケーススタディ。 問題がランダムに重なり、長期にわたるIT障害が発生することがあります。A社は競合他社を買収した後、製品ラインを統合する必要がありました。A社はサプライヤーと協力して、必要なハードウェアとソフトウェアを特定し、変更を実施するためのプロジェクト計画を作成しました。その時にはまだ知られていませんでしたが、診断されていない問題のバックログに深く埋もれていたのは、現在の生産システムに存在する4つの障害でしたが、いずれも問題を起こしていなかったため、サポートスタッフの頭にはありませんでした。それらは以下の通りである。

  • データベースのキュー処理に時間がかかる(6ヶ月前から発生)。
  • このシステムとは明らかに関係のない他のシステムで、共有データストレージデバイスへの論理的な入出力が遅い(数週間前にインフラの別の部分で記録されたもの)。
  • 数週間前に実施したデータストレージのファームウェアアップグレードが正しく適用されなかったこと。
  • データベース監視ツールの記録が止まることがあった(1年間継続)。

これらの問題は記録され、サプライヤーまたはスタッフによる対応を待っていました。

ソフトウェアのアップグレードと必要なハードウェアの導入が完了したとき、すべてがうまくいった。システムは生産を再開したが、期待されたパフォーマンスのオーバーヘッドを誰もチェックしなかった。これは、非常に大きなワニだった。

図3

システムへの負荷の増加は、1つ1つのステップを確実にコントロールするために、1つの工場ごとにスムーズに行われました。しかし、このプロセスを開始してから2週間後に ティッピングポイント 1日の仕事を処理するのに20時間かかっていたのが、1日60時間になってしまったのだ。その結果は急速かつ深刻だった。経営者たちは、このままではビジネスが立ち行かなくなると叫び始めた。工場をバッチジョブから切り離し、生産スケジュールを毎日から週1回に変更した。膨大な数のスタッフの英雄的な行動によって、ITシステムがなくてもビジネスを継続することができた。

以前の設定に戻すには、2週間分の請求書を犠牲にしなければならなかった。その結果、新しい設定で進めることが決定された。この過程で 潜在的に潜んでいるクロコダイルが発見されました。すべてのワニがすぐに悪意を持っていたわけではありません。データベース監視ツールが2週間前に停止していたため、その情報がなかったことで問題解決の努力が延長されました。潜んでいた潜在的なワニは、観察されずにそこにいて、一つの重大な出来事に結集するのを待っていたのです。

生き残るために

失敗から学ぶべき教訓があることは明らかです。IT業界では、戦略的な判断が求められています。しかし、診断されていない障害があなたに陰謀を企てる可能性を減らすことには、あまり熱心に取り組まれていません。あなたのITサポートのバックログには、未診断のケースがいくつありますか?それらを迅速かつ効果的に片付け、本当に解決が難しいものについては、暫定的な修正や是正措置を行う計画を立てているならば、すべては順調です。

多くのサポート組織では、大量の問題を滞留させたり、原因究明をせずにケースを終了させたりして、未来をワニで覆っているようなものです。

最初に大量のバックログを抱えたお客様との契約では、現状の分析を行い、予想される時間と費用の節約を計算し、レバレッジポイントを特定して、質の高い課題処理プロセスの構造的かつ管理の行き届いた導入を完了します。これにより、より効果的なワークプロセスと、モチベーションの高いエンジニアを備えた、より良いサポート組織が構築されます。さらに、今にも飛びかかろうとしている潜在的なワニの数も減ります。

ブログ画像1
サイバーセキュリティがインシデントマネジメントのあり方を変える
ブログ画像1
大規模インシデント管理 - 変更が大失敗したときに備えるために
ブログ画像1
重大インシデント対応。大規模インシデント対応の計画に待ったをかけるな
ブログ画像1
最高のITインシデントマネジメントチームを結成するために

私たちは以下の専門家です:

お問い合わせ

お問い合わせ、詳細、ご提案はこちらから