Planung ist der Schlüssel zu einem Systemausfall in NYSE: 10 wesentliche Komponenten für Ihr Incident Management Playbook

Kürzlich kam es bei wichtigen kritischen Betriebszentren wie der NYSE und United Airlines zu weitreichenden und landesweit gemeldeten Systemausfällen. Die Verwirrung, die Frustration und der monetäre Verlust dieser Ausfälle wurden noch nicht berechnet, aber ich kann nur vermuten, dass sie astronomisch sind und noch lange in den Köpfen der Menschen nachwirken werden.

Presseberichten zufolge war der vierstündige Ausfall bei der NYSE offenbar auf ein Software-Upgrade zurückzuführen. Obwohl das Upgrade während eines Wartungszeitfensters außerhalb der Geschäftszeiten geplant war, begann das Chaos, als sich die Händler am nächsten Morgen um 7 Uhr zur Wiederaufnahme ihrer regulären Aktivitäten anmeldeten und feststellten, dass sie Schwierigkeiten mit der Verbindung hatten. Zum Zeitpunkt der Erstellung dieses Artikels ist nicht bekannt, wann das Upgrade abgeschlossen war, aber es liegt nahe, dass dies mit etwas mehr Planung hätte vermieden werden können.

Es ist zwar ein bisschen wie im Nachhinein, wenn man mangelnde Planung oder das Versäumnis, präventives und kontingentes Denken anzuwenden, als Ursache für dieses Problem ausmacht, aber ich möchte stattdessen den Umgang mit dem Vorfall nach dem Vorfall untersuchen.

Die Schwierigkeit beim Management von Zwischenfällen besteht darin, dass es live stattfindet und starke Moderationsfähigkeiten und eine intensive Leitung erfordert. Erschwerend kommt hinzu, dass jeder den Überblick hat und sicherlich mehr als 100 Personen an einer Telefonkonferenz teilgenommen haben, von denen viele einfach nur darum bettelten, dass eine schnelle Maßnahme ergriffen wird, um eine verspätete Eröffnung des Austauschs zu verhindern. In diesem Feuergefecht ist es für eine Möchtegern-Führungspersönlichkeit sehr einfach, die einfachste mögliche Maßnahme zu ergreifen, die sich ihnen bietet. Im Fall der NYSE führten die anfänglichen Maßnahmen zur Wiederherstellung der Dienste nur zu einem Zustand, der als sekundärer Ausfall bekannt ist, bei dem sich das Problem durch die Versuche, es zu verbessern, nur verschlimmerte.

Der wahre Sieg in dieser Situation besteht darin, dass die vorherige Planung - die erfolgen sollte, wenn die Dinge reibungslos laufen - in Kraft trat und die Wiederaufnahme des Handels noch am selben Tag ermöglichte. Die Aufträge wurden korrekt und planmäßig ausgesetzt und storniert, und ein Rechenzentrum in Mahwah, N.J., nahm den Handel wieder auf. Das Problem war um 15:10 Uhr desselben Tages behoben.

Wenn wir mit unseren Kunden zusammenarbeiten, die Herausforderungen im Bereich des Notfallmanagements haben, gehen wir diese Vorfälle mit einer Kombination aus Kompetenzentwicklung, Coaching, Integration von Tools und gezieltem Kulturwandel an. Ein starkes Störfallmanagementteam sollte Rollen und Verantwortlichkeiten im Voraus festlegen und wie ein Kampfpilot oder eine Rettungshubschrauberbesatzung eine Reihe von Checklisten und ein allgemeines "Playbook" verwenden, um den Teams zu helfen, ruhig zu bleiben und unter Druck gut zu funktionieren.

Ein Playbook sollte zumindest dazu beitragen, die folgenden Punkte zu definieren:

1. Methoden zum Verständnis und zur Validierung der Verschlechterung von Dienstleistungen.

2. Systematische Methoden zur Klärung und zum Verständnis von Symptomen und vom Benutzer gemeldeten Fehlern, damit die richtigen Personen einbezogen werden können.

3. Tools für die Verwaltung der Beteiligung, einschließlich aktueller Rufnummern für Bereitschaftsdienste, Backups und Vertreter für die Einbindung von Lieferanten.

4. Standardisierte Tools und Standorte für Telefonkonferenzen, War Rooms, Nutzung von Dashboards oder Live-Tools.

5. Methoden zur schnellen und genauen Bestimmung von Prioritäten, einschließlich des Verständnisses der aktuellen Auswirkungen, der zukünftigen Auswirkungen und des Zeitrahmens.

6. Eine Entscheidungsmethodik und Ziele pro Antrag, die im Voraus entwickelt werden.

7. Ein Rahmen für das Risikomanagement, der dazu dient, dem Änderungsmanagement und den Fix Agents genaue und nützliche Unterlagen vorzulegen.

8. Ein Plan, wie überprüft werden kann, ob die Systeme wiederhergestellt wurden und ob es nicht zu einem zweiten Ausfall gekommen ist.

9. Übergabeanforderungen zur Aktualisierung der Dokumentation und Übergabe des Vorfalls an das Problemmanagement.

10. Rahmen für die Ausarbeitung und Durchführung von Projekten zur Vermeidung künftiger Vorfälle.

Die Erfahrung bei KT zeigt, dass die präventive Einrichtung dieses Rahmens und einer spielbuchartigen Struktur zu schnelleren Ergebnissen und zuversichtlicheren und leistungsfähigeren Teams führt, insbesondere auf der unteren Ebene. Es ist erstaunlich, was ein strukturierter Plan bewirken kann, wenn Ihre Organisation unter Beschuss steht und Sie sich darauf verlassen müssen, dass Ihr Incident Management Team unter Druck denkt.

Blog Bild 1
Beim Lieferkettenmanagement geht es um Zusammenarbeit und Teamwork
Blog Bild 1
Wie Cloud-Dienste die Effizienz der Lieferkette steigern
Blog Bild 1
Aus der Sackgasse herauskommen - Leichter gesagt als getan
Blog Bild 1
Planen, wenn die Zukunft ungewiss ist. Drei Maßnahmen zum Umgang mit Ungewissheit

Wir sind Experten in:

Kontaktiere uns

Für Anfragen, Details oder ein Angebot!