Planning sleutel in systeemuitval NYSE: 10 essentiële onderdelen voor uw draaiboek voor incidentbeheer

Onlangs hebben belangrijke kritieke knooppunten, waaronder de NYSE en United Airlines, te maken gehad met grootschalige en nationaal gemelde systeemstoringen. De verwarring, de frustratie en het geldverlies als gevolg van deze storingen zijn nog niet berekend, maar ik kan alleen maar raden dat ze astronomisch zullen zijn en nog lang in het geheugen van de mensen zullen blijven hangen.

Volgens persberichten was de uitval van vier uur bij de NYSE blijkbaar te wijten aan een software-upgrade. Hoewel de upgrade gepland was tijdens een onderhoudsvenster buiten de openingsuren, begon het een ravage te veroorzaken toen handelaars de volgende ochtend om 7 uur inlogden om hun gewone activiteiten te hervatten en ontdekten dat ze problemen hadden om verbinding te maken. Het is op het moment van dit schrijven onbekend wanneer de upgrade voltooid was, maar het is aannemelijk dat met wat extra planning dit voorkomen had kunnen worden.

Hoewel het een beetje 20/20 hindsight is om een gebrek aan planning of het niet toepassen van preventief en contingent denken aan te wijzen als de oorzaak van dit probleem, zou ik in plaats daarvan de aanpak van het incident na het voorval willen onderzoeken.

De moeilijkheid met incident management is dat het live is en sterke facilitatievaardigheden en intense sturing vereist. Daar komt nog bij dat iedereen zicht heeft, en er waren zeker meer dan 100 mensen op een conferentiegesprek, velen gewoon smekend om een snelle actie te ondernemen om een late opening van de uitwisseling te redden. Tijdens deze vuurgevecht, is het heel gemakkelijk voor een would-be leider om de gemakkelijkste potentiële actie te nemen die ze voorgeschoteld krijgen. In het geval van de NYSE creëerden de initiële acties die men dacht te ondernemen om de diensten te herstellen slechts een toestand die bekend staat als een secundaire uitval, waarbij het probleem alleen maar verergerde door pogingen om het beter te maken.

De echte overwinning in deze situatie is dat de planning die vooraf was gemaakt - wat zou moeten gebeuren wanneer de zaken goed lopen - in werking is getreden en het mogelijk heeft gemaakt dat de handel later diezelfde dag kon worden hervat. Orders werden volgens plan correct opgeschort en geannuleerd en een datacenter in Mahwah, N.J. kwam online om de handel te hervatten. Het probleem was diezelfde dag om 15.10 uur opgelost.

Wanneer wij met onze klanten werken die uitdagingen hebben op het gebied van incident management, benaderen wij deze incidenten met een combinatie van het ontwikkelen van vaardigheden, coaching, het integreren van hulpmiddelen en een gerichte cultuurverandering. Een sterk incident management team moet rollen en verantwoordelijkheden ruim van tevoren hebben gedefinieerd, en net als een gevechtspiloot of reddingshelikopter bemanning, gebruik maken van een reeks checklists en een algemeen 'draaiboek' om teams te helpen kalm te blijven, en goed te functioneren onder druk.

Een draaiboek moet op zijn minst het volgende helpen definiëren:

1. Methoden om de degradatie van diensten te begrijpen en te valideren.

2. Systematische methoden om symptomen en door gebruikers gemelde fouten op te helderen en te begrijpen, zodat de juiste mensen erbij kunnen worden betrokken.

3. Hulpmiddelen om de betrokkenheid te helpen beheren, met inbegrip van huidige oproepnummers, back-ups en vertegenwoordigers van verkopers.

4. Gestandaardiseerde instrumenten en locaties voor informatie over conferentiegesprekken, war rooms, gebruik van dashboards of live-instrumenten.

5. Methoden om snel en accuraat de prioriteit te bepalen, met inbegrip van inzicht in de huidige impact, de toekomstige impact en het tijdsbestek.

6. Een besluitvormingsmethodologie en doelstellingen per aanvraag die vooraf zijn uitgewerkt.

7. Een kader voor risicobeheer dat wordt gebruikt om nauwkeurige en bruikbare documentatie voor te leggen aan het veranderingsbeheer en aan de fix agents.

8. Een plan om te valideren dat de systemen zijn hersteld en te verifiëren dat er geen secundaire uitval is ontstaan.

9. Overdrachtsvereisten om documentatie bij te werken en het incident over te dragen aan probleembeheer.

10. Kader om projecten ter voorkoming van toekomstige incidenten op te zetten en uit te voeren.

Bij KT leert de ervaring ons dat het preventief opzetten van dit kader en deze draaiboekachtige structuur leidt tot snellere resultaten en tot meer zelfverzekerde en mondige teams, met name op het juniorniveau. Het is verbazingwekkend wat een gestructureerd plan kan doen wanneer uw organisatie onder vuur ligt, en u moet vertrouwen op uw Incident Management team om onder druk te kunnen denken.

Blog afbeelding 1
Supply chain management draait om samenwerking en teamwork
Blog afbeelding 1
Hoe cloud-diensten de efficiëntie van de toeleveringsketen bevorderen
Blog afbeelding 1
Loskomen - Makkelijker gezegd dan gedaan
Blog afbeelding 1
Plannen wanneer de toekomst wazig is. Drie acties om onzekerheid te managen

Neem contact met ons op

Voor vragen, details, of een voorstel!