Beheer van grote incidenten: Wacht niet om uw reactie op een groot incident te plannen

De huidige pandemie herinnert ons eraan hoe belangrijk het is voorbereid te zijn als er iets groots misgaat. Toen de dreiging van Covid-19 duidelijk werd, belemmerden verstoringen in de toeleveringsketens, een gebrek aan PBM-voorraad en -uitrusting en tegenstrijdige beleidsmaatregelen op gezondheidsgebied het vermogen om met optimale duidelijkheid en snelheid te reageren.

De kosten van IT-uitval kunnen enorm zijn

Grote of zeer ernstige incidenten zijn incidenten met een grote en belangrijke impact. In organisaties die sterk afhankelijk zijn van IT-systemen, komen deze incidenten niet al te vaak voor, maar wanneer ze zich voordoen, is een snelle, geplande reactie van cruciaal belang. De kosten van IT-uitval kunnen enorm zijn. De geraamde kosten lopen uiteen van 1 TW2T427 per minuut voor kleine bedrijven tot 1 TW2T9.000/minuut voor middelgrote en grote bedrijven. Voor e-commercegigant Amazon werden de kosten van downtime een paar jaar geleden geschat op meer dan $220.000/minuut.

Dagelijkse incident management processen zijn meestal effectief in het aanpakken van het grote volume van relatief weinig impact IT-incidenten en service requests. De trend is dat incidentbeheerprocessen verschuiven naar selfservice, automatisering en asynchrone interactie met ondersteunend personeel (d.w.z. e-mailinteracties met wereldwijde callcenters). Servicedeskpersoneel met beperkte opleiding en technische vaardigheden kan de dagelijkse incidentbeheertaken uitvoeren door middel van basisdiagnoses, binaire beslissings-/kennisbomen en gescripte antwoorden. Moeilijkere problemen worden doorverwezen naar tweede- en derdelijns escalatieteams met technische expertise, maar het doel is nog steeds om de minst technische en goedkoopste beschikbare middelen in te zetten om het incident op te lossen.

Grote incidenten zijn anders dan hun kleinere, dagelijkse tegenhangers en vereisen een aparte aanpak. Een normaal incident treft meestal slechts een paar gebruikers. Bij grote incidenten zijn de kosten van de impact veel hoger dan de kosten van de oplossing. De belangrijkste succesfactoren zijn responstijd en kwaliteit van de respons. Tijd is van essentieel belang, dus het doel is om mensen in te zetten die het incident het snelst kunnen oplossen om de impact op het bedrijf zo klein mogelijk te houden. Deze mensen zijn doorgaans hoog opgeleide (en goed betaalde) experts met uitgebreide ervaring en diepgaande technische vaardigheden op het gebied van probleemoplossing. Het doel is om snel te reageren, de directe gevolgen op te lossen, de reputatie van de organisatie te beschermen en het operationele risico en het risico voor de klant te beperken.

Beheersing van percepties is van cruciaal belang

Tijdens een actief incident moeten ondersteunend personeel en leidinggevenden kunnen vertrouwen op middelen voor het beheer van grote incidenten om hen te helpen het end-to-end proces onder controle te krijgen en hun activiteiten erdoorheen te loodsen:

  • Inzicht in het incident en de symptomen
  • Beperking van de gevolgen en beheer van de risico's
  • Ervoor zorgen dat beslissingen zichtbaar zijn en op gegevens zijn gebaseerd
  • Beoordeling van mogelijke oorzaken (indien nodig)
  • Percepties en verwachtingen beheren
  • Terugkeren naar normaal

Een slecht beheer van grote incidenten kan rampzalig zijn. Het beheersen van de communicatiestroom en het managen van percepties zijn van cruciaal belang bij het beheer van grote incidenten. Als de officiële boodschappen van het managementteam voor grote incidenten niet duidelijk en tijdig zijn, bestaat het risico dat verkeerde informatie de officiële boodschappen overstemt, wat leidt tot nog meer verwarring en een negatieve klantervaring.

Naast de algemene technische gevolgen en de gevolgen voor de prestaties, strekken de activiteiten in verband met grote incidenten zich vaak uit over de grenzen van de bedrijfsfuncties, waardoor problemen met de beslissingsbevoegdheid ontstaan. Er staat veel op het spel in een omgeving waar het management de verwachte resultaten van bepaalde acties moet afwegen tegen de risico's ervan. Dit vereist niet alleen duidelijke, toegankelijke gegevens over wat bekend is, maar ook over wat niet bekend is. Een beheersproces voor grote incidenten moet functieoverschrijdende beslissingsrichtlijnen omvatten om vertragingen en verwarring te vermijden terwijl een groot incident actief is.

Stop niet zodra het incident onder controle is

De uitdagingen van het beheer van grote incidenten houden niet op wanneer de service is hersteld. Net als bij normale incidentbeheerprocessen is het primaire doel bij een "live" groot incident om de gevolgen te beperken en corrigerende maatregelen te nemen zodat het bedrijf weer normaal kan werken. Nu komt probleembeheer in beeld en moet de hoofdoorzaak volledig worden begrepen. Het identificeren van de hoofdoorzaak en het implementeren van acties om te voorkomen dat het probleem zich opnieuw voordoet, kan een hele uitdaging zijn. Temidden van de verwarring van het beheer van het actieve grote incident, gaat cruciale diagnostische informatie vaak verloren of wordt vernietigd, waardoor de identificatie van de hoofdoorzaak wordt belemmerd. Om echte IT-stabiliteit te bereiken, is een geïntegreerd proces voor het beheer van grote incidenten en problemen nodig om kritieke "oorzaakinformatie" veilig te stellen en te documenteren en ervoor te zorgen dat de dienstverlening blijft verbeteren.

De kosten en bedreigingen van IT-uitval kunnen enorm zijn. Een investering in de respons op grote incidenten is van cruciaal belang om de stabiliteit van de IT en het voortdurende succes van het bedrijf te handhaven.

Over Kepner-Tregoe

Software en sjablonen lossen geen problemen op. Mensen lossen problemen op!

Wat voor soort mensen? Mensen die nieuwsgierig zijn, goede vragen stellen, beslissingen nemen op basis van feiten, en bevoegd zijn om leiding te geven. Ze blijven geconcentreerd onder druk en handelen vol vertrouwen om te doen wat gedaan moet worden. U vindt deze probleemoplossende leiders zowel bij onze klanten als hier bij Kepner-Tregoe. Al meer dan 60 jaar heeft Kepner-Tregoe duizenden bedrijven in staat gesteld miljoenen problemen op te lossen. Als wij miljoenen kunnen besparen voor een fabrikant, de IT-dienstverlening voor een beurs kunnen herstellen en de Apollo 13 kunnen helpen terug te keren uit de ruimte, dan kunnen wij ook uw bedrijf helpen succesvol te zijn.

Blog afbeelding 1
Beheer van grote incidenten - Voorbereid zijn als een verandering vreselijk misgaat
Blog afbeelding 1
Planning sleutel in systeemuitval NYSE: 10 essentiële onderdelen voor uw draaiboek voor incidentbeheer
Blog afbeelding 1
KT-proces gebruiken voor incidentenbeheer
Blog afbeelding 1
Hoe word je een Incident & Problem Management Superster

Neem contact met ons op

Voor vragen, details, of een voorstel!