Hervorragende Dienstleistungen beim Management schwerer Unfälle

Die meisten modernen Unternehmen sind in einem solchen Ausmaß von Technologien abhängig, dass ein erhebliches Risiko besteht, dass technische Probleme zu IT-Stabilitätsproblemen führen, die wiederum die Funktionsfähigkeit einer Organisation in Frage stellen.

Die Gewährleistung einer schnellen und wirksamen Reaktion und ein gut durchdachtes Verfahren zur Bewältigung größerer Zwischenfälle sind der Schlüssel zur Minderung dieses Risikos.

Jede Woche wird in den Nachrichten über größere Vorfälle berichtet - Sicherheitsverletzungen durch Hacker, Systemausfälle und die Preisgabe von Kundendaten. Dies sind nur die, die Schlagzeilen machen - täglich ereignen sich unzählige weitere größere Vorfälle, die sich auf die internen Abläufe, die Rentabilität und den Waren- und Dienstleistungsverkehr von Unternehmen auswirken und die Unternehmensleiter von ihrer eigentlichen Aufgabe ablenken, die Agenda ihres Unternehmens voranzutreiben.

Die 2016 von Dimensional Research durchgeführte Umfrage unter mehr als 400 Geschäfts- und IT-Fachleuten ergab, dass 82% der Befragten angaben, dass Ausfallzeiten von Geschäftsanwendungen einen erheblichen Einfluss auf den Umsatz ihres Unternehmens haben. Die Risikobelastung und die Reaktion auf größere Vorfälle stehen für die meisten Führungskräfte ganz oben auf der Agenda, da sie sehen, wie ihre Kollegen mit Krisensituationen zu kämpfen haben - wohl wissend, dass ihre persönliche Karriere und die Zukunft des Unternehmens von ihrer Leistung während einiger Stunden oder Tage abhängen kann.

Die erfolgreiche Bewältigung eines größeren Vorfalls kann es einem Unternehmen ermöglichen, schnell zum normalen Betrieb zurückzukehren, den Ruf auf dem Markt zu wahren und die finanziellen Auswirkungen zu minimieren. Gut gemanagte Vorfälle können sogar die Möglichkeit zur kontinuierlichen Verbesserung bieten, indem sie tiefere Einblicke gewähren und einem Unternehmen helfen, seine Ziele schneller zu erreichen. Wird ein Vorfall nicht erfolgreich bewältigt, können die dauerhaften Auswirkungen zum Untergang des Unternehmens führen.

Die Auswirkungen schwerer Zwischenfälle

Die meisten Unternehmen verfügen über ausreichende Prozesse und Ressourcen, um in einem Krisenmodus für eine kurze Zeit (einige Stunden bis einige Tage) zu arbeiten. Nach diesem Zeitraum können Ermüdung des Personals, Rückstände bei der Bearbeitung von Problemen und der Verlust kritischer Kontrollmechanismen dazu führen, dass die Kundenzufriedenheit schnell sinkt, Probleme mit der Einhaltung von Vorschriften auftreten und die Abstimmung schwierig wird, was eine vollständige Wiederherstellung erschwert, kostspielig und zeitaufwändig macht (falls eine vollständige Wiederherstellung überhaupt möglich ist).

Über die unmittelbaren betrieblichen Auswirkungen hinaus kann die Bewältigung eines größeren Vorfalls die Kundenwahrnehmung und das langfristige Vertrauen in das Unternehmen und seine Produkte beeinträchtigen. Angesichts des sich ständig verschärfenden Wettbewerbs durch Aufständische und neue Geschäftsmodelle, schrumpfender Gewinnspannen und steigender Kosten für die Gewinnung neuer Kunden sind Kundenbindung und -zufriedenheit von entscheidender Bedeutung, um die Nachhaltigkeit der Einnahmen zu gewährleisten. Die Kunden wissen, dass Technologieprobleme auftreten - auch sie sind Technologiekonsumenten und -nutzer, die denselben Risiken ausgesetzt sind wie die Unternehmen.

Ähnlich wie bei unternehmensinternen Abläufen haben die meisten Kunden eine gewisse Toleranz gegenüber kurzfristigen Störungen bei der Interaktion mit Unternehmen und bei den Produkten und Dienstleistungen, die sie kaufen und nutzen. Längere Unterbrechungen, schlechte Kommunikation und das Versäumnis, den Service rechtzeitig wiederherzustellen, können jedoch die Toleranz und den guten Willen der Kunden erheblich beeinträchtigen - und so möglicherweise dauerhafte Schäden an den Beziehungen und den Möglichkeiten für zukünftige Geschäfte verursachen.

Sowohl die internen betrieblichen Auswirkungen als auch die Reputationsprobleme bei den Kunden werden schließlich die aktuelle und künftige finanzielle Leistung eines Unternehmens untergraben - wobei der Kollateralschaden umso größer wird, je länger der Vorfall andauert. Wiederkehrende Probleme verschlimmern zudem die Auswirkungen größerer Vorfälle - wenn es einmal passiert, ist es verzeihlich; wenn es wieder passiert, könnten Köpfe rollen. Führungskräfte sind sich dessen bewusst und verbringen immer mehr Zeit damit, die Risiken der Technologieabhängigkeit in ihrem Unternehmen zu verstehen, Strategien zur Risikominderung zu entwickeln und ihre Organisationen auf das wahrscheinliche Auftreten größerer geschäftsrelevanter Vorfälle vorzubereiten.

...wenn es einmal passiert, dann ist es verzeihlich; wenn es wieder passiert, dann könnten Köpfe rollen.

Incident Management vs. Major Incident Management - Warum Unternehmen einen unterschiedlichen und separaten Ansatz benötigen

Die meisten Unternehmen verfügen über Incident-Management-Prozesse zur Bewältigung alltäglicher kleiner bis mittlerer Störungen. Diese Prozesse basieren auf bewährten Kundenservice-Methoden und/oder auf Standardverfahren des IT-Service-Managements (wie z. B. ITIL). Incident-Management-Prozesse sind in der Regel effektiv bei der Bewältigung einer großen Anzahl von Vorfällen und Serviceanfragen mit relativ geringer Auswirkung, die ein Unternehmen im Zusammenhang mit seinen IT-Systemen hat. Größere Vorfälle unterscheiden sich jedoch von ihren kleineren, alltäglichen Gegenstücken und erfordern einen anderen und separaten Ansatz.

Auswirkungen und Häufigkeit

Große oder schwerwiegende Vorfälle (wie der Name schon sagt) sind solche, die große und erhebliche Auswirkungen auf das Unternehmen haben. Diese Vorfälle treten (hoffentlich) nicht sehr oft auf, aber wenn sie auftreten, können ganze Geschäftsbereiche betroffen sein. Ein typisches Fortune-500-Unternehmen hat im Laufe eines Quartals vielleicht eine Handvoll größerer Vorfälle zu verzeichnen, im Vergleich zu Hunderten (oder in manchen Fällen Tausenden) von normalen Vorfällen pro Tag. Ein normaler Vorfall betrifft in der Regel nur einige wenige Benutzer, wobei die Reaktions- und Lösungs-SLAs oft verlängert werden, um die Betriebskosten niedrig zu halten. Bei größeren Vorfällen überwiegen die Kosten der Auswirkungen bei weitem die Kosten der Lösung, und die wichtigsten Erfolgsfaktoren sind die Reaktionszeit und die Qualität der Reaktion auf das Problem.

Fertigkeiten und Beteiligte

Service-Desk-Mitarbeiter mit begrenzter Ausbildung und technischen Kenntnissen sind oft diejenigen, die sich um die täglichen Aufgaben des Vorfallsmanagements kümmern müssen - eine Anerkennung der Tatsache, dass die meisten Vorfälle routinemäßiger und sich wiederholender Natur sind und durch grundlegende Diagnosen, binäre Entscheidungs-/Wissensbäume und skriptgesteuerte Antworten effektiv gelöst werden können. Schwierigere Probleme werden an Eskalationsteams der zweiten und dritten Ebene weitergeleitet, die über technisches Fachwissen verfügen, aber das Ziel ist immer noch, die am wenigsten technischen (und kostengünstigsten) verfügbaren Ressourcen zur Lösung des Vorfalls einzusetzen. Größere Vorfälle erfordern einen anderen Ansatz bei den Ressourcen. Das Ziel besteht also darin, die Mitarbeiter einzusetzen, die den Vorfall am schnellsten beheben und so eine längere Beeinträchtigung des Geschäftsbetriebs vermeiden können. Bei diesen Ressourcen handelt es sich in der Regel um hochqualifizierte (und hochbezahlte) Fachexperten mit umfassender Erfahrung und fundierten technischen Kenntnissen zur Fehlerbehebung.

Prozesse

In den letzten Jahren ging der Trend bei den Incident-Management-Prozessen in Richtung Self-Service, Automatisierung und asynchrone Interaktion mit den Support-Mitarbeitern (d. h. E-Mail-Interaktionen mit Mitarbeitern in globalen Call-Centern). Dieser "Ablenkungsansatz" zielt darauf ab, den Incident-Management-Prozess im Hinblick auf Skalierbarkeit zu optimieren und die menschliche Interaktion zu reduzieren, was jedoch auf Kosten der Zeit geht, die für die Lösung komplexerer Incidents benötigt wird. Die Prozesse für größere Vorfälle müssen fast genau umgekehrt optimiert werden, wobei die Effektivität der Lösung und die Zeit bis zur Lösung im Vordergrund stehen und Überlegungen zu Ressourcenkosten und Automatisierung vernachlässigt werden. Die Art und Weise, wie diese Prozesse optimiert werden müssen, macht es sehr schwierig, den einen als Teilmenge des anderen zu betrachten. Neben der Verwirrung der Prozesse können Ressourcenkonflikte und unterschiedliche Prioritäten dazu führen, dass beide Prozesse unzureichend funktionieren.

Damit ein umfassender Incident-Management-Prozess effektiv ist, sollten Organisationen drei Hauptphasen berücksichtigen, die in kurzen, iterativen Zyklen verwaltet werden müssen, sobald neue Informationen verfügbar sind: Triage, Diagnose und Entscheidungsfindung. Die Triage hilft dabei, die Auswirkungen abzuschätzen und alle verfügbaren Daten zu sammeln, um das Problem zu spezifizieren und zu verstehen, welche Ressourcen für die Lösung erforderlich sind (bevor man sich mit 50 anderen Personen auf einen Brückenanruf einlässt!). Die Diagnose ist von entscheidender Bedeutung für die Analyse der Symptome (und ggf. der möglichen Ursachen) sowie für das Füllen der Informationslücken, um die wirksamsten Wiederherstellungsmaßnahmen zu bestimmen. Schließlich geht es bei der Entscheidungsfindung darum, die Optionen zu verstehen und zu bewerten und dabei die Risiken stets im Blick zu behalten und natürlich effektiv auszuführen.

Kommunikation

Die Kommunikation im Rahmen des Vorfallsmanagements ist in der Regel eng auf die direkte Interaktion zwischen dem Benutzer, der das Problem meldet, und der Person oder dem Team, das an der Lösung des Problems arbeitet, ausgerichtet. Eine Eskalation und damit die Benachrichtigung des Managements über den Vorfall wird als "Fehler" oder Ausnahme vom ursprünglichen Prozess angesehen und verursacht dem Unternehmen unnötige Kosten.

Großereignisse sind insofern anders, als eine aktive und umfassende Kommunikation mit den Interessengruppen nicht nur für eine genaue Bewertung der Auswirkungen hilfreich ist, sondern auch dazu beiträgt, die Erwartungen zu steuern und den Interessengruppen das Vertrauen zu vermitteln, dass der Vorfall unter Kontrolle ist. Bei vielen Großschadensereignissen spielt die durch die Kommunikation mit den Beteiligten erzeugte Wahrnehmung eine größere Rolle bei der Bestimmung der Gesamtauswirkungen als das technische Problem und die damit verbundenen Symptome. Eine wirksame Kommunikation bei Großereignissen muss sich an 4 verschiedene Stakeholder-Gruppen richten.

  1. Die betroffene Nutzergemeinschaft, deren Aktivitäten von dem Vorfall direkt betroffen sind
  2. Indirekt oder potenziell betroffene Interessengruppen, deren Vertrauen durch die Bewältigung des Vorfalls beeinträchtigt werden könnte
  3. Interne Teams und KMUs, die an der Diagnose und Lösung von Vorfällen beteiligt werden müssen (dies kann auch Vertreter von Anbietern umfassen)
  4. Unterstützung und IT-Management

Wahrnehmungsmanagement

Großereignisse rufen oft emotionale Reaktionen und eine Massendynamik hervor, die eine Vielzahl von Einflussfaktoren umfassen kann, während bei normalen Ereignissen in der Regel nur ein oder wenige Nutzer beteiligt sind, deren Wahrnehmungen in der Regel direkt mit dem Ereignis selbst verbunden sind. Bei Großereignissen führen die Auswirkungen nicht nur dazu, dass sich Informationen schnell durch Mundpropaganda verbreiten, sondern es ist auch nicht ungewöhnlich, dass untätige Mitarbeiter Spekulationen, Schlussfolgerungen, uninformierte Interpretationen von Ereignissen, Voreingenommenheit und Nebenbei-Kommentare zur Bewältigung des Ereignisses in den Kommunikationsmix einbringen.

Die Kontrolle des Kommunikationsflusses und die Steuerung der Wahrnehmung sind für das Management von Großereignissen entscheidend. Wenn die offiziellen Mitteilungen des Großschadensmanagement-Teams nicht klar und rechtzeitig sind und die von den Beteiligten erwarteten Informationen enthalten, besteht die Gefahr, dass Fehlinformationen die offiziellen Mitteilungen überlagern, was zu größerer Verwirrung und einer negativen Kundenerfahrung führt.

Einbindung der Exekutive und Entscheidungsfindung

Zusätzlich zu den allgemeinen technischen und leistungsbezogenen Auswirkungen erstrecken sich größere Vorfälle und die zu ihrer Behebung erforderlichen Aktivitäten oft über die Grenzen der Geschäftsbereiche hinaus, so dass sich Fragen der Entscheidungsbefugnis ergeben. Größere Vorfälle erfordern fast immer die Beteiligung einer Führungskraft, die bei der Analyse der Auswirkungen und der Kommunikation hilft und wichtige Entscheidungen trifft, um Hindernisse aus dem Weg zu räumen, damit die Probleme behoben werden können. In diesem Umfeld steht viel auf dem Spiel, und die Unternehmensleitung muss die erwarteten Ergebnisse bestimmter Maßnahmen gegen die Risiken abwägen. Dies erfordert nicht nur klare Zuständigkeiten, sondern auch klare, zugängliche Daten darüber, was über den aktuellen Vorfall bekannt ist und was nicht. Ein Prozess für das Management größerer Zwischenfälle sollte funktionsübergreifende Richtlinien für die Entscheidungsfindung enthalten, um Verzögerungen und Verwirrung zu vermeiden, während ein aktiver größerer Zwischenfall auftritt.

Die Linderung von Symptomen kann eine Herausforderung sein; die Bekämpfung der Ursachen kann noch schwieriger sein

Die Herausforderungen des Störungsmanagements enden nicht, wenn der Betrieb wiederhergestellt ist. Wie bei normalen Incident-Management-Prozessen besteht das Hauptziel während eines "Live"-Großvorfalls darin, die Auswirkungen zu mindern und Korrekturmaßnahmen zu ergreifen, um den normalen Geschäftsbetrieb wiederherzustellen. Das Verstehen der Grundursache und die Implementierung von Maßnahmen, die verhindern sollen, dass das Problem erneut auftritt, fallen in den Aufgabenbereich von Problemmanagementprozessen. Da ein größerer Zwischenfall eine größere Auswirkung auf das Geschäft hat, ist es üblich, dass Führungskräfte aktiv nachfassen, um sicherzustellen, dass die Grundursache identifiziert und Präventivmaßnahmen zeitnah umgesetzt werden.

In vielen Fällen sind die Erwartungen der Führungskräfte an das Problemmanagement unrealistisch, was zu einer zweifachen Herausforderung führt.

  1. Über die Symptome des Vorfalls hinausgehen und die wahre Ursache ermitteln. In dem Durcheinander, das bei der Bewältigung von Großereignissen herrscht, gehen oft wichtige diagnostische Informationen verloren oder werden zerstört, was die Ermittlung der eigentlichen Ursache erschwert.
  2. Sicherstellung der Unterstützung und Priorisierung von Präventivmaßnahmen und Implementierung von Korrekturen, sobald der Geschäftsbetrieb wieder normal läuft. Während das Geschäft aktiv beeinträchtigt ist, herrscht oft eine "Was auch immer getan werden muss"-Einstellung, die schnell verschwindet, sobald der Dienst wiederhergestellt ist.

Um diese beiden Fallstricke zu vermeiden, ist ein hoch integrierter, umfassender Incident- und Problem-Management-Prozess erforderlich, bei dem kritische "Ursacheninformationen" aktiv gesichert und dokumentiert werden und der Service kontinuierlich verbessert wird. Nur so kann echte IT-Stabilität über einen längeren Zeitraum hinweg erreicht werden.

Einhaltung der Vorschriften vs. Milderung der Auswirkungen

Der anhaltende Missbrauch von Daten und Technologien hat Regierungen und Aufsichtsbehörden auf der ganzen Welt dazu veranlasst, Unternehmen ein breites Spektrum an Compliance-Anforderungen aufzuerlegen, um die Sicherheit, Treue und ordnungsgemäße Verwaltung bestimmter Arten von Technologien und Daten zu gewährleisten. Um die Einhaltung dieser Vorschriften zu gewährleisten und zu überprüfen, haben die meisten Unternehmen eine Reihe von Prozess- und Systemkontrollen eingeführt, um sicherzustellen, dass die Handlungen der Mitarbeiter mit den Verpflichtungen des Unternehmens übereinstimmen.

Bei einem größeren Zwischenfall können diese Kontrollen schwerfällig werden und eine wirksame Diagnose und Lösung der Situation verhindern.

Wenn dies geschieht, stehen Unternehmensleiter und Support-Mitarbeiter oft vor der Wahl, "im Notfall das Glas zu zerbrechen" - die Kontrollmechanismen zu umgehen und die Nichteinhaltung von Vorschriften zu riskieren oder die Kontrollmechanismen beizubehalten und die Auswirkungen des Vorfalls zu verlängern.

Dies ist das geschäftliche Äquivalent zu der Entscheidung, die Ärzte in der Notaufnahme treffen müssen, wenn es darum geht, einen Patienten zu retten oder ein Körperteil zu retten.

Je nach Situation und Art der umgangenen Kontrollen kann diese Entscheidung rechtliche Konsequenzen haben und sich auf die künftige Leistung des Unternehmens auswirken. Dies ist das geschäftliche Äquivalent zu der Entscheidung, die Ärzte in der Notaufnahme treffen müssen, wenn es darum geht, einen Patienten zu retten oder ein Körperteil zu retten. Der Prozess zur Bewältigung größerer Zwischenfälle in einem Unternehmen muss dies berücksichtigen und klar definierte Richtlinien und Ausnahmeverfahren vorsehen, falls eine Umgehung in Betracht gezogen werden muss. In den meisten Fällen akzeptieren die Aufsichtsbehörden gut dokumentierte Ausnahmen als ausreichenden Ersatz für die normalen Kontrollmechanismen, daher ist eine vorausschauende Planung entscheidend.

Die meisten größeren Vorfälle sind vorübergehende Situationen, und ein Unternehmen wird (hoffentlich) in der Lage sein, zum normalen Betrieb zurückzukehren, zu dem auch Prozess- und Systemkontrollen zur Einhaltung der Vorschriften gehören. Neben den unmittelbaren Auswirkungen der Umgehung von Compliance-Kontrollen müssen Unternehmen auch die Herausforderungen und Auswirkungen der Wiederherstellung der Kontrollmechanismen berücksichtigen, nachdem diese für einige Zeit umgangen wurden. Nachdem der Vorfall behoben ist, kann dies eine Reihe von Folgeaktivitäten erfordern, die wahrscheinlich kostspielig und zeitaufwändig sind. Es ist wichtig, diese zu berücksichtigen, wenn man eine "break-the-glass"-Entscheidung trifft.

Warten Sie nicht, bis es zu spät ist!

Die Unternehmensleitung kann nicht kontrollieren, wann sich größere Zwischenfälle ereignen, aber sie kann kontrollieren, wie das Unternehmen mit größeren Zwischenfällen umgeht und wie es darauf reagiert. Ein exzellenter Gesamtservice, zu dem auch ein wirksamer und gut verstandener Prozess für das Management von Großereignissen gehört, ist der Schlüssel zu einer schnellen Reaktion auf den Vorfall, zur Behebung der unmittelbaren Auswirkungen, zur Wahrung des Rufs des Unternehmens und zur Minderung des Betriebs- und Kundenrisikos.

Der Prozess für Großereignisse sollte vom Prozess für das Management normaler Tagesereignisse getrennt sein und auf eine schnelle und effektive Lösung sowie eine durchdachte und rechtzeitige Kommunikation mit den Interessengruppen optimiert werden. Während eines aktiven Vorfalls sollten sich Support-Mitarbeiter und Führungskräfte auf das Management von Großvorfällen verlassen, um die Kontrolle über den End-to-End-Prozess zu übernehmen und ihre Aktivitäten zu steuern:

  • Verstehen des Vorfalls und der Symptome
  • Abmilderung der Auswirkungen und Risikomanagement
  • Sicherstellen, dass Entscheidungen sichtbar und datengestützt sind
  • Bewertung der möglichen Ursachen (falls erforderlich)
  • Umgang mit Wahrnehmungen und Erwartungen
  • Rückkehr zur Normalität

Ein gutes Management von Großereignissen mag für viele IT- und Support-Führungskräfte nicht so attraktiv sein wie z. B. neue Änderungsinitiativen, aber ein schlechtes Management kann durchaus katastrophale Folgen haben. Als branchenführendes Problemlösungsunternehmen arbeitet Kepner-Tregoe seit mehr als 60 Jahren mit Kunden zusammen, um deren Fähigkeiten zur Bewältigung größerer Vorfälle im Betrieb und in der IT zu verbessern und sie bei der Erreichung von Service Excellence zu unterstützen.

Autor

Christoph Goldenstern

Vizepräsident für Strategie und herausragende Dienstleistungen

Christoph ist ein führender Berater mit mehr als 20 Jahren Erfahrung in der Unterstützung von Unternehmen in den Bereichen Strategie, Betriebs- und Serviceverbesserung. Als Mitglied des KT-Führungsteams und globaler VP of Strategy and Service Excellence ist er für die Geschäftsstrategie von KT sowie für die Lösungen für IT-Service-Management und technischen Support verantwortlich.

Wir arbeiten hart daran, die wirklich hilfreichen und einzigartigen Inhalte zu erstellen. Wir freuen uns über Ihr Interesse!

Melden Sie sich an oder loggen Sie sich in Ihr Konto ein, um den ganzen Artikel zu lesen.

Verwandte Seiten

Prozesswissen und Inhaltswissen. Was ist wichtiger?

Links schalten? Nein, 'Shift Down' für Services Support Success

Wir sind Experten in:

Kontaktiere uns

Für Anfragen, Details oder ein Angebot!