Lurking Latent Crocodiles

Lurking Latent Crocodiles

Wat houdt een gazelle 's nachts wakker? Misschien de gedachte aan de latente krokodillen die in de rivieren en waterpoelen op de loer liggen en wachten om zonder waarschuwing toe te slaan. Wat als je als gazelle niet slechts één keer per dag een waterpoel zou bezoeken, of alleen tijdens een lange trek een rivier zou oversteken? Wat als het was om 24*7 midden in de door krokodillen geteisterde rivier te lopen? Dat zou je zeker alert houden, maar niet comfortabel, en alleen in staat om rusteloos te slapen voor zeer korte perioden van tijd.

Als leven in de rivier je leven is, dan is het in je eigen belang als gazelle om het aantal krokodillen zo laag mogelijk te houden, en je niet bloot te stellen aan de kans om gevangen te worden door aan de rand van de kudde te blijven hangen.

Kudde Instinct

In het midden van de kudde staan is belangrijk om te overleven. We herkennen het effect van dit overlevingsinstinct wanneer een bedrijf een nieuw besturingssysteem uitbrengt. De early adopters zullen het laden en ermee spelen, maar weinigen zullen het onmiddellijk gebruiken als een essentieel bedrijfsinstrument. De slimme gazellen wachten tot de wateren eerst zijn getest. Slimme gazellen weten ook dat ze bij moeten blijven en geen achterblijvers mogen worden. Wij kennen applicaties die nog steeds in bedrijfskritische productie zijn en waarvoor de leverancier de ondersteuning al jaren geleden heeft stopgezet.

Hoe komen mensen per ongeluk aan de rand van de kudde terecht?

Doorgaan zonder duidelijk risicobeheer:

  • Het laden van nieuw vrijgegeven en ongeteste code op productieapparatuur
  • Het installeren en in bedrijf stellen van ongeteste, net vrijgegeven hardware in een productieomgeving
  • Laden van productiewerklast op ongeteste configuraties
  • Noodwijziging controles tijdens shotgun stijl troubleshooting

Achterstand oplopen door huidige systemen niet te veranderen:

  • Gebruik van kernbedrijfssoftware die niet langer wordt ondersteund
  • Gebruik van hardware in productie die niet wordt ondersteund

Het configureren van exotische oplossingen:

  • Integratie van hardware en software om het systeem uniek te maken
  • Wijziging van de kerncode om het systeem uniek te maken

Het configureren van exotische ladingen of profielen:

  • Overbelasting van het systeem boven zijn mogelijkheden
  • Uiterste afstemming van software- en firmwareparameters voor een bepaalde toepassing
  • Het bereiken van een verzadigingspunt waar het systeem overgaat van lineaire stroming naar turbulentie

Diagram 1

Krokodillen_Diagram_1

Als je je eenmaal aan de rand van de kudde bevindt, kun je gemakkelijker worden weggeplukt door de latente krokodillen.

Ongediertebestrijding

Toen een computertechnicus bij het Alaska Department of Revenue een schijf opnieuw formatteerde tijdens routine-onderhoudswerkzaamheden, gebeurde er een klein wonder van de slechte soort. De technicus verwijderde per ongeluk de informatie over de aanvrager van een door olie gefinancierde rekening - een van de grootste voordelen voor de inwoners van Alaska - en formatteerde per ongeluk ook de back-upschijf.

Er was nog hoop, totdat de afdeling ontdekte dat haar derde verdedigingslinie, de back-up tapes, onleesbaar waren. Als de back-up tapes hadden gewerkt, zou er geen verhaal zijn - in dit geval wordt niet vermeld of zij bekende en onopgeloste problemen hadden met het back-up systeem - maar heeft u gecontroleerd of u uw gegevens kunt herstellen? Dit falen kostte hen $200.000 aan extra kosten en onbekende reputatieschade. Ligt er een krokodil op de loer die op u wacht?

Midden in de kudde staan - dezelfde soort dingen doen als andere bedrijven, standaardconfiguraties en standaardsoftware gebruiken, die up-to-date houden en binnen de prestatietoleranties blijven - is nog steeds geen garantie om te overleven.

De allerergste IT-incidenten die wij als KT-consultants zien, zijn een combinatie van een aantal latente, zichtbare en niet gediagnosticeerde problemen en slecht uitgevoerde wijzigingen die hebben samengespannen om een mirakel te veroorzaken. Vaak worden wonderen beschouwd als een verbazingwekkende of wonderbaarlijke gebeurtenis. Ik speculeer dat het samenbrengen van de niet gediagnosticeerde problemen op zo'n manier dat het een catastrofale mislukking veroorzaakt ook wonderbaarlijk kan zijn, alleen op een slechte manier.

Laat ik het voorbeeld nemen van een wereldwijd Fortune 500-bedrijf dat IT-systemen gebruikt zoals iedereen dat doet: om bestellingen te ontvangen, de productie te plannen, leveringen te plannen en facturen uit te reiken op actuele hardware en zeer populaire software. De IT-afdeling was ongeveer drie weken lang niet meer in staat om te weten wat er moest worden geproduceerd, verzonden en gefactureerd. Het incident heeft de media niet gehaald omdat het goed werd afgehandeld en het bedrijf blijft floreren. Tijdens die drie weken zaten de Krokodillen echter midden tussen de gazellen en hadden ze in ongecoördineerd overleg de IT-systemen van het kernbedrijf platgelegd.

Krokodil_Diagram_2

Kunnen we voorspellen hoe groot de kans is dat de latente krokodillen uw zaakje overnemen? Als u een gazelle was die midden op de rivier liep, omringd door andere gazellen, sommige vooraan, sommige achteraan, sommige aan de linkeroever van de rivier en sommige aan de rechteroever, zou u dan liever een rivier oplopen met veel krokodillen of met heel weinig?

Ongediertebestrijding - het aantal Krokodillen verminderen zou gewoon het aantal mogelijkheden voor hen verminderen om gedachteloos samen te spannen om u kwaad te doen. Waar vinden we deze Krokodillen...in uw ongediagnosticeerde achterstand van IT problemen.

Hoe groter het aantal ongediagnosticeerde IT-problemen, hoe groter de kans dat één, twee of vele op een interessante manier samenwerken, met een onschuldige verandering, om uw systeem plat te leggen. Bedrijven waar de hoofdoorzaken van IT problemen over het algemeen worden gevonden, hebben een mathematisch betere kans om IT te overleven dan bedrijven met grote aantallen ongediagnosticeerde problemen: problemen die zowel op de loer liggen (u weet ervan - ze staan ergens in een wachtrij, of ze zitten in een massa ongecontroleerde wijzigingen of verstopt in een slechte huishouding) als latent zijn (op dit moment geen invloed hebben op de productie).

Laat ik specifiek zijn over het soort problemen dat willekeurig samen kan komen om langdurige IT-uitval te veroorzaken.

Stel dat u een wijziging aanbrengt in het aantal producten dat uw infrastructuur van plan was te verwerken omdat u een ander bedrijf hebt gekocht en hun productlijnen moet integreren.

U werkte samen met de leveranciers om de vereiste hardware en software te specificeren, en er werd een projectplan opgesteld om de verandering door te voeren - het verandermanagement was aan boord, alles was goed.

Wat u niet wist, is dat diep begraven in uw achterstand van niet-gediagnosticeerde problemen vier fouten in het productiesysteem zaten, waarvan er geen enkele productieproblemen veroorzaakte en dus niet in de hoofden van het ondersteunend personeel zat:

  • Een trage database wachtrij verwerking job voor de afgelopen zes maanden
  • Trage logische input/output naar uw gedeelde gegevensopslagapparaat op andere systemen die niet duidelijk verband houden met dit systeem - een probleem dat enkele weken geleden bij een ander deel van de infrastructuurorganisatie is gemeld
  • Een firmware-upgrade van de gegevensopslaginterconnector die enkele weken geleden niet correct werd toegepast
  • Database monitoring tools die het afgelopen jaar af en toe gestopt waren met registreren

Deze problemen waren genoteerd en er werd gewacht op actie van de leverancier of van uw personeel.

Vervolgens voegt u de software-upgrade en de vereiste hardware toe om de prestaties van het systeem te verbeteren, zodat u enige verwerkingsoverhead krijgt. Deze verandering werkt (vanuit hun verandermanagementstandpunt) perfect; het systeem hervat de productie, maar niemand controleert de prestatie-overhead die de toepassing van de verandering naar verwachting zou opleveren. Dit is een zeer grote krokodil.

Diagram 3_Lurking Crocs

Vervolgens voegt u de toegenomen belasting toe aan het systeem, één fabriek per keer (om er zeker van te zijn dat elke stap goed is). Ongeveer twee weken na het begin van dit proces wordt een "omslagpunt" bereikt, en het systeem verandert van een "vrije stroom" in turbulentie - van 20 uur om het werk van één dag te verwerken naar 60 uur per dag. De bedrijfsleiders beginnen te schreeuwen dat het bedrijf stervende is. Je moet veel fabrieken loskoppelen van de batch jobs en de productieruns herschikken van elke dag naar één keer per week. Sommige depots moeten uit ervaring uitvinden wat de klanten waarschijnlijk zullen willen bestellen op basis van eerdere bestellingen en het bedrijf wordt alleen in stand gehouden door heldhaftige acties van een groot aantal personeelsleden die het bedrijf zonder uw systemen moeten runnen.

Terugkeren naar de vorige configuratie is alleen mogelijk als het bedrijf bereid is facturen van twee weken te verliezen. Er wordt besloten de nieuwe configuratie te gebruiken, en tijdens dat proces worden de latente krokodillen ontdekt.

Niet alle Crocodiles waren onmiddellijk kwaadaardig - de database monitoring tool was er twee weken voordien gewoon mee gestopt, en dus werd de inspanning om het probleem op te lossen verlengd door het ontbreken van die informatie.

Latente krokodillen liggen op de loer en wachten, onopgemerkt, om samen te komen in een enkele gebeurtenis die catastrofaal kan zijn.

Hoe te overleven

Het is duidelijk dat er lessen kunnen worden getrokken uit de fouten van anderen. In het midden van de IT-menigte blijven is een strategische IT-beslissing die u en uw klanten moeten nemen: of veilig blijven of een 'interessant' leven leiden.

Maar hoe kunt u de kans verkleinen dat ongediagnosticeerde storingen tegen u samenspannen? Hoeveel niet-gediagnosticeerde gevallen bevinden zich in de backlog van uw IT-supportdesk? Als u ze snel en effectief opruimt, en als u plannen hebt om de tussentijdse fixes en de correctieve acties voor de echt moeilijk op te lossen gevallen af te handelen, dan is alles goed.

Als u een groot aantal problemen in uw achterstand hebt, of routinematig de oudste zaken hebt gesloten om de achterstand beheersbaar te houden, bent u uw toekomst aan het bekleden met krokodillen.

Bij klanten die aanvankelijk een grote achterstand hebben, maken we samen met hen een analyse van de huidige situatie, berekenen we de verwachte besparingen in termen van tijd en geld, identificeren we de hefboomeffecten en voltooien we een gestructureerde en goed beheerde implementatie van kwalitatief hoogwaardige processen voor case handling. Niet alleen hebben ze een betere supportorganisatie, met effectievere werkprocessen en meer gemotiveerde engineers, maar ze slapen ook 's nachts rustiger in de wetenschap dat er minder loerende krokodillen op de loer liggen om zonder waarschuwing toe te slaan.

Over Kepner-Tregoe

Kepner-Tregoe is de leider in het oplossen van problemen. Al meer dan zes decennia helpt Kepner-Tregoe duizenden organisaties over de hele wereld bij het oplossen van miljoenen problemen door middel van een effectievere analyse van de onderliggende oorzaak en besluitvormingsvaardigheden. Kepner-Tregoe werkt samen met organisaties om de kosten aanzienlijk te verlagen en de operationele prestaties te verbeteren door
probleemoplossende training, technologie en adviesdiensten.

Gerelateerd

De cultuur van incidentenbeheer uitdagen

Van tevredenheid naar klantloyaliteit

Neem contact met ons op

Voor vragen, details, of een voorstel!