– Idag hade vi katastrof-övning på Tripnet AB. Jag var övningsledare och utsatte några av mina kollegor för ett riktigt svårt scenario, berättar Ulf Persson och fortsätter. – En helt osannolik brand skapade en hypotetisk situation där vi har 30 minuter innan en av våra datorhallar blir strömlös. Jag får erkänna att detta inte är ett normalscenario för oss då våra hallar är byggda för att aldrig tappa reservkraft, men Mr Murphy kommer ju på besök ibland...
– Så, kraftmatning och reservkraft är utslagna, hallen går på UPS och vi har 30 minuter batteri kvar. Räddningstjänsten har utrymt byggnaden, vi står utanför.
Spelet kan börja...
Tabletop-övningar – övning ger färdighet
En tabletop-övning är en metod där vi simulerar ett incident- eller katastrofscenario runt ett bord. Under övningen går vi igenom varje steg som behöver tas, diskuterar möjliga utfall och utvecklar strategier för att hantera situationen. Det är ett teoretiskt resonemang där vi systematiskt går igenom vad som behöver göras, vilka resurser som finns tillgängliga och hur insatserna kan koordineras.
Vinster med att göra Tabletop-övningar
Syftet med tabletop-övningen är att identifiera risker, förbättra våra beredskapsplaner och säkerställa att alla känner till sina roller i en krissituation. det är ett sätt att testa och utmana sina processer.
När man har ett certifierat informationssäkerhetsarbete är arbetet med riskhantering centralt i verksamheten. Denna typ av övningar hjälper oss att identifiera nya risker, hitta nya aspekter på befintliga risker samt testa att våra skyddsåtgärer fungerar så som vi har tänkt.
- Simulera realistiska men teoretiska katastrofscenarier för att öka beredskapen.
- Identifiera och dokumentera risker och förbättringsförslag.
- Förbättra kommunikationen och beslutsfattandet under krissituationer.
- Träna deltagarna på sina roller och ansvarsområden under en incident.
Scenario 1: Brand utanför datorhallen
- Tid: En typisk måndag 8:00
- Plats: Site1, Datorhall DC1
- Situation: Batteribrand utanför datorhallen skadar kraft- och fiberkablar. Skadan sker mellan reservkraft och datorhall.
- Åtgärder: Övergång till UPS, 30 minuter batteritid kvar, utrymning på order av räddningstjänsten.
Analys och åtgärder
Incidentstart och Teamsmöte: Vi samlade snabbt alla berörda parter för att diskutera situationen och planera våra åtgärder. Genom att använda Teams kunde vi effektivt kommunicera och dela information i realtid.
Intern och extern kommunikation: Ett tydligt kommunikationsflöde upprättades både internt och externt. Vi behövde omedelbart informera våra kunder om situationen och ge löpande uppdateringar för att minimera oro och osäkerhet.
Resurskoordinering: Kontakt med våra leverantörer för att säkerställa att reservkraft och dieselleveranser var på plats. Samtidigt behövde vi koordinera med räddningstjänsten för att säkerställa säkerheten för vår personal och våra anläggningar.
Riskhantering: Identifiering av potentiella hot och utveckling av handlingsplaner för att minimera påverkan. Genom att simulera detta scenario kunde vi upptäcka ev. svagheter i vår nuvarande plan och föreslå förbättringar
Scenario 2: Långvarigt strömavbrott
- Tid: En vanlig vardag 13:00
- Plats: Site4, datorhall DC7
- Situation: Ett veckolångt strömavbrott har inträffat och reservkraftverken har startat automatiskt. Hur många dagar har vi på oss innan dieseln behöver fyllas på?
- Åtgärder: Koordinera med leverantörer för kontinuerliga dieselleveranser, säkerställa att kritiska funktioner upprätthålls genom omfördelning av system till andra datorhallar.
Analys och åtgärder
Reservkraft och dieselleveranser: Vi insåg snabbt vikten av att säkerställa kontinuerliga dieselleveranser för att hålla reservkraftverken igång. Vi kontaktade våra leverantörer och säkerställde att vi hade en plan för kontinuerlig leverans av diesel.
Prioritering av system: Genom att identifiera vilka system som var mest kritiska kunde vi omfördela resurser och spara energi för att förlänga driftstiden. Detta inkluderade att stänga ner icke-kritiska system och flytta resurser till andra datorhallar.
Kommunikation: Tydlig och kontinuerlig kommunikation med leverantörer, kunder och internt var avgörande för att hålla alla informerade om läget och våra åtgärder. Vi behövde säkerställa att all information var korrekt och uppdaterad för att undvika missförstånd. Men, det tog oss 45 minuter att inse att inte ett enda kundsystem påverkades, alltså fanns det ingen incident att informera om.
Scenario 3: Ransomware-angrepp
- Tid: Semestertider 7:00
- Plats: Två olika kunders databasservrar, varav ett falsklarm.
- Situation: Ett ransomware-angrepp som försöker injicera skadlig kod och exfiltrera data.
- Åtgärder: Omedelbara åtgärder för att isolera det drabbade systemet, analysera skadan och vidta åtgärder för att skydda och återställa kritiska system.
Analys och åtgärder
Incidentstart och analys: Snabb analys av larmen från våra säkerhetssystem visade att vi stod inför ett ransomware-angrepp. Vi agerade omedelbart för att identifiera och isolera det drabbade systemet.
Isolering och återställning: För att förhindra ytterligare spridning av skadlig kod isolerade vi det drabbade systemet och påbörjade återställningsåtgärder. Detta inkluderade att analysera skadan, återställa data från backup och säkerställa att systemet var säkert innan det återintegrerades.
Kommunikation och koordination: Informera alla berörda parter, både internt och externt, om angreppet och våra åtgärder. Vi samarbetade med våra säkerhetsleverantörer för att säkerställa att vi hade den expertis som krävdes för att hantera situationen effektivt.
Lärdomar och reflektioner
Under övningarna hittade vi saker som vi kan förbättra kring vår krisberedskap. Vi upptäckte att vissa kontaktuppgifter saknades, våra planer för dieselleveranser behövde förtydligas, och att vår interna kommunikation kunde förbättras.
Att genomföra sådana här övningar minst två gånger per år är avgörande för oss på Tripnet för att hela tiden vara förberedda och arbeta aktivt med ständiga förbättringar.
Vad blev facit från övningarna?
Scenario 1: Datorhallen gick ner, men inga av våra redundanta system påverkades. Datorhallen var tillbaka i full drift igen på kvällen med nytt kraftkablage installerat.
Scenario 2: Med säkerställda dieselleveranser har vi både kraft och kyla i månader.
Scenario 3: På grund av snabbt agerande blev det bara några korta avbrott för kunden och inga personuppgifter kom på avvägar. Det blev dock lite små störningar i systemet då viss funktionalitet behövde blockeras tillfälligt.