Moderna metoder för effektiv IT-drift

9 november, 2021

På slaget 08.30 hälsade Tripnets tekniske chef Martin Dohmen alla  hörare välkomna till Tripnets tredje Kunskapsfrukost 2021. Dagens spännande ämne handlade  om hur man skapar effektiv och modern IT-drift på traditionella IT-system. För att förtydliga och exemplifiera användes ett kundcase som genomfördes strax före pandemin. Norska Elkjøp, som bland annat driver svenska elektronikkedjan Elgiganten, beslutade sig för att genomföra en större förändring i sin IT-miljö.

Rejäl uppskalning krävde nya arbetssätt

– Vi har jobbat ihop i ett antal år, men efter att ha upplevt en del problem under Black Friday 2019 satte vi oss ner tillsammans med kunden och diskuterade möjliga lösningar. Vi kom fram till att vi behövde bygga ut miljön – extremt mycket. Vi beställde all hårdvara i början av 2020 och hamnade mitt i Corona-pandemins initiala leveransproblematik. Med över 100 enheter att installera insåg vi snabbt att det inte skulle vara möjligt att bygga miljön successivt och helt manuellt. Tack och lov hade Björn suttit och labbat med nya metoder för att förenkla, så beslutet att testa dem, skarpt i verkligheten, var väldigt enkelt, berättar Jonas Lindqvist, systemingenjör på Tripnet 

 Antalet servrar ökades från ungefär 10 till över 100. Detta innebar att utvecklaren redan på ett tidigt stadium behövde en testmiljö för lasttester. Denna miljö fick dessutom kopplas in på nätverket på ett sätt som inte fanns med i den ursprungliga designen, då switcharna som sitter i servrarnas chassin inte gick att få fram i tid.    

– Först installerades de servrar vi fick tag på som testservrar. När de första testerna var utförda och vi fick tag på mer hårdvara, byggdes miljön om igen. Efterhand som vi fick fram testresultat, behövde vi dessutom bygga om miljön flera gånger till.  Tack vare att vi hade automatiserat utrullningen av installationen, blev det ändå väldigt enkelt och smidigt, säger Jonas. Normalt sett har vi sprungit runt med en virtuell CD-skiva för att starta en installation. Vi trycker next, next next... Vi döper servern, ger den en IP-adress osv. Detta är tidsödande och man måste vänta på att servern ska bli klar eftersom man inte klarar av att starta hur många installationer samtidigt som helst. Det är ganska “error prone”, konstaterar Jonas.   

Tripnet-Kunskapsfrukost-Skarmavbild2

Kvalitetsvinst för såväl kund som medarbetare

Automatiseringen av installationerna förenklade inte bara arbetet och plockade bort ett oinspirerande, monotont arbete. Alla maskiner blev helt identiska, vilket bidrog till att höja kvaliteten.

Arbetet vi gjorde var som en tvåstegsraket, berättar Björn Åberg, systemingenjör på Tripnet. Vi började med en nätverksinstallation PXE. Nu kan vi bara slå igång servern och då vet den vad den ska göra. Den hamnat på rätt nät, får en IP adress och ett i princip tomt operativsystem. Vi har en inventariefil där servern hämtar en del av sina uppgifter.  Därefter använder vi automatiseringsverktyget Ansible för konfiguration av OS och installation av ett par olika applikationer, förklarar Björn.   

Automatiseringen av installationerna har varit det stora jobbet. Under en längre period har Tripnets systemingenjör arbetat tillsammans med kundens utvecklare för att skapa funktionaliteten.   

– Jag har suttit tillsammans med en av kundens utvecklare och gått igenom hela proceduren för installationen av applikationen och översatt den till Ansible playbooks. En playbook kan enkelt förklaras som en lång lista med saker som ska göras på maskinen, berättar Björn.  

Stora tidsvinster såväl vid grundinstallation som i förlängningen

Resultatet av alla timmars arbete blev att Tripnets tekniker nu, i princip, kan installera en hel miljö på bara några minuter i stället för ett par dagar. Även om den stora vinsten har suttit i grundinstallationen, ska man inte glömma hur enkelt det nu blivit att göra snabba men övergripande förändringar på samtliga maskiner samtidigt.   

Utvecklarna har kommit till oss och haft behov av exempelvis en förändrad säkerhetsinställning. Det enda vi gör då är att ändra inställningen i config-filen och skjuta ut den på hundratals maskiner. Så smidigt, säger Jonas, och ler när han konstaterar hur nöjd kunden varit med denna lösning.    

På detta sätt öppnades också helt nya möjligheter att exempelvis flytta servrar mellan olika roller samt att gå över från test och utveckling till produktion. Den nya metodiken applicerades faktiskt också på den gamla hårdvaran, vilket gjorde att den gick att återanvända för att maximera kapaciteten. Ena dagen har den kunnat användas som webserver och nästa som app-server.   

– Det finns ju en del utmaningar med hur man bygger applikationen. I grund och botten är den ju lite “cloudig” på så sätt att den inte har några beroenden. Vi kan starta om en app-server då det inte är någon persistent data som ligger på bara en server. På så sätt är ju applikationen väldigt lätt att jobba med. Däremot så finns det ju vissa hårdvarukrav. Vi behöver stor ram-cache på webb-servrarna och den rammängden finns inte på alla maskiner, säger Jonas.   

Tripnet-Kunskapsfrukost-Skarmavbild-4

Automationen skapar kundnytta på många sätt

– Att automatisera på detta sätt är ju otroligt mycket mer effektivt. Inför högsäsong händer det titt som tätt att vi skiftar om hårdvaran från testmiljö och pushar in i produktionsmiljö. Nu tar det bara några timmar, jämfört med tidigare då det kunde ta några veckor, bekräftar Joakim Andersson, Senior System Consultant på Elkjøp. Det är ju väldigt smidigt för våra supusers som nu kan komma in och börja testa, bara timmar efter vi har initierat skifte på miljön. Jag vet också att våra utvecklare är väldigt nöjda också med hela implementationen som Björn och gänget har gjort Det är ett superbra verktyg.  

Hundratusentals mätdata var tionde sekund – men visualiserade blir de fullt begripliga

Elkjøps stora miljö bestod egentligen av fyra stycken silos, där varje silo egentligen är ett av kundens verksamhetsländer. Då uppstod utmaningen att kunna ta reda på vad det är som gör att systemet går i botten när det är för hög last; hur många besökare som kommer till sajten och vilken typ av last dessa genererar. Resultaten behövde översättas till siffror, men för att på riktigt kunna förstå effekten, användes till stor del visualiseringar av denna data. Traditionellt har dessutom mätdata hämtats kanske var femte minut. I det här fallet plockades hundratals, kanske till och med tusentals, mätvärden var tionde sekund – per maskin! Med så mycket data i mätdatabasen krävdes ett enkelt och överskådligt sätt att tolka resultatet.   

– Vi behövde ju se hur miljön mådde. Vi kunde liksom inte bara titta på CPU-last eller bandbredd, utan vi behövde ju även titta på svarstider och andra parametrar som påverkade. Visualiserad data gav oss en bild av hur systemet presterade när det kördes skarpt, berättar Jonas.   

För att flytta fram positionerna ännu mer och nå än högre effektivitet, använde teknikerna på Tripnet mjukvaran Grafana för att ta fram grafer och annan visualiserad data för dashboard-visning. I botten användes en tidsserie-databas för att hälla in massa olika data, exempelvis mätvärden som kom från traditionella operativsystem, alltså CPU-laster och annan nätverksstatistik, men även applikationsnära laster som exempelvis hur många worker processer och hur många ordrar som går igenom systemet. På dashboarden syntes då tydligt hur systemet faktiskt mådde.   

– Våra lasttester lärde oss hur systemet reagerade på olika typer av laster. Det är stor skillnad på om kunder bara tittar på en produktsida eller om de gör en order, ändrar sin adress eller loggar in. En del kan cachas medan annat är databasintensivt. Med hjälp av grafiken hittade vi sätt att lära oss att översätta antal besökare till de mätvärden som genererades. Vi såg vad som hände när databasen började bottna; när lastbalanserarna inte kunde skicka fler besökare till webbservrarna för att de var fulla utan tog hand om dem i en surge queue. Vi kunde helt enkelt hitta våra skarpa trösklar – strax innan det riskerade att smälla, förklarar Jonas.   

Tripnet-Kunskapsfrukost-Skarmavbild3

Dashboards för olika behov och intressen

Visualisering för egen räkning gav som sagt systemingenjörerna den förståelse de behövde för att kunna optimera systemet, men samma arbetssätt för kundens räkning gav en helt annan effekt.  

– Utöver den dashboard som gjordes för de driftansvariga teknikerna, gjorde jag även några egna dashboards som var väldigt specifika för övervakning av vår NetScaler lastbalanserare. Därutöver gjorde vi en dashboard till kunden så de i realtid kunde följa hur många ordrar som kom in, hur många besökare webbplatsen hade osv. För marknad är detta superspännande att kunna följa på detta sätt, berättar Jonas.   

Container-kapacitet i pipeline

Som vanligt föranledde morgonens ämne en stor mängd intresserade följdfrågor från de många deltagarna. Bland annat gavs Martin tillfälle att berätta lite mer om det pågående utrullningen av tjänsten container-kapacitet i form av Kubernetes-kluster.   

– Det vi har pratat om idag kan vara av stor betydelse för att lättare kunna leverera flexibla tjänster i den typen av miljö – att inte på det traditionella sättet “dänga upp” servrar. Detta kommer nog inte ske i den första versionen, men längre fram tror jag att ett effektivare och modernare arbetssätt är en förutsättning, berättar Martin Dohmen. Vår tjänst kommer gå att skala både på bredden och på höjden på kort tid. 

Framtidsspaning med Radar 18 november

Ulf Persson, VD på Tripnet, avslutade med att bjuda in till årets sista Kunskapsfrukost som traditionsenligt gästas av Hans Werner som presenterar Radars framtidsspaning – alltid lika intressant och insiktsfullt. Mötet blir, förhoppningsvis och för första gången på länge, en fysisk träff på Bergakungen där frukosten serveras kl 07.45. För de som föredrar är även denna Kunskapsfrukost förstås streamad.  

Varmt välkomna!  

En fortsatt dialog

Tveka inte att höra av dig om du är intresserad av att höra mer om modern IT-drift, visualisering av data eller kanske om container-lösningar.

Våra senaste artiklar

Säkerhet – ett samarbete

Vad innebär egentligen säkerhet? Det funderade U...

Att förebygga en katastrof

Vi ser att de Tabletop-övningar vi gjort på Trip...

Hans Werner trendspanar inför året 2025

Hur kommer det egentligen att bli med Donald Trump...