Annonceindlæg fra Systematic

Rul kode ud i en rasende fart

Systematic leder efter flere medlemmer til lille team, der bruger Site Reliability Engineering til at automatisere drift, udrulning og monitorering.

Af Systematic | Udgivet 19. november 2020

Hos Systematic arbejder et mindre team på otte personer målrettet med Site Reliability Engineering (SRE), der kombinerer, udvikling, drift og automatisering. Holdet søger flere udviklere, der vil prøve kræfter med en disciplin, der er både udfordrende, sjov og usædvanligt alsidig. I hvert fald ifølge Jesper Skelmose Mathiassen, Senior Systems Engineer hos Systematic.

”På et af vores offentlige produktionssystemer ruller vi en opdatering ud hver 14. dag. Det er meget standard – men tidligere har vi faktisk haft langt mere fart på og rullet to opdateringer ud om ugen. Men så kunne kunderne ikke holde trit med dokumentationen, så derfor måtte vi drosle ned igen,” siger han og tilføjer, at på nogle systemer sætter teamet virkelig turbo på.

”På ét projekt mikroopdaterer vi op mod 100 gange i ugen. Det svarer lidt til at operere konstant på et hjerte, der stadig slår. Men det er helt uproblematisk, fordi deploymentprocessen er fuldt automatiseret og uafhængig af servicevinduer,” siger Jesper Skelmose Mathiassen.

”Vi lægger skinnerne, mens der er damp på lokomotivet”
SRE går i helt grove træk ud på at sætte udviklere til at beskæftige sig med at løse operations-opgaver. I reglen er målet fuldt automatiseret monitorering eller udrulning af opdateringer på et system, der er i drift.

”Site Reliability Engineering er enormt sjovt, fordi vi hele tiden løser opgaver på tværs af en masse forskellige systemer og sprog. Vi kombinerer ganske enkelt softwareudvikling – som er noget af det, vi i al beskedenhed er ganske gode til hos Systematic – med at løse helt konkrete driftsopgaver og kan se resultatet af vores arbejde med det samme. Man kan sige, at vi lægger skinnerne, mens der er damp på lokomotivet,” forklarer Jesper Skelmose Mathiassen.

Ofte bidrager SRE-gruppen til et projekt der er i drift, og starter med eksempelvis at udrulle en opdatering manuelt ved at følge manualen slavisk. Dernæst piller de udrulningsprocessen fra hinanden, kigger ind i maven på processerne og finder måder at automatisere hvert enkelt element ved at udvikle små programmer og kodestumper. Det er blandt andet velegnet, hvis man har behov for at automatisere udrulning af kode fra udvikling og test til fuld idriftsættelse.

Byggede og udrullede kritisk fejlrettelse på to timer – midt i åbningstiden
Jesper Skelmose Mathiassen tilføjer, at dels gør SRE effektivt op med klassisk opdatering, som løses af ”én mand med en bunke batchfiler og alle processer på rygraden.” Dels bliver man mindre afhængig af servicevinduer, fordi SRE gør det muligt at rulle opdateringer hurtigt og let ud på systemer i drift.

”En dag blev vi gjort opmærksom på en kritisk fejl i serverapplikationen på folkebibliotekernes administrationssystem. På under to timer blev der bygget en fejlrettelse og rullet den ud til samtlige biblioteker midt i åbningstiden. Det kunne udelukkende lade sig gøre, fordi vi havde en fuldt automatiseret udrulningsproces på plads,” bemærker Jesper Skelmose Mathiassen.

Traditionelt stiger prisen på fejlrettelser eksplosivt, når et system først er i drift – mens den med SRE er med til at presse ressourceforbruget så langt ned, at prisen nærmer sig opdatering af systemer, der ikke er i drift. Det er desuden med til at gøre SRE oplagt som element i både continuous delivery og continuous deployment og sikre en langt kortere time to market. Til glæde for både udviklere og for kunder, der for længst har vænnet sig til, at deres løsninger altid er fuldt opdaterede.

Udforsker alle kanter af Site Reliability Engineering
”Google er formentlig den fremmeste eksponent for Site Reliability Engineering. Ja, det er vel praktisk taget dem, der har opfundet begrebet. Men de har også en vanvittigt masse services i drift 24/7, som de ikke bare kan lukke ned for – og bruger angiveligt SRE til at udsende cirka 80.000 opdateringer i døgnet. Spotify, Netflix og mange andre bruger det også; de kan jo heller ikke bare lukke ned i fire timer for at patche et eller andet hjørne af systemet, for så ville millioner af mennesker blive rasende,” konstaterer Jesper Skelmose Mathiassen.

Ligeledes bruges SRE til at bygge monitoreringselementer, som kan overvåge præcis de elementer af et system i drift, der måtte være behov for. Det giver et solidt grundlag for at arbejde med proaktiv performance monitorering og for hele tiden at holde øje med, om et system lever op til sine performance-mål.

Ofte hører udviklere og driftsfolk først om problemer, når kernefunktioner i et system holder op med at fungere. Her kunne et tænkt eksempel være, hvis borgere over hele landet pludselig ikke kan låne bøger på bibliotekerne. Bruger man derimod SRE som udgangspunkt for at indbygge målrettet monitorering, bliver man – med real-time metrics i hånden – hurtigt opmærksom, hvis bogudlån pludselig begynder at tage lidt længere end vanligt. Det giver grundlag for at sætte målrettet ind med analyse og fejlrettelse i tide.

”Så der er virkelig mange anvendelsesmuligheder med Site Reliability Engineering, og vi udfordrer hele tiden metodikkens anvendelsesmuligheder. Så selv om det lyder som jordens største kliché at sige, at ikke to dage er ens hos os, så passer det faktisk,” siger Jesper Skelmose Mathiassen.

Overvejer du et jobskifte, og kunne du se en mulig karriere hos Systematic, så er de lige nu på udkig efter nye kollegaer til deres IT. Se alle de åbne it-stillinger via dette link.

Systematic A/S

Vi leverer pålidelige og brugervenlige it-løsninger og -produkter, som gør det nemt for vores kunder at træffe kritiske beslutninger baseret på et kvalificeret grundlag.

Læs mere om Systematic

Kontaktinfo:

Systematic A/S

Søren Frichs Vej 39

8000 Aarhus C

https://www.systematic.dk/

Annonceindlæg fra Systematic

Rul kode ud i en rasende fart

Systematic A/S

Kontaktinfo:

Systematic og Helsing vil gøre droner til en integreret del af fremtidens beredskab

Systematic hjælper patienter hurtigere på benene med analyse og datadisciplin

Når test og kvalitet bliver et spørgsmål om liv og død