Microsoft betaler bod til kunder for cloud-nedbrud

Microsoft betaler bod til de kunder, der blev ramt af det store nedbrud i Azure-cloudtjenesten fornylig. Se her, hvad der gik så galt, at tjenesten crashede.

Artikel top billede

Computerworld News Service: Som bod for en række udfald på grund af en softwarefejl i selskabets cloud-platform Azure tilbyder Microsoft de ramte kunder 33 procent rabat for den periode, de var uden forbindelse 29. februar.

Du kan læse mere om nedbruddet her.

Ikke alle af Azures services var ramt af nedbruddet.

Der gives kun rabat til kunder af de services, der var påvirket af fejlen, oplyser Microsoft via bloggen fra teamet bag Windows Azure.

Problemet stammede fra to overlappende omstændigheder: At datoen 29. februar kun indtræffer hvert fjerde år og at der udveksles et certifikat med et års gyldighed, når Azure initialiserer virtuelle maskiner til kundernes anvendelse.

Certifikater udstedt 28. februar i år fik tildelt en gyldighed indtil 29. februar 2013, hvilket er en dato, der ikke vil indtræffe, og som derfor blev tolket som ugyldig.

Forsøgte igen og igen

Denne fejl forårsagede, at systemet igen og igen forsøgte at gennemføre handlingen, der konsekvent mislykkedes.

Det fik systemet til at konkludere, at det var hardwaren, hvorpå de virtuelle maskiner kørte, den var gal med.

Det fik systemet til at forsøge at migrere de fejlramte virtuelle maskiner til anden hardware i samme Azure-klynge, der består af omtrent 1.000 fysiske servere.

Det mislykkedes selvfølgelig også de migrerede virtuelle maskiner at initialisere af den samme årsag.

Således blev mere og mere hardware automatisk bedømt til at have nedbrud, indtil systemet nåede en vis grænse, hvorefter alle forsøg på at migrere de virtuelle maskiner på nogen server i de påvirkede klynger stoppede.

Nedsat driftsniveau

Det gjorde det muligt for disse klynger alligevel at forblive i drift ved nedsat driftsniveau, forklares det på bloggen.

Azure lukkede ned for kundernes service management-platform, så kunderne ikke havde mulighed for at tilføje applikationer eller udvide kapaciteten til applikationer i drift, da begge dele ville have forværret situationen ved at forsøge at oprette endnu flere nye virtuelle maskiner.

"Dette er første gang vi har taget dette skridt," skriver Microsoft på bloggen. Alle kørende applikationer forblev i drift.

Læs også: Microsofts store cloud-tjeneste ramt af nedbrud.
 

Så lang tid tog det

Det tog 13 timer og 23 minutter at rette fejlen i alle på nær syv Azure-klynger. Disse syv klynger var midt i en software-opdatering, så de udgjorde et separat problem. Skulle man opgradere de værtsagenter og gæsteagenter, der ville udveksle de ugyldige certifikater, til de nyeste versioner med det samme, eller skulle man genoprette de gamle versioner og derefter udrulle rettelsen?

Det blev besluttet at gøre det sidste, hvilket dog ikke var nogen succes, fordi man ikke samtidig genoprettede en tidligere version af det plugin, der konfigurerer de virtuelle maskiners netværk. Det nye netværks-plugin var ikke kompatibel med de gamle værter og gæster. Derfor var resultatet, at alle virtuelle maskiner i disse syv klynger var uden forbindelse til netværket.

De ramte klynger inkluderede servere til Access Control Service (ACS) og Windows Azure Service Bus, som begge oplevede nedbrud. Alle problemerne var ifølge bloggen først løst 1. marts klokken 10.15 dansk tid.

Microsoft er ved at indføre tre forholdsregler, der skal forhindre, at noget lignende sker igen. For det første vil selskabet teste for problemer i forhold til tidsangivelser i dets software. For det andet vil Microsoft ændre i den automatiske fejldiagnosticering, så systemet ikke uden videre konkluderer hardwarefejl i sådanne omstændigheder. Og for det tredje vil Microsoft gøre det muligt at lukke trinvist ned for kundernes administrationsdel. Det vil gøre det muligt at blokere for oprettelsen af nye virtuelle maskiner eller udvidelse af de eksisterende men samtidig tillade en vis administration af eksisterende virtuelle maskiner.

Selskabet er også ved at opgradere sin mulighed for at opdage og håndtere fejl hurtigere. Der vil også blive foretaget ændringer, så kundernes kontrolpanel i højere grad vil forblive tilgængelig, når der er fejl.

Da alle kundeservice-telefonerne var optaget, måtte mange kunder vente længe for at få hjælp.

Derfor reevaluerer Microsoft bemandingen på området og overvejer at gøre bedre brug af blogs, Twitter og Facebook til oplysning om problemer.

Microsoft er desuden ved at udvikle interne softwareværktøjer til brug ved nedbrud, ligesom selskabet også prioriterer en hurtigere genetablering af kundeservice og at give kunderne bedre indblik i, hvordan arbejdet med at genetablere driften skrider frem.

Læs også: Microsofts store cloud-tjeneste ramt af nedbrud.

Oversat af Thomas Bøndergaard

Computerworld Events

Vi samler hvert år mere end 6.000 deltagere på mere end 70 events for it-professionelle.

Ekspertindsigt – Lyt til førende specialister og virksomheder, der deler viden om den nyeste teknologi og de bedste løsninger.
Netværk – Mød beslutningstagere, kolleger og samarbejdspartnere på tværs af brancher.
Praktisk viden – Få konkrete cases, værktøjer og inspiration, som du kan tage direkte med hjem i organisationen.
Aktuelle tendenser – Bliv opdateret på de vigtigste dagsordener inden for cloud, sikkerhed, data, AI og digital forretning.

It-løsninger | Online

Kod smartere med GitHub Copilot

Få styr på GitHub Copilot og skriv bedre kode hurtigere. Se hvordan Copilot løser opgaver, sparrer på fejl og løfter komplekse workflows. Oplev live demo og lær hvordan du kommer i gang med licenser og opsætning.

Sikkerhed | København

Cyber Threats

Få teknisk indsigt og konkrete løsninger til at modstå moderne cyberangreb. Lær af fejl, stop angreb i tide og byg systemer med ægte resiliens. Fokus på lavniveau-detektion, netværksovervågning og hurtig gendannelse. Deltag i Cyber Threats fra...

It-løsninger | København V

Platform X 2026: Forretning, teknologi og transformation

Mød verdens stærkeste og mest effektive platforme der driver den digitale transformation samlet i København - og dyk ned i den nyeste teknologi.

Se alle vores events inden for it

Netcompany A/S

Test Consultant

Nordjylland

Netcompany A/S

Managing Architect

Nordjylland

Økonomistyrelsen

IT-arkitekt med fokus på integrationer

Københavnsområdet

Navnenyt fra it-Danmark

Infosuite A/S har pr. 1. marts 2026 ansat Henrik Sandmann som Chief Operating Officer (COO). Han skal især beskæftige sig med drift, produktudvikling og skalering, herunder også procesforbedringer og udnyttelse af AI og nye teknologier. Han kommer fra en stilling som Program Director hos ADMG ApS. Han er uddannet cand. scient i datalogi og har derudover en MBA indenfor strategi, ledelse og forretningsudvikling. Nyt job

Henrik Sandmann

Infosuite A/S

Den danske eID-virksomhed Idura har pr. 1. april 2026 ansat Kari Lehtimäki som Country Manager. Han skal især beskæftige sig med at styrke kendskabet til Iduras løsninger i Finland samt fremme samarbejdet med økosystemet omkring det finske Trust Network. Han kommer fra en stilling som Salgschef hos Telia Finland. Han er uddannet uddannet civilingeniør (M.Sc. Tech.) og medbringer ledelse, markedsindsigt og praktisk erfaring. Han har tidligere beskæftiget sig med salg og forretningsudvikling inden for Telias trust services-forretning. Nyt job

Kari Lehtimäki

Den danske eID-virksomhed Idura

Pentos har pr. 2. juni 2025 ansat Erik Ebert som Country Manager. Han skal især beskæftige sig med udvidelsen af Pentos til Danmark og Norden. Det kræver bl.a. etablering af et lokalt leverance team og SAP Partnerskab. Han kommer fra en stilling som Senior Director hos Effective People. Han har tidligere beskæftiget sig med HR systemer baseret på SAP SuccessFactors hos en række danske større og mellemstore virksomheder. Nyt job

Erik Ebert

Pentos

Sharp Consumer Electronics har pr. 1. april 2026 ansat Daniel Eriksson som salgsdirektør for de nordiske lande. Han skal især beskæftige sig med at accelerere virksomhedens vækst i Norden. Han kommer fra en stilling som nordisk salgsdirektør hos Hisense. Han har tidligere beskæftiget sig med detailhandel, kommerciel strategi og markedsudvidelser med bemærkelsesværdige resultater til følge. Nyt job

Daniel Eriksson

Sharp Consumer Electronics