Microsoft betaler bod til kunder for cloud-nedbrud

Microsoft betaler bod til de kunder, der blev ramt af det store nedbrud i Azure-cloudtjenesten fornylig. Se her, hvad der gik så galt, at tjenesten crashede.

Artikel top billede

Computerworld News Service: Som bod for en række udfald på grund af en softwarefejl i selskabets cloud-platform Azure tilbyder Microsoft de ramte kunder 33 procent rabat for den periode, de var uden forbindelse 29. februar.

Du kan læse mere om nedbruddet her.

Ikke alle af Azures services var ramt af nedbruddet.

Der gives kun rabat til kunder af de services, der var påvirket af fejlen, oplyser Microsoft via bloggen fra teamet bag Windows Azure.

Problemet stammede fra to overlappende omstændigheder: At datoen 29. februar kun indtræffer hvert fjerde år og at der udveksles et certifikat med et års gyldighed, når Azure initialiserer virtuelle maskiner til kundernes anvendelse.

Certifikater udstedt 28. februar i år fik tildelt en gyldighed indtil 29. februar 2013, hvilket er en dato, der ikke vil indtræffe, og som derfor blev tolket som ugyldig.

Forsøgte igen og igen

Denne fejl forårsagede, at systemet igen og igen forsøgte at gennemføre handlingen, der konsekvent mislykkedes.

Det fik systemet til at konkludere, at det var hardwaren, hvorpå de virtuelle maskiner kørte, den var gal med.

Det fik systemet til at forsøge at migrere de fejlramte virtuelle maskiner til anden hardware i samme Azure-klynge, der består af omtrent 1.000 fysiske servere.

Det mislykkedes selvfølgelig også de migrerede virtuelle maskiner at initialisere af den samme årsag.

Således blev mere og mere hardware automatisk bedømt til at have nedbrud, indtil systemet nåede en vis grænse, hvorefter alle forsøg på at migrere de virtuelle maskiner på nogen server i de påvirkede klynger stoppede.

Nedsat driftsniveau

Det gjorde det muligt for disse klynger alligevel at forblive i drift ved nedsat driftsniveau, forklares det på bloggen.

Azure lukkede ned for kundernes service management-platform, så kunderne ikke havde mulighed for at tilføje applikationer eller udvide kapaciteten til applikationer i drift, da begge dele ville have forværret situationen ved at forsøge at oprette endnu flere nye virtuelle maskiner.

"Dette er første gang vi har taget dette skridt," skriver Microsoft på bloggen. Alle kørende applikationer forblev i drift.

Læs også: Microsofts store cloud-tjeneste ramt af nedbrud.
 

Så lang tid tog det

Det tog 13 timer og 23 minutter at rette fejlen i alle på nær syv Azure-klynger. Disse syv klynger var midt i en software-opdatering, så de udgjorde et separat problem. Skulle man opgradere de værtsagenter og gæsteagenter, der ville udveksle de ugyldige certifikater, til de nyeste versioner med det samme, eller skulle man genoprette de gamle versioner og derefter udrulle rettelsen?

Det blev besluttet at gøre det sidste, hvilket dog ikke var nogen succes, fordi man ikke samtidig genoprettede en tidligere version af det plugin, der konfigurerer de virtuelle maskiners netværk. Det nye netværks-plugin var ikke kompatibel med de gamle værter og gæster. Derfor var resultatet, at alle virtuelle maskiner i disse syv klynger var uden forbindelse til netværket.

De ramte klynger inkluderede servere til Access Control Service (ACS) og Windows Azure Service Bus, som begge oplevede nedbrud. Alle problemerne var ifølge bloggen først løst 1. marts klokken 10.15 dansk tid.

Microsoft er ved at indføre tre forholdsregler, der skal forhindre, at noget lignende sker igen. For det første vil selskabet teste for problemer i forhold til tidsangivelser i dets software. For det andet vil Microsoft ændre i den automatiske fejldiagnosticering, så systemet ikke uden videre konkluderer hardwarefejl i sådanne omstændigheder. Og for det tredje vil Microsoft gøre det muligt at lukke trinvist ned for kundernes administrationsdel. Det vil gøre det muligt at blokere for oprettelsen af nye virtuelle maskiner eller udvidelse af de eksisterende men samtidig tillade en vis administration af eksisterende virtuelle maskiner.

Selskabet er også ved at opgradere sin mulighed for at opdage og håndtere fejl hurtigere. Der vil også blive foretaget ændringer, så kundernes kontrolpanel i højere grad vil forblive tilgængelig, når der er fejl.

Da alle kundeservice-telefonerne var optaget, måtte mange kunder vente længe for at få hjælp.

Derfor reevaluerer Microsoft bemandingen på området og overvejer at gøre bedre brug af blogs, Twitter og Facebook til oplysning om problemer.

Microsoft er desuden ved at udvikle interne softwareværktøjer til brug ved nedbrud, ligesom selskabet også prioriterer en hurtigere genetablering af kundeservice og at give kunderne bedre indblik i, hvordan arbejdet med at genetablere driften skrider frem.

Læs også: Microsofts store cloud-tjeneste ramt af nedbrud.

Oversat af Thomas Bøndergaard

Læses lige nu
    Computerworld Events

    Vi samler hvert år mere end 6.000 deltagere på mere end 70 events for it-professionelle.

    Ekspertindsigt – Lyt til førende specialister og virksomheder, der deler viden om den nyeste teknologi og de bedste løsninger.
    Netværk – Mød beslutningstagere, kolleger og samarbejdspartnere på tværs af brancher.
    Praktisk viden – Få konkrete cases, værktøjer og inspiration, som du kan tage direkte med hjem i organisationen.
    Aktuelle tendenser – Bliv opdateret på de vigtigste dagsordener inden for cloud, sikkerhed, data, AI og digital forretning.

    Infrastruktur | Frederiksberg

    Roundtable: Hybrid og cloud – sikre og strategiske it-valg i en ustabil verden

    Eksklusive danske digitale ledere mødes til rundbordssamtale om balancen mellem fart, sikkerhed og compliance. Hør hvordan CIO’er bygger robuste hybrid cloud-strategier, der skaber reel forretningsværdi og styrker modstandskraften.

    Sikkerhed | København

    Strategisk It-sikkerhedsdag 2026 - København

    Få overblik over cybersikkerhedens vigtigste teknologier, trusler og strategiske valg. Hør skarpe oplæg om AI-risici, forsvar, compliance og governance. Vælg mellem to spor og styrk både indsigt og netværk. Deltag i København 20. januar.

    Andre events | København

    Executive Conversations: Fra hype til afkast – her er vinderne af AI-ræset

    Få et klart overblik over AI’s reelle effekt i danske virksomheder. Arrangementet giver unge talenter og ambitiøse medarbejdere viden, der løfter karrieren, skærper beslutninger og gør dig klar til at præge den digitale udvikling. Læs mere og...

    Se alle vores events inden for it

    Navnenyt fra it-Danmark

    VisionBird har pr. 1. november 2025 ansat Kelly Lyng Ludvigsen, 38 år,  som Seniorrådgiver. Hun skal især beskæftige sig med Rådgivning og undervisning i Contract Management. Hun kommer fra en stilling som Contract Manager hos Novo Nordisk. Hun er uddannet Cand. jur. og BS fra CBS. Hun har tidligere beskæftiget sig med Contract Management i flere roller i både det private, offentlige og som konsulent. Nyt job

    Kelly Lyng Luvigsen

    VisionBird

    Norriq Danmark A/S har pr. 1. september 2025 ansat Alexander Bendix som Consultant. Han skal især beskæftige sig med tilføre nye, friske perspektiver og værdifuld viden til NORRIQS Data & AI-afdeling. Nyt job

    Alexander Bendix

    Norriq Danmark A/S

    Norriq Danmark A/S har pr. 1. september 2025 ansat Hans Christian Thisen som AI Consultant. Han skal især beskæftige sig med at bidrage til udvikling og implementering af AI- og automatiseringsløsninger. Nyt job

    Hans Christian Thisen

    Norriq Danmark A/S

    Enterprise Rent-A-Car har pr. 1. september 2025 ansat Christian Kamper Garst som Senior Key Account Manager. Han skal især beskæftige sig med at vinde markedsandele i hele Norden som led i en storstilet turnaround-strategi. Han kommer fra en stilling som Salgsdirektør hos Brøchner Hotels. Nyt job

    Christian Kamper Garst

    Enterprise Rent-A-Car