Artikel top billede

Microsoft betaler bod til kunder for cloud-nedbrud

Microsoft betaler bod til de kunder, der blev ramt af det store nedbrud i Azure-cloudtjenesten fornylig. Se her, hvad der gik så galt, at tjenesten crashede.

Computerworld News Service: Som bod for en række udfald på grund af en softwarefejl i selskabets cloud-platform Azure tilbyder Microsoft de ramte kunder 33 procent rabat for den periode, de var uden forbindelse 29. februar.

Du kan læse mere om nedbruddet her.

Ikke alle af Azures services var ramt af nedbruddet.

Der gives kun rabat til kunder af de services, der var påvirket af fejlen, oplyser Microsoft via bloggen fra teamet bag Windows Azure.

Problemet stammede fra to overlappende omstændigheder: At datoen 29. februar kun indtræffer hvert fjerde år og at der udveksles et certifikat med et års gyldighed, når Azure initialiserer virtuelle maskiner til kundernes anvendelse.

Certifikater udstedt 28. februar i år fik tildelt en gyldighed indtil 29. februar 2013, hvilket er en dato, der ikke vil indtræffe, og som derfor blev tolket som ugyldig.

Forsøgte igen og igen

Denne fejl forårsagede, at systemet igen og igen forsøgte at gennemføre handlingen, der konsekvent mislykkedes.

Det fik systemet til at konkludere, at det var hardwaren, hvorpå de virtuelle maskiner kørte, den var gal med.

Det fik systemet til at forsøge at migrere de fejlramte virtuelle maskiner til anden hardware i samme Azure-klynge, der består af omtrent 1.000 fysiske servere.

Det mislykkedes selvfølgelig også de migrerede virtuelle maskiner at initialisere af den samme årsag.

Således blev mere og mere hardware automatisk bedømt til at have nedbrud, indtil systemet nåede en vis grænse, hvorefter alle forsøg på at migrere de virtuelle maskiner på nogen server i de påvirkede klynger stoppede.

Nedsat driftsniveau

Det gjorde det muligt for disse klynger alligevel at forblive i drift ved nedsat driftsniveau, forklares det på bloggen.

Azure lukkede ned for kundernes service management-platform, så kunderne ikke havde mulighed for at tilføje applikationer eller udvide kapaciteten til applikationer i drift, da begge dele ville have forværret situationen ved at forsøge at oprette endnu flere nye virtuelle maskiner.

"Dette er første gang vi har taget dette skridt," skriver Microsoft på bloggen. Alle kørende applikationer forblev i drift.

Læs også: Microsofts store cloud-tjeneste ramt af nedbrud.
 

Så lang tid tog det

Det tog 13 timer og 23 minutter at rette fejlen i alle på nær syv Azure-klynger. Disse syv klynger var midt i en software-opdatering, så de udgjorde et separat problem. Skulle man opgradere de værtsagenter og gæsteagenter, der ville udveksle de ugyldige certifikater, til de nyeste versioner med det samme, eller skulle man genoprette de gamle versioner og derefter udrulle rettelsen?

Det blev besluttet at gøre det sidste, hvilket dog ikke var nogen succes, fordi man ikke samtidig genoprettede en tidligere version af det plugin, der konfigurerer de virtuelle maskiners netværk. Det nye netværks-plugin var ikke kompatibel med de gamle værter og gæster. Derfor var resultatet, at alle virtuelle maskiner i disse syv klynger var uden forbindelse til netværket.

De ramte klynger inkluderede servere til Access Control Service (ACS) og Windows Azure Service Bus, som begge oplevede nedbrud. Alle problemerne var ifølge bloggen først løst 1. marts klokken 10.15 dansk tid.

Microsoft er ved at indføre tre forholdsregler, der skal forhindre, at noget lignende sker igen. For det første vil selskabet teste for problemer i forhold til tidsangivelser i dets software. For det andet vil Microsoft ændre i den automatiske fejldiagnosticering, så systemet ikke uden videre konkluderer hardwarefejl i sådanne omstændigheder. Og for det tredje vil Microsoft gøre det muligt at lukke trinvist ned for kundernes administrationsdel. Det vil gøre det muligt at blokere for oprettelsen af nye virtuelle maskiner eller udvidelse af de eksisterende men samtidig tillade en vis administration af eksisterende virtuelle maskiner.

Selskabet er også ved at opgradere sin mulighed for at opdage og håndtere fejl hurtigere. Der vil også blive foretaget ændringer, så kundernes kontrolpanel i højere grad vil forblive tilgængelig, når der er fejl.

Da alle kundeservice-telefonerne var optaget, måtte mange kunder vente længe for at få hjælp.

Derfor reevaluerer Microsoft bemandingen på området og overvejer at gøre bedre brug af blogs, Twitter og Facebook til oplysning om problemer.

Microsoft er desuden ved at udvikle interne softwareværktøjer til brug ved nedbrud, ligesom selskabet også prioriterer en hurtigere genetablering af kundeservice og at give kunderne bedre indblik i, hvordan arbejdet med at genetablere driften skrider frem.

Læs også: Microsofts store cloud-tjeneste ramt af nedbrud.

Oversat af Thomas Bøndergaard




Brancheguiden
Brancheguide logo
Opdateres dagligt:
Den største og
mest komplette
oversigt
over danske
it-virksomheder
Hvad kan de? Hvor store er de? Hvor bor de?
EG A/S
Udvikling, salg, implementering og support af software og it-løsninger til ERP, CRM, BA, BI, e-handel og portaler. Infrastrukturløsninger og hardware. Fokus på brancheløsninger.

Nøgletal og mere info om virksomheden
Skal din virksomhed med i Guiden? Klik her

Kommende events
Strategisk IT-sikkerhedsdag 2022 - identificer, beskyt og forsvar

IT-sikkerhedstruslerne mod virksomhederne er i takt med tiden blevet større og værre, fordi virksomhederne er mere end nogensinde før afhængige af data og IT. Det stiller krav til de IT-ansvarlige, der konstant skal tage bestik af det skiftende trusselniveau. Det kræver blandt andet, at it-sikkerhed bliver sat på den strategiske dagsorden i virksomhederne – men hvordan?

25. januar 2022 | Læs mere


Hjemmearbejdets påvirkning på trivsel, helbred og arbejdsmiljø

Fremtidens arbejdsplads er hybrid, det er der ingen tvivl om. Men hvad fører det egentlig med sig? Og hvordan omstiller du og din arbejdsplads sig til det? Det kan du blive klogere på, på denne digitale konference.

02. februar 2022 | Læs mere


GDPR - persondatabeskyttelse i praksis

Håndteringen af persondata og GDPR er for længst blevet hverdag hos de danske organisationer, men derfor er det til stadighed vigtigt og altafgørende, at den løbende overholdelse af GDPR er på plads. Vær med og hør, hvordan du ved hjælp af processuelle greb, værktøjer og systemer kan sikre dette.

08. februar 2022 | Læs mere






CIO
Sådan tager top-CIO Pernille Geneser livtag med 40 år gamle it-systemer i Stark Group med 10.000 medarbejdere