Inde i maskinen podcast:Microsoft har store planer for Windows 10 efter sommeren

Artikel top billede

Microsoft betaler bod til kunder for cloud-nedbrud

Microsoft betaler bod til de kunder, der blev ramt af det store nedbrud i Azure-cloudtjenesten fornylig. Se her, hvad der gik så galt, at tjenesten crashede.

Computerworld News Service: Som bod for en række udfald på grund af en softwarefejl i selskabets cloud-platform Azure tilbyder Microsoft de ramte kunder 33 procent rabat for den periode, de var uden forbindelse 29. februar.

Du kan læse mere om nedbruddet her.

Ikke alle af Azures services var ramt af nedbruddet.

Der gives kun rabat til kunder af de services, der var påvirket af fejlen, oplyser Microsoft via bloggen fra teamet bag Windows Azure.

Problemet stammede fra to overlappende omstændigheder: At datoen 29. februar kun indtræffer hvert fjerde år og at der udveksles et certifikat med et års gyldighed, når Azure initialiserer virtuelle maskiner til kundernes anvendelse.

Certifikater udstedt 28. februar i år fik tildelt en gyldighed indtil 29. februar 2013, hvilket er en dato, der ikke vil indtræffe, og som derfor blev tolket som ugyldig.

Forsøgte igen og igen

Denne fejl forårsagede, at systemet igen og igen forsøgte at gennemføre handlingen, der konsekvent mislykkedes.

Det fik systemet til at konkludere, at det var hardwaren, hvorpå de virtuelle maskiner kørte, den var gal med.

Det fik systemet til at forsøge at migrere de fejlramte virtuelle maskiner til anden hardware i samme Azure-klynge, der består af omtrent 1.000 fysiske servere.

Det mislykkedes selvfølgelig også de migrerede virtuelle maskiner at initialisere af den samme årsag.

Således blev mere og mere hardware automatisk bedømt til at have nedbrud, indtil systemet nåede en vis grænse, hvorefter alle forsøg på at migrere de virtuelle maskiner på nogen server i de påvirkede klynger stoppede.

Nedsat driftsniveau

Det gjorde det muligt for disse klynger alligevel at forblive i drift ved nedsat driftsniveau, forklares det på bloggen.

Azure lukkede ned for kundernes service management-platform, så kunderne ikke havde mulighed for at tilføje applikationer eller udvide kapaciteten til applikationer i drift, da begge dele ville have forværret situationen ved at forsøge at oprette endnu flere nye virtuelle maskiner.

"Dette er første gang vi har taget dette skridt," skriver Microsoft på bloggen. Alle kørende applikationer forblev i drift.

Læs også: Microsofts store cloud-tjeneste ramt af nedbrud.
 

Så lang tid tog det

Det tog 13 timer og 23 minutter at rette fejlen i alle på nær syv Azure-klynger. Disse syv klynger var midt i en software-opdatering, så de udgjorde et separat problem. Skulle man opgradere de værtsagenter og gæsteagenter, der ville udveksle de ugyldige certifikater, til de nyeste versioner med det samme, eller skulle man genoprette de gamle versioner og derefter udrulle rettelsen?

Det blev besluttet at gøre det sidste, hvilket dog ikke var nogen succes, fordi man ikke samtidig genoprettede en tidligere version af det plugin, der konfigurerer de virtuelle maskiners netværk. Det nye netværks-plugin var ikke kompatibel med de gamle værter og gæster. Derfor var resultatet, at alle virtuelle maskiner i disse syv klynger var uden forbindelse til netværket.

De ramte klynger inkluderede servere til Access Control Service (ACS) og Windows Azure Service Bus, som begge oplevede nedbrud. Alle problemerne var ifølge bloggen først løst 1. marts klokken 10.15 dansk tid.

Microsoft er ved at indføre tre forholdsregler, der skal forhindre, at noget lignende sker igen. For det første vil selskabet teste for problemer i forhold til tidsangivelser i dets software. For det andet vil Microsoft ændre i den automatiske fejldiagnosticering, så systemet ikke uden videre konkluderer hardwarefejl i sådanne omstændigheder. Og for det tredje vil Microsoft gøre det muligt at lukke trinvist ned for kundernes administrationsdel. Det vil gøre det muligt at blokere for oprettelsen af nye virtuelle maskiner eller udvidelse af de eksisterende men samtidig tillade en vis administration af eksisterende virtuelle maskiner.

Selskabet er også ved at opgradere sin mulighed for at opdage og håndtere fejl hurtigere. Der vil også blive foretaget ændringer, så kundernes kontrolpanel i højere grad vil forblive tilgængelig, når der er fejl.

Da alle kundeservice-telefonerne var optaget, måtte mange kunder vente længe for at få hjælp.

Derfor reevaluerer Microsoft bemandingen på området og overvejer at gøre bedre brug af blogs, Twitter og Facebook til oplysning om problemer.

Microsoft er desuden ved at udvikle interne softwareværktøjer til brug ved nedbrud, ligesom selskabet også prioriterer en hurtigere genetablering af kundeservice og at give kunderne bedre indblik i, hvordan arbejdet med at genetablere driften skrider frem.

Læs også: Microsofts store cloud-tjeneste ramt af nedbrud.

Oversat af Thomas Bøndergaard




Brancheguiden
Brancheguide logo
Opdateres dagligt:
Den største og
mest komplette
oversigt
over danske
it-virksomheder
Hvad kan de? Hvor store er de? Hvor bor de?
Alfapeople Nordic A/S
Rådgivning, implementering, udvikling og support af software og it-løsninger indenfor CRM og ERP.

Nøgletal og mere info om virksomheden
Skal din virksomhed med i Guiden? Klik her

Kommende events
Brand din forretning og skab nye leads med Microsoft Dynamics 365 til marketing

Vidste du, at Microsoft Dynamics også byder på stærk funktionalitet til marketingafdelingen? På kun 1 1/2 time inspirerer vi dig til, hvordan du kan bruge Dynamics 365 Marketing til at brande din forretning og skabe nye leads.

17. maj 2021 | Læs mere


Vælg den rigtige infrastruktur og it-arkitektur

Få indblik i, hvordan du kan sikre sammenhæng og overblik i et it-landksab, der konstant ændres. Dette kan blandt andet gøres med de rette strategisk og teknologiske vlag, så effektiviteten, stabiliteten og sikkerheden opretholdes. Den rigtige infrastruktur og it-arkitektur kan uden tvivl hjælpe dig med at skabe overblikket over dit it-landskab.

18. maj 2021 | Læs mere


Digital transformation og innovation: Inspiration til digitale succeshistorier

Kom ind bag facaden hos nogle af Danmarks bedste it-folk, og lær hvordan de arbejder med digital transformation og innovation. Du får muligheden for at høre, hvordan du kan bruge den nye teknologi til at få etableret det mest effektive udviklings- og innovationsmilø.

19. maj 2021 | Læs mere






CIO
Har du rost din mellemleder i dag? Snart er de uddøde - og det er et tab
Computerworld mener: Mellemledere lever livet farligt: Topledelsen får konstant ideer med skiftende hold i virkeligheden, og moden går mod flade agile organisationer. Men mellemlederen er en overset hverdagens helt med et kæmpe ansvar. Her er min hyldest til den ofte latterliggjorte mellemleder.
Job & Karriere
Eva Berneke stopper som topchef i KMD og flytter til Paris: Her er KMD's nye topchef
Efter syv år på posten som topchef for KMD forlader Eva Berneke selskabet. Nu flytter hun med familien til Paris, hvor hun vil fortsætte sit bestyrelsesarbejde. KMD har allerede afløser på plads.
White paper
Overvåg kritiske industrielle systemer og beskyt dem mod angreb
Industrial Control Systems (ICS) udgør hjertet i alle forsynings- og produktionsvirksomheder og kan være overraskende sårbare overfor cyberangreb. Dette whitepaper giver et godt overblik over problematikker og muligheder for at sikre jeres systemer.