IBM løfter omsider sløret for dansk gigant-nedbrud


Publiceret d. 3. september 2008 kl. 12.03


Annonce:
 
ANNONCE:
 
På et møde med Computerworld har IBM løftet sløret for, hvad der rent faktisk gik galt 9. april, da en lang række virksomheders it-systemer gik i sort.

Mødet var arrangeret for udvalgte journalister fra pressen.

På mødet fortalte landechefen for Global Technology Services, Sven Kolstrup, om baggrunden for nedbruddet 9. april.

Switch går data-amok
Som flere kilder allerede har fortalt Computerworld, så skyldtes nedbruddet en fejl i en switch, der begyndte at oversvømme netværket med datatrafik.

Trafikken fra switchen fik core-routere til at være 100 procent belastede, hvilket betød, at de ikke videresendte data.

Selvom IBM's teknikere skiftede over fra en overbelastet core-router til en backup-router, blev problemet ikke løst.

Dataoversvømmelsen fra switchen flyttede blot over til backup-routeren, der hurtigt blev 100 procent belastet og dermed heller ikke var i stand til at videresende trafik.

Systemer startes et ad gangen
Da IBM's teknikere fik isoleret den fejlbehæftede switch fra netværket, begyndte selskabets teknikere at genstarte kundesystemerne igen. Det blev gjort på kontrolleret vis, et ad gangen.

Ifølge IBM opstår der flere tusinde såkaldte alerts hver måned i IBM's danske datacentre.

Det er informationer om, at noget på den ene eller anden måde afviger fra den forventede opførsel af hardware og software i datacentrene.

Normalt håndteres alerts af overvågningssystemer automatisk eller af driftspersonale, inden de får betydning for de kørende systemer.

Det skete også ved 9. april-nedbruddet, som Sven Kolstrup betegner som det største nedbrud nogensinde hos IBM Danmark, men her var situationen helt speciel.

Konfigurationsændring udløste softwarefejlen
I et brev til blandt andet Københavns Kommune beskriver IBM i flere detaljer, hvad der forårsagede nedbruddet.

Her hedder det blandt andet:
"Den kritiske situation opstod efter en kundekonfiguration af en 2nd RSPAN session (Remote SPAN) på tværs af switche for at tillade sporing af nogle data for kunden. Dette forårsagede en uventet reaktion fra
switchen."

og senere:

"Da vi efterfølgende fik elimineret den definition, som reelt udløste problemet i den isolerede switch, blev driften helt normaliseret for de resterende kunder."

IBM bekræfter, at konfigurationsændringen førte softwaren ud i en tilstand, hvor der var en programmeringsfejl.

Det var først nogle dage efter 9. april, at årsagen til fejlen i switchen blev identificeret efter nøje granskning i IBM's laboratorier .




Kommentarer - Debatoversigt


Der er endnu ikke nogen kommentarer til denne artikel. Du kan skrive en kommentar ved at udfylde nedenstående formular
Kommentér
Titel:

Ytringer på debatten er afsenders eget ansvar - læs debatreglerne

Forsiden lige nu

Landbrugsorganisation er godt sur i skralden over, at landmænd i randområder skal bestille bredbånd hos konkursramt firma.
25. maj 2012 kl. 14.04 | læs »

ComputerViews: Microsoft har endnu ikke nogen Office-pakke til hverken iOS eller Android. Det er der flere gode grunde til.
25. maj 2012 kl. 07.00 | (6) | læs »

I flere områder af landet skal et nu konkursramt firma være garant for bredbånds-forbindelser.
25. maj 2012 kl. 11.40 | læs »

Nyudnævnt KMD-direktør skal lukke digitale huller og gafle gevinster i en ny KMD-storsatsning på skole-området. Læs her, hvad it-gigantens planer er med vores skolebørn.
25. maj 2012 kl. 12.59 | læs »





 
White papers
Oracle SOA Suite er medlem i familien af Oracle Fusion Middleware-produkter, der giver dig en...

Virtualisering gør det lettere end nogensinde før at udrulle og administrere nye elementer i...

The shared services model has attracted a lot of interest but what is it precisely?

 


Mest læste seneste uge

Kan gratis sikkerhedssoftware virkelig beskytte din pc? Svaret er ja, hvis du vælger det rette produkt. Læs her en test af de mest pålidelige gratis sikkerhedsprogrammer.

Næsten 200 IBM-ansatte får med få timers varsel sidste arbejdsdag i dag. Ingen var orienteret forud for dagens massefyring, som effektueres øjeblikkeligt.

Flyselskabet SAS har brugt op mod trekvart milliarder kroner og seks år på at udskifte sit bookingsystem. Undervejs har der været flere projekt-udfordringer, som kulminerede en vinternat med en big bang-migrering.

To danske it-studerende har udviklet et program, der kan suge kundernes CPR-numre ud af teleselskaberne.

Her er forklaringen på, at IBM Danmark med direktør Lars Mikkelgaard-Jensen i spidsen fyrer 170 medarbejdere.