18. december 2004 - 20:10Der er
35 kommentarer og 1 løsning
Problemer med raid array
Jeg har lige været så uheldig at min Linux server er gået ned. Jeg tror det er en del af filsystemet der er gået kold... Det er virker ikke som en fysisk fejl. Min Promise SX6000 raid controller melder ihvertfald ikke fejl på array'et.
Array'et består af 6 120GB diske af mærket Maxtor.
Er der mulighed for at jeg kan regenere data'en der lå på diskene??? Ville være surt hvis jeg skal bruge tid på at lave alle mine konfigurations filer igen.
ja, det er et hardware raid... Når jeg starter kommer den med en bios fejl: bip - pause - bip - pause - bip - pause osv... Derudover kommer der en fejl omkring på skærmen... 2sek tjekker lige.
Jeg har lige formateret serveren... Det vil sige alt på nær /var/ftp/ hvorunder jeg gemmer alle mine konfigurations filer.... Det er en stor patition på ca. 500 GB...
Resten af partionerne som /etc, /usr, /tmp, /boot er lige blevet formateret...
Efter formateringen flyttede jeg alle mine konfigurations filer, fra /var/ftp/* tilbage til hvor de plejede at ligge... Dette har jeg gjordt masser af gange før hvor det har virket. Men bare ikke denne gange.. Så jeg har altså ikke lavet en kerne opgradering men en formatering af det MESTE af mit filsystem.
Og ja, alle diskene sidder i et stort raid 5, som ligner en stor disk for operativ systemet... Men den er delt op i mange mindre partitioner... og en stor på 500GB "/var/ftp"
Nu har jeg gået kontrolleren igennem igen... Det virker ikke som om der er noget der fejler.. Array'et er "functional" og hvis kigger og array komfiguration for det pågældende array finder kontrolleren alle 6 diske.. Alle diskene står asignet til det rigtige array...
Det virker ikke umidbart som om der er noget galt med det array... Kan det ikke være filsystemet der er gået koldt???
Først gennemgår serveren POST opstarten uden problemer... Dernæst starter raid controlleren. Den tester array'et og sætter status på array'et til "Functional" Nu stater Linux op og dette kommer frem på skærmen:
Loading pti_st.o module AMD756: dev 8086:1962, router pirq : 2 get irq : 10 PCI: Found IRQ 10 for device 02:05.1 IRQ routing conflict for 00:09.1, have irq 5, want irq 10 IRQ routing conflict for 00:05.1, have irq 5, want irq 10 Found PTI SuperTrak at mbase: 0xf70000000, irq 5. scsi0: PROMISE SuperTrak SX6000 Driver Vendor: PTI Modil: SuperTrak REV: Type: Direct-Access ANSI SCSI revision: 02 Attached scsi disk sda at scsi0, channel 0, id 0, lun 0 SCSI device sda: 1191406080 512-byte hdwr sectors(610000 MB) Partition check: sda: sda1 sda2 sda3 sda4 ( sda5 sda6 sda7 sda8 ) Loading jbd.o module Jouralled Block Device driver loaded Loading ext3.o module Mouting /proc filesystem Creating block devices Creating root devices Mouting root filesystem EXT3-fs: INFO: recovery required on readonly filesystem. EXT3-fs: write access will be enabled dyring recovery kjournald starting. Commit interval 5 seconds EXT3-fs: recovery complete.
Efter denne linje begynder den at melde fejl. Og denne fejl begynder at gentage sig:
write scsi: aborting command due to timeout: pid 122, scsi0, channel 0, id 0, lun 0 WRITE (10) 00 00 03 30 20 00 00 08 00
puha, den er slem - jeg ved ikke hvad du skal gøre - jeg er nødt til at give fortabt. Tydeligvis ses controlleren (udover irq-konflikt) - diske ses - chkdisk skal startes - men det går galt når der skrives til disken.
nå, det hjalp ikke lige at sætte raid kotrolleren et andet sted. Samme fjel forekommer. men tilgengæld ændrede fejlbeskeden på skærmen sig... Fyre den ind om et øjeblik.
tja, fortsat samme fejl - ingen mulighed for at skrive til disken.
driveren til din controller - findes den i en recue-disk som f.eks. RedHat (jeg ved faktisk ikke hvilken distribution du bruger), således at du kan komme i luften?
Så har vi i hvert fald en kørende maskine og kan prøve at fejlsøge på diskene - partition for partition.
Nå, men jeg får heller ikke lov til at se hvad der ligger på disken med denne metode... Jeg brugte en "linux rescue dd" da jeg har brug for en driver disken for at få liv i min raid kontroller... Det første man kan vælge at gøre når man booter op i rescue mode er at kigge efter en installation... Hvis man vælger dette begynder raid kontrolleren lige med det samme at bippe ligesom hvis man booter i normal tilstand...
Det er en lidt sjov fejl vi roder med:-) Jeg kunne jo boote op første gang efter installationen... Hvor det hele virkede en dags tid??
lukket... Det var en af diskene der var gået kold. Men controlleren så den stadig som en alm. disk. Jeg skiftede disken ud og lavede en rebuildt af array'et. Nu køre det igen. Men jeg er skam ved at smide et backup drev i serveren:-)
jo, det er sgu i orden... Jeg opretter en tråd der hedder til "raid point til lap" på 100 point, som du kan svare på
Synes godt om
Ny brugerNybegynder
Din løsning...
Tilladte BB-code-tags: [b]fed[/b] [i]kursiv[/i] [u]understreget[/u] Web- og emailadresser omdannes automatisk til links. Der sættes "nofollow" på alle links.