Avatar billede thetoastmaster Juniormester
01. juni 2004 - 22:45 Der er 12 kommentarer og
2 løsninger

Min server fryser men der vises ingen fejl

Hej

Jeg har et problem med min server, der køre med Mandrake 9.2 ,
Den er pludselig begyndt at lave ballade, den går i sort  ( total frys ) uden jeg kan finde årsagen, jeg har kikket log filer igennem uden held, først troede jeg at den blev for varm ( står i et skab, men dette skab er sat sådan sammen at der hele strømmer luft igennem ( køre med 2 stk 120mm blæsere samt en 80 mm til at søgere for turbulens, i dette skab er der 2 andre server som køre som de skal ) serveren køre med en Athlon 2400 MHz, den bliver ca. 30 C varm ( køre med stor kobber køler ),

jeg har gået systemet igennem for at se om der måske skulle være noget der kunne konflikte med andet i systemet men kan ikke lige se hvad det skulle være, findes der et program der eks kan sættes op til at hele tiden lave en log fil over hvad der er i gang i systemet, eks ville det være godt med en form for log system der laver en ny log hver minut, findes dette ???

Dette program skal køre fra en shell ikke noget med xwindows ( er ikke sat ind )

Er der evt. en der har haft samme problem? og fundet fejlen i deres system,,,

The Toastmaster
Avatar billede strych9 Praktikant
02. juni 2004 - 01:29 #1
Det er et godt og udførligt spørgsmål du stiller.
Jeg kunne dog godt tænke mig en lille smule mere information, idet disse problemer er svære at finde.

Hvor ofte fryser serveren? Er der noget mønster i hvor hurtigt eller ofte den går ned? sker det på bestemte tider af dagen? Feks i forbindelse med nogle cron jobs?

Du skriver at du har kigget logs igennem, men hvilke logs? Bare /var/log/messages?

Til sidst kunne det være fedt med et paste af output af uname -a og dmesg.

Det er ikke en garanti for at jeg eller andre her kan finde fejlen, men gør det måske en smule mere sandsynligt.
Jeg synes iøvrigt at du skal køre et hurtigt ram check ved at boote computeren med memtest86.
Avatar billede mfalck Praktikant
02. juni 2004 - 08:41 #2
prøv evt også at køre kommandoen "dmesg" - der kan tit logges kritiske meddelser
Avatar billede thetoastmaster Juniormester
02. juni 2004 - 11:30 #3
dette er fra dmesg

Linux version 2.4.22-30mdksecure (qateam@updates.mandrakesoft.com) (gcc version 3.3.1 (Mandrake Linux 9.2 3.3.1-2mdk)) #1 SMP Thu Apr 22 14:20:25 MDT 2004
BIOS-provided physical RAM map:
BIOS-e820: 0000000000000000 - 000000000009f400 (usable)
BIOS-e820: 000000000009f400 - 00000000000a0000 (reserved)
BIOS-e820: 00000000000f0000 - 0000000000100000 (reserved)
BIOS-e820: 0000000000100000 - 000000001fff0000 (usable)
BIOS-e820: 000000001fff0000 - 000000001fff3000 (ACPI NVS)
BIOS-e820: 000000001fff3000 - 0000000020000000 (ACPI data)
BIOS-e820: 00000000fec00000 - 00000000fec01000 (reserved)
BIOS-e820: 00000000fee00000 - 00000000fee01000 (reserved)
BIOS-e820: 00000000ffff0000 - 0000000100000000 (reserved)
511MB LOWMEM available.
ACPI: have wakeup address 0xc0002000
On node 0 totalpages: 131056
zone(0): 4096 pages.
zone(1): 126960 pages.
zone(2): 0 pages.
ACPI: RSDP (v000 Nvidia                                    ) @ 0x000f7110
ACPI: RSDT (v001 Nvidia AWRDACPI 0x42302e31 AWRD 0x00000000) @ 0x1fff3000
ACPI: FADT (v001 Nvidia AWRDACPI 0x42302e31 AWRD 0x00000000) @ 0x1fff3040
ACPI: MADT (v001 Nvidia AWRDACPI 0x42302e31 AWRD 0x00000000) @ 0x1fff7b40
ACPI: DSDT (v001 NVIDIA AWRDACPI 0x00001000 MSFT 0x01000009) @ 0x00000000
ACPI: Local APIC address 0xfee00000
ACPI: LAPIC (acpi_id[0x00] lapic_id[0x00] enabled)
Processor #0 Pentium(tm) Pro APIC version 16
ACPI: LAPIC_NMI (acpi_id[0x00] polarity[0x1] trigger[0x1] lint[0x1])
Building zonelist for node : 0
Kernel command line: auto BOOT_IMAGE=linux-secure ro root=305 devfs=mount hdd=ide-scsi acpi=ht resume=/dev/hda6 splash=silent
ide_setup: hdd=ide-scsi
bootsplash: silent mode.
Found and enabled local APIC!
Initializing CPU#0
Detected 1996.988 MHz processor.
Console: colour VGA+ 80x25
Calibrating delay loop... 3984.58 BogoMIPS
Memory: 509956k/524224k available (1635k kernel code, 9660k reserved, -2276k data, 160k init, 0k highmem, 0k BadRAM)
Dentry cache hash table entries: 65536 (order: 7, 524288 bytes)
Inode cache hash table entries: 32768 (order: 6, 262144 bytes)
Mount cache hash table entries: 512 (order: 0, 4096 bytes)
Buffer cache hash table entries: 32768 (order: 5, 131072 bytes)
Page-cache hash table entries: 131072 (order: 7, 524288 bytes)
CPU: L1 I Cache: 64K (64 bytes/line), D cache 64K (64 bytes/line)
CPU: L2 Cache: 256K (64 bytes/line)
Intel machine check architecture supported.
Intel machine check reporting enabled on CPU#0.
CPU:    After generic, caps: 0383fbff c1c3fbff 00000000 00000000
CPU:            Common caps: 0383fbff c1c3fbff 00000000 00000000
Enabling fast FPU save and restore... done.
Enabling unmasked SIMD FPU exception support... done.
Checking 'hlt' instruction... OK.
POSIX conformance testing by UNIFIX
mtrr: v1.40 (20010327) Richard Gooch (rgooch@atnf.csiro.au)
mtrr: detected mtrr type: Intel
CPU: L1 I Cache: 64K (64 bytes/line), D cache 64K (64 bytes/line)
CPU: L2 Cache: 256K (64 bytes/line)
Intel machine check reporting enabled on CPU#0.
CPU:    After generic, caps: 0383fbff c1c3fbff 00000000 00000000
CPU:            Common caps: 0383fbff c1c3fbff 00000000 00000000
CPU0: AMD Athlon(tm) XP 2400+ stepping 00
per-CPU timeslice cutoff: 731.72 usecs.
enabled ExtINT on CPU#0
ESR value before enabling vector: 00000000
ESR value after enabling vector: 00000000
Error: only one processor found.
Using local APIC timer interrupts.
calibrating APIC timer ...
..... CPU clock speed is 1997.0066 MHz.
..... host bus clock speed is 266.2675 MHz.
cpu: 0, clocks: 2662675, slice: 1331337
CPU0<T0:2662672,T1:1331328,D:7,S:1331337,C:2662675>
Waiting on wait_init_idle (map = 0x0)
All processors have done init_idle
ACPI: Subsystem revision 20031002
ACPI: Interpreter disabled.
PCI: PCI BIOS revision 2.10 entry at 0xfb550, last bus=3
PCI: Using configuration type 1
PCI: Probing PCI hardware
PCI: ACPI tables contain no PCI IRQ routing entries
PCI: Probing PCI hardware (bus 00)
PCI: Using IRQ router default [10de/01e0] at 00:00.0
isapnp: Scanning for PnP cards...
isapnp: No Plug & Play device found
Linux NET4.0 for Linux 2.4
Based upon Swansea University Computer Society NET3.039
Initializing RT netlink socket
apm: BIOS version 1.2 Flags 0x07 (Driver version 1.16)
Starting kswapd
kinoded started
VFS: Disk quotas vdquot_6.5.1
Detected PS/2 Mouse Port.
pty: 1024 Unix98 ptys configured
Serial driver version 5.05c (2001-07-08) with HUB-6 MANY_PORTS MULTIPORT SHARE_IRQ SERIAL_PCI ISAPNP enabled
ttyS00 at 0x03f8 (irq = 4) is a 16550A
RAMDISK driver initialized: 16 RAM disks of 32000K size 1024 blocksize
Uniform Multi-Platform E-IDE driver Revision: 7.00beta4-2.4
ide: Assuming 33MHz system bus speed for PIO modes; override with idebus=xx
NFORCE2: IDE controller at PCI slot 00:09.0
NFORCE2: chipset revision 162
NFORCE2: not 100% native mode: will probe irqs later
AMD_IDE: Bios didn't set cable bits corectly. Enabling workaround.
AMD_IDE: nVidia Corporation nForce2 IDE UDMA133 (rev a2) UDMA133 controller on pci00:09.0
    ide0: BM-DMA at 0xf000-0xf007, BIOS settings: hda:DMA, hdb:DMA
    ide1: BM-DMA at 0xf008-0xf00f, BIOS settings: hdc:DMA, hdd:DMA
hda: SAMSUNG SV4084H, ATA DISK drive
blk: queue c01a6140, I/O limit 4095Mb (mask 0xffffffff)
hdd: Hewlett-Packard CD-Writer Plus 9100, ATAPI CD/DVD-ROM drive
ide0 at 0x1f0-0x1f7,0x3f6 on irq 14
ide1 at 0x170-0x177,0x376 on irq 15
hda: attached ide-disk driver.
hda: host protected area => 1
hda: 79730784 sectors (40822 MB) w/426KiB Cache, CHS=4963/255/63, UDMA(100)
Partition check:
hda: hda1 hda2 < hda5 hda6 hda7 hda8 hda9 hda10 >
ide: late registration of driver.
md: md driver 0.90.0 MAX_MD_DEVS=256, MD_SB_DISKS=27
md: Autodetecting RAID arrays.
md: autorun ...
md: ... autorun DONE.
Initializing Cryptographic API
NET4: Linux TCP/IP 1.0 for NET4.0
IP Protocols: ICMP, UDP, TCP, IGMP
IP: routing cache hash table of 4096 buckets, 32Kbytes
TCP: Hash tables configured (established 32768 bind 32768)
Linux IP multicast router 0.06 plus PIM-SM
NET4: Unix domain sockets 1.0/SMP for Linux NET4.0.
RAMDISK: Compressed image found at block 0
Freeing initrd memory: 387k freed
VFS: Mounted root (ext2 filesystem).
SCSI subsystem driver Revision: 1.00
Loading Adaptec I2O RAID: Version 2.4 Build 5
Detecting Adaptec I2O RAID controllers...
Adaptec I2O RAID controller 0 at e0823000 size=100000 irq=11
dpti: If you have a lot of devices this could take a few minutes.
dpti0: Reading the hardware resource table.
TID 008  Vendor: ADAPTEC      Device: AIC-7899    Rev: 00000001   
TID 517  Vendor: ADAPTEC      Device: RAID-0      Rev: 320P       
scsi0 : Vendor: Adaptec  Model: 2100S            FW:320P
  Vendor: ADAPTEC  Model: RAID-0            Rev: 320P
  Type:  Direct-Access                      ANSI SCSI revision: 02
Attached scsi disk sda at scsi0, channel 0, id 0, lun 0
SCSI device sda: 17848320 512-byte hdwr sectors (9138 MB)
sda: sda1
Journalled Block Device driver loaded
kjournald starting.  Commit interval 5 seconds
EXT3-fs: mounted filesystem with ordered data mode.
Freeing unused kernel memory: 160k freed
Real Time Clock Driver v1.10e
usb.c: registered new driver usbdevfs
usb.c: registered new driver hub
PCI: Setting latency timer of device 00:02.0 to 64
usb-ohci.c: USB OHCI at membase 0xe0965000, IRQ 11
usb-ohci.c: usb-00:02.0, nVidia Corporation nForce2 USB 1.1 OHCI Controller
usb.c: new USB bus registered, assigned bus number 1
hub.c: USB hub found
hub.c: 3 ports detected
PCI: Setting latency timer of device 00:02.1 to 64
usb-ohci.c: USB OHCI at membase 0xe0967000, IRQ 5
usb-ohci.c: usb-00:02.1, nVidia Corporation nForce2 USB 1.1 OHCI Controller (#2)
usb.c: new USB bus registered, assigned bus number 2
hub.c: USB hub found
hub.c: 3 ports detected
PCI: Setting latency timer of device 00:02.2 to 64
ehci_hcd 00:02.2: nVidia Corporation nForce2 USB 2.0 EHCI Controller
ehci_hcd 00:02.2: irq 12, pci mem e0980000
usb.c: new USB bus registered, assigned bus number 3
PCI: 00:02.2 PCI cache line size set incorrectly (0 bytes) by BIOS/FW.
PCI: 00:02.2 PCI cache line size corrected to 32.
ehci_hcd 00:02.2: USB 2.0 enabled, EHCI 1.00, driver 2003-Jun-19/2.4
hub.c: USB hub found
hub.c: 6 ports detected
usbdevfs: remount parameter error
EXT3 FS 2.4-0.9.19, 19 August 2002 on ide0(3,5), internal journal
Adding Swap: 811240k swap-space (priority -1)
hdd: attached ide-scsi driver.
scsi1 : SCSI host adapter emulation for IDE ATAPI devices
  Vendor: HP        Model: CD-Writer+ 9100  Rev: 1.0c
  Type:  CD-ROM                            ANSI SCSI revision: 02
kjournald starting.  Commit interval 5 seconds
EXT3 FS 2.4-0.9.19, 19 August 2002 on ide0(3,10), internal journal
EXT3-fs: mounted filesystem with ordered data mode.
kjournald starting.  Commit interval 5 seconds
EXT3 FS 2.4-0.9.19, 19 August 2002 on ide0(3,9), internal journal
EXT3-fs: mounted filesystem with ordered data mode.
kjournald starting.  Commit interval 5 seconds
EXT3 FS 2.4-0.9.19, 19 August 2002 on ide0(3,7), internal journal
EXT3-fs: mounted filesystem with ordered data mode.
kjournald starting.  Commit interval 5 seconds
EXT3 FS 2.4-0.9.19, 19 August 2002 on ide0(3,8), internal journal
EXT3-fs: mounted filesystem with ordered data mode.
SGI XFS snapshot-xfs-2.4.21-2003-07-07_02:01_UTC with ACLs, no debug enabled
SGI XFS Quota Management subsystem
XFS mounting filesystem sd(8,1)
Ending clean XFS mount for filesystem: sd(8,1)
kjournald starting.  Commit interval 5 seconds
EXT3 FS 2.4-0.9.19, 19 August 2002 on ide0(3,1), internal journal
EXT3-fs: mounted filesystem with ordered data mode.
eepro100.c:v1.09j-t 9/29/99 Donald Becker http://www.scyld.com/network/eepro100.html
eepro100.c: $Revision: 1.36 $ 2000/11/17 Modified by Andrey V. Savochkin <saw@saw.sw.com.sg> and others
eth0: Intel Corp. 82557/8/9 [Ethernet Pro 100], 00:90:27:13:53:B8, IRQ 11.
  Receiver lock-up bug exists -- enabling work-around.
  Board assembly 689661-004, Physical connectors present: RJ45
  Primary interface chip i82555 PHY #1.
  General self-test: passed.
  Serial sub-system self-test: passed.
  Internal registers self-test: passed.
  ROM checksum self-test: passed (0x24c9f043).
  Receiver lock-up workaround activated.
Avatar billede mfalck Praktikant
02. juni 2004 - 11:33 #4
hm .. det giver desværre ikke så meget hjælp.
Avatar billede strych9 Praktikant
02. juni 2004 - 11:37 #5
Jeg kan heller ikke umiddelbart se noget galt. Hvad med de andre uddybende spørgsmål?

og især resultatet af din ram test...

Ud over RAM er det faktisk næsten kun en kernel bug der kan få din maskine til at fryse på den måde, og det vil være underligt hvis 2.4.22 fra mandrake secure havde den slags graverende fejl.
Avatar billede thetoastmaster Juniormester
02. juni 2004 - 13:05 #6
Hej
Jeg køre først den ram test sener i dag da serveren køre lige nu, så den venter lige lidt,

Jeg har siden sidste crach sat nogle ting anderledes, eks da jeg gik start systemet igennem opdaget jeg at den kørte alsa op ( alsa sound system ) samt ( sound ) men da jeg har pillet lydkortet fra i bios, før  installering af Mandrake , fatter jeg ikke den har sat dette ind og tilmed har startet dette op under boot.

Jeg har kikket disse log filer igennem

auth.log         
kernel/ *.log       
rpmpkgs           
urpmi.log
boot.log         
user.log
secure.log
secure/ *.log
cron/ *.log
lastlog
daemons/ *.log
secure.offset
mail/ *.log   
security
security/ *.log
spooler
syslog
iptraf/ *.log

og ikke fundet noget der kan forklare den gør som den gør.

Jeg har også kikket mine cron jobs igennem, og der virker det ikke som om der er nogle fejl, dette understøttes også af cron’s log filerne,

Det der også gør at jeg ikke mener det har noget med cron job at gøre er at de sidste 3 gange den har været nede var kl 02.27  kl 17.34 samt  kl 21.56

Dette er set ud fra apache log filerne, så ikke 100% rigtig men 99 ;-)

MVH
The Toastmaster
Avatar billede JoeX2 Praktikant
02. juni 2004 - 15:08 #7
Når du siger total frys, betyder dette så også at den ikke reagere på ALT-Sys Rq-b. Hvis den tastekombination virker, når serveren køre normalt, men ikke når server fryser, så ved du at kernen står helt stille.

Det kan sagtens være ram'ne der er blevet slidte, men noget der også sker i dag er at selve bundkortne også kan "blive slidt" med tiden og derved blive ustabile. De er desvære umulig at teste. (En ram test kan dog nogengange afsløre en fejl i bundkortet, men så tror man at fejlen er i ram'ne)

(ALT-Sys Rq-b genstarte computeren uden at sync'e harddisken, så du skal ikke have for mange åbne filer når du gør det)
Avatar billede thetoastmaster Juniormester
02. juni 2004 - 16:36 #8
jeg har ikke testet dette ( endnu ) men da den er uden skærm og tastatur er det ikke lige noget der er checket, men jeg sætter en skærm til nu samt tastatur, så må jeg jo vente på en frysning igen.

dens motherbord er ca 4 måneder gammelt og rammen lige så, jeg har kørt lm-sensors og den viser også hvor varmt chip sættet er, den siger det er 34 c varmt lige nu, men det udelukker jo ikke en dårlig chip, desvære kan den ikke sige noget om scsi controleren som jo også kan blive for varm, jeg tror jeg køber nogle køler ripper til de chip på motherbord samt på scsi controleren.

men jeg ved med sikkerhed at apache mysql samt sshd stopper, det vil sige jeg ved at jeg ikke kan kontakte dem gennem netkort ( måske er det netkortet ) det kan jo mange ting,,,,,



MVH
The Toastmaster
Avatar billede mfalck Praktikant
03. juni 2004 - 08:37 #9
har du ikke ssh kørende på maskinen ?!?
Avatar billede mfalck Praktikant
03. juni 2004 - 08:38 #10
det kan jo være en process som løber løbsk og blot tager al CPU-kraft, og derved forhindrer alle andre processer i at komme til, så det blot ser ud som om den fryser ?
Avatar billede thetoastmaster Juniormester
03. juni 2004 - 09:39 #11
jeg har ssh op og køre, men den er også død, mysql + apache + postfix dør på samme tid,,,
men den er ikke gået ned i 30 timer, så måske var det alsa eller sonud ( som jo ikke skulle køre ) der var årsagen,

hvis den ikke går ned de næste 24 timer får
mfalck + strych9 samt joex2 30 p. hver for hjælpen,

kommer den igen, ( håber det ikke ) kommer der bare et nyt indlæg, og skulle den gå ned igen bliver ram kørt gennem et check....

så smid lige et svar alle 3...


MVH

The Toastmaster
Avatar billede mfalck Praktikant
03. juni 2004 - 09:41 #12
ok ..
Avatar billede strych9 Praktikant
03. juni 2004 - 12:13 #13
ok
Avatar billede thetoastmaster Juniormester
05. juni 2004 - 11:26 #14
nå, det virker ikke som om joex2 lige kan svare, jeg giver jer de 30 point hver, så  joex2 skriv her så jeg lige kan sætte noget om med de 30 p.

MVH

The Toastmaster
Avatar billede Ny bruger Nybegynder

Din løsning...

Tilladte BB-code-tags: [b]fed[/b] [i]kursiv[/i] [u]understreget[/u] Web- og emailadresser omdannes automatisk til links. Der sættes "nofollow" på alle links.

Loading billede Opret Preview
Kategori
IT-kurser om Microsoft 365, sikkerhed, personlig vækst, udvikling, digital markedsføring, grafisk design, SAP og forretningsanalyse.

Log ind eller opret profil

Hov!

For at kunne deltage på Computerworld Eksperten skal du være logget ind.

Det er heldigvis nemt at oprette en bruger: Det tager to minutter og du kan vælge at bruge enten e-mail, Facebook eller Google som login.

Du kan også logge ind via nedenstående tjenester