Обновился вчера вечером до std-def-2.6.25-alt1. А ночью поймал oops. Вот все, что осталось в логе: May 29 06:39:34 eugene-home kernel: BUG: unable to handle kernel paging request at ffffe20400dbbb90 May 29 06:39:34 eugene-home kernel: IP: [<ffffffff80287543>] free_pages_bulk+0x103/0x2c0 May 29 06:39:34 eugene-home kernel: PGD 1001067 PUD 0 May 29 06:39:34 eugene-home kernel: Oops: 0000 [1] SMP $ uname -a Linux eugene-home.ikz.ru 2.6.25-std-def-alt1 #1 SMP Tue May 20 16:17:05 MSD 2008 x86_64 GNU/Linux $ rpm -qa G kernel|grep std-def kernel-headers-modules-std-def-2.6.25-alt1 kernel-modules-kqemu-std-def-1.3.0-alt0.1.pre11.132633.1 kernel-image-std-def-2.6.25-alt1 kernel-modules-drm-std-def-2008.04.28-alt1.132633.1 kernel-modules-nvidia-std-def-169.12-alt2.132633.1 kernel-modules-alsa-std-def-1.0.16-alt4.132633.1 Железо вот такое: intel-agp Intel Corporation 82945G/GZ/P/PL Memory Controller Hub [Host bridge] 8086:2770:1043:817a drivers: 31:intel-agp class:006:00:00 slot: 0000:00:00.0 hwid: 93D3A4B2391C17BF shpchp Intel Corporation 82945G/GZ/P/PL PCI Express Root Port [PCI bridge Normal decode] 8086:2771 drivers: 7:shpchp class:006:04:00 slot: 0000:00:01.0 hwid: FBB49165EE21A0C3 snd-hda-intel Intel Corporation 82801G (ICH7 Family) High Definition Audio Controller [] 8086:27d8:1043:817f drivers: 24:snd-hda-intel class:004:03:00 slot: 0000:00:1b.0 hwid: 22BFE4C453AC69B7 shpchp Intel Corporation 82801G (ICH7 Family) PCI Express Port 1 [PCI bridge Normal decode] 8086:27d0 drivers: 7:shpchp class:006:04:00 slot: 0000:00:1c.0 hwid: 0A035D4BB7C0DD18 shpchp Intel Corporation 82801G (ICH7 Family) PCI Express Port 2 [PCI bridge Normal decode] 8086:27d2 drivers: 7:shpchp class:006:04:00 slot: 0000:00:1c.1 hwid: 52895C0C3DC0DD1B uhci-hcd Intel Corporation 82801G (ICH7 Family) USB UHCI Controller #1 [UHCI USB Controller] 8086:27c8:1043:8179 drivers: 2.4|usb-uhci 2.4|uhci 2.6|uhci-hcd 7:uhci-hcd class:00c:03:00 slot: 0000:00:1d.0 hwid: E39702FB41EA168F uhci-hcd Intel Corporation 82801G (ICH7 Family) USB UHCI Controller #2 [UHCI USB Controller] 8086:27c9:1043:8179 drivers: 2.4|usb-uhci 2.4|uhci 2.6|uhci-hcd 7:uhci-hcd class:00c:03:00 slot: 0000:00:1d.1 hwid: 02D216AB561693EE uhci-hcd Intel Corporation 82801G (ICH7 Family) USB UHCI Controller #3 [UHCI USB Controller] 8086:27ca:1043:8179 drivers: 2.4|usb-uhci 2.4|uhci 2.6|uhci-hcd 7:uhci-hcd class:00c:03:00 slot: 0000:00:1d.2 hwid: 3DEEE52FEFC0DBA3 uhci-hcd Intel Corporation 82801G (ICH7 Family) USB UHCI Controller #4 [UHCI USB Controller] 8086:27cb:1043:8179 drivers: 2.4|usb-uhci 2.4|uhci 2.6|uhci-hcd 7:uhci-hcd class:00c:03:00 slot: 0000:00:1d.3 hwid: AE21D9DFD4936161 ehci-hcd Intel Corporation 82801G (ICH7 Family) USB2 EHCI Controller [EHCI USB Controller] 8086:27cc:1043:8179 drivers: ehci-hcd 7:ehci-hcd class:00c:03:20 slot: 0000:00:1d.7 hwid: 2C18AB0AB7503CA6 unknown Intel Corporation 82801 PCI Bridge [PCI bridge Subtractive decode] 8086:244e drivers: not found class:006:04:01 slot: 0000:00:1e.0 hwid: BB51A9ECB1BAF6F0 iTCO_wdt intel-rng Intel Corporation 82801GB/GR (ICH7 Family) LPC Interface Bridge [ISA bridge] 8086:27b8:1043:8179 drivers: 24:iTCO_wdt 24:intel-rng class:006:01:00 slot: 0000:00:1f.0 hwid: 235B90D855F2FE2A ata_piix piix Intel Corporation 82801G (ICH7 Family) IDE Controller [IDE interface storage controller] 8086:27df:1043:8179 drivers: 24:ata_piix 24:piix 3:ata_generic 3:ide-pci-generic 3:pata_acpi class:001:01:8a slot: 0000:00:1f.1 hwid: C0294D5486BBC727 ata_piix Intel Corporation 82801GB/GR/GH (ICH7 Family) SATA IDE Controller [IDE interface storage controller] 8086:27c0:1043:2601 drivers: 24:ata_piix 3:ata_generic 3:ide-pci-generic 3:pata_acpi class:001:01:8f slot: 0000:00:1f.2 hwid: D757C273E8A4550A i2c-i801 Intel Corporation 82801G (ICH7 Family) SMBus Controller [SMBus] 8086:27da:1043:8179 drivers: 24:i2c-i801 class:00c:05:00 slot: 0000:00:1f.3 hwid: FEB66583379D8F48 it821x pata_it821x Integrated Technology Express, Inc. ITE 8211F Single Channel UDMA 133 [Unknown mass storage controller] 1283:8211:1043:8138 drivers: 24:it821x 24:pata_it821x class:001:80:00 slot: 0000:01:04.0 hwid: 505CB03C0F600357 snd-emu10k1 Creative Labs SB Live! EMU10k1 [Multimedia audio controller] 1102:0002:1102:8027 drivers: 24:snd-emu10k1 class:004:01:00 slot: 0000:01:0a.0 hwid: F701E3C45D86D923 emu10k1-gp Creative Labs SB Live! Game Port [Input device controller] 1102:7002:1102:0020 drivers: 24:emu10k1-gp class:009:80:00 slot: 0000:01:0a.1 hwid: FF6BD4DA9883CA2B e1000e Intel Corporation 82573L Gigabit Ethernet Controller [Ethernet controller] 8086:109a:1043:81c2 drivers: 24:e1000e class:002:00:00 slot: 0000:02:00.0 hwid: D1B4BB71A753BAB8 nvidia nVidia Corporation G71 [GeForce 7300 GS] [VGA compatible controller] 10de:01df:1043:81f3 drivers: 15:nvidia 9:nvidiafb class:003:00:00 slot: 0000:04:00.0 hwid: 516799AC1A22A7A4 # lsmod Module Size Used by nls_cp866 14976 1 vfat 23552 1 fat 66232 1 vfat kqemu 169384 0 psmouse 53788 0 nvidia 8864964 24 it821x 16260 0 [permanent] rtc_cmos 20280 0 rtc_core 31812 1 rtc_cmos rtc_lib 11904 1 rtc_core w83627ehf 34704 0 hwmon_vid 12288 1 w83627ehf hwmon 12104 1 w83627ehf eeprom 16912 0 ppp_deflate 15104 1 zlib_deflate 30360 1 ppp_deflate zlib_inflate 26880 1 ppp_deflate bsd_comp 14720 0 ppp_async 21632 1 crc_ccitt 10752 1 ppp_async ppp_generic 40488 7 ppp_deflate,bsd_comp,ppp_async slhc 15488 1 ppp_generic nls_koi8_r 14976 2 dm_mod 79160 8 usbhid 60768 0 hid 84160 1 usbhid ff_memless 14856 1 usbhid usb_storage 90176 1 libusual 31968 1 usb_storage snd_hda_intel 466008 0 parport_pc 53320 0 parport 51632 1 parport_pc snd_pcm_oss 54816 0 pcspkr 12032 0 i2c_i801 19868 0 snd_emu10k1 167520 2 emu10k1_gp 12672 0 snd_rawmidi 36896 1 snd_emu10k1 i2c_core 36512 3 nvidia,eeprom,i2c_i801 firmware_class 19328 1 snd_emu10k1 gameport 24720 2 emu10k1_gp snd_ac97_codec 130520 1 snd_emu10k1 ac97_bus 10624 1 snd_ac97_codec ide_cd_mod 49056 0 snd_util_mem 13952 1 snd_emu10k1 snd_seq_dummy 12804 0 iTCO_wdt 22480 0 ehci_hcd 48140 0 e1000e 115108 0 iTCO_vendor_support 12932 1 iTCO_wdt uhci_hcd 35872 0 usbcore 178328 6 usbhid,usb_storage,libusual,ehci_hcd,uhci_hcd snd_seq_oss 45952 0 snd_seq_midi_event 17280 1 snd_seq_oss snd_seq 70560 5 snd_seq_dummy,snd_seq_oss,snd_seq_midi_event snd_seq_device 17684 5 snd_emu10k1,snd_rawmidi,snd_seq_dummy,snd_seq_oss,snd_seq snd_mixer_oss 27136 1 snd_pcm_oss button 17952 0 snd_pcm 98568 5 snd_hda_intel,snd_pcm_oss,snd_emu10k1,snd_ac97_codec snd_timer 34832 3 snd_emu10k1,snd_seq,snd_pcm snd_page_alloc 20240 3 snd_hda_intel,snd_emu10k1,snd_pcm snd_hwdep 19592 2 snd_hda_intel,snd_emu10k1 thermal 30752 0 snd 77640 16 snd_hda_intel,snd_pcm_oss,snd_emu10k1,snd_rawmidi,snd_ac97_codec,snd_seq_dummy,snd_seq_oss,snd_seq,snd_seq_device,snd_mixer_oss,snd_pcm,snd_timer,snd_hwdep intel_agp 40048 0 soundcore 17440 1 snd processor 53740 1 thermal evdev 22400 3 sr_mod 28740 0 cdrom 48296 2 ide_cd_mod,sr_mod sg 49888 0 ntfs 111488 1 nls_base 17924 5 nls_cp866,vfat,fat,nls_koi8_r,ntfs ext3 156816 3 jbd 63528 1 ext3 mbcache 18564 1 ext3 ata_generic 17668 0 pata_it821x 21380 0 pata_acpi 16768 0 ata_piix 35332 10 libata 185520 4 ata_generic,pata_it821x,pata_acpi,ata_piix dock 20384 1 libata sd_mod 40256 8 scsi_mod 185848 5 usb_storage,sr_mod,sg,libata,sd_mod ide_disk 25472 0 ide_generic 9856 0 [permanent] ide_pci_generic 13700 0 [permanent] piix 17160 0 [permanent] ide_core 153392 6 it821x,ide_cd_mod,ide_disk,ide_generic,ide_pci_generic,piix
Это вся информация о oops? там больше должна быть
(In reply to comment #1) > Это вся информация о oops? там больше должна быть Это все, что осталось в логе. На экране можно было видеть конец call trace, но я не сфотографировал.
В следующий раз стоит фотографировать всё, до чего выходит дотянуться...
Попытался еще раз обновится до std-def, и опять неудачно, в этот раз alt6: $ rpm -qa | grep std-def | sort kernel-headers-modules-std-def-2.6.25-alt6 kernel-image-std-def-2.6.25-alt6 kernel-modules-alsa-std-def-1.0.16-alt4.132633.6 kernel-modules-drm-std-def-2008.04.28-alt1.132633.6 kernel-modules-e1000-std-def-7.6.15.5-alt1.132633.6 kernel-modules-kqemu-std-def-1.3.0-alt0.1.pre11.132633.6 kernel-modules-nvidia-std-def-173.14.05-alt1.132633.6 При загрузке X-ов (gdm) сразу поймал мертвый вис - даже комбинации с SysRq не работали. второй раз загрузился нормально и решил погонять видеокарту, игрушки позапускать. При выходе из второй же (кажется, это был SuperTux в режиме полного экрана) все опять умерло. На этот раз посмотреть сообщения ядра не удалось, даже в логах ничего не осталось. Подозреваю, дело в nvidia. В std-smp все работает без проблем. $ rpm -qa | grep nvidia | sort kernel-modules-nvidia-std-def-173.14.05-alt1.132633.6 kernel-modules-nvidia-std-smp-169.12-alt1.132626.12 nvidia_glx_169.12-169.12-alt44 nvidia_glx_173.14.05-173.14.05-alt45 nvidia_glx_71.86.04-71.86.04-alt37 nvidia_glx_96.43.05-96.43.05-alt37 nvidia_glx_common-173.14.05-alt45
Проверьте, совпадает ли версия загруженых модулей и glx в X11 у nvidia?
(In reply to comment #5) > Проверьте, совпадает ли версия загруженых модулей и glx в X11 у nvidia? Да, конечно совпадают, при несовпадении версий иксы вообще не запускаются, ругаются в логе на несоответствие API. Кстати, сейчас, когда проверял и опять все умерло через пять минут, увидел, что на клавиатуре мигают светодиоды Caps и Scroll.
Проблема ещё актуальна?
(In reply to comment #7) > Проблема ещё актуальна? Актуальна, проверял и на alt7 и на alt8. $ rpm -qa | grep std-def | sort kernel-headers-modules-std-def-2.6.25-alt8 kernel-image-std-def-2.6.25-alt8 kernel-modules-alsa-std-def-1.0.16-alt4.132633.8 kernel-modules-drm-std-def-2008.04.28-alt1.132633.8 kernel-modules-e1000-std-def-7.6.15.5-alt1.132633.8 kernel-modules-kqemu-std-def-1.3.0-alt0.1.pre11.132633.8 kernel-modules-nvidia-std-def-173.14.12-alt1.132633.8 $ rpm -qa | grep nvidia | sort kernel-modules-nvidia-std-def-173.14.12-alt1.132633.8 kernel-modules-nvidia-std-smp-169.12-alt1.132626.12 nvidia_glx_169.12-169.12-alt45 nvidia_glx_173.14.12-173.14.12-alt48 nvidia_glx_71.86.04-71.86.04-alt38 nvidia_glx_71.86.06-71.86.06-alt39 nvidia_glx_96.43.05-96.43.05-alt38 nvidia_glx_96.43.07-96.43.07-alt39 nvidia_glx_common-173.14.12-alt48 На этих пакетах день проработало, но на следующий день утром таки оказалось умершим. Специально заранее с вечера переключился в консоль, надеясь поймать trace, ничего не увидел кроме темного экрана.
После обновления до std-def-2.6.25-alt10 и nvidia-std-def-177.80-alt1.132633.10 стало не совсем виснуть, реагирует на SysRq. И в лог вот написало: Oct 16 04:02:02 eugene-home kernel: Eeek! page_mapcount(page) went negative! (-1) Oct 16 04:02:02 eugene-home kernel: page pfn = f452 Oct 16 04:02:02 eugene-home kernel: page->flags = 808000000001c Oct 16 04:02:02 eugene-home kernel: page->count = 0 Oct 16 04:02:02 eugene-home kernel: page->mapping = 0000000000000000 Oct 16 04:02:02 eugene-home kernel: vma->vm_ops = 0x0 Oct 16 04:02:02 eugene-home kernel: ------------[ cut here ]------------ Oct 16 04:02:02 eugene-home kernel: kernel BUG at mm/rmap.c:669! Oct 16 04:02:02 eugene-home kernel: invalid opcode: 0000 [1] SMP Oct 16 04:02:02 eugene-home kernel: CPU 1 Oct 16 04:02:02 eugene-home kernel: Modules linked in: nvidia(P) w83627ehf hwmon_vid hwmon eeprom af_packet ppp_async crc_ccitt ppp_generic slhc nls_utf8 dm_mod usb_storage libusual usbhid hid ff_memless ppdev snd_hda_intel snd_pcm_oss snd_emu10k1 parport_pc emu10k1_gp parport snd_rawmidi gameport firmware_class snd_ac97_codec ac97_bus ehci_hcd snd_util_mem snd_seq_dummy i2c_i801 i2c_core pcspkr iTCO_wdt iTCO_vendor_support sg snd_seq_oss snd_seq_midi_event snd_seq snd_seq_device snd_mixer_oss thermal snd_pcm snd_timer snd_page_alloc snd_hwdep snd e1000 soundcore uhci_hcd button intel_agp processor e1000e usbcore evdev sr_mod cdrom ntfs nls_base ext3 jbd mbcache ide_disk ide_generic sd_mod piix ide_pci_generic ide_core ata_piix pata_acpi ata_generic pata_it821x libata scsi_mod dock Oct 16 04:02:02 eugene-home kernel: Pid: 10258, comm: makewhatis Tainted: P M 2.6.25-std-def-alt10 #1 Oct 16 04:02:02 eugene-home kernel: RIP: 0010:[<ffffffff8029dc51>] [<ffffffff8029dc51>] page_remove_rmap+0x131/0x140 Oct 16 04:02:02 eugene-home kernel: RSP: 0018:ffff81003a0f5d38 EFLAGS: 00010246 Oct 16 04:02:02 eugene-home kernel: RAX: 0000000000000000 RBX: ffffe200003571f0 RCX: 0000000000000001 Oct 16 04:02:02 eugene-home kernel: RDX: 0000000000001313 RSI: 0000000000000000 RDI: ffffffff806ef514 Oct 16 04:02:02 eugene-home kernel: RBP: ffff81003a0f5d48 R08: 0000000000000000 R09: 00000000ffffffff Oct 16 04:02:02 eugene-home kernel: R10: 0000000000000000 R11: 0000000000000000 R12: ffff810038dce088 Oct 16 04:02:02 eugene-home kernel: R13: 000000000067b000 R14: 0000000000695000 R15: 0000000000000020 Oct 16 04:02:02 eugene-home kernel: FS: 0000000000000000(0000) GS:ffff81003f9fda40(0000) knlGS:0000000000000000 Oct 16 04:02:02 eugene-home kernel: CS: 0010 DS: 0000 ES: 0000 CR0: 000000008005003b Oct 16 04:02:02 eugene-home kernel: CR2: 00007fac83303b00 CR3: 0000000039dd0000 CR4: 00000000000006e0 Oct 16 04:02:02 eugene-home kernel: DR0: 0000000000000000 DR1: 0000000000000000 DR2: 0000000000000000 Oct 16 04:02:02 eugene-home kernel: DR3: 0000000000000000 DR6: 00000000ffff0ff0 DR7: 0000000000000400 Oct 16 04:02:02 eugene-home kernel: Process makewhatis (pid: 10258, threadinfo ffff81003a0f4000, task ffff810039dc2640) Oct 16 04:02:02 eugene-home kernel: Stack: ffff8100390d63d8 ffffe200003571f0 ffff81003a0f5e38 ffffffff8029580f Oct 16 04:02:02 eugene-home kernel: 0000000000000000 ffff81003a0f5e50 ffffffffffffffff 0000000000000000 Oct 16 04:02:02 eugene-home kernel: ffff810038dce088 ffff81003a0f5e58 00000000003b5fcd 0000000000000000 Oct 16 04:02:02 eugene-home kernel: Call Trace: Oct 16 04:02:02 eugene-home kernel: [<ffffffff8029580f>] unmap_vmas+0x52f/0x820 Oct 16 04:02:02 eugene-home kernel: [<ffffffff80299ccb>] exit_mmap+0x7b/0x100 Oct 16 04:02:02 eugene-home kernel: [<ffffffff802379e7>] mmput+0x47/0xc0 Oct 16 04:02:02 eugene-home kernel: [<ffffffff8023c3d7>] exit_mm+0x97/0x110 Oct 16 04:02:02 eugene-home kernel: [<ffffffff8023dcec>] do_exit+0x1dc/0x860 Oct 16 04:02:02 eugene-home kernel: [<ffffffff802536b9>] ? up_read+0x9/0x10 Oct 16 04:02:02 eugene-home kernel: [<ffffffff8023e3a7>] do_group_exit+0x37/0xa0 Oct 16 04:02:02 eugene-home kernel: [<ffffffff8023e422>] sys_exit_group+0x12/0x20 Oct 16 04:02:02 eugene-home kernel: [<ffffffff8020c1cb>] system_call_after_swapgs+0x7b/0x80 Oct 16 04:02:02 eugene-home kernel: Oct 16 04:02:02 eugene-home kernel: Oct 16 04:02:02 eugene-home kernel: Code: e8 b5 51 fc ff 49 8b 84 24 90 00 00 00 48 85 c0 74 19 48 8b 40 20 48 85 c0 74 10 48 8b 70 58 48 c7 c7 c8 d0 57 80 e8 8f 51 fc ff <0f> 0b eb fe 48 8b 53 10 e9 61 ff ff ff 66 90 55 48 89 e5 48 83 Oct 16 04:02:02 eugene-home kernel: RIP [<ffffffff8029dc51>] page_remove_rmap+0x131/0x140 Oct 16 04:02:02 eugene-home kernel: RSP <ffff81003a0f5d38> Oct 16 04:02:02 eugene-home kernel: ---[ end trace 18581204b6e93d8d ]--- Oct 16 04:02:02 eugene-home kernel: Fixing recursive fault but reboot is needed! Oct 16 04:02:02 eugene-home kernel: Bad page state in process 'syslogd' Oct 16 04:02:02 eugene-home kernel: page:ffffe200003571f0 flags:0x000808000000001c mapping:0000000000000000 mapcount:-1 count:0 Oct 16 04:02:02 eugene-home kernel: Trying to fix it up, but a reboot is needed Oct 16 04:02:02 eugene-home kernel: Backtrace: Oct 16 04:02:02 eugene-home kernel: Pid: 7131, comm: syslogd Tainted: P M D 2.6.25-std-def-alt10 #1 Oct 16 04:02:02 eugene-home kernel: Oct 16 04:02:02 eugene-home kernel: Call Trace: Oct 16 04:02:02 eugene-home kernel: [<ffffffff80289dd2>] bad_page+0x72/0xb0 Oct 16 04:02:02 eugene-home kernel: [<ffffffff8028b785>] get_page_from_freelist+0x5e5/0x6e0 Oct 16 04:02:02 eugene-home kernel: [<ffffffff8028c05b>] __alloc_pages+0x6b/0x3e0 Oct 16 04:02:02 eugene-home kernel: [<ffffffff880d77b6>] ? :jbd:journal_cancel_revoke+0xe6/0xf0 Oct 16 04:02:02 eugene-home kernel: [<ffffffff802a85ba>] alloc_pages_current+0x8a/0xe0 Oct 16 04:02:02 eugene-home kernel: [<ffffffff802855fd>] __page_cache_alloc+0x6d/0xe0 Oct 16 04:02:02 eugene-home kernel: [<ffffffff802857dc>] __grab_cache_page+0x5c/0xa0 Oct 16 04:02:02 eugene-home kernel: [<ffffffff880eb035>] :ext3:ext3_write_begin+0x65/0x1b0 Oct 16 04:02:02 eugene-home kernel: [<ffffffff80286413>] generic_file_buffered_write+0x143/0x6c0 Oct 16 04:02:02 eugene-home kernel: [<ffffffff802cada9>] ? file_update_time+0xa9/0xf0 Oct 16 04:02:02 eugene-home kernel: [<ffffffff80286c21>] __generic_file_aio_write_nolock+0x291/0x440 Oct 16 04:02:02 eugene-home kernel: [<ffffffff80286e34>] generic_file_aio_write+0x64/0xd0 Oct 16 04:02:02 eugene-home kernel: [<ffffffff880e67e6>] :ext3:ext3_file_write+0x26/0xc0 Oct 16 04:02:02 eugene-home kernel: [<ffffffff880e67c0>] ? :ext3:ext3_file_write+0x0/0xc0 Oct 16 04:02:02 eugene-home kernel: [<ffffffff802b444b>] do_sync_readv_writev+0xeb/0x130 Oct 16 04:02:02 eugene-home kernel: [<ffffffff8024fc10>] ? autoremove_wake_function+0x0/0x40 Oct 16 04:02:02 eugene-home kernel: [<ffffffff8028503d>] ? find_get_pages_tag+0x3d/0xa0 Oct 16 04:02:02 eugene-home kernel: [<ffffffff8031ccc1>] ? security_file_permission+0x11/0x20 Oct 16 04:02:02 eugene-home kernel: [<ffffffff802b4bdb>] do_readv_writev+0xcb/0x1d0 Oct 16 04:02:02 eugene-home kernel: [<ffffffff802b4d19>] vfs_writev+0x39/0x60 Oct 16 04:02:02 eugene-home kernel: [<ffffffff802b5220>] sys_writev+0x50/0xb0 Oct 16 04:02:02 eugene-home kernel: [<ffffffff8020c1cb>] system_call_after_swapgs+0x7b/0x80 Oct 16 04:02:02 eugene-home kernel: Oct 16 04:02:15 eugene-home kernel: Bad page state in process 'xulrunner-bin' Oct 16 04:02:15 eugene-home kernel: page:ffffe20000356e70 flags:0x0008080000000008 mapping:0000000000000000 mapcount:1 count:1 Oct 16 04:02:15 eugene-home kernel: Trying to fix it up, but a reboot is needed Oct 16 04:02:15 eugene-home kernel: Backtrace: Oct 16 04:02:15 eugene-home kernel: Pid: 10030, comm: xulrunner-bin Tainted: P MB D 2.6.25-std-def-alt10 #1 Oct 16 04:02:15 eugene-home kernel: Oct 16 04:02:15 eugene-home kernel: Call Trace: Oct 16 04:02:15 eugene-home kernel: [<ffffffff802cae80>] ? touch_atime+0x90/0x140 Oct 16 04:02:15 eugene-home kernel: [<ffffffff80289dd2>] bad_page+0x72/0xb0 Oct 16 04:02:15 eugene-home kernel: [<ffffffff8028b785>] get_page_from_freelist+0x5e5/0x6e0 Oct 16 04:02:15 eugene-home kernel: [<ffffffff8028c05b>] __alloc_pages+0x6b/0x3e0 Oct 16 04:02:15 eugene-home kernel: [<ffffffff802a74ca>] alloc_page_vma+0xaa/0x120 Oct 16 04:02:15 eugene-home kernel: [<ffffffff802977e3>] handle_mm_fault+0x2d3/0x7d0 Oct 16 04:02:15 eugene-home kernel: [<ffffffff8022c6dc>] ? hrtick_start_fair+0xec/0x160 Oct 16 04:02:15 eugene-home kernel: [<ffffffff8049de38>] do_page_fault+0x278/0x860 Oct 16 04:02:15 eugene-home kernel: [<ffffffff8049bd49>] error_exit+0x0/0x51 Oct 16 04:02:15 eugene-home kernel:
Created attachment 3004 [details] Снимок экрана И вот что выдало при загрузке
А вы memtest не делалали? Что то подозрительно оно.
(In reply to comment #11) > А вы memtest не делалали? Что то подозрительно оно. Но 2.6.18 неделями без перезагрузки работает - и ни разу ничего подобного не произошло. Погонял memtest86+-2.01 несколько часов - ошибок найдено не было.
Стоит проверить на новом ядре.
Закрываю как неактуальную, если повториться просьба переоткрыть.
Воспроизводится. $ rpm -qa | grep std-def | sort kernel-headers-modules-std-def-2.6.27-alt1 kernel-image-std-def-2.6.27-alt1 kernel-modules-alsa-std-def-2.6.27-alt1 kernel-modules-nvidia-std-def-177.80-alt1.132635.1 Вчера весь вечер и всю ночь гонял компьютер под этим ядром, запускал несколько процессов сборки одновременно, паралельно glxgears развернутый на полный экран - все работало как часы. А сегодня все умерло (даже SysRq не работали) почти сразу при попытке просто воспроизвести музыку в cmus. После перезагрузки умерло опять через некоторое время после запуска воспроизведения - почти на том же месте. И еще, удаление kernel-modules-nvidia и перенастройка x-ов на nv проблему не решает.
на alt3 воспроизводится?
Да, проблема осталась и на alt2 и на alt3. Подозреваю, что умирает все в процессе обмена со вторым SATA винтом (Seagate ST3500630AS), на котором у меня музыка в основном хранится. Во всяком случае, все последние разы было имено так. Пробовал менять шлейф, перетыкать в другой слот - не помогло. На 2.6.18 по прежнему всё стабильно.
На этот винт совершенно случайно smartctl -a ничего подозрительного не говорит? (в realloc count и подобных) Ещё можно -t short/long запустить.
> На этот винт совершенно случайно smartctl -a ничего подозрительного не говорит? > (в realloc count и подобных) Я не разбираюсь в этих цифрах, на всякий случай - полный вывод: # smartctl -a /dev/sdb smartctl version 5.38 [x86_64-alt-linux-gnu] Copyright (C) 2002-8 Bruce Allen Home page is http://smartmontools.sourceforge.net/ === START OF INFORMATION SECTION === Model Family: Seagate Barracuda 7200.10 family Device Model: ST3500630AS Serial Number: 9QG3WX8J Firmware Version: 3.AAK User Capacity: 500,107,862,016 bytes Device is: In smartctl database [for details use: -P show] ATA Version is: 7 ATA Standard is: Exact ATA specification draft version not indicated Local Time is: Mon Dec 1 23:29:04 2008 YEKT SMART support is: Available - device has SMART capability. SMART support is: Enabled === START OF READ SMART DATA SECTION === SMART overall-health self-assessment test result: PASSED See vendor-specific Attribute list for marginal Attributes. General SMART Values: Offline data collection status: (0x82) Offline data collection activity was completed without error. Auto Offline Data Collection: Enabled. Self-test execution status: ( 0) The previous self-test routine completed without error or no self-test has ever been run. Total time to complete Offline data collection: ( 430) seconds. Offline data collection capabilities: (0x5b) SMART execute Offline immediate. Auto Offline data collection on/off support. Suspend Offline collection upon new command. Offline surface scan supported. Self-test supported. No Conveyance Self-test supported. Selective Self-test supported. SMART capabilities: (0x0003) Saves SMART data before entering power-saving mode. Supports SMART auto save timer. Error logging capability: (0x01) Error logging supported. General Purpose Logging supported. Short self-test routine recommended polling time: ( 1) minutes. Extended self-test routine recommended polling time: ( 163) minutes. SMART Attributes Data Structure revision number: 10 Vendor Specific SMART Attributes with Thresholds: ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE 1 Raw_Read_Error_Rate 0x000f 102 096 006 Pre-fail Always - 5091747 3 Spin_Up_Time 0x0003 095 093 000 Pre-fail Always - 0 4 Start_Stop_Count 0x0032 100 100 020 Old_age Always - 96 5 Reallocated_Sector_Ct 0x0033 100 100 036 Pre-fail Always - 0 7 Seek_Error_Rate 0x000f 085 060 030 Pre-fail Always - 384537217 9 Power_On_Hours 0x0032 091 091 000 Old_age Always - 8552 10 Spin_Retry_Count 0x0013 100 100 097 Pre-fail Always - 0 12 Power_Cycle_Count 0x0032 100 100 020 Old_age Always - 84 187 Reported_Uncorrect 0x0032 100 100 000 Old_age Always - 0 189 High_Fly_Writes 0x003a 100 100 000 Old_age Always - 0 190 Airflow_Temperature_Cel 0x0022 046 039 045 Old_age Always In_the_past 54 (Lifetime Min/Max 52/58) 194 Temperature_Celsius 0x0022 054 061 000 Old_age Always - 54 (0 22 0 0) 195 Hardware_ECC_Recovered 0x001a 060 055 000 Old_age Always - 139670736 197 Current_Pending_Sector 0x0012 100 100 000 Old_age Always - 0 198 Offline_Uncorrectable 0x0010 100 100 000 Old_age Offline - 0 199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age Always - 0 200 Multi_Zone_Error_Rate 0x0000 100 253 000 Old_age Offline - 0 202 TA_Increase_Count 0x0032 100 253 000 Old_age Always - 0 SMART Error Log Version: 1 No Errors Logged SMART Self-test log structure revision number 1 SMART Selective self-test log data structure revision number 1 SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS 1 0 0 Not_testing 2 0 0 Not_testing 3 0 0 Not_testing 4 0 0 Not_testing 5 0 0 Not_testing Selective self-test flags (0x0): After scanning selected spans, do NOT read-scan remainder of disk. If Selective self-test is pending on power-up, resume after 0 minute delay. > Ещё можно -t short/long запустить. SMART Self-test log structure revision number 1 Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error # 1 Short offline Completed without error 00% 8552 - Результаты long будут завтра.
(In reply to comment #19) > 5 Reallocated_Sector_Ct 0x0033 100 100 036 Pre-fail Always - 0 > 187 Reported_Uncorrect 0x0032 100 100 000 Old_age Always - 0 > 197 Current_Pending_Sector 0x0012 100 100 000 Old_age Always - 0 > 198 Offline_Uncorrectable 0x0010 100 100 000 Old_age Offline - 0 > 199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age Always - 0 Будто порядок. Также пропустил насчёт того, что на 2.6.18 проблема не наблюдается.
long тест тоже без проблем прошел: SMART Self-test log structure revision number 1 Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error # 1 Extended offline Completed without error 00% 8554 - # 2 Short offline Completed without error 00% 8552 -
*ping* В LKML такое давно пора отправить.
Created attachment 3191 [details] 09.12.2008 На всякий случай - еще пара экранов, полученных в процессе загрузки системы. Этот был получен 09.12.2008, вероятно на 2.6.27-alt6 или 2.6.27-alt5.
Created attachment 3192 [details] 20.12.2008 А этот - 20.12.2008, насколько помню - 2.6.27-alt7
а можете показать /proc/interrupts и на 18м если можно
(In reply to comment #25) > а можете показать /proc/interrupts и на 18м если можно В 2.6.27 полностью загрузится удалось раза с десятого. Содержимое /proc/interrupts для std-def-2.6.27-alt8: CPU0 CPU1 0: 31 0 IO-APIC-edge timer 1: 158 0 IO-APIC-edge i8042 4: 2 0 IO-APIC-edge 7: 0 0 IO-APIC-edge parport0 8: 1 0 IO-APIC-edge rtc0 9: 0 0 IO-APIC-fasteoi acpi 14: 555 0 IO-APIC-edge ide0 15: 0 0 IO-APIC-edge ide1 16: 39 0 IO-APIC-fasteoi nvidia 17: 12295 0 IO-APIC-fasteoi ata_piix, uhci_hcd:usb3 18: 0 0 IO-APIC-fasteoi uhci_hcd:usb4 19: 0 0 IO-APIC-fasteoi pata_it821x, uhci_hcd:usb5 20: 333 0 IO-APIC-fasteoi ehci_hcd:usb1, uhci_hcd:usb2 22: 0 0 IO-APIC-fasteoi ICE1724 2300: 92 0 PCI-MSI-edge et NMI: 0 0 Non-maskable interrupts LOC: 93732 73429 Local timer interrupts RES: 1019 1598 Rescheduling interrupts CAL: 73 324 function call interrupts TLB: 779 1218 TLB shootdowns TRM: 162 356 Thermal event interrupts THR: 0 0 Threshold APIC interrupts SPU: 0 0 Spurious interrupts ERR: 0 Для 2.6.18: CPU0 CPU1 0: 15965401 0 IO-APIC-edge timer 1: 28467 0 IO-APIC-edge i8042 8: 0 0 IO-APIC-edge rtc 9: 0 0 IO-APIC-level acpi 14: 574353 0 IO-APIC-edge ide0 50: 436044 0 IO-APIC-level ICE1724 58: 281499 0 PCI-MSI et 169: 3736246 0 IO-APIC-level nvidia 177: 1394788 0 IO-APIC-level libata, uhci_hcd:usb3 217: 0 0 IO-APIC-level uhci_hcd:usb4 225: 2860164 0 IO-APIC-level ehci_hcd:usb1, uhci_hcd:usb2 233: 0 0 IO-APIC-level uhci_hcd:usb5 NMI: 26 15 LOC: 15967417 15967392 ERR: 0 MIS: 0
Видимо, можно закрывать баг - мне больше не чем проверить его актуальность. Надоела такая "работоспособность" системы на текущих сизифовских ядрах и то, что в холд приходится заносить всё больше пакетов - и я заменил материнскую плату, на новой эта ошибка не воспроизводится. Буду теперь тестировать совместимость std-def с Gigabyte GA-X48-DS4.
Ставлю WORKSFORME...