Bug 15825 - kernel panic при невыясненных обстоятельствах
Summary: kernel panic при невыясненных обстоятельствах
Status: CLOSED WORKSFORME
Alias: None
Product: Sisyphus
Classification: Development
Component: kernel-image-std-def (show other bugs)
Version: unstable
Hardware: all Linux
: P1 critical
Assignee: Vitaly Chikunov
QA Contact: qa-sisyphus
URL:
Keywords:
Depends on:
Blocks:
 
Reported: 2008-05-29 10:37 MSD by Eugene Vlasov
Modified: 2009-03-03 19:10 MSK (History)
4 users (show)

See Also:


Attachments
Снимок экрана (113.98 KB, image/jpeg)
2008-10-16 02:34 MSD, Eugene Vlasov
no flags Details
09.12.2008 (220.50 KB, image/jpeg)
2009-01-08 23:36 MSK, Eugene Vlasov
no flags Details
20.12.2008 (199.82 KB, image/jpeg)
2009-01-08 23:38 MSK, Eugene Vlasov
no flags Details

Note You need to log in before you can comment on or make changes to this bug.
Description Eugene Vlasov 2008-05-29 10:37:47 MSD
Обновился вчера вечером до std-def-2.6.25-alt1. А ночью поймал oops.

Вот все, что осталось в логе:

May 29 06:39:34 eugene-home kernel: BUG: unable to handle kernel paging request
at ffffe20400dbbb90
May 29 06:39:34 eugene-home kernel: IP: [<ffffffff80287543>]
free_pages_bulk+0x103/0x2c0
May 29 06:39:34 eugene-home kernel: PGD 1001067 PUD 0 
May 29 06:39:34 eugene-home kernel: Oops: 0000 [1] SMP 


$ uname -a                     
Linux eugene-home.ikz.ru 2.6.25-std-def-alt1 #1 SMP Tue May 20 16:17:05 MSD 2008
x86_64 GNU/Linux


$ rpm -qa G kernel|grep std-def
kernel-headers-modules-std-def-2.6.25-alt1
kernel-modules-kqemu-std-def-1.3.0-alt0.1.pre11.132633.1
kernel-image-std-def-2.6.25-alt1
kernel-modules-drm-std-def-2008.04.28-alt1.132633.1
kernel-modules-nvidia-std-def-169.12-alt2.132633.1
kernel-modules-alsa-std-def-1.0.16-alt4.132633.1


Железо вот такое:

intel-agp
  Intel Corporation 82945G/GZ/P/PL Memory Controller Hub [Host bridge]
  8086:2770:1043:817a  drivers: 31:intel-agp  class:006:00:00
  slot: 0000:00:00.0  hwid: 93D3A4B2391C17BF

shpchp
  Intel Corporation 82945G/GZ/P/PL PCI Express Root Port [PCI bridge Normal decode]
  8086:2771  drivers: 7:shpchp  class:006:04:00
  slot: 0000:00:01.0  hwid: FBB49165EE21A0C3

snd-hda-intel
  Intel Corporation 82801G (ICH7 Family) High Definition Audio Controller []
  8086:27d8:1043:817f  drivers: 24:snd-hda-intel  class:004:03:00
  slot: 0000:00:1b.0  hwid: 22BFE4C453AC69B7

shpchp
  Intel Corporation 82801G (ICH7 Family) PCI Express Port 1 [PCI bridge Normal
decode]
  8086:27d0  drivers: 7:shpchp  class:006:04:00
  slot: 0000:00:1c.0  hwid: 0A035D4BB7C0DD18

shpchp
  Intel Corporation 82801G (ICH7 Family) PCI Express Port 2 [PCI bridge Normal
decode]
  8086:27d2  drivers: 7:shpchp  class:006:04:00
  slot: 0000:00:1c.1  hwid: 52895C0C3DC0DD1B

uhci-hcd
  Intel Corporation 82801G (ICH7 Family) USB UHCI Controller #1 [UHCI USB
Controller]
  8086:27c8:1043:8179  drivers: 2.4|usb-uhci 2.4|uhci 2.6|uhci-hcd 7:uhci-hcd 
class:00c:03:00
  slot: 0000:00:1d.0  hwid: E39702FB41EA168F

uhci-hcd
  Intel Corporation 82801G (ICH7 Family) USB UHCI Controller #2 [UHCI USB
Controller]
  8086:27c9:1043:8179  drivers: 2.4|usb-uhci 2.4|uhci 2.6|uhci-hcd 7:uhci-hcd 
class:00c:03:00
  slot: 0000:00:1d.1  hwid: 02D216AB561693EE

uhci-hcd
  Intel Corporation 82801G (ICH7 Family) USB UHCI Controller #3 [UHCI USB
Controller]
  8086:27ca:1043:8179  drivers: 2.4|usb-uhci 2.4|uhci 2.6|uhci-hcd 7:uhci-hcd 
class:00c:03:00
  slot: 0000:00:1d.2  hwid: 3DEEE52FEFC0DBA3

uhci-hcd
  Intel Corporation 82801G (ICH7 Family) USB UHCI Controller #4 [UHCI USB
Controller]
  8086:27cb:1043:8179  drivers: 2.4|usb-uhci 2.4|uhci 2.6|uhci-hcd 7:uhci-hcd 
class:00c:03:00
  slot: 0000:00:1d.3  hwid: AE21D9DFD4936161

ehci-hcd
  Intel Corporation 82801G (ICH7 Family) USB2 EHCI Controller [EHCI USB Controller]
  8086:27cc:1043:8179  drivers: ehci-hcd 7:ehci-hcd  class:00c:03:20
  slot: 0000:00:1d.7  hwid: 2C18AB0AB7503CA6

unknown
  Intel Corporation 82801 PCI Bridge [PCI bridge Subtractive decode]
  8086:244e  drivers:  not found  class:006:04:01
  slot: 0000:00:1e.0  hwid: BB51A9ECB1BAF6F0

iTCO_wdt intel-rng
  Intel Corporation 82801GB/GR (ICH7 Family) LPC Interface Bridge [ISA bridge]
  8086:27b8:1043:8179  drivers: 24:iTCO_wdt 24:intel-rng  class:006:01:00
  slot: 0000:00:1f.0  hwid: 235B90D855F2FE2A

ata_piix piix
  Intel Corporation 82801G (ICH7 Family) IDE Controller [IDE interface storage
controller]
  8086:27df:1043:8179  drivers: 24:ata_piix 24:piix 3:ata_generic
3:ide-pci-generic 3:pata_acpi  class:001:01:8a
  slot: 0000:00:1f.1  hwid: C0294D5486BBC727

ata_piix
  Intel Corporation 82801GB/GR/GH (ICH7 Family) SATA IDE Controller [IDE
interface storage controller]
  8086:27c0:1043:2601  drivers: 24:ata_piix 3:ata_generic 3:ide-pci-generic
3:pata_acpi  class:001:01:8f
  slot: 0000:00:1f.2  hwid: D757C273E8A4550A

i2c-i801
  Intel Corporation 82801G (ICH7 Family) SMBus Controller [SMBus]
  8086:27da:1043:8179  drivers: 24:i2c-i801  class:00c:05:00
  slot: 0000:00:1f.3  hwid: FEB66583379D8F48

it821x pata_it821x
  Integrated Technology Express, Inc. ITE 8211F Single Channel UDMA 133 [Unknown
mass storage controller]
  1283:8211:1043:8138  drivers: 24:it821x 24:pata_it821x  class:001:80:00
  slot: 0000:01:04.0  hwid: 505CB03C0F600357

snd-emu10k1
  Creative Labs SB Live! EMU10k1 [Multimedia audio controller]
  1102:0002:1102:8027  drivers: 24:snd-emu10k1  class:004:01:00
  slot: 0000:01:0a.0  hwid: F701E3C45D86D923

emu10k1-gp
  Creative Labs SB Live! Game Port [Input device controller]
  1102:7002:1102:0020  drivers: 24:emu10k1-gp  class:009:80:00
  slot: 0000:01:0a.1  hwid: FF6BD4DA9883CA2B

e1000e
  Intel Corporation 82573L Gigabit Ethernet Controller [Ethernet controller]
  8086:109a:1043:81c2  drivers: 24:e1000e  class:002:00:00
  slot: 0000:02:00.0  hwid: D1B4BB71A753BAB8

nvidia
  nVidia Corporation G71 [GeForce 7300 GS] [VGA compatible controller]
  10de:01df:1043:81f3  drivers: 15:nvidia 9:nvidiafb  class:003:00:00
  slot: 0000:04:00.0  hwid: 516799AC1A22A7A4


# lsmod
Module                  Size  Used by
nls_cp866              14976  1 
vfat                   23552  1 
fat                    66232  1 vfat
kqemu                 169384  0 
psmouse                53788  0 
nvidia               8864964  24 
it821x                 16260  0 [permanent]
rtc_cmos               20280  0 
rtc_core               31812  1 rtc_cmos
rtc_lib                11904  1 rtc_core
w83627ehf              34704  0 
hwmon_vid              12288  1 w83627ehf
hwmon                  12104  1 w83627ehf
eeprom                 16912  0 
ppp_deflate            15104  1 
zlib_deflate           30360  1 ppp_deflate
zlib_inflate           26880  1 ppp_deflate
bsd_comp               14720  0 
ppp_async              21632  1 
crc_ccitt              10752  1 ppp_async
ppp_generic            40488  7 ppp_deflate,bsd_comp,ppp_async
slhc                   15488  1 ppp_generic
nls_koi8_r             14976  2 
dm_mod                 79160  8 
usbhid                 60768  0 
hid                    84160  1 usbhid
ff_memless             14856  1 usbhid
usb_storage            90176  1 
libusual               31968  1 usb_storage
snd_hda_intel         466008  0 
parport_pc             53320  0 
parport                51632  1 parport_pc
snd_pcm_oss            54816  0 
pcspkr                 12032  0 
i2c_i801               19868  0 
snd_emu10k1           167520  2 
emu10k1_gp             12672  0 
snd_rawmidi            36896  1 snd_emu10k1
i2c_core               36512  3 nvidia,eeprom,i2c_i801
firmware_class         19328  1 snd_emu10k1
gameport               24720  2 emu10k1_gp
snd_ac97_codec        130520  1 snd_emu10k1
ac97_bus               10624  1 snd_ac97_codec
ide_cd_mod             49056  0 
snd_util_mem           13952  1 snd_emu10k1
snd_seq_dummy          12804  0 
iTCO_wdt               22480  0 
ehci_hcd               48140  0 
e1000e                115108  0 
iTCO_vendor_support    12932  1 iTCO_wdt
uhci_hcd               35872  0 
usbcore               178328  6 usbhid,usb_storage,libusual,ehci_hcd,uhci_hcd
snd_seq_oss            45952  0 
snd_seq_midi_event     17280  1 snd_seq_oss
snd_seq                70560  5 snd_seq_dummy,snd_seq_oss,snd_seq_midi_event
snd_seq_device         17684  5
snd_emu10k1,snd_rawmidi,snd_seq_dummy,snd_seq_oss,snd_seq
snd_mixer_oss          27136  1 snd_pcm_oss
button                 17952  0 
snd_pcm                98568  5 snd_hda_intel,snd_pcm_oss,snd_emu10k1,snd_ac97_codec
snd_timer              34832  3 snd_emu10k1,snd_seq,snd_pcm
snd_page_alloc         20240  3 snd_hda_intel,snd_emu10k1,snd_pcm
snd_hwdep              19592  2 snd_hda_intel,snd_emu10k1
thermal                30752  0 
snd                    77640  16
snd_hda_intel,snd_pcm_oss,snd_emu10k1,snd_rawmidi,snd_ac97_codec,snd_seq_dummy,snd_seq_oss,snd_seq,snd_seq_device,snd_mixer_oss,snd_pcm,snd_timer,snd_hwdep
intel_agp              40048  0 
soundcore              17440  1 snd
processor              53740  1 thermal
evdev                  22400  3 
sr_mod                 28740  0 
cdrom                  48296  2 ide_cd_mod,sr_mod
sg                     49888  0 
ntfs                  111488  1 
nls_base               17924  5 nls_cp866,vfat,fat,nls_koi8_r,ntfs
ext3                  156816  3 
jbd                    63528  1 ext3
mbcache                18564  1 ext3
ata_generic            17668  0 
pata_it821x            21380  0 
pata_acpi              16768  0 
ata_piix               35332  10 
libata                185520  4 ata_generic,pata_it821x,pata_acpi,ata_piix
dock                   20384  1 libata
sd_mod                 40256  8 
scsi_mod              185848  5 usb_storage,sr_mod,sg,libata,sd_mod
ide_disk               25472  0 
ide_generic             9856  0 [permanent]
ide_pci_generic        13700  0 [permanent]
piix                   17160  0 [permanent]
ide_core              153392  6
it821x,ide_cd_mod,ide_disk,ide_generic,ide_pci_generic,piix
Comment 1 Michail Yakushin 2008-05-29 10:46:09 MSD
Это вся информация о oops? там больше должна быть
Comment 2 Eugene Vlasov 2008-05-29 11:22:21 MSD
(In reply to comment #1)
> Это вся информация о oops? там больше должна быть

Это все, что осталось в логе. На экране можно было видеть конец call trace, но я
не сфотографировал.
Comment 3 Michael Shigorin 2008-05-30 12:53:12 MSD
В следующий раз стоит фотографировать всё, до чего выходит дотянуться...
Comment 4 Eugene Vlasov 2008-07-09 19:24:09 MSD
Попытался еще раз обновится до std-def, и опять неудачно, в этот раз alt6:

$ rpm -qa | grep std-def | sort
kernel-headers-modules-std-def-2.6.25-alt6
kernel-image-std-def-2.6.25-alt6
kernel-modules-alsa-std-def-1.0.16-alt4.132633.6
kernel-modules-drm-std-def-2008.04.28-alt1.132633.6
kernel-modules-e1000-std-def-7.6.15.5-alt1.132633.6
kernel-modules-kqemu-std-def-1.3.0-alt0.1.pre11.132633.6
kernel-modules-nvidia-std-def-173.14.05-alt1.132633.6

При загрузке X-ов (gdm) сразу поймал мертвый вис - даже комбинации с SysRq не работали. второй раз загрузился нормально и решил погонять видеокарту, игрушки позапускать. При выходе из второй же (кажется, это был SuperTux в режиме полного экрана) все опять умерло. На этот раз посмотреть сообщения ядра не удалось, даже в логах ничего не осталось. Подозреваю, дело в nvidia. В std-smp все работает без проблем.

$ rpm -qa | grep nvidia | sort 
kernel-modules-nvidia-std-def-173.14.05-alt1.132633.6
kernel-modules-nvidia-std-smp-169.12-alt1.132626.12
nvidia_glx_169.12-169.12-alt44
nvidia_glx_173.14.05-173.14.05-alt45
nvidia_glx_71.86.04-71.86.04-alt37
nvidia_glx_96.43.05-96.43.05-alt37
nvidia_glx_common-173.14.05-alt45
Comment 5 Michail Yakushin 2008-07-10 09:55:50 MSD
Проверьте, совпадает ли версия загруженых модулей и glx в X11 у nvidia?
Comment 6 Eugene Vlasov 2008-07-12 13:35:54 MSD
(In reply to comment #5)
> Проверьте, совпадает ли версия загруженых модулей и glx в X11 у nvidia?

Да, конечно совпадают, при несовпадении версий иксы вообще не запускаются, ругаются в логе на несоответствие API.

Кстати, сейчас, когда проверял и опять все умерло через пять минут, увидел, что на клавиатуре мигают светодиоды Caps и Scroll.
Comment 7 Michail Yakushin 2008-09-09 17:56:23 MSD
Проблема ещё актуальна?
Comment 8 Eugene Vlasov 2008-09-09 21:16:37 MSD
(In reply to comment #7)
> Проблема ещё актуальна?

Актуальна, проверял и на alt7 и на alt8.

$ rpm -qa | grep std-def | sort 
kernel-headers-modules-std-def-2.6.25-alt8
kernel-image-std-def-2.6.25-alt8
kernel-modules-alsa-std-def-1.0.16-alt4.132633.8
kernel-modules-drm-std-def-2008.04.28-alt1.132633.8
kernel-modules-e1000-std-def-7.6.15.5-alt1.132633.8
kernel-modules-kqemu-std-def-1.3.0-alt0.1.pre11.132633.8
kernel-modules-nvidia-std-def-173.14.12-alt1.132633.8

$ rpm -qa | grep nvidia | sort
kernel-modules-nvidia-std-def-173.14.12-alt1.132633.8
kernel-modules-nvidia-std-smp-169.12-alt1.132626.12
nvidia_glx_169.12-169.12-alt45
nvidia_glx_173.14.12-173.14.12-alt48
nvidia_glx_71.86.04-71.86.04-alt38
nvidia_glx_71.86.06-71.86.06-alt39
nvidia_glx_96.43.05-96.43.05-alt38
nvidia_glx_96.43.07-96.43.07-alt39
nvidia_glx_common-173.14.12-alt48

На этих пакетах день проработало, но на следующий день утром таки оказалось умершим. Специально заранее с вечера переключился в консоль, надеясь поймать trace, ничего не увидел кроме темного экрана.
Comment 9 Eugene Vlasov 2008-10-16 02:28:26 MSD
После обновления до std-def-2.6.25-alt10 и nvidia-std-def-177.80-alt1.132633.10 стало не совсем виснуть, реагирует на SysRq. И в лог вот написало:

Oct 16 04:02:02 eugene-home kernel: Eeek! page_mapcount(page) went negative! (-1)
Oct 16 04:02:02 eugene-home kernel:   page pfn = f452
Oct 16 04:02:02 eugene-home kernel:   page->flags = 808000000001c
Oct 16 04:02:02 eugene-home kernel:   page->count = 0
Oct 16 04:02:02 eugene-home kernel:   page->mapping = 0000000000000000
Oct 16 04:02:02 eugene-home kernel:   vma->vm_ops = 0x0
Oct 16 04:02:02 eugene-home kernel: ------------[ cut here ]------------
Oct 16 04:02:02 eugene-home kernel: kernel BUG at mm/rmap.c:669!
Oct 16 04:02:02 eugene-home kernel: invalid opcode: 0000 [1] SMP 
Oct 16 04:02:02 eugene-home kernel: CPU 1 
Oct 16 04:02:02 eugene-home kernel: Modules linked in: nvidia(P) w83627ehf hwmon_vid hwmon eeprom af_packet ppp_async crc_ccitt ppp_generic slhc nls_utf8 dm_mod usb_storage libusual usbhid hid ff_memless ppdev snd_hda_intel snd_pcm_oss snd_emu10k1 parport_pc emu10k1_gp parport snd_rawmidi gameport firmware_class snd_ac97_codec ac97_bus ehci_hcd snd_util_mem snd_seq_dummy i2c_i801 i2c_core pcspkr iTCO_wdt iTCO_vendor_support sg snd_seq_oss snd_seq_midi_event snd_seq snd_seq_device snd_mixer_oss thermal snd_pcm snd_timer snd_page_alloc snd_hwdep snd e1000 soundcore uhci_hcd button intel_agp processor e1000e usbcore evdev sr_mod cdrom ntfs nls_base ext3 jbd mbcache ide_disk ide_generic sd_mod piix ide_pci_generic ide_core ata_piix pata_acpi ata_generic pata_it821x libata scsi_mod dock
Oct 16 04:02:02 eugene-home kernel: Pid: 10258, comm: makewhatis Tainted: P   M     2.6.25-std-def-alt10 #1
Oct 16 04:02:02 eugene-home kernel: RIP: 0010:[<ffffffff8029dc51>]  [<ffffffff8029dc51>] page_remove_rmap+0x131/0x140
Oct 16 04:02:02 eugene-home kernel: RSP: 0018:ffff81003a0f5d38  EFLAGS: 00010246
Oct 16 04:02:02 eugene-home kernel: RAX: 0000000000000000 RBX: ffffe200003571f0 RCX: 0000000000000001
Oct 16 04:02:02 eugene-home kernel: RDX: 0000000000001313 RSI: 0000000000000000 RDI: ffffffff806ef514
Oct 16 04:02:02 eugene-home kernel: RBP: ffff81003a0f5d48 R08: 0000000000000000 R09: 00000000ffffffff
Oct 16 04:02:02 eugene-home kernel: R10: 0000000000000000 R11: 0000000000000000 R12: ffff810038dce088
Oct 16 04:02:02 eugene-home kernel: R13: 000000000067b000 R14: 0000000000695000 R15: 0000000000000020
Oct 16 04:02:02 eugene-home kernel: FS:  0000000000000000(0000) GS:ffff81003f9fda40(0000) knlGS:0000000000000000
Oct 16 04:02:02 eugene-home kernel: CS:  0010 DS: 0000 ES: 0000 CR0: 000000008005003b
Oct 16 04:02:02 eugene-home kernel: CR2: 00007fac83303b00 CR3: 0000000039dd0000 CR4: 00000000000006e0
Oct 16 04:02:02 eugene-home kernel: DR0: 0000000000000000 DR1: 0000000000000000 DR2: 0000000000000000
Oct 16 04:02:02 eugene-home kernel: DR3: 0000000000000000 DR6: 00000000ffff0ff0 DR7: 0000000000000400
Oct 16 04:02:02 eugene-home kernel: Process makewhatis (pid: 10258, threadinfo ffff81003a0f4000, task ffff810039dc2640)
Oct 16 04:02:02 eugene-home kernel: Stack:  ffff8100390d63d8 ffffe200003571f0 ffff81003a0f5e38 ffffffff8029580f
Oct 16 04:02:02 eugene-home kernel:  0000000000000000 ffff81003a0f5e50 ffffffffffffffff 0000000000000000
Oct 16 04:02:02 eugene-home kernel:  ffff810038dce088 ffff81003a0f5e58 00000000003b5fcd 0000000000000000
Oct 16 04:02:02 eugene-home kernel: Call Trace:
Oct 16 04:02:02 eugene-home kernel:  [<ffffffff8029580f>] unmap_vmas+0x52f/0x820
Oct 16 04:02:02 eugene-home kernel:  [<ffffffff80299ccb>] exit_mmap+0x7b/0x100
Oct 16 04:02:02 eugene-home kernel:  [<ffffffff802379e7>] mmput+0x47/0xc0
Oct 16 04:02:02 eugene-home kernel:  [<ffffffff8023c3d7>] exit_mm+0x97/0x110
Oct 16 04:02:02 eugene-home kernel:  [<ffffffff8023dcec>] do_exit+0x1dc/0x860
Oct 16 04:02:02 eugene-home kernel:  [<ffffffff802536b9>] ? up_read+0x9/0x10
Oct 16 04:02:02 eugene-home kernel:  [<ffffffff8023e3a7>] do_group_exit+0x37/0xa0
Oct 16 04:02:02 eugene-home kernel:  [<ffffffff8023e422>] sys_exit_group+0x12/0x20
Oct 16 04:02:02 eugene-home kernel:  [<ffffffff8020c1cb>] system_call_after_swapgs+0x7b/0x80
Oct 16 04:02:02 eugene-home kernel: 
Oct 16 04:02:02 eugene-home kernel: 
Oct 16 04:02:02 eugene-home kernel: Code: e8 b5 51 fc ff 49 8b 84 24 90 00 00 00 48 85 c0 74 19 48 8b 40 20 48 85 c0 74 10 48 8b 70 58 48 c7 c7 c8 d0 57 80 e8 8f 51 fc ff <0f> 0b eb fe 48 8b 53 10 e9 61 ff ff ff 66 90 55 48 89 e5 48 83 
Oct 16 04:02:02 eugene-home kernel: RIP  [<ffffffff8029dc51>] page_remove_rmap+0x131/0x140
Oct 16 04:02:02 eugene-home kernel:  RSP <ffff81003a0f5d38>
Oct 16 04:02:02 eugene-home kernel: ---[ end trace 18581204b6e93d8d ]---
Oct 16 04:02:02 eugene-home kernel: Fixing recursive fault but reboot is needed!
Oct 16 04:02:02 eugene-home kernel: Bad page state in process 'syslogd'
Oct 16 04:02:02 eugene-home kernel: page:ffffe200003571f0 flags:0x000808000000001c mapping:0000000000000000 mapcount:-1 count:0
Oct 16 04:02:02 eugene-home kernel: Trying to fix it up, but a reboot is needed
Oct 16 04:02:02 eugene-home kernel: Backtrace:
Oct 16 04:02:02 eugene-home kernel: Pid: 7131, comm: syslogd Tainted: P   M  D  2.6.25-std-def-alt10 #1
Oct 16 04:02:02 eugene-home kernel: 
Oct 16 04:02:02 eugene-home kernel: Call Trace:
Oct 16 04:02:02 eugene-home kernel:  [<ffffffff80289dd2>] bad_page+0x72/0xb0
Oct 16 04:02:02 eugene-home kernel:  [<ffffffff8028b785>] get_page_from_freelist+0x5e5/0x6e0
Oct 16 04:02:02 eugene-home kernel:  [<ffffffff8028c05b>] __alloc_pages+0x6b/0x3e0
Oct 16 04:02:02 eugene-home kernel:  [<ffffffff880d77b6>] ? :jbd:journal_cancel_revoke+0xe6/0xf0
Oct 16 04:02:02 eugene-home kernel:  [<ffffffff802a85ba>] alloc_pages_current+0x8a/0xe0
Oct 16 04:02:02 eugene-home kernel:  [<ffffffff802855fd>] __page_cache_alloc+0x6d/0xe0
Oct 16 04:02:02 eugene-home kernel:  [<ffffffff802857dc>] __grab_cache_page+0x5c/0xa0
Oct 16 04:02:02 eugene-home kernel:  [<ffffffff880eb035>] :ext3:ext3_write_begin+0x65/0x1b0
Oct 16 04:02:02 eugene-home kernel:  [<ffffffff80286413>] generic_file_buffered_write+0x143/0x6c0
Oct 16 04:02:02 eugene-home kernel:  [<ffffffff802cada9>] ? file_update_time+0xa9/0xf0
Oct 16 04:02:02 eugene-home kernel:  [<ffffffff80286c21>] __generic_file_aio_write_nolock+0x291/0x440
Oct 16 04:02:02 eugene-home kernel:  [<ffffffff80286e34>] generic_file_aio_write+0x64/0xd0
Oct 16 04:02:02 eugene-home kernel:  [<ffffffff880e67e6>] :ext3:ext3_file_write+0x26/0xc0
Oct 16 04:02:02 eugene-home kernel:  [<ffffffff880e67c0>] ? :ext3:ext3_file_write+0x0/0xc0
Oct 16 04:02:02 eugene-home kernel:  [<ffffffff802b444b>] do_sync_readv_writev+0xeb/0x130
Oct 16 04:02:02 eugene-home kernel:  [<ffffffff8024fc10>] ? autoremove_wake_function+0x0/0x40
Oct 16 04:02:02 eugene-home kernel:  [<ffffffff8028503d>] ? find_get_pages_tag+0x3d/0xa0
Oct 16 04:02:02 eugene-home kernel:  [<ffffffff8031ccc1>] ? security_file_permission+0x11/0x20
Oct 16 04:02:02 eugene-home kernel:  [<ffffffff802b4bdb>] do_readv_writev+0xcb/0x1d0
Oct 16 04:02:02 eugene-home kernel:  [<ffffffff802b4d19>] vfs_writev+0x39/0x60
Oct 16 04:02:02 eugene-home kernel:  [<ffffffff802b5220>] sys_writev+0x50/0xb0
Oct 16 04:02:02 eugene-home kernel:  [<ffffffff8020c1cb>] system_call_after_swapgs+0x7b/0x80
Oct 16 04:02:02 eugene-home kernel: 
Oct 16 04:02:15 eugene-home kernel: Bad page state in process 'xulrunner-bin'
Oct 16 04:02:15 eugene-home kernel: page:ffffe20000356e70 flags:0x0008080000000008 mapping:0000000000000000 mapcount:1 count:1
Oct 16 04:02:15 eugene-home kernel: Trying to fix it up, but a reboot is needed
Oct 16 04:02:15 eugene-home kernel: Backtrace:
Oct 16 04:02:15 eugene-home kernel: Pid: 10030, comm: xulrunner-bin Tainted: P   MB D  2.6.25-std-def-alt10 #1
Oct 16 04:02:15 eugene-home kernel: 
Oct 16 04:02:15 eugene-home kernel: Call Trace:
Oct 16 04:02:15 eugene-home kernel:  [<ffffffff802cae80>] ? touch_atime+0x90/0x140
Oct 16 04:02:15 eugene-home kernel:  [<ffffffff80289dd2>] bad_page+0x72/0xb0
Oct 16 04:02:15 eugene-home kernel:  [<ffffffff8028b785>] get_page_from_freelist+0x5e5/0x6e0
Oct 16 04:02:15 eugene-home kernel:  [<ffffffff8028c05b>] __alloc_pages+0x6b/0x3e0
Oct 16 04:02:15 eugene-home kernel:  [<ffffffff802a74ca>] alloc_page_vma+0xaa/0x120
Oct 16 04:02:15 eugene-home kernel:  [<ffffffff802977e3>] handle_mm_fault+0x2d3/0x7d0
Oct 16 04:02:15 eugene-home kernel:  [<ffffffff8022c6dc>] ? hrtick_start_fair+0xec/0x160
Oct 16 04:02:15 eugene-home kernel:  [<ffffffff8049de38>] do_page_fault+0x278/0x860
Oct 16 04:02:15 eugene-home kernel:  [<ffffffff8049bd49>] error_exit+0x0/0x51
Oct 16 04:02:15 eugene-home kernel: 
Comment 10 Eugene Vlasov 2008-10-16 02:34:53 MSD
Created attachment 3004 [details]
Снимок экрана

И вот что выдало при загрузке
Comment 11 Michail Yakushin 2008-10-21 12:26:36 MSD
А вы memtest не делалали? Что то подозрительно оно.
Comment 12 Eugene Vlasov 2008-10-22 08:06:18 MSD
(In reply to comment #11)
> А вы memtest не делалали? Что то подозрительно оно.

Но 2.6.18 неделями без перезагрузки работает - и ни разу ничего подобного не произошло.
Погонял memtest86+-2.01 несколько часов - ошибок найдено не было.
Comment 13 Michail Yakushin 2008-11-11 18:52:37 MSK
Стоит проверить на новом ядре.
Comment 14 Michail Yakushin 2008-11-11 18:54:58 MSK
Закрываю как неактуальную, если повториться просьба переоткрыть.
Comment 15 Eugene Vlasov 2008-11-11 20:28:41 MSK
Воспроизводится.

$ rpm -qa | grep std-def | sort                           
kernel-headers-modules-std-def-2.6.27-alt1
kernel-image-std-def-2.6.27-alt1
kernel-modules-alsa-std-def-2.6.27-alt1
kernel-modules-nvidia-std-def-177.80-alt1.132635.1

Вчера весь вечер и всю ночь гонял компьютер под этим ядром, запускал несколько процессов сборки одновременно, паралельно glxgears развернутый на полный экран - все работало как часы. А сегодня все умерло (даже SysRq не работали) почти сразу при попытке просто воспроизвести музыку в cmus. После перезагрузки умерло опять через некоторое время после запуска воспроизведения - почти на том же месте.
И еще, удаление kernel-modules-nvidia и перенастройка x-ов на nv проблему не решает.
Comment 16 Michail Yakushin 2008-12-01 12:21:45 MSK
на alt3 воспроизводится?
Comment 17 Eugene Vlasov 2008-12-01 17:48:09 MSK
Да, проблема осталась и на alt2 и на alt3.
Подозреваю, что умирает все в процессе обмена со вторым SATA винтом (Seagate ST3500630AS), на котором у меня музыка в основном хранится. Во всяком случае, все последние разы было имено так. Пробовал менять шлейф, перетыкать в другой слот - не помогло. На 2.6.18 по прежнему всё стабильно.
Comment 18 Michael Shigorin 2008-12-01 18:54:45 MSK
На этот винт совершенно случайно smartctl -a ничего подозрительного не говорит? (в realloc count и подобных)

Ещё можно -t short/long запустить.
Comment 19 Eugene Vlasov 2008-12-01 21:39:42 MSK
> На этот винт совершенно случайно smartctl -a ничего подозрительного не говорит?
> (в realloc count и подобных)
Я не разбираюсь в этих цифрах, на всякий случай - полный вывод:



# smartctl -a /dev/sdb
smartctl version 5.38 [x86_64-alt-linux-gnu] Copyright (C) 2002-8 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

=== START OF INFORMATION SECTION ===
Model Family:     Seagate Barracuda 7200.10 family
Device Model:     ST3500630AS
Serial Number:    9QG3WX8J
Firmware Version: 3.AAK
User Capacity:    500,107,862,016 bytes
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   7
ATA Standard is:  Exact ATA specification draft version not indicated
Local Time is:    Mon Dec  1 23:29:04 2008 YEKT
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
See vendor-specific Attribute list for marginal Attributes.

General SMART Values:
Offline data collection status:  (0x82) Offline data collection activity
                                        was completed without error.
                                        Auto Offline Data Collection: Enabled.
Self-test execution status:      (   0) The previous self-test routine completed
                                        without error or no self-test has ever 
                                        been run.
Total time to complete Offline 
data collection:                 ( 430) seconds.
Offline data collection
capabilities:                    (0x5b) SMART execute Offline immediate.
                                        Auto Offline data collection on/off support.
                                        Suspend Offline collection upon new
                                        command.
                                        Offline surface scan supported.
                                        Self-test supported.
                                        No Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine 
recommended polling time:        (   1) minutes.
Extended self-test routine
recommended polling time:        ( 163) minutes.

SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   102   096   006    Pre-fail  Always       -       5091747
  3 Spin_Up_Time            0x0003   095   093   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       96
  5 Reallocated_Sector_Ct   0x0033   100   100   036    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   085   060   030    Pre-fail  Always       -       384537217
  9 Power_On_Hours          0x0032   091   091   000    Old_age   Always       -       8552
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       84
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
189 High_Fly_Writes         0x003a   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   046   039   045    Old_age   Always   In_the_past 54 (Lifetime Min/Max 52/58)
194 Temperature_Celsius     0x0022   054   061   000    Old_age   Always       -       54 (0 22 0 0)
195 Hardware_ECC_Recovered  0x001a   060   055   000    Old_age   Always       -       139670736
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0000   100   253   000    Old_age   Offline      -       0
202 TA_Increase_Count       0x0032   100   253   000    Old_age   Always       -       0

SMART Error Log Version: 1
No Errors Logged


SMART Self-test log structure revision number 1

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.


> Ещё можно -t short/long запустить.

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline       Completed without error       00%      8552         -

Результаты long будут завтра.
Comment 20 Michael Shigorin 2008-12-01 22:49:01 MSK
(In reply to comment #19)
>   5 Reallocated_Sector_Ct   0x0033   100   100   036    Pre-fail  Always       -       0
> 187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
> 197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
> 198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
> 199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0

Будто порядок.  Также пропустил насчёт того, что на 2.6.18 проблема не наблюдается.
Comment 21 Eugene Vlasov 2008-12-02 07:37:55 MSK
long тест тоже без проблем прошел:

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Completed without error       00%      8554         -
# 2  Short offline       Completed without error       00%      8552         -
Comment 22 Mikhail Gusarov 2009-01-08 23:10:56 MSK
*ping*

В LKML такое давно пора отправить.
Comment 23 Eugene Vlasov 2009-01-08 23:36:22 MSK
Created attachment 3191 [details]
09.12.2008

На всякий случай - еще пара экранов, полученных в процессе загрузки системы. Этот был получен 09.12.2008, вероятно на 2.6.27-alt6 или 2.6.27-alt5.
Comment 24 Eugene Vlasov 2009-01-08 23:38:36 MSK
Created attachment 3192 [details]
20.12.2008

А этот - 20.12.2008, насколько помню - 2.6.27-alt7
Comment 25 Michail Yakushin 2009-01-11 20:42:46 MSK
а можете показать /proc/interrupts и на 18м если можно
Comment 26 Eugene Vlasov 2009-01-11 22:51:37 MSK
(In reply to comment #25)
> а можете показать /proc/interrupts и на 18м если можно

В 2.6.27 полностью загрузится удалось раза с десятого. Содержимое /proc/interrupts для std-def-2.6.27-alt8:

           CPU0       CPU1       
  0:         31          0   IO-APIC-edge      timer
  1:        158          0   IO-APIC-edge      i8042
  4:          2          0   IO-APIC-edge    
  7:          0          0   IO-APIC-edge      parport0
  8:          1          0   IO-APIC-edge      rtc0
  9:          0          0   IO-APIC-fasteoi   acpi
 14:        555          0   IO-APIC-edge      ide0
 15:          0          0   IO-APIC-edge      ide1
 16:         39          0   IO-APIC-fasteoi   nvidia
 17:      12295          0   IO-APIC-fasteoi   ata_piix, uhci_hcd:usb3
 18:          0          0   IO-APIC-fasteoi   uhci_hcd:usb4
 19:          0          0   IO-APIC-fasteoi   pata_it821x, uhci_hcd:usb5
 20:        333          0   IO-APIC-fasteoi   ehci_hcd:usb1, uhci_hcd:usb2
 22:          0          0   IO-APIC-fasteoi   ICE1724
2300:         92          0   PCI-MSI-edge      et
NMI:          0          0   Non-maskable interrupts
LOC:      93732      73429   Local timer interrupts
RES:       1019       1598   Rescheduling interrupts
CAL:         73        324   function call interrupts
TLB:        779       1218   TLB shootdowns
TRM:        162        356   Thermal event interrupts
THR:          0          0   Threshold APIC interrupts
SPU:          0          0   Spurious interrupts
ERR:          0


Для 2.6.18:

           CPU0       CPU1       
  0:   15965401          0    IO-APIC-edge  timer
  1:      28467          0    IO-APIC-edge  i8042
  8:          0          0    IO-APIC-edge  rtc
  9:          0          0   IO-APIC-level  acpi
 14:     574353          0    IO-APIC-edge  ide0
 50:     436044          0   IO-APIC-level  ICE1724
 58:     281499          0         PCI-MSI  et
169:    3736246          0   IO-APIC-level  nvidia
177:    1394788          0   IO-APIC-level  libata, uhci_hcd:usb3
217:          0          0   IO-APIC-level  uhci_hcd:usb4
225:    2860164          0   IO-APIC-level  ehci_hcd:usb1, uhci_hcd:usb2
233:          0          0   IO-APIC-level  uhci_hcd:usb5
NMI:         26         15 
LOC:   15967417   15967392 
ERR:          0
MIS:          0
Comment 27 Eugene Vlasov 2009-02-26 09:14:43 MSK
Видимо, можно закрывать баг - мне больше не чем проверить его актуальность. Надоела такая "работоспособность" системы на текущих сизифовских ядрах и то, что в холд приходится заносить всё больше пакетов - и я заменил материнскую плату, на новой эта ошибка не воспроизводится.
Буду теперь тестировать совместимость std-def с Gigabyte GA-X48-DS4.
Comment 28 Michael Shigorin 2009-03-03 19:10:14 MSK
Ставлю WORKSFORME...