Bug 25000

Summary: Запуск atop вызывает панику ядра
Product: Sisyphus Reporter: Evgenii Terechkov <evg>
Component: kernel-image-ovz-elAssignee: Gleb F-Malinovskiy <glebfm>
Status: CLOSED FIXED QA Contact: qa-sisyphus
Severity: critical    
Priority: P3 CC: avagin, boyarsh, dubrsl, glebfm, kernelbot, ldv, mike, mithraen, radik, rider, sbolshakov, shrek, sin, snejok, vitty, vsu, vt, vvk, zerg
Version: unstable   
Hardware: all   
OS: Linux   
Attachments:
Description Flags
Подборка данных о системе none

Description Evgenii Terechkov 2011-01-31 20:37:43 MSK
Created attachment 4787 [details]
Подборка данных о системе

Установил на сервер HP DL180 G6 образ altlinux-5.9.9-20101223-centaurus-x86_64-ru-install-dvd5.iso, удалил много лишнего, доставил нужного попутно обновившись до свежего на тот момент Сизифа. Сконфигурировал zabbxi_agentd. Установил и перезагрузился в ядро 2.6.32-ovz-el-alt9

На следующий день я увидел, что несколько открытых вчера ssh-соединений умерли (а screen-сессий оказались Dead). Оказалось, сервер перезагружался почти точно в полночь (автозал, гарантированное питание). Чтение логов в районе плюс-минус часа от полуночи и dmesg какой-либо ругани не выявило. На следующие сутки повторилось та же картина. Я для поверки на время сделал ядром по умолчанию 2.6.32-el-smp-alt11, перезагрузил сервер, и так машина без проблем дошла до аптайма в четыре с лишним дня.

По наводке dubrsl@ (у которого, похоже, это тоже наблюдалось), обратил внимание что единственное зарегистрированное в кроне ровно на полночь каждого дня задание это /etc/atop/atop. Для опыта вчера сделал ядром по умолчанию обратно ovz-el, перезагрузился в него и убрал от крона подальше файл /etc/cron.d/atop. Сегодня первая полночь, которую сервер пережил нормально под ядром ovz-el. Оставляю пока так.

atop-1.26-alt2

Ядра как-либо специально не настраивал (sysctl...).
Comment 1 Slava Dubrovskiy 2011-01-31 20:57:51 MSK
подтверждаю. Только он не просто перегружается, а получается kernel panic и через 30 секунд ребут.

Проверяется просто - запустите /etc/atop/atop.daily
Comment 2 Slava Dubrovskiy 2011-01-31 21:05:30 MSK
достаточно просто запустить atop
Comment 3 aspsk 2011-01-31 21:20:28 MSK
(В ответ на комментарий №2)
> достаточно просто запустить atop

Спасибо :) Завтра буду смотреть что там
Comment 4 Slava Dubrovskiy 2011-01-31 21:27:41 MSK
i586 тоже падает :(
Comment 5 Evgenii Terechkov 2011-02-01 03:29:06 MSK
Да, просто запустить я не догадался :-)

Про панику: хотел как раз сегодня завтра убрать panic=30 и раздобыть фотоаппарат чтобы проверить/сфотографировать.
Comment 6 Vladimir V. Kamarzin 2011-02-01 08:44:39 MSK
Поставь netconsole и смотри лог паники на соседнем сислоге.
Comment 7 Evgenii Terechkov 2011-02-01 11:49:59 MSK
netconsole не умеет dot1q-интерфейсы, не вариант.

При попытке запуска atop на консоль выдалось дословно следующее сообщение (и сервер перестал откликаться):

BUG: unable to handle kernel NULL pointer dereference at 0000000000000520
IP: [<ffffffff8113d08b>] __vm_enough_memory+0x3b/0x1d0
PGD 0
Oops: 0000 [#1] SMP
last sysfs file: /sys/devices/system/cpu/cpu7/cache/index2/shared_cpu_map
CPU 6
Modules linked in: 8021q garp stp llc ext3 jbd dm_mod i7core_edac sg edac_core ahci serio_raw igb dca unloaded: configfs] ipmi_msghandler coretemp hwmon ext4 mbcache jbd2 sd_mod crc_t10dif hpsa [last

Modules linked in: 8021q garp stp llc ext3 jbd dm_mod i7core_edac sg edac_core ahci
Comment 8 aspsk 2011-02-01 18:26:49 MSK
См. http://bugzilla.openvz.org/show_bug.cgi?id=1756
Comment 9 Andrey Vagin 2011-02-02 16:36:37 MSK
> netconsole не умеет dot1q-интерфейсы, не вариант.
Еще можно использовать kdump. В rhel6 он работает стабильно.
Comment 10 aspsk 2011-02-03 12:01:40 MSK
В alt10 исправлено. В свою очередь, alt10 не пройдет в Сизиф из-за неразберихи
с debuginfo. Пока изменения можно найти в моем гите:

http://git.altlinux.org/people/aspsk/packages/?p=kernel-image.git;a=shortlog;h=refs/heads/kernel-image-ovz-el
Comment 11 Repository Robot 2011-02-07 16:39:29 MSK
kernel-image-ovz-el-2.6.32-alt10 -> sisyphus:

* Thu Feb 03 2011 Anton Protopopov <aspsk@altlinux> 2.6.32-alt10
- mm: check mm in __vm_enough_memory() (ALT #25000)
- Check return value of crypto_alloc_shash() right
- fix jiffies location
- Fix some differences between i586 and x86_64 configs
- build a lot of stuff as modules
- Do not build snd_pcsp.ko
- Add drbd83 to modules.build
- Remove KALLSYMS_{ALL,EXTRA_PASS}
- Enable IKCONFIG and IKCONFIG_PROC