Bug 25000 - Запуск atop вызывает панику ядра
Summary: Запуск atop вызывает панику ядра
Status: CLOSED FIXED
Alias: None
Product: Sisyphus
Classification: Development
Component: kernel-image-ovz-el (show other bugs)
Version: unstable
Hardware: all Linux
: P3 critical
Assignee: Gleb F-Malinovskiy
QA Contact: qa-sisyphus
URL:
Keywords:
Depends on:
Blocks:
 
Reported: 2011-01-31 20:37 MSK by Evgenii Terechkov
Modified: 2011-02-07 16:39 MSK (History)
19 users (show)

See Also:


Attachments
Подборка данных о системе (55.25 KB, application/octet-stream)
2011-01-31 20:37 MSK, Evgenii Terechkov
no flags Details

Note You need to log in before you can comment on or make changes to this bug.
Description Evgenii Terechkov 2011-01-31 20:37:43 MSK
Created attachment 4787 [details]
Подборка данных о системе

Установил на сервер HP DL180 G6 образ altlinux-5.9.9-20101223-centaurus-x86_64-ru-install-dvd5.iso, удалил много лишнего, доставил нужного попутно обновившись до свежего на тот момент Сизифа. Сконфигурировал zabbxi_agentd. Установил и перезагрузился в ядро 2.6.32-ovz-el-alt9

На следующий день я увидел, что несколько открытых вчера ssh-соединений умерли (а screen-сессий оказались Dead). Оказалось, сервер перезагружался почти точно в полночь (автозал, гарантированное питание). Чтение логов в районе плюс-минус часа от полуночи и dmesg какой-либо ругани не выявило. На следующие сутки повторилось та же картина. Я для поверки на время сделал ядром по умолчанию 2.6.32-el-smp-alt11, перезагрузил сервер, и так машина без проблем дошла до аптайма в четыре с лишним дня.

По наводке dubrsl@ (у которого, похоже, это тоже наблюдалось), обратил внимание что единственное зарегистрированное в кроне ровно на полночь каждого дня задание это /etc/atop/atop. Для опыта вчера сделал ядром по умолчанию обратно ovz-el, перезагрузился в него и убрал от крона подальше файл /etc/cron.d/atop. Сегодня первая полночь, которую сервер пережил нормально под ядром ovz-el. Оставляю пока так.

atop-1.26-alt2

Ядра как-либо специально не настраивал (sysctl...).
Comment 1 Slava Dubrovskiy 2011-01-31 20:57:51 MSK
подтверждаю. Только он не просто перегружается, а получается kernel panic и через 30 секунд ребут.

Проверяется просто - запустите /etc/atop/atop.daily
Comment 2 Slava Dubrovskiy 2011-01-31 21:05:30 MSK
достаточно просто запустить atop
Comment 3 aspsk 2011-01-31 21:20:28 MSK
(В ответ на комментарий №2)
> достаточно просто запустить atop

Спасибо :) Завтра буду смотреть что там
Comment 4 Slava Dubrovskiy 2011-01-31 21:27:41 MSK
i586 тоже падает :(
Comment 5 Evgenii Terechkov 2011-02-01 03:29:06 MSK
Да, просто запустить я не догадался :-)

Про панику: хотел как раз сегодня завтра убрать panic=30 и раздобыть фотоаппарат чтобы проверить/сфотографировать.
Comment 6 Vladimir V. Kamarzin 2011-02-01 08:44:39 MSK
Поставь netconsole и смотри лог паники на соседнем сислоге.
Comment 7 Evgenii Terechkov 2011-02-01 11:49:59 MSK
netconsole не умеет dot1q-интерфейсы, не вариант.

При попытке запуска atop на консоль выдалось дословно следующее сообщение (и сервер перестал откликаться):

BUG: unable to handle kernel NULL pointer dereference at 0000000000000520
IP: [<ffffffff8113d08b>] __vm_enough_memory+0x3b/0x1d0
PGD 0
Oops: 0000 [#1] SMP
last sysfs file: /sys/devices/system/cpu/cpu7/cache/index2/shared_cpu_map
CPU 6
Modules linked in: 8021q garp stp llc ext3 jbd dm_mod i7core_edac sg edac_core ahci serio_raw igb dca unloaded: configfs] ipmi_msghandler coretemp hwmon ext4 mbcache jbd2 sd_mod crc_t10dif hpsa [last

Modules linked in: 8021q garp stp llc ext3 jbd dm_mod i7core_edac sg edac_core ahci
Comment 8 aspsk 2011-02-01 18:26:49 MSK
См. http://bugzilla.openvz.org/show_bug.cgi?id=1756
Comment 9 Andrey Vagin 2011-02-02 16:36:37 MSK
> netconsole не умеет dot1q-интерфейсы, не вариант.
Еще можно использовать kdump. В rhel6 он работает стабильно.
Comment 10 aspsk 2011-02-03 12:01:40 MSK
В alt10 исправлено. В свою очередь, alt10 не пройдет в Сизиф из-за неразберихи
с debuginfo. Пока изменения можно найти в моем гите:

http://git.altlinux.org/people/aspsk/packages/?p=kernel-image.git;a=shortlog;h=refs/heads/kernel-image-ovz-el
Comment 11 Repository Robot 2011-02-07 16:39:29 MSK
kernel-image-ovz-el-2.6.32-alt10 -> sisyphus:

* Thu Feb 03 2011 Anton Protopopov <aspsk@altlinux> 2.6.32-alt10
- mm: check mm in __vm_enough_memory() (ALT #25000)
- Check return value of crypto_alloc_shash() right
- fix jiffies location
- Fix some differences between i586 and x86_64 configs
- build a lot of stuff as modules
- Do not build snd_pcsp.ko
- Add drbd83 to modules.build
- Remove KALLSYMS_{ALL,EXTRA_PASS}
- Enable IKCONFIG and IKCONFIG_PROC