Created attachment 4787 [details] Подборка данных о системе Установил на сервер HP DL180 G6 образ altlinux-5.9.9-20101223-centaurus-x86_64-ru-install-dvd5.iso, удалил много лишнего, доставил нужного попутно обновившись до свежего на тот момент Сизифа. Сконфигурировал zabbxi_agentd. Установил и перезагрузился в ядро 2.6.32-ovz-el-alt9 На следующий день я увидел, что несколько открытых вчера ssh-соединений умерли (а screen-сессий оказались Dead). Оказалось, сервер перезагружался почти точно в полночь (автозал, гарантированное питание). Чтение логов в районе плюс-минус часа от полуночи и dmesg какой-либо ругани не выявило. На следующие сутки повторилось та же картина. Я для поверки на время сделал ядром по умолчанию 2.6.32-el-smp-alt11, перезагрузил сервер, и так машина без проблем дошла до аптайма в четыре с лишним дня. По наводке dubrsl@ (у которого, похоже, это тоже наблюдалось), обратил внимание что единственное зарегистрированное в кроне ровно на полночь каждого дня задание это /etc/atop/atop. Для опыта вчера сделал ядром по умолчанию обратно ovz-el, перезагрузился в него и убрал от крона подальше файл /etc/cron.d/atop. Сегодня первая полночь, которую сервер пережил нормально под ядром ovz-el. Оставляю пока так. atop-1.26-alt2 Ядра как-либо специально не настраивал (sysctl...).
подтверждаю. Только он не просто перегружается, а получается kernel panic и через 30 секунд ребут. Проверяется просто - запустите /etc/atop/atop.daily
достаточно просто запустить atop
(В ответ на комментарий №2) > достаточно просто запустить atop Спасибо :) Завтра буду смотреть что там
i586 тоже падает :(
Да, просто запустить я не догадался :-) Про панику: хотел как раз сегодня завтра убрать panic=30 и раздобыть фотоаппарат чтобы проверить/сфотографировать.
Поставь netconsole и смотри лог паники на соседнем сислоге.
netconsole не умеет dot1q-интерфейсы, не вариант. При попытке запуска atop на консоль выдалось дословно следующее сообщение (и сервер перестал откликаться): BUG: unable to handle kernel NULL pointer dereference at 0000000000000520 IP: [<ffffffff8113d08b>] __vm_enough_memory+0x3b/0x1d0 PGD 0 Oops: 0000 [#1] SMP last sysfs file: /sys/devices/system/cpu/cpu7/cache/index2/shared_cpu_map CPU 6 Modules linked in: 8021q garp stp llc ext3 jbd dm_mod i7core_edac sg edac_core ahci serio_raw igb dca unloaded: configfs] ipmi_msghandler coretemp hwmon ext4 mbcache jbd2 sd_mod crc_t10dif hpsa [last Modules linked in: 8021q garp stp llc ext3 jbd dm_mod i7core_edac sg edac_core ahci
См. http://bugzilla.openvz.org/show_bug.cgi?id=1756
> netconsole не умеет dot1q-интерфейсы, не вариант. Еще можно использовать kdump. В rhel6 он работает стабильно.
В alt10 исправлено. В свою очередь, alt10 не пройдет в Сизиф из-за неразберихи с debuginfo. Пока изменения можно найти в моем гите: http://git.altlinux.org/people/aspsk/packages/?p=kernel-image.git;a=shortlog;h=refs/heads/kernel-image-ovz-el
kernel-image-ovz-el-2.6.32-alt10 -> sisyphus: * Thu Feb 03 2011 Anton Protopopov <aspsk@altlinux> 2.6.32-alt10 - mm: check mm in __vm_enough_memory() (ALT #25000) - Check return value of crypto_alloc_shash() right - fix jiffies location - Fix some differences between i586 and x86_64 configs - build a lot of stuff as modules - Do not build snd_pcsp.ko - Add drbd83 to modules.build - Remove KALLSYMS_{ALL,EXTRA_PASS} - Enable IKCONFIG and IKCONFIG_PROC