Монит начал падать вот с такой диагностикой: Dec 30 05:04:55 prometheus monit[27708]: ------------------------------------------------------------------------------- Dec 30 05:04:55 prometheus monit[27708]: /bin/monit() [0x4201ba] Dec 30 05:04:55 prometheus monit[27708]: /bin/monit(LogError+0xa9) [0x4204d9] Dec 30 05:04:55 prometheus monit[27708]: /bin/monit(Event_post+0x20a) [0x419f2a] Dec 30 05:04:55 prometheus monit[27708]: /bin/monit(check_process+0x166) [0x431446] Dec 30 05:04:55 prometheus monit[27708]: /bin/monit(validate+0x3e6) [0x4312b6] Dec 30 05:04:55 prometheus monit[27708]: /bin/monit(main+0x99f) [0x40c75f] Dec 30 05:04:55 prometheus monit[27708]: /lib64/libc.so.6(__libc_start_main+0xf5) [0x2b83543cf7e5] Dec 30 05:04:55 prometheus monit[27708]: /bin/monit() [0x40caf1] Dec 30 05:04:55 prometheus monit[27708]: ------------------------------------------------------------------------------- Dec 30 05:04:55 prometheus monit[27708]: PID changed notification is sent to root@localhost Dec 30 05:04:59 prometheus monit[27708]: ------------------------------------------------------------------------------- Dec 30 05:04:59 prometheus monit[27708]: /bin/monit() [0x4201ba] Dec 30 05:04:59 prometheus monit[27708]: /bin/monit(LogError+0xa9) [0x4204d9] Dec 30 05:04:59 prometheus monit[27708]: /bin/monit(sendmail+0x1a1) [0x4248d1] Dec 30 05:04:59 prometheus monit[27708]: /bin/monit(handle_alert+0x27f) [0x41720f] Dec 30 05:04:59 prometheus monit[27708]: /bin/monit() [0x41997b] Dec 30 05:04:59 prometheus monit[27708]: /bin/monit(Event_post+0x251) [0x419f71] Dec 30 05:04:59 prometheus monit[27708]: /bin/monit(check_process+0x166) [0x431446] Dec 30 05:04:59 prometheus monit[27708]: /bin/monit(validate+0x3e6) [0x4312b6] Dec 30 05:04:59 prometheus monit[27708]: /bin/monit(main+0x99f) [0x40c75f] Dec 30 05:04:59 prometheus monit[27708]: /lib64/libc.so.6(__libc_start_main+0xf5) [0x2b83543cf7e5] Dec 30 05:04:59 prometheus monit[27708]: /bin/monit() [0x40caf1] Dec 30 05:04:59 prometheus monit[27708]: ------------------------------------------------------------------------------- Dec 30 05:05:04 prometheus monit[27708]: ------------------------------------------------------------------------------- Dec 30 05:05:04 prometheus monit[27708]: /bin/monit() [0x4201ba] Dec 30 05:05:04 prometheus monit[27708]: /bin/monit(LogError+0xa9) [0x4204d9] Dec 30 05:05:04 prometheus monit[27708]: /bin/monit(sendmail+0x8d1) [0x425001] Dec 30 05:05:04 prometheus monit[27708]: /bin/monit(handle_alert+0x27f) [0x41720f] Dec 30 05:05:04 prometheus monit[27708]: /bin/monit() [0x41997b] Dec 30 05:05:04 prometheus monit[27708]: /bin/monit(Event_post+0x251) [0x419f71] Dec 30 05:05:04 prometheus monit[27708]: /bin/monit(check_process+0x166) [0x431446] Dec 30 05:05:04 prometheus monit[27708]: /bin/monit(validate+0x3e6) [0x4312b6] Dec 30 05:05:04 prometheus monit[27708]: /bin/monit(main+0x99f) [0x40c75f] Dec 30 05:05:04 prometheus monit[27708]: /lib64/libc.so.6(__libc_start_main+0xf5) [0x2b83543cf7e5] Dec 30 05:05:04 prometheus monit[27708]: /bin/monit() [0x40caf1] Dec 30 05:05:04 prometheus monit[27708]: ------------------------------------------------------------------------------- Dec 30 05:05:07 prometheus monit[27708]: ------------------------------------------------------------------------------- Dec 30 05:05:07 prometheus monit[27708]: /bin/monit() [0x4201ba] Dec 30 05:05:07 prometheus monit[27708]: /bin/monit(LogError+0xa9) [0x4204d9] Dec 30 05:05:07 prometheus monit[27708]: /bin/monit() [0x419a34] Dec 30 05:05:07 prometheus monit[27708]: /bin/monit(Event_post+0x251) [0x419f71] Dec 30 05:05:07 prometheus monit[27708]: /bin/monit(check_process+0x166) [0x431446] Dec 30 05:05:07 prometheus monit[27708]: /bin/monit(validate+0x3e6) [0x4312b6] Dec 30 05:05:07 prometheus monit[27708]: /bin/monit(main+0x99f) [0x40c75f] Dec 30 05:05:07 prometheus monit[27708]: /lib64/libc.so.6(__libc_start_main+0xf5) [0x2b83543cf7e5] Dec 30 05:05:07 prometheus monit[27708]: /bin/monit() [0x40caf1] Dec 30 05:05:07 prometheus monit[27708]: ------------------------------------------------------------------------------- Проблема усугубляется тем что упавший монит склеивает насмерть packages.altlinux.org довольно скоро.
Так сперва monit падает или сперва начинается OOM? По письмам в рассылке возникло ощущение, что это local misconfiguration вследствие отсутствия ранней реакции на заканчивающуюся память (e.g. "занято >80%").
(В ответ на комментарий №1) > Так сперва monit падает или сперва начинается OOM? По письмам в рассылке > возникло ощущение, что это local misconfiguration вследствие отсутствия ранней > реакции на заканчивающуюся память (e.g. "занято >80%"). OOM киллер пишет что-то в syslog? Можно это как-то проверить?
В dmesg на HN пишет совершенно точно.
Хорошо бы по возможности проверить 5.7 чисто на всякий, ну и настроить реакцию на заканчивающуюся память _заранее_, где-нить на 80%.
УМВР, в общем.