Bug 28298

Summary: seg fault
Product: Sisyphus Reporter: Igor Zubkov <icesik>
Component: monitAssignee: Michael Shigorin <mike>
Status: CLOSED WORKSFORME QA Contact: qa-sisyphus
Severity: normal    
Priority: P3 CC: evg, mike
Version: unstable   
Hardware: all   
OS: Linux   

Description Igor Zubkov 2013-01-02 13:50:33 MSK
Монит начал падать вот с такой диагностикой:

Dec 30 05:04:55 prometheus monit[27708]: ------------------------------------------------------------------------------- 
Dec 30 05:04:55 prometheus monit[27708]:     /bin/monit() [0x4201ba] 
Dec 30 05:04:55 prometheus monit[27708]:     /bin/monit(LogError+0xa9) [0x4204d9] 
Dec 30 05:04:55 prometheus monit[27708]:     /bin/monit(Event_post+0x20a) [0x419f2a] 
Dec 30 05:04:55 prometheus monit[27708]:     /bin/monit(check_process+0x166) [0x431446] 
Dec 30 05:04:55 prometheus monit[27708]:     /bin/monit(validate+0x3e6) [0x4312b6] 
Dec 30 05:04:55 prometheus monit[27708]:     /bin/monit(main+0x99f) [0x40c75f] 
Dec 30 05:04:55 prometheus monit[27708]:     /lib64/libc.so.6(__libc_start_main+0xf5) [0x2b83543cf7e5] 
Dec 30 05:04:55 prometheus monit[27708]:     /bin/monit() [0x40caf1] 
Dec 30 05:04:55 prometheus monit[27708]: ------------------------------------------------------------------------------- 
Dec 30 05:04:55 prometheus monit[27708]: PID changed notification is sent to root@localhost 
Dec 30 05:04:59 prometheus monit[27708]: ------------------------------------------------------------------------------- 
Dec 30 05:04:59 prometheus monit[27708]:     /bin/monit() [0x4201ba] 
Dec 30 05:04:59 prometheus monit[27708]:     /bin/monit(LogError+0xa9) [0x4204d9] 
Dec 30 05:04:59 prometheus monit[27708]:     /bin/monit(sendmail+0x1a1) [0x4248d1] 
Dec 30 05:04:59 prometheus monit[27708]:     /bin/monit(handle_alert+0x27f) [0x41720f] 
Dec 30 05:04:59 prometheus monit[27708]:     /bin/monit() [0x41997b] 
Dec 30 05:04:59 prometheus monit[27708]:     /bin/monit(Event_post+0x251) [0x419f71] 
Dec 30 05:04:59 prometheus monit[27708]:     /bin/monit(check_process+0x166) [0x431446] 
Dec 30 05:04:59 prometheus monit[27708]:     /bin/monit(validate+0x3e6) [0x4312b6] 
Dec 30 05:04:59 prometheus monit[27708]:     /bin/monit(main+0x99f) [0x40c75f] 
Dec 30 05:04:59 prometheus monit[27708]:     /lib64/libc.so.6(__libc_start_main+0xf5) [0x2b83543cf7e5] 
Dec 30 05:04:59 prometheus monit[27708]:     /bin/monit() [0x40caf1] 
Dec 30 05:04:59 prometheus monit[27708]: ------------------------------------------------------------------------------- 
Dec 30 05:05:04 prometheus monit[27708]: ------------------------------------------------------------------------------- 
Dec 30 05:05:04 prometheus monit[27708]:     /bin/monit() [0x4201ba] 
Dec 30 05:05:04 prometheus monit[27708]:     /bin/monit(LogError+0xa9) [0x4204d9] 
Dec 30 05:05:04 prometheus monit[27708]:     /bin/monit(sendmail+0x8d1) [0x425001] 
Dec 30 05:05:04 prometheus monit[27708]:     /bin/monit(handle_alert+0x27f) [0x41720f] 
Dec 30 05:05:04 prometheus monit[27708]:     /bin/monit() [0x41997b] 
Dec 30 05:05:04 prometheus monit[27708]:     /bin/monit(Event_post+0x251) [0x419f71] 
Dec 30 05:05:04 prometheus monit[27708]:     /bin/monit(check_process+0x166) [0x431446] 
Dec 30 05:05:04 prometheus monit[27708]:     /bin/monit(validate+0x3e6) [0x4312b6] 
Dec 30 05:05:04 prometheus monit[27708]:     /bin/monit(main+0x99f) [0x40c75f] 
Dec 30 05:05:04 prometheus monit[27708]:     /lib64/libc.so.6(__libc_start_main+0xf5) [0x2b83543cf7e5] 
Dec 30 05:05:04 prometheus monit[27708]:     /bin/monit() [0x40caf1] 
Dec 30 05:05:04 prometheus monit[27708]: ------------------------------------------------------------------------------- 
Dec 30 05:05:07 prometheus monit[27708]: ------------------------------------------------------------------------------- 
Dec 30 05:05:07 prometheus monit[27708]:     /bin/monit() [0x4201ba] 
Dec 30 05:05:07 prometheus monit[27708]:     /bin/monit(LogError+0xa9) [0x4204d9] 
Dec 30 05:05:07 prometheus monit[27708]:     /bin/monit() [0x419a34] 
Dec 30 05:05:07 prometheus monit[27708]:     /bin/monit(Event_post+0x251) [0x419f71] 
Dec 30 05:05:07 prometheus monit[27708]:     /bin/monit(check_process+0x166) [0x431446] 
Dec 30 05:05:07 prometheus monit[27708]:     /bin/monit(validate+0x3e6) [0x4312b6] 
Dec 30 05:05:07 prometheus monit[27708]:     /bin/monit(main+0x99f) [0x40c75f] 
Dec 30 05:05:07 prometheus monit[27708]:     /lib64/libc.so.6(__libc_start_main+0xf5) [0x2b83543cf7e5] 
Dec 30 05:05:07 prometheus monit[27708]:     /bin/monit() [0x40caf1] 
Dec 30 05:05:07 prometheus monit[27708]: ------------------------------------------------------------------------------- 

Проблема усугубляется тем что упавший монит склеивает насмерть packages.altlinux.org довольно скоро.
Comment 1 Michael Shigorin 2013-02-25 23:29:49 MSK
Так сперва monit падает или сперва начинается OOM?  По письмам в рассылке возникло ощущение, что это local misconfiguration вследствие отсутствия ранней реакции на заканчивающуюся память (e.g. "занято >80%").
Comment 2 Igor Zubkov 2013-02-26 16:56:45 MSK
(В ответ на комментарий №1)
> Так сперва monit падает или сперва начинается OOM?  По письмам в рассылке
> возникло ощущение, что это local misconfiguration вследствие отсутствия ранней
> реакции на заканчивающуюся память (e.g. "занято >80%").

OOM киллер пишет что-то в syslog? Можно это как-то проверить?
Comment 3 Michael Shigorin 2013-02-26 19:34:09 MSK
В dmesg на HN пишет совершенно точно.
Comment 4 Michael Shigorin 2014-03-08 17:18:53 MSK
Хорошо бы по возможности проверить 5.7 чисто на всякий, ну и настроить реакцию на заканчивающуюся память _заранее_, где-нить на 80%.
Comment 5 Michael Shigorin 2014-03-17 19:00:25 MSK
УМВР, в общем.