Bug 28298 - seg fault
Summary: seg fault
Status: CLOSED WORKSFORME
Alias: None
Product: Sisyphus
Classification: Development
Component: monit (show other bugs)
Version: unstable
Hardware: all Linux
: P3 normal
Assignee: Michael Shigorin
QA Contact: qa-sisyphus
URL:
Keywords:
Depends on:
Blocks:
 
Reported: 2013-01-02 13:50 MSK by Igor Zubkov
Modified: 2014-03-17 19:00 MSK (History)
2 users (show)

See Also:


Attachments

Note You need to log in before you can comment on or make changes to this bug.
Description Igor Zubkov 2013-01-02 13:50:33 MSK
Монит начал падать вот с такой диагностикой:

Dec 30 05:04:55 prometheus monit[27708]: ------------------------------------------------------------------------------- 
Dec 30 05:04:55 prometheus monit[27708]:     /bin/monit() [0x4201ba] 
Dec 30 05:04:55 prometheus monit[27708]:     /bin/monit(LogError+0xa9) [0x4204d9] 
Dec 30 05:04:55 prometheus monit[27708]:     /bin/monit(Event_post+0x20a) [0x419f2a] 
Dec 30 05:04:55 prometheus monit[27708]:     /bin/monit(check_process+0x166) [0x431446] 
Dec 30 05:04:55 prometheus monit[27708]:     /bin/monit(validate+0x3e6) [0x4312b6] 
Dec 30 05:04:55 prometheus monit[27708]:     /bin/monit(main+0x99f) [0x40c75f] 
Dec 30 05:04:55 prometheus monit[27708]:     /lib64/libc.so.6(__libc_start_main+0xf5) [0x2b83543cf7e5] 
Dec 30 05:04:55 prometheus monit[27708]:     /bin/monit() [0x40caf1] 
Dec 30 05:04:55 prometheus monit[27708]: ------------------------------------------------------------------------------- 
Dec 30 05:04:55 prometheus monit[27708]: PID changed notification is sent to root@localhost 
Dec 30 05:04:59 prometheus monit[27708]: ------------------------------------------------------------------------------- 
Dec 30 05:04:59 prometheus monit[27708]:     /bin/monit() [0x4201ba] 
Dec 30 05:04:59 prometheus monit[27708]:     /bin/monit(LogError+0xa9) [0x4204d9] 
Dec 30 05:04:59 prometheus monit[27708]:     /bin/monit(sendmail+0x1a1) [0x4248d1] 
Dec 30 05:04:59 prometheus monit[27708]:     /bin/monit(handle_alert+0x27f) [0x41720f] 
Dec 30 05:04:59 prometheus monit[27708]:     /bin/monit() [0x41997b] 
Dec 30 05:04:59 prometheus monit[27708]:     /bin/monit(Event_post+0x251) [0x419f71] 
Dec 30 05:04:59 prometheus monit[27708]:     /bin/monit(check_process+0x166) [0x431446] 
Dec 30 05:04:59 prometheus monit[27708]:     /bin/monit(validate+0x3e6) [0x4312b6] 
Dec 30 05:04:59 prometheus monit[27708]:     /bin/monit(main+0x99f) [0x40c75f] 
Dec 30 05:04:59 prometheus monit[27708]:     /lib64/libc.so.6(__libc_start_main+0xf5) [0x2b83543cf7e5] 
Dec 30 05:04:59 prometheus monit[27708]:     /bin/monit() [0x40caf1] 
Dec 30 05:04:59 prometheus monit[27708]: ------------------------------------------------------------------------------- 
Dec 30 05:05:04 prometheus monit[27708]: ------------------------------------------------------------------------------- 
Dec 30 05:05:04 prometheus monit[27708]:     /bin/monit() [0x4201ba] 
Dec 30 05:05:04 prometheus monit[27708]:     /bin/monit(LogError+0xa9) [0x4204d9] 
Dec 30 05:05:04 prometheus monit[27708]:     /bin/monit(sendmail+0x8d1) [0x425001] 
Dec 30 05:05:04 prometheus monit[27708]:     /bin/monit(handle_alert+0x27f) [0x41720f] 
Dec 30 05:05:04 prometheus monit[27708]:     /bin/monit() [0x41997b] 
Dec 30 05:05:04 prometheus monit[27708]:     /bin/monit(Event_post+0x251) [0x419f71] 
Dec 30 05:05:04 prometheus monit[27708]:     /bin/monit(check_process+0x166) [0x431446] 
Dec 30 05:05:04 prometheus monit[27708]:     /bin/monit(validate+0x3e6) [0x4312b6] 
Dec 30 05:05:04 prometheus monit[27708]:     /bin/monit(main+0x99f) [0x40c75f] 
Dec 30 05:05:04 prometheus monit[27708]:     /lib64/libc.so.6(__libc_start_main+0xf5) [0x2b83543cf7e5] 
Dec 30 05:05:04 prometheus monit[27708]:     /bin/monit() [0x40caf1] 
Dec 30 05:05:04 prometheus monit[27708]: ------------------------------------------------------------------------------- 
Dec 30 05:05:07 prometheus monit[27708]: ------------------------------------------------------------------------------- 
Dec 30 05:05:07 prometheus monit[27708]:     /bin/monit() [0x4201ba] 
Dec 30 05:05:07 prometheus monit[27708]:     /bin/monit(LogError+0xa9) [0x4204d9] 
Dec 30 05:05:07 prometheus monit[27708]:     /bin/monit() [0x419a34] 
Dec 30 05:05:07 prometheus monit[27708]:     /bin/monit(Event_post+0x251) [0x419f71] 
Dec 30 05:05:07 prometheus monit[27708]:     /bin/monit(check_process+0x166) [0x431446] 
Dec 30 05:05:07 prometheus monit[27708]:     /bin/monit(validate+0x3e6) [0x4312b6] 
Dec 30 05:05:07 prometheus monit[27708]:     /bin/monit(main+0x99f) [0x40c75f] 
Dec 30 05:05:07 prometheus monit[27708]:     /lib64/libc.so.6(__libc_start_main+0xf5) [0x2b83543cf7e5] 
Dec 30 05:05:07 prometheus monit[27708]:     /bin/monit() [0x40caf1] 
Dec 30 05:05:07 prometheus monit[27708]: ------------------------------------------------------------------------------- 

Проблема усугубляется тем что упавший монит склеивает насмерть packages.altlinux.org довольно скоро.
Comment 1 Michael Shigorin 2013-02-25 23:29:49 MSK
Так сперва monit падает или сперва начинается OOM?  По письмам в рассылке возникло ощущение, что это local misconfiguration вследствие отсутствия ранней реакции на заканчивающуюся память (e.g. "занято >80%").
Comment 2 Igor Zubkov 2013-02-26 16:56:45 MSK
(В ответ на комментарий №1)
> Так сперва monit падает или сперва начинается OOM?  По письмам в рассылке
> возникло ощущение, что это local misconfiguration вследствие отсутствия ранней
> реакции на заканчивающуюся память (e.g. "занято >80%").

OOM киллер пишет что-то в syslog? Можно это как-то проверить?
Comment 3 Michael Shigorin 2013-02-26 19:34:09 MSK
В dmesg на HN пишет совершенно точно.
Comment 4 Michael Shigorin 2014-03-08 17:18:53 MSK
Хорошо бы по возможности проверить 5.7 чисто на всякий, ну и настроить реакцию на заканчивающуюся память _заранее_, где-нить на 80%.
Comment 5 Michael Shigorin 2014-03-17 19:00:25 MSK
УМВР, в общем.