Bug 25066

Summary: Не выключается VPS
Product: Sisyphus Reporter: Slava Dubrovskiy <dubrsl>
Component: kernel-image-ovz-elAssignee: Gleb F-Malinovskiy <glebfm>
Status: NEW --- QA Contact: qa-sisyphus
Severity: normal    
Priority: P3 CC: boyarsh, glebfm, kernelbot, ldv, mike, mithraen, rider, sbolshakov, shrek, sin, taf, vitty, vsu, vt, zerg
Version: unstable   
Hardware: all   
OS: Linux   

Description Slava Dubrovskiy 2011-02-10 16:39:01 MSK
Ядро 2.6.32-ovz-el-alt10

Не выключается VPS 
vzctl stop 1144
и все.

В dmesg при этом:

unregister_netdevice: waiting for lo to become free. Usage count = 2799
unregister_netdevice: waiting for lo to become free. Usage count = 2799
unregister_netdevice: waiting for lo to become free. Usage count = 2799
INFO: task vzmond/1144:19085 blocked for more than 120 seconds.
"echo 0 > /proc/sys/kernel/hung_task_timeout_secs" disables this message.
vzmond/1144   D ffff8802157628d0     0 19085      2 0x00000000
 ffff88017a301d40 0000000000000046 0000000000000000 ffff88021e4d2310
 ffff88017a301cd0 ffffffff810564d6 ffff88021e4d2310 0000000105ff792f
 ffff880215762ea8 ffff88017a301fd8 000000000000efc8 ffff880215762ea8
Call Trace:
 [<ffffffff810564d6>] ? activate_task+0x96/0x150
 [<ffffffff813ca335>] schedule_timeout+0x225/0x2f0
 [<ffffffff81047d79>] ? __wake_up_common+0x59/0x90
 [<ffffffff813c9fab>] wait_for_common+0x12b/0x180
 [<ffffffff810573e0>] ? default_wake_function+0x0/0x20
 [<ffffffff813ca0bd>] wait_for_completion+0x1d/0x20
 [<ffffffffa03342ef>] fini_ve_netns+0x5f/0x70 [vzmon]
 [<ffffffffa03351b0>] env_cleanup+0xf0/0x180 [vzmon]
 [<ffffffffa03354c4>] vzmond_helper+0x54/0x70 [vzmon]
 [<ffffffff8100d30a>] child_rip+0xa/0x20
 [<ffffffffa0335470>] ? vzmond_helper+0x0/0x70 [vzmon]
 [<ffffffff8100d300>] ? child_rip+0x0/0x20
unregister_netdevice: waiting for lo to become free. Usage count = 2799

и последняя строчка без перерыва повторяется через каждые секунд 30-60

Данная VPS подвергалось достаточно большой нагрузке по pps и были многократные превышения лимита privvmpages

[root@ua25 slava]# cat /proc/bc/1144/resources 
            kmemsize                  2625010            223292318            402653184            402653184                    0
            lockedpages                     0                    0                   32                   32                    0
            privvmpages                    55               200814               196608               196608               520520
            shmpages                        0                  356                16384                16384                    0
            numproc                        12                  360                 3000                 3000                    0
            physpages                   14061               280188                    0  9223372036854775807                    0
            vmguarpages                     0                    0               196608               196608                    0
            oomguarpages                  650               144671               196608               196608                    0
            numtcpsock                      0                77471              9999999              9999999                    0
            numflock                        0                    6              9999999              9999999                    0
            numpty                          0                    4                   16                   16                    0
            numsiginfo                      9                  195                  256                  256                    0
            tcpsndbuf                   99096            332651888            999999999            999999999                    0
            tcprcvbuf                       0              1295568              9999999              9999999                    0
            othersockbuf                    0              1206848              9999999              9999999                    0
            dgramrcvbuf                     0                 4624               132096               132096                    0
            numothersock                   25                  216                  256                  256                    0
            dcachesize                1924492              2097728              2097728              2097728                    0
            numfile                        20                14550              9999999              9999999                    0
            numiptent                      17                 3258                 5000                 5000                    0
            swappages                     645                 3483  9223372036854775807  9223372036854775807                    0

Ситуация повторяется вот уже каждый день на протяжении 3 дней.
При ребуте хардноды сервер зависает и помогает только кнопка ресет.
Comment 1 aspsk 2011-02-14 15:00:43 MSK
У меня не получается это повторить. Повесите багу на upstream?
Comment 2 Slava Dubrovskiy 2011-02-14 16:16:57 MSK
(В ответ на комментарий №1)
> У меня не получается это повторить. Повесите багу на upstream?
Здается мне это все подземный стук, т.к. у меня нет конкретного сценария для воспроизведения проблемы. Есть HN с 2.6.32-ovz-el-alt10, есть VPS, которую досят. Т.е. условия экстремальные - LA за 100, процессы упираются в разнообразные лимиты и т.д. При попытке выключить - получаешь облом с вышеописанными данными в логах.
В конце концов перенесли проблемную VPS на HN с ядром 2.6.18 и бранчем 5.1 и все нормализовалось (зависов нет).
С чем идти в апстрим не ясно, кроме того что 2.6.32 хуже чем 2.6.18 :(
Comment 3 aspsk 2011-02-14 16:31:53 MSK
Подземные стуки с похожими симптомами происходят на разных vz-шных ядрах
уже довольно давно:
  http://bugzilla.openvz.org/show_bug.cgi?id=1695
  http://bugzilla.openvz.org/show_bug.cgi?id=1648
  http://bugzilla.openvz.org/show_bug.cgi?id=1442 
  ...
причем они регулярно их исправляют.

Наверное, стоит повесить багу даже с такими симптомами.
Comment 4 Slava Dubrovskiy 2011-02-14 16:37:03 MSK
(В ответ на комментарий №3)
> Подземные стуки с похожими симптомами происходят на разных vz-шных ядрах
> уже довольно давно:
>   http://bugzilla.openvz.org/show_bug.cgi?id=1695
>   http://bugzilla.openvz.org/show_bug.cgi?id=1648
>   http://bugzilla.openvz.org/show_bug.cgi?id=1442 
>   ...
> причем они регулярно их исправляют.
> 
> Наверное, стоит повесить багу даже с такими симптомами.
Ок. Я попробую.
Comment 5 Michael Shigorin 2011-02-14 23:18:16 MSK
Хм, у меня пока вроде не ловилось...
Comment 6 Alexei Takaseev 2012-10-05 21:32:03 MSK
(В ответ на комментарий №5)
> Хм, у меня пока вроде не ловилось...

У меня вылезла подобная проблема, только не на VPS, а на связке accel-ppp + vlan + pppoe.

Можно поинтересоваться, у кого вылезла проблема, какие на тех серверах стоят сетевые карты? Есть подозрения, что виноват BroadCom'овский драйвер.