Bug 28642

Summary: Падение ядра при запуске сервиса vz
Product: Sisyphus Reporter: Evgenii Terechkov <evg>
Component: kernel-image-ovz-elAssignee: Gleb F-Malinovskiy <glebfm>
Status: CLOSED WORKSFORME QA Contact: qa-sisyphus
Severity: major    
Priority: P3 CC: aen, boyarsh, glebfm, kernelbot, ldv, led, mike, mithraen, rider, sbolshakov, shrek, sin, vitty, vsu, vt, zerg
Version: unstable   
Hardware: all   
OS: Linux   
Attachments:
Description Flags
Отчёт system-report
none
Разница в конфигурации none

Description Evgenii Terechkov 2013-03-07 12:22:41 MSK
Created attachment 5762 [details]
Отчёт system-report

Положил в /etc/modprobe.d/local.conf такую проверенную временем конфигурацию:

options ipv6 disable_ipv6=1 disable=1
blacklist ipv6

В /etc/vz/vz.conf прописал IPV6="no" (потом проверял, эта переменная
не влияет). Сделал пару VE (в т.ч. 3314) запускаемыми при старте.

Перезагрузил сервер для того чтобы эти изменения вошли в силу и
получил 5-10-секундные периоды пинга прерываемые трёхминутными
периодами полной недоступности.

Оказалось, сервер циклически перезагружается (из-за panic=30)
показывая перед этим такое (пишу с фото, возможны мелкие неточности):
============8<=========================================8<============
Enabling IPv4 packet forwarding:
Configuring interface venet0:
Configuring cpuunits limit for VE0 to 1000:
Starting VE 3314: [55.7888195] BUG: unable to handle kernel NULL pointer dereference at (null)
[  54.644070] IP: [<ffffffffa037ebdb>] ipv6_add_dev+0xab0x3d0 [ipv6]
[  54.666364] PGD 27358c067 PUD 27358d067 PMD 0
[  54.689213] Oops: 0000 [#1] SMP
[  54.712248] last sysfs file: /sys/device/virtual/net/veth334.0/add
[  54.689213] CPU 0
[  54.689213] Modules linked in: vzethdev vznetdev pio_nfs pio_direct pfmt_raw pfmt_ploop1 ploop si
mfs vzrst nf_nat vzcpt nfs auth_rpcgss nfs_acl fscache lockd vzdquota vzmon vzdev af_packet xt_lengt
h xt_hl xt_tcpmss xt_TCPMSS iptable_mangle xt_dscp vzevent autofs4 coretemp hwmon sunrpc ipv6 bridge
 8021q garp stp llc xt_multiport xt_conntrack xt_pkttype xt_limt xt_tcpudp ipt_REJECT nf_conntrack_
tftp nf_conntrack_snmp nf_conntrack_pptp nf_conntrack_proto_gre nf_conntrack_netlink mfnetlink nf_co
nntrack_netbios_ns
============8<=========================================8<============

Экспериментально выяснено, что удаление конфигурации модуля ipv6 или
chkconfig vz off позволяют машине загрузиться до конца.

На выходных попробую воспроизвести на другом железе.
Comment 1 Dmitry V. Levin 2013-03-07 13:28:12 MSK
Используется veth?
Comment 2 Evgenii Terechkov 2013-03-07 17:42:25 MSK
Да.
Comment 3 Evgenii Terechkov 2013-03-08 08:16:51 MSK
Created attachment 5764 [details]
Разница в конфигурации

Хм. Хотел выяснить, какая из двух опций модуля влияет на падение (или же обе). В итоге вернул конфигурацию модуля к исходному виду:

options ipv6 disable_ipv6=1 disable=1
blacklist ipv6

Проверил, с ней машина загружается, VE стартуют. Стал смотреть, какие изменения произошли с момента восстановления загрузки. Из того, что могло бы влиять, вижу только миграцию конфигураций всех VE со старого формата на формат Vswap (по сути, удаление всех счётчиков страниц, кроме physpages и swappages). Для примера привожу разницу в конфигурации VE 3314 (т.к. она по номеру стартует раньше всех).
Comment 4 Evgenii Terechkov 2014-01-10 17:59:49 MSK
Больше не воспроизводится, неактуально.