Bug 21955

Summary: kernel panic в ip_defrag c ovz-smp-2.6.27-alt9
Product: Sisyphus Reporter: Sergey Y. Afonin <asy>
Component: kernel-image-ovz-smpAssignee: Evgeny Sinelnikov <sin>
Status: CLOSED FIXED QA Contact: qa-sisyphus
Severity: normal    
Priority: P3 CC: aspsk, boris, boyarsh, glebfm, ldv, mike, mithraen, rider, sbolshakov, shrek, sin, vitty, vsu, vvk, zerg
Version: unstable   
Hardware: all   
OS: Linux   
Bug Depends on:    
Bug Blocks: 22962    
Attachments:
Description Flags
photo of kernel panic
none
вывод kernel panic none

Description Sergey Y. Afonin 2009-10-16 13:19:51 MSD
Created attachment 3991 [details]
photo of kernel panic

Описать придётся сумбурно, так как единственное, что конкретно - это kernel panic.
Картинка скомпонована из двух фотографий с мобильника, лучшего нет, к сожалению.

Последнее, что видно: EIP: [<c03ff083>] ip_defrag+0x8f3/0x9c0 SS:ESP 0068:c96ffbdc

Всё, кроме ядра - Branch 4.1. Компьютер проработал с ovz-smp-2.6.27-alt7 (i686) около двух месяцев. В какой-то момент начал перегрузаться с частотой от минут до десятков минут. Был произведён апдейт до ovz-smp-2.6.27-alt9, это не помогло. Вывод на экран, в этот момент, не известен. Для замены был взят другой системный блок, туда был переставлен HDD. Проблема сохранилась. Почему не пишу в Summary про alt9 - с новым (но не очень - это важно) системным блоком проверялось только alt7, экран с alt9 я не видел. Помог переход на ovz-rhel-2.6.18-alt11.

Всё бы хорошо, если бы не одно но. У меня есть запись о проблемах именно с этим, вновь установленным, системным блоком, которые были полтора года назад на этом же самом месте. HHD с установленной системой один и тот же в обоих случаях. Замена системника два месяца назад была из-за проблем с блоком питания. Именно тогда же была замена ядра с 2.6.18 на 2.6.27 - оборудование разной степени новизны. В момент проблем полуторагодичной давности ядро было 2.6.18-ovz-smp-alt22, проблемы пропали сами собой на следующие сутки (в lilo есть panic=30, так что вис получается не мёртвый).

Так что непонятно, помог ли сейчас переход на rhel-2.6.18-alt11, или проблема пропала сама по себе, как в прошлый раз. Сриншотов прошлого раза нет, гарантировать, что ошибка была та же, не могу. Обще - только серия перезагрузок.
Comment 1 Sergey Y. Afonin 2009-12-06 18:17:25 MSK
Судя по всему, ситуация повторилась. В этот раз, на вновь собранной конфигурации. Под нагрузкой начались регулярные перезагрузки, помог откат на ovz-rhel, которое было заготовлено заранее. Посмотреть, что писалось, не вышло: не было ни монитора, ни людей около сервера.
Comment 2 Michael Shigorin 2009-12-06 23:20:52 MSK
Боюсь, к использованию пригодны только rhel-ветки ovz.  Потому сиди на rhel5-варианте (2.6.18) или жди rhel6-патча.
Comment 3 Sergey Y. Afonin 2009-12-07 00:43:01 MSK
Хуже, если тут ovz окажется не при чём, а засада есть и в обычных ядрах. Кстати, вот свеженькое попалось, для 2.6.32, но эффект похож: http://lkml.org/lkml/2009/11/25/104
Comment 4 Vladimir V. Kamarzin 2009-12-07 09:27:26 MSK
(В ответ на комментарий №1)
> Судя по всему, ситуация повторилась. В этот раз, на вновь собранной
> конфигурации. Под нагрузкой начались регулярные перезагрузки, помог откат на
> ovz-rhel, которое было заготовлено заранее. Посмотреть, что писалось, не вышло:
> не было ни монитора, ни людей около сервера.

apt-get install netconsole
Comment 5 Sergey Y. Afonin 2009-12-07 09:51:40 MSK
(In reply to comment #4)

> apt-get install netconsole

Интересная штука. И kernel panic она успевает тоже отправить ?
Comment 6 Sergey Y. Afonin 2009-12-07 22:15:13 MSK
Created attachment 4108 [details]
вывод kernel panic

На всякий случай вывод весь, что получен с помощью netconsole. Вывод проблемы с 18:07:54 по логу.
Comment 7 Sergey Vlasov 2009-12-07 22:53:19 MSK
ospfd -> sock_sendmsg -> ipv4_conntrack_defrag...
http://git.kernel.org/?p=linux/kernel/git/torvalds/linux-2.6.git;a=commitdiff;h=2bad35b7c9588eb5e65c03bcae54e7eb6b1a6504

И на него сверху как раз то свежее исправление:
http://git.kernel.org/?p=linux/kernel/git/torvalds/linux-2.6.git;a=commitdiff;h=bbf31bf18d34caa87dd01f08bf713635593697f2
Comment 8 Sergey Y. Afonin 2009-12-08 10:50:10 MSK
Кто бы ещё собрал... :-) А то я до сборки ядер через git так не добрался (на тест надо x86_64).
Comment 9 aspsk 2009-12-08 11:03:59 MSK
(В ответ на комментарий №8)
> Кто бы ещё собрал... :-) А то я до сборки ядер через git так не добрался (на
> тест надо x86_64).

Я соберу на этой неделе
Comment 10 Sergey Y. Afonin 2009-12-08 11:15:32 MSK
(In reply to comment #9)

> Я соберу на этой неделе

Спасибо. А можно ещё CONFIG_NETCONSOLE_DYNAMIC включить на пробу ? Что-то как-то не сильно устойчиво логи шлются, может там какую подсказу будет видно...
Comment 11 aspsk 2009-12-08 12:53:21 MSK
(В ответ на комментарий №10)
> (In reply to comment #9)
> 
> > Я соберу на этой неделе
> 
> Спасибо. А можно ещё CONFIG_NETCONSOLE_DYNAMIC включить на пробу ? Что-то
> как-то не сильно устойчиво логи шлются, может там какую подсказу будет видно...

включить или выключить? ;)
(сейчас он включен)
Comment 12 Sergey Y. Afonin 2009-12-08 13:32:12 MSK
(In reply to comment #11)

> включить или выключить? ;)
> (сейчас он включен)

Как включен ?! :-) А где тогда /sys/kernel/config/netconsole/ ?
Хотя... 2.6.27-ovz-smp я же так и не посмотрел - слишом быстро падает. Если влючено, то хорошо. Но в 2.6.18-ovz-rhel-alt12 и в 2.6.30-std-def-alt14 этого каталога точно нет.
Comment 13 aspsk 2009-12-08 13:42:20 MSK
(В ответ на комментарий №12)
> (In reply to comment #11)
> 
> > включить или выключить? ;)
> > (сейчас он включен)
> 
> Как включен ?! :-) А где тогда /sys/kernel/config/netconsole/ ?
> Хотя... 2.6.27-ovz-smp я же так и не посмотрел - слишом быстро падает. Если
> влючено, то хорошо. Но в 2.6.18-ovz-rhel-alt12 и в 2.6.30-std-def-alt14 этого
> каталога точно нет.

Ну это уже другой вопрос..

У вас есть доступ на varmor? Если нет, куда положить ядро?
Какие модули нужны к нему?
Comment 14 Sergey Y. Afonin 2009-12-08 17:14:30 MSK
2.6.27-ovz-smp-alt10.1 работает. Пока 2 часа. alt9, в этом месте, и минуты не выживало вчера. Вообще баг сложно воспроизводится: я, до того, как про netconsole узнал, пытался kernel panic поймать через RS-232. Так этот компьютер с alt9 уже 11 дней работает. А режим работы идентичный: тот же ospf и то же количество маршрутов бегает. И поток трафика сравнимый, даже побольше.
Comment 15 aspsk 2009-12-08 18:19:15 MSK
(В ответ на комментарий №14)
> 2.6.27-ovz-smp-alt10.1 работает. Пока 2 часа. alt9, в этом месте, и минуты не
> выживало вчера. Вообще баг сложно воспроизводится: я, до того, как про
> netconsole узнал, пытался kernel panic поймать через RS-232. Так этот компьютер
> с alt9 уже 11 дней работает. А режим работы идентичный: тот же ospf и то же
> количество маршрутов бегает. И поток трафика сравнимый, даже побольше.

Ну я подожду с выкладыванием в Сизиф.
В любом случае, большое спасибо vsu@.
Comment 16 Sergey Y. Afonin 2009-12-09 10:44:22 MSK
Вчера вечером, на всякий случай, попробовал вернуть alt9 там, где оно падало: упало сразу. Снова загрузил alt10.1, работает, на текущий момент почти 12 часов уже.
Comment 17 Sergey Y. Afonin 2009-12-15 21:17:57 MSK
Работает 10.1 без двух часов неделю уже. А, тем временем, опубликовали CVE-2009-1298, как раз на эту тему, видимо. Других ядер у нас оно касается ? Стоит всем развесить ?
Comment 18 Dmitry V. Levin 2009-12-15 23:58:38 MSK
(In reply to comment #17)
> Работает 10.1 без двух часов неделю уже. А, тем временем, опубликовали
> CVE-2009-1298, как раз на эту тему, видимо.

Нет, CVE-2009-1298 это немного другое, хоть и в том же самом файле,
и ядра ovz-smp-2.6.27, насколько я понял, оно никак не касается.
Comment 19 Repository Robot 2009-12-22 00:02:54 MSK
kernel-image-ovz-smp-2.6.27-alt11 -> sisyphus:

* Mon Dec 21 2009 Anton Protopopov <aspsk@altlinux> 2.6.27-alt11

- Probably fixed bug (ALT 21955)
Comment 20 Sergey Y. Afonin 2010-01-26 18:24:50 MSK
Не пора ли в 5.1 и p5 это ядро положить ? Баги развесить ?