Summary: | kernel panic в ip_defrag c ovz-smp-2.6.27-alt9 | ||||||||
---|---|---|---|---|---|---|---|---|---|
Product: | Sisyphus | Reporter: | Sergey Y. Afonin <asy> | ||||||
Component: | kernel-image-ovz-smp | Assignee: | Evgeny Sinelnikov <sin> | ||||||
Status: | CLOSED FIXED | QA Contact: | qa-sisyphus | ||||||
Severity: | normal | ||||||||
Priority: | P3 | CC: | aspsk, boris, boyarsh, glebfm, ldv, mike, mithraen, rider, sbolshakov, shrek, sin, vitty, vsu, vvk, zerg | ||||||
Version: | unstable | ||||||||
Hardware: | all | ||||||||
OS: | Linux | ||||||||
Bug Depends on: | |||||||||
Bug Blocks: | 22962 | ||||||||
Attachments: |
|
Судя по всему, ситуация повторилась. В этот раз, на вновь собранной конфигурации. Под нагрузкой начались регулярные перезагрузки, помог откат на ovz-rhel, которое было заготовлено заранее. Посмотреть, что писалось, не вышло: не было ни монитора, ни людей около сервера. Боюсь, к использованию пригодны только rhel-ветки ovz. Потому сиди на rhel5-варианте (2.6.18) или жди rhel6-патча. Хуже, если тут ovz окажется не при чём, а засада есть и в обычных ядрах. Кстати, вот свеженькое попалось, для 2.6.32, но эффект похож: http://lkml.org/lkml/2009/11/25/104 (В ответ на комментарий №1)
> Судя по всему, ситуация повторилась. В этот раз, на вновь собранной
> конфигурации. Под нагрузкой начались регулярные перезагрузки, помог откат на
> ovz-rhel, которое было заготовлено заранее. Посмотреть, что писалось, не вышло:
> не было ни монитора, ни людей около сервера.
apt-get install netconsole
(In reply to comment #4) > apt-get install netconsole Интересная штука. И kernel panic она успевает тоже отправить ? Created attachment 4108 [details]
вывод kernel panic
На всякий случай вывод весь, что получен с помощью netconsole. Вывод проблемы с 18:07:54 по логу.
ospfd -> sock_sendmsg -> ipv4_conntrack_defrag... http://git.kernel.org/?p=linux/kernel/git/torvalds/linux-2.6.git;a=commitdiff;h=2bad35b7c9588eb5e65c03bcae54e7eb6b1a6504 И на него сверху как раз то свежее исправление: http://git.kernel.org/?p=linux/kernel/git/torvalds/linux-2.6.git;a=commitdiff;h=bbf31bf18d34caa87dd01f08bf713635593697f2 Кто бы ещё собрал... :-) А то я до сборки ядер через git так не добрался (на тест надо x86_64). (В ответ на комментарий №8) > Кто бы ещё собрал... :-) А то я до сборки ядер через git так не добрался (на > тест надо x86_64). Я соберу на этой неделе (In reply to comment #9) > Я соберу на этой неделе Спасибо. А можно ещё CONFIG_NETCONSOLE_DYNAMIC включить на пробу ? Что-то как-то не сильно устойчиво логи шлются, может там какую подсказу будет видно... (В ответ на комментарий №10) > (In reply to comment #9) > > > Я соберу на этой неделе > > Спасибо. А можно ещё CONFIG_NETCONSOLE_DYNAMIC включить на пробу ? Что-то > как-то не сильно устойчиво логи шлются, может там какую подсказу будет видно... включить или выключить? ;) (сейчас он включен) (In reply to comment #11) > включить или выключить? ;) > (сейчас он включен) Как включен ?! :-) А где тогда /sys/kernel/config/netconsole/ ? Хотя... 2.6.27-ovz-smp я же так и не посмотрел - слишом быстро падает. Если влючено, то хорошо. Но в 2.6.18-ovz-rhel-alt12 и в 2.6.30-std-def-alt14 этого каталога точно нет. (В ответ на комментарий №12) > (In reply to comment #11) > > > включить или выключить? ;) > > (сейчас он включен) > > Как включен ?! :-) А где тогда /sys/kernel/config/netconsole/ ? > Хотя... 2.6.27-ovz-smp я же так и не посмотрел - слишом быстро падает. Если > влючено, то хорошо. Но в 2.6.18-ovz-rhel-alt12 и в 2.6.30-std-def-alt14 этого > каталога точно нет. Ну это уже другой вопрос.. У вас есть доступ на varmor? Если нет, куда положить ядро? Какие модули нужны к нему? 2.6.27-ovz-smp-alt10.1 работает. Пока 2 часа. alt9, в этом месте, и минуты не выживало вчера. Вообще баг сложно воспроизводится: я, до того, как про netconsole узнал, пытался kernel panic поймать через RS-232. Так этот компьютер с alt9 уже 11 дней работает. А режим работы идентичный: тот же ospf и то же количество маршрутов бегает. И поток трафика сравнимый, даже побольше. (В ответ на комментарий №14) > 2.6.27-ovz-smp-alt10.1 работает. Пока 2 часа. alt9, в этом месте, и минуты не > выживало вчера. Вообще баг сложно воспроизводится: я, до того, как про > netconsole узнал, пытался kernel panic поймать через RS-232. Так этот компьютер > с alt9 уже 11 дней работает. А режим работы идентичный: тот же ospf и то же > количество маршрутов бегает. И поток трафика сравнимый, даже побольше. Ну я подожду с выкладыванием в Сизиф. В любом случае, большое спасибо vsu@. Вчера вечером, на всякий случай, попробовал вернуть alt9 там, где оно падало: упало сразу. Снова загрузил alt10.1, работает, на текущий момент почти 12 часов уже. Работает 10.1 без двух часов неделю уже. А, тем временем, опубликовали CVE-2009-1298, как раз на эту тему, видимо. Других ядер у нас оно касается ? Стоит всем развесить ? (In reply to comment #17) > Работает 10.1 без двух часов неделю уже. А, тем временем, опубликовали > CVE-2009-1298, как раз на эту тему, видимо. Нет, CVE-2009-1298 это немного другое, хоть и в том же самом файле, и ядра ovz-smp-2.6.27, насколько я понял, оно никак не касается. kernel-image-ovz-smp-2.6.27-alt11 -> sisyphus: * Mon Dec 21 2009 Anton Protopopov <aspsk@altlinux> 2.6.27-alt11 - Probably fixed bug (ALT 21955) Не пора ли в 5.1 и p5 это ядро положить ? Баги развесить ? |
Created attachment 3991 [details] photo of kernel panic Описать придётся сумбурно, так как единственное, что конкретно - это kernel panic. Картинка скомпонована из двух фотографий с мобильника, лучшего нет, к сожалению. Последнее, что видно: EIP: [<c03ff083>] ip_defrag+0x8f3/0x9c0 SS:ESP 0068:c96ffbdc Всё, кроме ядра - Branch 4.1. Компьютер проработал с ovz-smp-2.6.27-alt7 (i686) около двух месяцев. В какой-то момент начал перегрузаться с частотой от минут до десятков минут. Был произведён апдейт до ovz-smp-2.6.27-alt9, это не помогло. Вывод на экран, в этот момент, не известен. Для замены был взят другой системный блок, туда был переставлен HDD. Проблема сохранилась. Почему не пишу в Summary про alt9 - с новым (но не очень - это важно) системным блоком проверялось только alt7, экран с alt9 я не видел. Помог переход на ovz-rhel-2.6.18-alt11. Всё бы хорошо, если бы не одно но. У меня есть запись о проблемах именно с этим, вновь установленным, системным блоком, которые были полтора года назад на этом же самом месте. HHD с установленной системой один и тот же в обоих случаях. Замена системника два месяца назад была из-за проблем с блоком питания. Именно тогда же была замена ядра с 2.6.18 на 2.6.27 - оборудование разной степени новизны. В момент проблем полуторагодичной давности ядро было 2.6.18-ovz-smp-alt22, проблемы пропали сами собой на следующие сутки (в lilo есть panic=30, так что вис получается не мёртвый). Так что непонятно, помог ли сейчас переход на rhel-2.6.18-alt11, или проблема пропала сама по себе, как в прошлый раз. Сриншотов прошлого раза нет, гарантировать, что ошибка была та же, не могу. Обще - только серия перезагрузок.