Summary: | Kernel panic 1-2 раза в неделю | ||||||
---|---|---|---|---|---|---|---|
Product: | Sisyphus | Reporter: | Slava Dubrovskiy <dubrsl> | ||||
Component: | kernel-image-ovz-el | Assignee: | Gleb F-Malinovskiy <glebfm> | ||||
Status: | CLOSED WONTFIX | QA Contact: | qa-sisyphus | ||||
Severity: | blocker | ||||||
Priority: | P3 | CC: | asy, boyarsh, enp, glebfm, grenka, kernelbot, ldv, mike, mithraen, rider, sbolshakov, shrek, sin, vitty, vsu, vt, zerg | ||||
Version: | unstable | ||||||
Hardware: | all | ||||||
OS: | Linux | ||||||
URL: | http://bugzilla.openvz.org/show_bug.cgi?id=1880 | ||||||
Attachments: |
|
Description
Slava Dubrovskiy
2011-07-05 01:22:35 MSK
А версия mdadm какая? (В ответ на комментарий №1)
> А версия mdadm какая?
mdadm-3.1.4-alt3
# mdadm --detail --scan
ARRAY /dev/md0 metadata=0.90 UUID=5358b5ea:5ad7b5e6:e1095869:f818a80e
ARRAY /dev/md2 metadata=0.90 UUID=9196ae44:14b5a12b:cd83f0b5:6c2d613c
ARRAY /dev/md1 metadata=0.90 UUID=a4fdfb3b:687860ee:672934b9:16b0b41b
(В ответ на комментарий №2) > (В ответ на комментарий №1) > > А версия mdadm какая? Таск flush это первый просто в логе. Затем идут трейсы не только по jbd2/dm, но и по java, postgre и другие. В какой-то момент удалось во время повышенной загрузки перед ребутом зайти на сервер, кильнуть честь процессов и на секунд 30 загрузка снизилась, но потом опять начала расти и потом уже ребут. Такое я видел только когда происходит блокировка IO диска. Например при ресайзе на грячую. Именно поэтому грешу на контроллер. И еще в пользу mptsas то, что от других серверов с аналогичной конфигурацией он отличается именно наличием SAS контролеера. Я попробую собрать новую версию драйвера и попробовать с ним. Если поможет, то тогда будет ясно точно. Тебе, наверное, сюда: http://bugzilla.openvz.org/show_bug.cgi?id=1880 PS: mptsas у меня прекрасно себя чувствует на: * SAS1068 под 2.6.18-ovz-rhel-alt13.M51.15; * SAS1064ET под 2.6.32-ovz-el-alt{10,13}. Обе машинки без нареканий. А похожее было на набортном sata_nv под 2.6.32-ovz-el-alt{17,22,23}. Created attachment 5177 [details] vzswap script by Denis Kuznetsov 2 dubrsl: что сейчас? (до кучи: http://wiki.openvz.org/Vswap и скриптик dek@) (В ответ на комментарий №6) > Created an attachment (id=5177) [details] > vzswap script by Denis Kuznetsov > > 2 dubrsl: что сейчас? (до кучи: http://wiki.openvz.org/Vswap и скриптик dek@) Ну это давно сделано (vswap) в ручном режиме. По сути - Все плохо. Есть около десятка серверов. В целом конечно работает, но периодически бывают зависы не ясной этиологии. Я связываю с повышенной нагрузкой. Т.е. если нагрузки нет - то работает. Конкретно этот сервер последний месяц не ребутался. Но есть другой (бэкапный) который при включенной бакуле в контейнере стабильно зависает. Причем так что даже в netconsole ничего записать не успевает. На экране тоже темно. Вообщем я не спешу переводить сервера с 2.6.18 на 2.6.32. До стабильности еще далековато. Новые сервера конечно приходится сетапить на новом, но от безвыходности. В рассылке proxmox народ тоже жалуется сильно. В результате этих проблем пришлось отказаться от виртуализации и перенести на HN все задачи. На std-def сервер работал месяц нормально. Вчера нужно было запустить одну виртуалку, в которой только ssd. Сразу получил завис 2 раза. При этом в netconsole удалось выловить Jan 1 07:25:05 ua56 [119519.441047] EDAC MC0: UE row 0, channel-a= 0 channel-b= 1 labels "-": (Branch=0 DRAM-Bank=0 RDWR=Read RAS=0 CAS=0, UE Err=0x20 (Non-Aliased Uncorrectable Non-Mirrored Demand Data ECC)) Jan 1 07:27:13 ua56 [119647.543061] EDAC MC0: UE row 0, channel-a= 0 channel-b= 1 labels "-": (Branch=0 DRAM-Bank=0 RDWR=Read RAS=0 CAS=0, UE Err=0x20 (Non-Aliased Uncorrectable Non-Mirrored Demand Data ECC)) Jan 1 07:29:03 ua56 [119757.359456] EDAC MC0: UE row 0, channel-a= 0 channel-b= 1 labels "-": (Branch=0 DRAM-Bank=0 RDWR=Read RAS=0 CAS=0, UE Err=0x20 (Non-Aliased Uncorrectable Non-Mirrored Demand Data ECC)) Jan 1 07:29:04 ua56 [119758.606068] EDAC MC0: UE row 0, channel-a= 0 channel-b= 1 labels "-": (Branch=0 DRAM-Bank=0 RDWR=Read RAS=0 CAS=0, UE Err=0x20 (Non-Aliased Uncorrectable Non-Mirrored Demand Data ECC)) Jan 1 07:30:40 ua56 [119854.491555] EDAC MC0: UE row 0, channel-a= 0 channel-b= 1 labels "-": (Branch=0 DRAM-Bank=0 RDWR=Read RAS=0 CAS=0, UE Err=0x20 (Non-Aliased Uncorrectable Non-Mirrored Demand Data ECC)) Jan 1 07:30:41 ua56 [119855.761699] EDAC MC0: UE row 0, channel-a= 0 channel-b= 1 labels "-": (Branch=0 DRAM-Bank=0 RDWR=Read RAS=0 CAS=0, UE Err=0x20 (Non-Aliased Uncorrectable Non-Mirrored Demand Data ECC)) Что привило на мысль о проблемах с edac. Нагуглилась схожая проблема: http://lists.us.dell.com/pipermail/linux-poweredge/2010-October/043457.html Попробовал выгрузить модуль и поставить в blacklist. Наблюдаю дальше. Бага всё ещё актуальна? (In reply to comment #9) > Бага всё ещё актуальна? Ввиду отсутствия kernel-image-ovz-el в Sisyphus уже, видимо, нет. Теоретически можно на p8 перевесить, но там уже вагон обновлений - alt166 текущее. У меня alt162 нормально работает, но VPS-ка на железном RAID, так что не та конфигурация. Наверное, надо как WONTFIX закрыть. |