Bug 43005

Summary: Kernel panic for 5.15.47-alt1
Product: Sisyphus Reporter: serpiph <serpiph>
Component: kernel-source-lkrgAssignee: kotopesutility <kotopesutility>
Status: CLOSED FIXED QA Contact: qa-sisyphus
Severity: blocker    
Priority: P5 CC: kotopesutility, vt
Version: unstable   
Hardware: all   
OS: Linux   
Attachments:
Description Flags
Скриншот с ошибкой ядра
none
Проблема после ошибки
none
Экран с ошибкой после kernel panic
none
Попытка монтирования повреждённой файловой системы none

Description serpiph 2022-06-16 18:54:39 MSK
Поставил ядро версии 2:5.15.47-alt1:sisyphus+302079.100.4.1@1655316049

В процессе запуска системы и загрузки сервиса ClamAV выпадает ошибка ядра kernel integrity, после чего система падает в kernel panic с перезагрузкой и повреждением корневого раздела на xfs.

При выборе ядра 5.15.39-alt1 такой проблемы нет. От греха подальше удалил опасную версию ядра.

Может, ClamAV тут совсем ни при чём, но это стабильно происходило при нём (или около него). Трижды. Сделать скриншот не получилось, в логах пусто.

Помимо самого ядра 5.15.47 ставятся модули accel-ppp, bcmwl, dm-secdel, drm, drm-nouveau, ipt-ratelimit, ipt-so, ipt_netflow, kvdo, linux-gpib, lkrg, lsadrv, ndpi, nvidia, nxp-pn71xx-getmobit, rtl8812au, staging, usb-vhci, virtualbox, virtualbox-addition, xtables-addons, zfs, rt8816.

Процессор Xeon E5-2640, чипсет C600, Nvidia Quadro K5000. Модуля TPM нет. SMEP, SMAP нет. В журнале есть сообщения:

[p_lkrg] Blocked usermodehelper execution of [bpfilter_umh]

К сожалению, в ближайший месяц подойти к компьютеру не смогу, чтобы потестировать.
Comment 1 serpiph 2022-07-20 09:04:01 MSK
Продолжение. Версия 5.15.55-std-def-alt1. Повторилась проблема с lkrg. В этот раз сделал скриншот, приложу. Снова система потеряла корневой ращдел после ошибки. Надо обязательно исправлять.
Comment 2 serpiph 2022-07-20 09:12:15 MSK
Created attachment 11139 [details]
Скриншот с ошибкой ядра

Возникающая ошибка при старте ядра с установленным lkrg
Comment 3 serpiph 2022-07-20 09:20:17 MSK
Created attachment 11141 [details]
Проблема после ошибки

Данный текст появляется после kernel panic с lkrg
Comment 4 Vitaly Chikunov 2022-07-20 09:30:40 MSK
https://github.com/lkrg-org/lkrg/issues/208

(In reply to serpiph from comment #3)
> Created attachment 11141 [details]
> Проблема после ошибки
> 
> Данный текст появляется после kernel panic с lkrg

Похоже, что оба скрина одинаковые.
Comment 5 serpiph 2022-07-20 09:47:16 MSK
Created attachment 11143 [details]
Экран с ошибкой после kernel panic

Верный скриншот с текстом после kernel panic
Comment 6 Repository Robot 2022-07-20 19:53:50 MSK
kernel-source-lkrg-0.9.3.0.41.gitcbd4198-alt1 -> sisyphus:

 Wed Jul 20 2022 Vladimir D. Seleznev <vseleznv@altlinux> 0.9.3.0.41.gitcbd4198-alt1
 - Updated to v0.9.3-41-gcbd4198 (closes: 43005).
Comment 7 Vitaly Chikunov 2022-07-20 23:18:19 MSK
(In reply to serpiph from comment #1)
> Снова система потеряла корневой ращдел после ошибки. 

Вы выяснили почему это происходит? Что именно "теряется", диск ведь не пропадает. Если подробности не известны, то напишите, пожалуйста, как вы исправили проблему. Спасибо!
Comment 8 serpiph 2022-07-21 09:39:16 MSK
Created attachment 11157 [details]
Попытка монтирования повреждённой файловой системы

Вот как проблема выглядит изнутри
Comment 9 serpiph 2022-07-21 09:45:17 MSK
(In reply to Vitaly Chikunov from comment #7)
> (In reply to serpiph from comment #1)
> > Снова система потеряла корневой ращдел после ошибки. 
> 
> Вы выяснили почему это происходит? Что именно "теряется", диск ведь не
> пропадает. Если подробности не известны, то напишите, пожалуйста, как вы
> исправили проблему. Спасибо!

Почему падает lkrg и уносит ядро в panic не знаю. В результате рушится файловая система (у меня XFS). Единственный способ восстановить: загрузка в другой системе и вызов xfs_repair -L для очистки журнала. При этом находятся повисшие inodes и куча других ошибок, релокаций. После приходится делать apt-get --reinstall всем установленным пакетам, так как понять, что покорёжено падением, не представляется возможным. Раскрутить журнал файловой системы обратно тоже не выходит. Скрин неудачной попытки смонтировать битую ФС я приложил.
Comment 10 Vitaly Chikunov 2022-07-22 06:20:46 MSK
Спасибо за пояснение о XFS!
Comment 11 serpiph 2022-07-22 08:49:46 MSK
(In reply to Vitaly Chikunov from comment #10)
> Спасибо за пояснение о XFS!

Да, с XFS оказалось грустно. Чтобы раскрутить журнал, раздел надо смонтировать. Чтобы раздел смонтировать, надо исправить структуру описания файловой системы. Чтобы исправить структуру, надо раскрутить журнал раздела. И разорвать этот порочный круг можно только принудительным обнулением журнала. И хвалёная стрессоустойчивость журналируемой файловой системы оказалась пшиком. Интересно, как в таких случаях ведут себя другие журналируемые системы, выживут ли. 

Страшнее то, что рушится корневой раздел. И если раньше можно было /usr монтировать отдельным разделом, то сейчас это не рекомендуют делать, что при падении приводит к длительному восстановлению. И тут может помочь только бекап. Никакие рейды в этом случае не помощники, только мешают в восстановлении работоспособности.