Bug 55140

Summary: Во время запуска ОС отключаются часть nvme дисков, подключенных к intel VROC
Product: Альт Сервер Reporter: Андрей <ltso>
Component: Ошибки работыAssignee: Evgeny Sinelnikov <sin>
Status: NEW --- QA Contact: qa-p8 <qa-p8>
Severity: normal    
Priority: P5 CC: antohami, eltsovga, jqt4, klark, mcpain, ptrnine, shevchenkodyu, vt
Version: 11.0   
Hardware: x86_64   
OS: Linux   

Description Андрей 2025-07-10 14:04:46 MSK
Сервер:
System Information: Supermicro PIO-6029U-E1CR4-1-FT019
Base Board Information: Supermicro X11DPU
Intel(R) Xeon(R) Gold 6230 CPU @ 2.10GHz
RAID bus controller: Intel Corporation Volume Management Device NVMe RAID Controller (rev 07)
RAID bus controller: Broadcom / LSI MegaRAID SAS 2208 [Thunderbolt] (rev 05)

ALT Server 11.0

Аналогично в ALT Virtualization PVE Edition 11.0 и в ALT K Workstation 11.0

Kernel: 6.12.34-6.12-alt1 arch: x86_64

Воспроизведение:
К контроллеру Intel VROC подключено 4 диска NVME (создан массив RAID10, такое же поведение происходит и если диски вне массива).
Режим UEFI
При загрузке ОС Альтлинукс на базе 11 ветки (Альт виртуализация P11, Альт сервер P11 и Альт K Workstation P11) и с установочного диска и самих ОС после установки на загрузочном этапе при обращении к дискам (начинают мигать лампочки на корзинах) происходит отключение 2х из 4х дисков. Лампочки меняют цвет. После загрузки видны только 2 диска во всех режимах работы.

Вывод nvme list:
/dev/nvme0n1          /dev/ng0n1            INTEL SSDPE2KE016T8
/dev/nvme1n1          /dev/ng1n1            INTEL SSDPE2KE016T8

Вывод dmesg | grep -i nvme

[    4.765659] nvme nvme0: pci function 10000:01:00.0
[    4.765663] nvme 10000:01:00.0: Unable to change power state from D3cold to D0, device inaccessible
[    4.765668] nvme 10000:01:00.0: PCI INT A: no GSI
[    4.765887] nvme nvme0: pci function 10000:02:00.0
[    4.765892] nvme 10000:02:00.0: PCI INT A: no GSI
[    4.773218] nvme nvme0: 32/0/0 default/read/poll queues
[    4.780704] nvme nvme0: Ignoring bogus Namespace Identifiers
[    4.996289] nvme nvme1: pci function 10001:02:00.0
[    4.996292] nvme 10001:02:00.0: Unable to change power state from D3cold to D0, device inaccessible
[    4.996296] nvme 10001:02:00.0: PCI INT A: no GSI
[    4.996488] nvme nvme1: pci function 10001:03:00.0
[    4.996492] nvme 10001:03:00.0: PCI INT A: no GSI
[    5.023312] nvme nvme1: 32/0/0 default/read/poll queues
[    5.028555] nvme nvme1: Ignoring bogus Namespace Identifiers

В BIOS диски отображаются корректно и все 4 и в режиме отдельных устройств и в режиме массива.
При установке Альт линукс 10 ветки (например Альт виртуализация 10.4) виден и массив и все 4 диска. В других ОС (Windows, Ubuntu, proxmox) видны все диски.
Comment 1 Андрей 2025-07-17 12:38:06 MSK
Дополнение по проблеме.

Была проведена попытка установки ОС, но с помощью обновления с предыдущей версии.
Установил alt виртуализация 10.4
Все диски работали, рэйд массив из них виделся. Установка прошла штатно.
Обновил пакеты до актуальных.
По инструкции по переходу на новую версию сделал upgrade на p11
Обновление пакетов прошло.
После перезагрузки диски все работали и были видны!
Из отличий – осталось ядро 6.1
Поэтому выполнил обновление ядра через updae-kernel. С параметрами по умолчанию прошло штатно до версии 6.12 (модули такие же - drm, xtables и zfs)
И вот именно после обновления ядра и перезагрузки, два диска снова отключились и выдалась ошибка об отсутствии раздела, который был на том массиве.

Кстати, после такого апгрейда везде осталась информация, что дистрибутив 10.4
Comment 2 jqt4@altlinux.org 2025-07-30 13:46:21 MSK
Предлагаю при загрузке ядра 6.12.34-6.12-alt1 добавить параметр командной строки ядра init_on_alloc=0
Не поможет ли?
Comment 3 Андрей 2025-07-30 15:20:43 MSK
Добрый день, добавление этого параметра не помогло. 2 диска так же отключаются.
Comment 4 Leonid Krivoshein 2025-07-31 01:59:35 MSK
В других дистрибутивах некоторые NVME-модули идут именно модулями, у нас же они вкомпилированы. Но так было и на p10, здесь же что-то поменялось в ядре.
Comment 5 Андрей 2025-07-31 10:02:28 MSK
(Ответ для Leonid Krivoshein на комментарий #4)
> В других дистрибутивах некоторые NVME-модули идут именно модулями, у нас же
> они вкомпилированы. Но так было и на p10, здесь же что-то поменялось в ядре.

Ждать обновлений ядра? Сколько по времени? Планируется в p11 добавление других веток ядра? Сегодня попробую на этом железе посмотреть поведение регулярной сборки с сизифом.
Comment 6 Leonid Krivoshein 2025-08-23 23:01:27 MSK
Попробуйте: apt-repo add 392560 && apt-get update && update-kernel
Comment 7 Олег Соловьев 2025-09-04 13:52:02 MSK
У меня сработал revert коммита
* d591f6804e7e (HEAD, refs/bisect/bad) PCI: Wait for device readiness with Configuration RRS

на 6.12 вылезут конфликты из-за:
* 87f10faf166a PCI: Rename CRS Completion Status to RRS
Comment 8 Андрей 2025-09-04 14:14:13 MSK
(Ответ для Олег Соловьев на комментарий #7)
> У меня сработал revert коммита
> * d591f6804e7e (HEAD, refs/bisect/bad) PCI: Wait for device readiness with
> Configuration RRS
> 
> на 6.12 вылезут конфликты из-за:
> * 87f10faf166a PCI: Rename CRS Completion Status to RRS

Что это обозначает для нас? Сейчас будет работать, после любых обновлений ядра нет?
Comment 9 Leonid Krivoshein 2026-03-03 16:07:28 MSK
Попробуйте перезагрузиться с добавлением параметров и сообщите результат:

nvme_core.default_ps_max_latency_us=0 pcie_aspm=off pcie_port_pm=off
Comment 10 Leonid Krivoshein 2026-03-03 16:47:10 MSK
Но перед этим смотрите вывод mdadm --detail-platform. Скорее всего, надо сначала корректно сконфигурировать RAID в BIOS, согласно документации матплаты или Intel. В установщике PVE 11 нет сборки рейда из дисков, он может только подхватить уже собранный средствами BIOS RAID.