Bug 40050

Summary: [SL9.1] AMD APU+дискретная Nvidia = принудительное завершение работы системы
Product: Branch p9 Reporter: Михаил <labaman>
Component: kernel-image-std-defAssignee: Николай Костригин <nickel>
Status: CLOSED FIXED QA Contact: qa-p9 <qa-p9>
Severity: critical    
Priority: P5 CC: aen, antohami, boyarsh, cas, egori, ptrnine, rider, sem, vt, zerg
Version: не указана   
Hardware: x86_64   
OS: Linux   
Attachments:
Description Flags
Вывод inxi -G
none
вывод make-initrd перед выключением ноута none

Description Михаил 2021-05-14 10:04:52 MSK
Created attachment 9354 [details]
Вывод inxi -G

Имеется ноутбук с Ryzen 5 (4600) + дискретная Nvidia GTX 1650. SL 9.1 не запускается в режиме Live-cd: после старта X-сервера, через пару секунд система принудительно завершает работу и отключает питание (картина аналогичная shutdown - завершает все службы и вырубает питание).
Если произвести установку, то графический ражим стартует нормально, но при попытке запустить alterator-x11  или обновить ядро (update-kernel) воспроизводится проблема, аналогичная попытки запуска livecd.
Comment 1 Михаил 2021-05-14 13:28:29 MSK
Created attachment 9355 [details]
вывод make-initrd  перед выключением ноута

Так же проблема воспроизводится при запуске make-initrd, видимо поэтому у меня и не получилось обновить ядро.
Comment 2 Anton Farygin 2021-05-14 14:52:55 MSK
не сказано что за ноутбук имеется.
Comment 3 Михаил 2021-05-14 15:13:31 MSK
(Ответ для Anton Farygin на комментарий #2)
> не сказано что за ноутбук имеется.

Не имеет значения. Проверял на следующих моделях:
HP Pavilion Gaming 15-ec1094ur
HP Pavilion Gaming 15-ec1087ur
Lenovo IdeaPad 3 Gaming 15ARH05
ASUS TUF Gaming A17 FX706II-H7028
Везде ситуация повторилась один в один.
Comment 4 Anton Farygin 2021-05-14 17:41:42 MSK
Такое поведение только на Simply ? на K 9.1 система как себя ведёт после установки ?
Comment 5 Михаил 2021-05-14 18:35:29 MSK
(Ответ для Anton Farygin на комментарий #4)
> Такое поведение только на Simply ? на K 9.1 система как себя ведёт после
> установки ?
Не только Simply, но и НеРабочая станция 9.1 - livecd  не стартует графика, установщик запускается только в безопасной графике (драйвер vesa). 
На К 9.1 все прекрасно - и в livecd  загружает без сбоев, и после установки коректно работает и обновляется. Х работает стабильно , alterator-x11 запускается, определяет дискретную карту.
Comment 6 Anton Farygin 2021-05-14 18:37:10 MSK
на simply какой драйвер запускается для иксов на установленной системе ?

Присоедините sosreport, пожалуйста.
Comment 7 Михаил 2021-05-14 19:56:51 MSK
(Ответ для Anton Farygin на комментарий #6)
> на simply какой драйвер запускается для иксов на установленной системе ?
> 
> Присоедините sosreport, пожалуйста.

Увы, не могу. Ноут вырубается при попытке сбора данных о ядре. =(
Comment 8 Anton Farygin 2021-05-14 20:42:06 MSK
можно под K 9.1
Comment 9 Михаил 2021-05-14 23:32:42 MSK
(Ответ для Anton Farygin на комментарий #8)
> можно под K 9.1

Вот https://disk.yandex.ru/d/gEvezkTKhiKTjw
Comment 10 Anton Farygin 2021-05-17 13:35:51 MSK
мы собрали конфиг, на котором подобная проблема воспроизводится и поставили её в очередь на исправление.
Comment 11 Anton Farygin 2021-05-17 13:37:30 MSK
на ядре un-def модуль nouveau тоже падает. ALT образование вообще не загрузился в livecd mode.
Comment 12 Anton Farygin 2021-05-17 13:38:52 MSK
Возможно, это разные проблемы т.к. в нашем случае ryzen довольно старый. Для начала попробуем исправить её.
Comment 13 Михаил 2021-05-17 13:45:14 MSK
(Ответ для Anton Farygin на комментарий #12)
> Возможно, это разные проблемы т.к. в нашем случае ryzen довольно старый. Для
> начала попробуем исправить её.

Нет одна и та же. Я вчера, скажем так, по наводке @cas, воспроизвел проблему на своей конфигурации. Альт Образование в livecd  не грузится, да еще и зависает во время установки (инсталлятор грузится с драйвером vesa/fbdev). Ситуация полностью аналогична и на (Не)Рабочей Станции 9.1.
Comment 14 Николай Костригин 2021-05-19 09:31:58 MSK
(Ответ для Михаил на комментарий #13)

> 
> Нет одна и та же. 

Не могли бы Вы проверить запуск инсталлятора на проблемной машине с отключенным IOMMU?

Для этого в меню grub при загрузке нужно нажать "e" и строку параметров передаваемых ядру дополнить: amd_iommu=off

Если после этого система загрузится и будет работать стабильно, можно собрать sosreport c проблемного дистрибутива.
Comment 15 Михаил 2021-05-19 13:14:57 MSK
(Ответ для nickel@altlinux.org на комментарий #14)
> (Ответ для Михаил на комментарий #13)
> 
> > 
> > Нет одна и та же. 
> 
> Не могли бы Вы проверить запуск инсталлятора на проблемной машине с
> отключенным IOMMU?
> 
> Для этого в меню grub при загрузке нужно нажать "e" и строку параметров
> передаваемых ядру дополнить: amd_iommu=off
> 
> Если после этого система загрузится и будет работать стабильно, можно
> собрать sosreport c проблемного дистрибутива.

Какого дистрибутива из 3 проблемных? В режиме livecd достаточно будет загрузится для сбора sosreport?
Comment 16 Михаил 2021-05-19 20:35:03 MSK
(Ответ для nickel@altlinux.org на комментарий #14)
> (Ответ для Михаил на комментарий #13)
> 
> > 
> > Нет одна и та же. 
> 
> Не могли бы Вы проверить запуск инсталлятора на проблемной машине с
> отключенным IOMMU?
> 
> Для этого в меню grub при загрузке нужно нажать "e" и строку параметров
> передаваемых ядру дополнить: amd_iommu=off
> 
> Если после этого система загрузится и будет работать стабильно, можно
> собрать sosreport c проблемного дистрибутива.
Нет, при загрузке с этим параметром поведение системы не меняется. Те же проблемы - не могу ни обновить ядро, не составить sosreports, не зайти в alterator-x11
Comment 17 AEN 2021-05-26 17:52:18 MSK
Есть идеи? 
Нужно железо?
Comment 18 Николай Костригин 2021-05-26 18:09:36 MSK
(Ответ для AEN на комментарий #17)
> Есть идеи? 
> Нужно железо?

Идеи есть, нужно время.
Необходимость закупки идентичного железа пока не подтверждена.
С тем, что есть у нас тоже проявляется баг, и, что интересно, только на SL отключение IOMMU не помогает, в отличие от других дистрибутивов, протестированных на нашей конфигурации.
Comment 19 AEN 2021-05-26 18:14:44 MSK
(Ответ для nickel@altlinux.org на комментарий #18)
> (Ответ для AEN на комментарий #17)
> > Есть идеи? 
> > Нужно железо?
> 
> Идеи есть, нужно время.
> Необходимость закупки идентичного железа пока не подтверждена.
> С тем, что есть у нас тоже проявляется баг, и, что интересно, только на SL
> отключение IOMMU не помогает, в отличие от других дистрибутивов,
> протестированных на нашей конфигурации.

Образование 9.2 проверяли? 
http://ftp.altlinux.org/pub/distributions/ALTLinux/p9/images/education/x86_64/
Comment 20 Николай Костригин 2021-05-26 18:18:08 MSK
(Ответ для AEN на комментарий #19)

> Образование 9.2 проверяли? 
> http://ftp.altlinux.org/pub/distributions/ALTLinux/p9/images/education/
> x86_64/

Именно 9.2 - пока нет, но проверю.
Comment 21 AEN 2021-05-26 18:24:42 MSK
(Ответ для nickel@altlinux.org на комментарий #20)
> (Ответ для AEN на комментарий #19)
> 
> > Образование 9.2 проверяли? 
> > http://ftp.altlinux.org/pub/distributions/ALTLinux/p9/images/education/
> > x86_64/
> 
> Именно 9.2 - пока нет, но проверю.
Спасибо. Ждем.
Comment 22 AEN 2021-05-26 18:43:51 MSK
(Ответ для AEN на комментарий #21)
> (Ответ для nickel@altlinux.org на комментарий #20)
> > (Ответ для AEN на комментарий #19)
> > 
> > > Образование 9.2 проверяли? 
> > > http://ftp.altlinux.org/pub/distributions/ALTLinux/p9/images/education/
> > > x86_64/
> > 
> > Именно 9.2 - пока нет, но проверю.
> Спасибо. Ждем.

Если бага там воспроизведется, чего я ожидаю, посмотрите на стартерах с 5.10  и 5.4, пожалуйста.
Comment 23 AEN 2021-05-28 11:55:19 MSK
Нет новостей?
Comment 24 Николай Костригин 2021-05-28 12:13:45 MSK
(Ответ для AEN на комментарий #23)
> Нет новостей?

Обнадеживающих пока, к сожалению, нет.
Зависают на этой связке и SL9, и education 9.2, и регулярки c std-def и un-def ядром. Разбираемся.
Comment 25 Антон Мидюков 2021-05-28 19:36:00 MSK
(Ответ для Михаил на комментарий #0)
> Если произвести установку, то графический ражим стартует нормально, но при
> попытке запустить alterator-x11  или обновить ядро (update-kernel)
> воспроизводится проблема, аналогичная попытки запуска livecd.

попробуйте выполнить
inxi -G

Я так и не понял какая графика работает. Встроенная (интернет говорит, что она у этого процессора есть) или дискретная?
Comment 26 Антон Мидюков 2021-05-28 19:45:58 MSK
C nomodeset пробовали грузиться? А с 'nomodeset nouveau.modeset=0'?
Comment 27 Михаил 2021-05-28 19:46:45 MSK
(Ответ для Антон Мидюков на комментарий #25)
> (Ответ для Михаил на комментарий #0)
> > Если произвести установку, то графический ражим стартует нормально, но при
> > попытке запустить alterator-x11  или обновить ядро (update-kernel)
> > воспроизводится проблема, аналогичная попытки запуска livecd.
> 
> попробуйте выполнить
> inxi -G
> 
> Я так и не понял какая графика работает. Встроенная (интернет говорит, что
> она у этого процессора есть) или дискретная?

inxi -G выполнял. Вывод в первом же комменте закреплен. Только вот я запускал эту утилиту на станции К (она напоминаю, работает на этой конфигурации идеально).
Естественно есть и встроенная (vega 6)  и  дискретная (1650Ti). Сч проприетарными драйверами по умолчанию все работает на встроенной,и через NV_PRIME_RENDER_OFFLOAD перключает на дискретную нужное приложение. Как оно нам на опенсорсном драйвере - пока не понял, ибо все сборки АЛЬТ с опенсорсными дровами отказываются даже запускаться.
Comment 28 Михаил 2021-05-28 19:47:38 MSK
(Ответ для Антон Мидюков на комментарий #26)
> C nomodeset пробовали грузиться? А с 'nomodeset nouveau.modeset=0'?

nomodeset nouveau.modeset=0 - вот что не пробовал, то не пробовал. Пока попробовать возможности нет.
Comment 29 Slava Aseev 2021-06-08 13:53:15 MSK
Баг частично исправлен в задании http://git.altlinux.org/tasks/273537/
(уже прошло в p9)

Частично, потому что исправление работает только для установленной системы, livecd и инсталлятор все равно не запускаются (запуск возможен только с nouveau.modeset=0 или modprobe.blacklist=nouveau)
Исправление было проверено также на Lenovo IdeaPad 3 Gaming 15ARH05

Причина неисправности была вот в чем:
Мидюков Антон писал(а):
> Проблема нашего firmware-linux была  в том, что не создавались симлинки. Нужное фирмвари было заменено на симлинк, а симлинк при сборке пакета создан не был.
Comment 30 Михаил 2021-06-08 14:57:28 MSK
(Ответ для Slava Aseev на комментарий #29)
> Баг частично исправлен в задании http://git.altlinux.org/tasks/273537/
> (уже прошло в p9)
> 
> Частично, потому что исправление работает только для установленной системы,
> livecd и инсталлятор все равно не запускаются (запуск возможен только с
> nouveau.modeset=0 или modprobe.blacklist=nouveau)
> Исправление было проверено также на Lenovo IdeaPad 3 Gaming 15ARH05
> 
> Причина неисправности была вот в чем:
> Мидюков Антон писал(а):
> > Проблема нашего firmware-linux была  в том, что не создавались симлинки. Нужное фирмвари было заменено на симлинк, а симлинк при сборке пакета создан не был.

Отлично! @aen вроде обещал, что образ symply linux будет пересобран, как только баг будет исправлен =)
Comment 31 AEN 2021-06-08 15:03:44 MSK
(In reply to Михаил from comment #30)
> (Ответ для Slava Aseev на комментарий #29)
> > Баг частично исправлен в задании http://git.altlinux.org/tasks/273537/
> > (уже прошло в p9)
> > 
> > Частично, потому что исправление работает только для установленной системы,
> > livecd и инсталлятор все равно не запускаются (запуск возможен только с
> > nouveau.modeset=0 или modprobe.blacklist=nouveau)
> > Исправление было проверено также на Lenovo IdeaPad 3 Gaming 15ARH05
> > 
> > Причина неисправности была вот в чем:
> > Мидюков Антон писал(а):
> > > Проблема нашего firmware-linux была  в том, что не создавались симлинки. Нужное фирмвари было заменено на симлинк, а симлинк при сборке пакета создан не был.
> 
> Отлично! @aen вроде обещал, что образ symply linux будет пересобран, как
> только баг будет исправлен =)

Он еще не исправлен полностью. Но надеюсь и жду.
Comment 32 Михаил 2021-06-08 15:08:05 MSK
(Ответ для AEN на комментарий #31)
> (In reply to Михаил from comment #30)
> > (Ответ для Slava Aseev на комментарий #29)
> > > Баг частично исправлен в задании http://git.altlinux.org/tasks/273537/
> > > (уже прошло в p9)
> > > 
> > > Частично, потому что исправление работает только для установленной системы,
> > > livecd и инсталлятор все равно не запускаются (запуск возможен только с
> > > nouveau.modeset=0 или modprobe.blacklist=nouveau)
> > > Исправление было проверено также на Lenovo IdeaPad 3 Gaming 15ARH05
> > > 
> > > Причина неисправности была вот в чем:
> > > Мидюков Антон писал(а):
> > > > Проблема нашего firmware-linux была  в том, что не создавались симлинки. Нужное фирмвари было заменено на симлинк, а симлинк при сборке пакета создан не был.
> > 
> > Отлично! @aen вроде обещал, что образ symply linux будет пересобран, как
> > только баг будет исправлен =)
> 
> Он еще не исправлен полностью. Но надеюсь и жду.

Так судя из отчета как раз-таки неполностью подразумевает, что как раз-таки нормальная работа live-режима и установщика невозможна, в виду необходимости установки обновлений. А после пересборки образ уже будет включать обновления с исправлениями, или я опять все упростил?
Comment 33 AEN 2021-06-08 15:09:18 MSK
Упростили.
Comment 34 Антон Мидюков 2021-06-08 15:11:56 MSK
(Ответ для Михаил на комментарий #32)
> Так судя из отчета как раз-таки неполностью подразумевает, что как раз-таки
> нормальная работа live-режима и установщика невозможна, в виду необходимости
> установки обновлений. А после пересборки образ уже будет включать обновления
> с исправлениями, или я опять все упростил?

Нет. Проблема в сборке live и инсталятора. Может, что-то лишнее в initrd. Нужно разбираться. Пока не разберёмся, смысла пересобирать образ нет.
Comment 35 Slava Aseev 2021-06-11 14:03:02 MSK
Удалось вытащить лог из вырубающегося livecd.

Вырубается, вероятно, из-за температуры в 511 C:

Jun 10 22:23:58 localhost.localdomain kernel: nouveau 0000:01:00.0: therm: temperature (511 C) hit the 'fanboost' threshold
Jun 10 22:23:58 localhost.localdomain kernel: nouveau 0000:01:00.0: therm: temperature (511 C) hit the 'downclock' threshold
Jun 10 22:23:58 localhost.localdomain kernel: nouveau 0000:01:00.0: therm: temperature (511 C) hit the 'critical' threshold
Jun 10 22:23:58 localhost.localdomain kernel: nouveau 0000:01:00.0: therm: temperature (511 C) hit the 'shutdown' threshold


Но больше интересен вот этот момент:

Костригин Николай писал(а):
> Возможно, стоит обратить внимание и на вот этот вывод (он предваряет все последующие crash-репорты ядра):
>Jun 10 22:23:58 localhost.localdomain kernel: pcieport 0000:00:01.1: Data Link Layer Link Active not set in 1000 msec
>Jun 10 22:23:58 localhost.localdomain kernel: nouveau 0000:01:00.0: can't change power state from D3cold to D0 (config space inaccessible)
>Jun 10 22:23:58 localhost.localdomain kernel: nouveau 0000:01:00.0: can't change power state from D3cold to D0 (config space inaccessible)
>Jun 10 22:23:58 localhost.localdomain kernel: nouveau 0000:01:00.0: can't change power state from D3cold to D0 (config space inaccessible)
>Jun 10 22:23:58 localhost.localdomain kernel: nouveau 0000:01:00.0: tmr: stalled at ffffffffffffffff
>Jun 10 22:23:58 localhost.localdomain kernel: ------------[ cut here ]------------
>Jun 10 22:23:58 localhost.localdomain kernel: nouveau 0000:01:00.0: timeout
>Jun 10 22:23:58 localhost.localdomain kernel: WARNING: CPU: 0 PID: 1104 at drivers/gpu/drm/nouveau/nvkm/subdev/bar/g84.c:38 g84_bar_flush+0xcb/0xe0 [nouveau]
> 
> По этой проблеме есть целые простыни:
> 
> https://forums.developer.nvidia.com/t/bug-cant-change-power-state-from-d3cold-to-d0-config-space-inaccessible-stuck-at-boot/112912
> 
> https://www.spinics.net/lists/dri-devel/msg270720.html 
> ссылается на 
> https://bugzilla.kernel.org/show_bug.cgi?id=209179
> 
> который почти один в один повторяет наш случай, но не получил развития на kernel.org

Костригин Николай писал(а):
> https://patchwork.kernel.org/project/dri-devel/patch/20191017121901.13699-1-kherbst@redhat.com/
> 
> вот такой патч обсуждали для мостов intel.
> 
> <TL;DR> Читать в самом низу, там приводится quirk для ноутов lenovo и подробно объясняется корень проблемы.
> На первый взгляд,хоть у нас и не Intel, может пригодиться

Выяснилось, что с параметром nouveau.runpm=0 livecd запускается (и многие проблемы также пропадают из логов)
Comment 36 Slava Aseev 2021-06-25 18:02:42 MSK
Как оказалось, багу с температурой в 511С уже 2 года:
https://gitlab.freedesktop.org/xorg/driver/xf86-video-nouveau/-/issues/445

Проблема там в том, что при каких-то состояниях gpu thermal sensor может вернуть -1 (т.е. 0xffff...)
и после наложения маски 0x1ff (9 бит для температуры) мы получаем те же самые 0x1ff (т.е. 511 градусов)
Comment 37 Sergey V Turchin 2021-07-22 15:52:16 MSK
В Сизифе можно проверить со сборкой http://webery.altlinux.org/task/279907
Comment 38 Egor Ignatov 2021-07-27 17:06:40 MSK
Проблема исправлена в propagator 20210721-alt1, ждем пересобранные образы.

Проверить можно на регулярных сборках: https://mirror.yandex.ru/altlinux-nightly/snapshots/20210727/
Comment 39 AEN 2021-08-14 06:38:21 MSK
Закрываем?
Comment 40 Николай Костригин 2021-08-14 11:10:25 MSK
(Ответ для AEN на комментарий #39)
> Закрываем?

Учитывая, что propagator 20210721-alt1 уже в p9, думаю - можно.
Слава, Егор, спасибо!

Михаил, если вдруг проблема для Вас не решена - переоткройте. Спасибо за багрепорт.
Comment 41 AEN 2021-08-14 11:23:13 MSK
Коллеги, Михаил, большое спасибо!