#50700 – HEALTH_WARN на ceph после рестарта сервисов для мониторов, OSD, MDS (нестабильная работа)

Bug 50700 - HEALTH_WARN на ceph после рестарта сервисов для мониторов, OSD, MDS (нестабильная работа)

Summary: HEALTH_WARN на ceph после рестарта сервисов для мониторов, OSD, MDS (нестабил...

Status:	CLOSED NOTABUG

Alias:	None

Product:	Sisyphus
Classification:	Development
Component:	ceph (show other bugs)
Version:	unstable
Hardware:	x86_64 Linux

Importance:	P5 normal
Assignee:	Alexey Shabalin
QA Contact:	qa-sisyphus

URL:
Keywords:

Depends on:
Blocks:

Reported:	2024-06-20 17:50 MSK by Tatyana Gagina
Modified:	2024-08-23 03:01 MSK (History)
CC List:	2 users (show)

See Also:

Attachments
Add an attachment (proposed patch, testcase, etc.)

Note You need to log in before you can comment on or make changes to this bug.

Description Tatyana Gagina 2024-06-20 17:50:40 MSK

Стенды, обновлённые до Sisyphus:
ALT Server x86-64

Версия: ceph-18.2.2-alt1

Шаги:
1. Настроить кластер ceph 

2. Включить модуль:
# ceph mgr module enable dashboard 
или 
# ceph mgr module enable dashboard --force (ввиду https://bugzilla.altlinux.org/50698)

3. # systemctl restart ceph-mon.target

4. Проверить статус кластера:
# ceph -s


Результат: 
  cluster:
    id:     ddf192ff-5f3e-4911-ba6d-0c797f9dddb2
    health: HEALTH_WARN
            1 filesystem is degraded
            1 MDSs report slow metadata IOs
            Reduced data availability: 17 pgs inactive, 111 pgs peering

Дополнительно - при выполнении: 
1) # systemctl restart ceph-osd.target &&  ceph -s
cluster:
    id:     0a8c1dee-60e3-4a4e-9c7f-83716ae9604c
    health: HEALTH_WARN
            3 osds down
            1 host (3 osds) down
Degraded data redundancy: 26/78 objects degraded (33.333%), 16 pgs degraded

2) # systemctl restart ceph-mds.target && ceph -s  
  cluster:
    id:     0a8c1dee-60e3-4a4e-9c7f-83716ae9604c
    health: HEALTH_WARN
            insufficient standby MDS daemons available
или
Degraded data redundancy: 26/78 objects degraded (33.333%), 16 pgs degraded

Не на всех хостах одинаково отрабатывает.

Ожидаемое поведение: состояние кластера не должно становиться "HEALTH_WARN"

Comment 1 Tatyana Gagina 2024-06-20 18:00:46 MSK

Дополнительно: спустя некоторое время 1-1,5 статус меняется на 'health: HEALTH_OK'

Comment 2 Alexey Shabalin 2024-08-23 03:01:34 MSK

Не вижу никакой не стабильности.
Стабильно перегружается и стабильно вас об этом предупреждают в статусе.