Bug 50700

Summary:	HEALTH_WARN на ceph после рестарта сервисов для мониторов, OSD, MDS (нестабильная работа)
Product:	Sisyphus	Reporter:	Tatyana Gagina <tatyana>
Component:	ceph	Assignee:	Alexey Shabalin <shaba>
Status:	CLOSED NOTABUG	QA Contact:	qa-sisyphus
Severity:	normal
Priority:	P5	CC:	maks1ms, shaba
Version:	unstable
Hardware:	x86_64
OS:	Linux

Description Tatyana Gagina 2024-06-20 17:50:40 MSK

Стенды, обновлённые до Sisyphus:
ALT Server x86-64

Версия: ceph-18.2.2-alt1

Шаги:
1. Настроить кластер ceph 

2. Включить модуль:
# ceph mgr module enable dashboard 
или 
# ceph mgr module enable dashboard --force (ввиду https://bugzilla.altlinux.org/50698)

3. # systemctl restart ceph-mon.target

4. Проверить статус кластера:
# ceph -s


Результат: 
  cluster:
    id:     ddf192ff-5f3e-4911-ba6d-0c797f9dddb2
    health: HEALTH_WARN
            1 filesystem is degraded
            1 MDSs report slow metadata IOs
            Reduced data availability: 17 pgs inactive, 111 pgs peering

Дополнительно - при выполнении: 
1) # systemctl restart ceph-osd.target &&  ceph -s
cluster:
    id:     0a8c1dee-60e3-4a4e-9c7f-83716ae9604c
    health: HEALTH_WARN
            3 osds down
            1 host (3 osds) down
Degraded data redundancy: 26/78 objects degraded (33.333%), 16 pgs degraded

2) # systemctl restart ceph-mds.target && ceph -s  
  cluster:
    id:     0a8c1dee-60e3-4a4e-9c7f-83716ae9604c
    health: HEALTH_WARN
            insufficient standby MDS daemons available
или
Degraded data redundancy: 26/78 objects degraded (33.333%), 16 pgs degraded

Не на всех хостах одинаково отрабатывает.

Ожидаемое поведение: состояние кластера не должно становиться "HEALTH_WARN"

Comment 1 Tatyana Gagina 2024-06-20 18:00:46 MSK

Дополнительно: спустя некоторое время 1-1,5 статус меняется на 'health: HEALTH_OK'

Comment 2 Alexey Shabalin 2024-08-23 03:01:34 MSK

Не вижу никакой не стабильности.
Стабильно перегружается и стабильно вас об этом предупреждают в статусе.