Bug 50700

Summary: HEALTH_WARN на ceph после рестарта сервисов для мониторов, OSD, MDS (нестабильная работа)
Product: Sisyphus Reporter: Tatyana Gagina <tatyana>
Component: cephAssignee: Alexey Shabalin <shaba>
Status: CLOSED NOTABUG QA Contact: qa-sisyphus
Severity: normal    
Priority: P5 CC: shaba
Version: unstable   
Hardware: x86_64   
OS: Linux   

Description Tatyana Gagina 2024-06-20 17:50:40 MSK
Стенды, обновлённые до Sisyphus:
ALT Server x86-64

Версия: ceph-18.2.2-alt1

Шаги:
1. Настроить кластер ceph 

2. Включить модуль:
# ceph mgr module enable dashboard 
или 
# ceph mgr module enable dashboard --force (ввиду https://bugzilla.altlinux.org/50698)

3. # systemctl restart ceph-mon.target

4. Проверить статус кластера:
# ceph -s


Результат: 
  cluster:
    id:     ddf192ff-5f3e-4911-ba6d-0c797f9dddb2
    health: HEALTH_WARN
            1 filesystem is degraded
            1 MDSs report slow metadata IOs
            Reduced data availability: 17 pgs inactive, 111 pgs peering

Дополнительно - при выполнении: 
1) # systemctl restart ceph-osd.target &&  ceph -s
cluster:
    id:     0a8c1dee-60e3-4a4e-9c7f-83716ae9604c
    health: HEALTH_WARN
            3 osds down
            1 host (3 osds) down
Degraded data redundancy: 26/78 objects degraded (33.333%), 16 pgs degraded

2) # systemctl restart ceph-mds.target && ceph -s  
  cluster:
    id:     0a8c1dee-60e3-4a4e-9c7f-83716ae9604c
    health: HEALTH_WARN
            insufficient standby MDS daemons available
или
Degraded data redundancy: 26/78 objects degraded (33.333%), 16 pgs degraded

Не на всех хостах одинаково отрабатывает.

Ожидаемое поведение: состояние кластера не должно становиться "HEALTH_WARN"
Comment 1 Tatyana Gagina 2024-06-20 18:00:46 MSK
Дополнительно: спустя некоторое время 1-1,5 статус меняется на 'health: HEALTH_OK'
Comment 2 Alexey Shabalin 2024-08-23 03:01:34 MSK
Не вижу никакой не стабильности.
Стабильно перегружается и стабильно вас об этом предупреждают в статусе.