Bug 50700 - HEALTH_WARN на ceph после рестарта сервисов для мониторов, OSD, MDS (нестабильная работа)
Summary: HEALTH_WARN на ceph после рестарта сервисов для мониторов, OSD, MDS (нестабил...
Status: CLOSED NOTABUG
Alias: None
Product: Sisyphus
Classification: Development
Component: ceph (show other bugs)
Version: unstable
Hardware: x86_64 Linux
: P5 normal
Assignee: Alexey Shabalin
QA Contact: qa-sisyphus
URL:
Keywords:
Depends on:
Blocks:
 
Reported: 2024-06-20 17:50 MSK by Tatyana Gagina
Modified: 2024-08-23 03:01 MSK (History)
1 user (show)

See Also:


Attachments

Note You need to log in before you can comment on or make changes to this bug.
Description Tatyana Gagina 2024-06-20 17:50:40 MSK
Стенды, обновлённые до Sisyphus:
ALT Server x86-64

Версия: ceph-18.2.2-alt1

Шаги:
1. Настроить кластер ceph 

2. Включить модуль:
# ceph mgr module enable dashboard 
или 
# ceph mgr module enable dashboard --force (ввиду https://bugzilla.altlinux.org/50698)

3. # systemctl restart ceph-mon.target

4. Проверить статус кластера:
# ceph -s


Результат: 
  cluster:
    id:     ddf192ff-5f3e-4911-ba6d-0c797f9dddb2
    health: HEALTH_WARN
            1 filesystem is degraded
            1 MDSs report slow metadata IOs
            Reduced data availability: 17 pgs inactive, 111 pgs peering

Дополнительно - при выполнении: 
1) # systemctl restart ceph-osd.target &&  ceph -s
cluster:
    id:     0a8c1dee-60e3-4a4e-9c7f-83716ae9604c
    health: HEALTH_WARN
            3 osds down
            1 host (3 osds) down
Degraded data redundancy: 26/78 objects degraded (33.333%), 16 pgs degraded

2) # systemctl restart ceph-mds.target && ceph -s  
  cluster:
    id:     0a8c1dee-60e3-4a4e-9c7f-83716ae9604c
    health: HEALTH_WARN
            insufficient standby MDS daemons available
или
Degraded data redundancy: 26/78 objects degraded (33.333%), 16 pgs degraded

Не на всех хостах одинаково отрабатывает.

Ожидаемое поведение: состояние кластера не должно становиться "HEALTH_WARN"
Comment 1 Tatyana Gagina 2024-06-20 18:00:46 MSK
Дополнительно: спустя некоторое время 1-1,5 статус меняется на 'health: HEALTH_OK'
Comment 2 Alexey Shabalin 2024-08-23 03:01:34 MSK
Не вижу никакой не стабильности.
Стабильно перегружается и стабильно вас об этом предупреждают в статусе.