Summary: | ahci: sata resets breaks raid | ||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Product: | Sisyphus | Reporter: | Sergey Bolshakov <sbolshakov> | ||||||||||||
Component: | kernel-image-std-def | Assignee: | Vitaly Chikunov <vt> | ||||||||||||
Status: | CLOSED NOTABUG | QA Contact: | qa-sisyphus | ||||||||||||
Severity: | normal | ||||||||||||||
Priority: | P2 | CC: | evg, gray_graff, kernelbot, placeholder, vt, vvk | ||||||||||||
Version: | unstable | ||||||||||||||
Hardware: | all | ||||||||||||||
OS: | Linux | ||||||||||||||
Attachments: |
|
Description
Sergey Bolshakov
2009-01-08 20:14:40 MSK
А что там за диски? Покажите полностью сообщения из dmesg, начиная с инициализации libata. На старом ядре нет и самих ошибок, или есть, но обрабатываются без выбрасывания дисков из массива? Created attachment 3196 [details]
sb600 on 2.6.25
Created attachment 3197 [details]
sb600 on 2.6.27
Created attachment 3198 [details]
mcp67 on 2.6.27
ошибки есть во всех случаях, но на .25 обрабатываются без вываливания из рэйда Created attachment 3199 [details]
smart data from sdb, mcp67
Created attachment 3200 [details]
smart data from sdc, mcp67
Все ошибки - таймаут команды 0xea (ATA_CMD_FLUSH_EXT - очистка кеша отложенной записи); эта команда используется, в частности, при обработке запросов с флагом BIO_RW_BARRIER. Хотя модуль raid5 не поддерживает такие запросы для самого устройства md, он формирует их для компонентов массива при записи суперблоков, чтобы обеспечить правильный порядок записи (сначала завершаются все отложенные записи, потом записывается суперблок, потом ещё раз выполняется очистка кеша для обеспечения записи данных суперблока на диск). Похоже, в ядрах до 2.6.26 ошибки при обработке SYNCHRONIZE_CACHE (команда SCSI, которая в libata переводится в ATA_CMD_FLUSH или ATA_CMD_FLUSH_EXT в зависимости от поддержки LBA48 диском) просто игнорировались. В коммите fa8e36c39b00a219d2c37250e493c3421e0e67e9 это было исправлено: [SCSI] fix barrier failure issue Currently, if the barrier command fails, the error return isn't seen by the block layer and it proceeds on regardless. The problem is that SCSI always returns no error for REQ_TYPE_BLOCK_PC ... it expects the submitter to pick the errors out of req->errors, which the block barrier functions don't do. Since it appears that the way SG_IO and scsi_execute_request() work they discard the block error return and always use req->errors, the best fix for this is to have the SCSI layer return an error to block if one actually occurred (this also allows us to filter out spurious errors, like deferred sense). This patch is a bug fix that will need backporting to stable, but it's also quite a big change and in need of testing, so we'll incubate in the main kernel tree and backport at the -rc2 or so stage if no problems turn up. Т.е., в новых ядрах существовавшая и ранее проблема (таймаут ATA_CMD_FLUSH_EXT) больше не игнорируется, а проявляется в явном виде, причём в случае md raid5 единственное место, где она может вылезти - запись суперблока RAID. На машине с mcp67 по логам устойчиво отваливается hdc, а в SMART у него ненулевое значение Current_Pending_Sector - возможно, стоит запустить для него smartctl -t long. Все прочие глючащие диски тоже SAMSUNG SP2504C, VT100-38? Или это вообще одни и те же диски на двух разных материнках? диски, на которых происходили ошибки -- одни и те же, два SAMSUNG SP2504C. материнка менялась в попытках найти крайнего (при переезде с sb600 на mcp67 sdb/sdc поменялись местами друг с другом). Возможно, в логах не видно, но: ошибки были на обоих дисках, с примерно одинаковой частотой и суммарным количеством ~ 100-200 в неделю с момента их приобретения; c переездом на .27 я отчётливо фиксировал случаи вываливания из рэйда каждого из них. за рекомендации со smart спасибо, но тем не менее Current_Pending_Sector на одном из дисков равен трём уже с полгода, без видимых последствий. И что с этим делать? Добовлять возможность игнорирования ошибок? Видимо это бага в железе. Игнорировать подобные ошибки неправильно. Как насчёт сообщить в LKML? Это баг, не исправленный (и без workaround'а). Какой ещё NOTABUG? после обновления фирмвари в дисках ошибки исчезли, так что видимо NOTABUG. после обновления фирмвари в дисках ошибки исчезли, так что видимо NOTABUG. |