Bug 18522 - При высокой интенсивности чтения/запись падает XFS
Summary: При высокой интенсивности чтения/запись падает XFS
Status: CLOSED WONTFIX
Alias: None
Product: Branch 4.0
Classification: Distributions
Component: kernel-image-ovz-smp (show other bugs)
Version: 4.0
Hardware: x86_64 Linux
: P2 normal
Assignee: Nobody's working on this, feel free to take it
QA Contact: Q.A. 4.0
URL:
Keywords:
Depends on:
Blocks:
 
Reported: 2009-01-15 16:36 MSK by Boris Savelev
Modified: 2014-11-05 20:16 MSK (History)
2 users (show)

See Also:


Attachments

Note You need to log in before you can comment on or make changes to this bug.
Description Boris Savelev 2009-01-15 16:36:09 MSK
kernel-image-ovz-smp-2.6.18-alt26.M40.2

несколько человек интенсивно работают с гит нагружая диск
в итоге ФС сыпется, и XFS падает с диагностикой:

Jan 14 21:51:36 windsor kernel: Filesystem "dm-1": XFS internal error xfs_da_do_buf(1) at line 1992 of file fs/xfs/xfs_da_btree.c.  Caller 0xffffffff881c2952
Jan 14 21:51:36 windsor kernel:
Jan 14 21:51:36 windsor kernel: Call Trace:
Jan 14 21:51:36 windsor kernel:  [<ffffffff80267e2b>] show_trace+0x34/0x47
Jan 14 21:51:36 windsor kernel:  [<ffffffff80267e50>] dump_stack+0x12/0x17
Jan 14 21:51:36 windsor kernel:  [<ffffffff881c258f>] :xfs:xfs_da_do_buf+0x306/0x65f
Jan 14 21:51:36 windsor kernel:  [<ffffffff881c2952>] :xfs:xfs_da_read_buf+0x24/0x29
Jan 14 21:51:36 windsor kernel:  [<ffffffff881c490a>] :xfs:xfs_da_node_lookup_int+0x66/0x23e
Jan 14 21:51:36 windsor kernel:  [<ffffffff881c9c4c>] :xfs:xfs_dir2_node_lookup+0x46/0xb8
Jan 14 21:51:36 windsor kernel:  [<ffffffff881c5571>] :xfs:xfs_dir_lookup+0x100/0x122
Jan 14 21:51:36 windsor kernel:  [<ffffffff881e82c4>] :xfs:xfs_dir_lookup_int+0x32/0xcb
Jan 14 21:51:36 windsor kernel:  [<ffffffff881eb7e6>] :xfs:xfs_lookup+0x4f/0x7d
Jan 14 21:51:36 windsor kernel:  [<ffffffff881f7841>] :xfs:xfs_vn_lookup+0x30/0x6b
Jan 14 21:51:36 windsor kernel:  [<ffffffff8020c3f8>] do_lookup+0xe6/0x191
Jan 14 21:51:36 windsor kernel:  [<ffffffff802099ae>] __link_path_walk+0xac7/0x105c
Jan 14 21:51:36 windsor kernel:  [<ffffffff8020dc64>] link_path_walk+0x79/0x126
Jan 14 21:51:36 windsor kernel:  [<ffffffff8020c192>] do_path_lookup+0x2d3/0x34f
Jan 14 21:51:36 windsor kernel:  [<ffffffff80222c7a>] __user_walk_fd+0x37/0x4c
Jan 14 21:51:36 windsor kernel:  [<ffffffff80227ff1>] vfs_stat_fd+0x1b/0x4a
Jan 14 21:51:36 windsor kernel:  [<ffffffff80274ce3>] sys32_stat64+0x11/0x29
Jan 14 21:51:36 windsor kernel:  [<ffffffff8025d8f2>] ia32_sysret+0x0/0xa
Jan 14 21:51:36 windsor kernel: DWARF2 unwinder stuck at ia32_sysret+0x0/0xa
Jan 14 21:51:36 windsor kernel: Leftover inexact backtrace:
Jan 14 21:51:36 windsor kernel:
Jan 14 21:51:36 windsor kernel: xfs_da_do_buf: bno 8388608
Jan 14 21:51:36 windsor kernel: dir: inode 56659184

раздел 140Gb.
диск меняли, память меняли-проверяли. Эффекта нет.
рядом i386 машина с похожей нагрузкой и таким же ядром -- проблемы нет, хотя это не показатель, нагрузка может все-таки разная...
в рассылке упоминается похожая проблема (http://oss.sgi.com/archives/xfs/2006-07/msg00271.html) (голова темы http://oss.sgi.com/archives/xfs/2006-07/msg00180.html), но решения я так и не понял.
Так же пишут что с XFS есть проблемы вплоть до 2.6.22, на сколько это верно?
Comment 1 Sergey Vlasov 2009-01-15 20:29:40 MSK
(In reply to comment #0)
> в рассылке упоминается похожая проблема (http://oss.sgi.com/archives/xfs/2006-07/msg00271.html)
> (голова темы http://oss.sgi.com/archives/xfs/2006-07/msg00180.html), но решения я так и не понял.

Ту старую ошибку, попавшую в релиз 2.6.17, уже исправили (но старые ядра оставляют на диске испорченные структуры ФС, проявляющиеся при работе с исправленными ядрами). Хотя в данном случае ошибка немного другая - bno 8388608 (0x800000), а не 16777216 (0x1000000).

> Так же пишут что с XFS есть проблемы вплоть до 2.6.22, на сколько это верно?

На самом деле, возможно, что-то есть даже в более свежих ядрах - вот для 2.6.28-rc2: http://lkml.org/lkml/2009/1/4/11
(хотя в этом случае пока проблему списали на порчу данных при отключении питания).

xfs_repair исправляет что-либо в ФС? После этих исправлений через некоторое время проблема появляется вновь?
Comment 2 Boris Savelev 2009-01-15 21:57:21 MSK
(In reply to comment #1)
> xfs_repair исправляет что-либо в ФС? После этих исправлений через некоторое
> время проблема появляется вновь?
> 
xfs_repair исправляет.
Проблема появляется вновь и вновь, но без определенной периодичности. Может в день 2 раза упасть, а может 3-4 месяца проработать, как последний раз. Но xfs_repair ошибки исправляет каждый раз.
Comment 3 Boris Savelev 2009-01-16 16:48:05 MSK
что же делать?..
2.6.26 совсем не стабильно, даже если там этой проблемы нет
Comment 4 Vitaly Lipatov 2009-08-01 20:21:38 MSD
Перешли на 2.6.27-ovz-smp-alt7, возможно ошибка сменилась. Действующие лица те же. Подозрение вызывает 4-хядерный Phenom на этой машине и 64-битное ядро.

Aug  1 19:08:16 windsor kernel: [179109.896440] XFS internal error XFS_WANT_CORRUPTED_GOTO at line 1676 of file fs/xfs/xfs_alloc.c.  Caller 0xffffffffa0303a6d
Aug  1 19:08:16 windsor kernel: [179109.896516] Pid: 11893, comm: mc Tainted: G        W 2.6.27-ovz-smp-alt7 #1
Aug  1 19:08:16 windsor kernel: [179109.896516]
Aug  1 19:08:16 windsor kernel: [179109.896516] Call Trace:
Aug  1 19:08:16 windsor kernel: [179109.896516]  [<ffffffffa032af5e>] xfs_error_report+0x3e/0x40 [xfs]
Aug  1 19:08:16 windsor kernel: [179109.896516]  [<ffffffffa0303a6d>] ? xfs_free_extent+0xad/0xd0 [xfs]
Aug  1 19:08:16 windsor kernel: [179109.896516]  [<ffffffffa0301ff3>] xfs_free_ag_extent+0x5f3/0x6f0 [xfs]
Aug  1 19:08:16 windsor kernel: [179109.896516]  [<ffffffffa0303a6d>] xfs_free_extent+0xad/0xd0 [xfs]
Aug  1 19:08:16 windsor kernel: [179109.896516]  [<ffffffffa0311066>] xfs_bmap_finish+0x156/0x1a0 [xfs]
Aug  1 19:08:16 windsor kernel: [179109.896516]  [<ffffffffa0335bde>] xfs_itruncate_finish+0x13e/0x330 [xfs]
Aug  1 19:08:16 windsor kernel: [179109.896516]  [<ffffffffa0351ab6>] xfs_inactive+0x386/0x4b0 [xfs]
Aug  1 19:08:16 windsor kernel: [179109.896516]  [<ffffffff804beb71>] ? mutex_lock+0x11/0x30
Aug  1 19:08:16 windsor kernel: [179109.896516]  [<ffffffffa035e55a>] xfs_fs_clear_inode+0xca/0x120 [xfs]
Aug  1 19:08:16 windsor kernel: [179109.896516]  [<ffffffff802ee1ea>] clear_inode+0x8a/0x110
Aug  1 19:08:16 windsor kernel: [179109.896516]  [<ffffffff802eec06>] generic_delete_inode+0x146/0x180
Aug  1 19:08:16 windsor kernel: [179109.896516]  [<ffffffff802eecc5>] generic_drop_inode+0x85/0x210
Aug  1 19:08:16 windsor kernel: [179109.896516]  [<ffffffff802ed99d>] iput+0x5d/0x70
Aug  1 19:08:16 windsor kernel: [179109.896516]  [<ffffffff802e29ac>] do_unlinkat+0x10c/0x1c0
Aug  1 19:08:16 windsor kernel: [179109.896516]  [<ffffffff802e2a71>] sys_unlink+0x11/0x20
Aug  1 19:08:16 windsor kernel: [179109.896516]  [<ffffffff8022dc72>] ia32_sysret+0x0/0xa
Aug  1 19:08:16 windsor kernel: [179109.896516]
Aug  1 19:08:16 windsor kernel: [179109.896516] xfs_force_shutdown(dm-1,0x8) called from line 4269 of file fs/xfs/xfs_bmap.c.  Return address = 0xffffffffa03110a4
Aug  1 19:08:16 windsor kernel: [179109.898107] Filesystem "dm-1": Corruption of in-memory data detected.  Shutting down filesystem: dm-1
Comment 5 Michael Shigorin 2010-04-25 00:07:33 MSD
Попробуйте там всё-таки ovz-rhel ещё.
Comment 6 Vitaly Lipatov 2010-05-03 13:17:33 MSD
Ушли от XFS. В итоге:
на 2.6.27 регулярно заканчивается память (с уходом в своп),
при том, что free показывает 5Гб (из 8-ми) свободно.
вернулись на 2.6.18 rhel - проблемы с памятью нет (хотя контейнер на еженощный перезапуск пришлось поставить), но периодически ядро падает в kernel panic.
Comment 7 Michael Shigorin 2010-05-07 00:43:50 MSD
ovz-rhel рекомендую сразу из M51 брать.  И x86_64, i586 в апстриме официально тестируется по остаточному принципу.
Comment 8 Michael Shigorin 2014-11-05 20:16:56 MSK
В 4.0/branch исправления не будут вноситься уже технически (заглушена очередь на сборку), поэтому прошу ошибки, актуальные для sisyphus/p7/t7, перевесить на текущие ветки или сизиф.