kernel-image-ovz-smp-2.6.18-alt26.M40.2 несколько человек интенсивно работают с гит нагружая диск в итоге ФС сыпется, и XFS падает с диагностикой: Jan 14 21:51:36 windsor kernel: Filesystem "dm-1": XFS internal error xfs_da_do_buf(1) at line 1992 of file fs/xfs/xfs_da_btree.c. Caller 0xffffffff881c2952 Jan 14 21:51:36 windsor kernel: Jan 14 21:51:36 windsor kernel: Call Trace: Jan 14 21:51:36 windsor kernel: [<ffffffff80267e2b>] show_trace+0x34/0x47 Jan 14 21:51:36 windsor kernel: [<ffffffff80267e50>] dump_stack+0x12/0x17 Jan 14 21:51:36 windsor kernel: [<ffffffff881c258f>] :xfs:xfs_da_do_buf+0x306/0x65f Jan 14 21:51:36 windsor kernel: [<ffffffff881c2952>] :xfs:xfs_da_read_buf+0x24/0x29 Jan 14 21:51:36 windsor kernel: [<ffffffff881c490a>] :xfs:xfs_da_node_lookup_int+0x66/0x23e Jan 14 21:51:36 windsor kernel: [<ffffffff881c9c4c>] :xfs:xfs_dir2_node_lookup+0x46/0xb8 Jan 14 21:51:36 windsor kernel: [<ffffffff881c5571>] :xfs:xfs_dir_lookup+0x100/0x122 Jan 14 21:51:36 windsor kernel: [<ffffffff881e82c4>] :xfs:xfs_dir_lookup_int+0x32/0xcb Jan 14 21:51:36 windsor kernel: [<ffffffff881eb7e6>] :xfs:xfs_lookup+0x4f/0x7d Jan 14 21:51:36 windsor kernel: [<ffffffff881f7841>] :xfs:xfs_vn_lookup+0x30/0x6b Jan 14 21:51:36 windsor kernel: [<ffffffff8020c3f8>] do_lookup+0xe6/0x191 Jan 14 21:51:36 windsor kernel: [<ffffffff802099ae>] __link_path_walk+0xac7/0x105c Jan 14 21:51:36 windsor kernel: [<ffffffff8020dc64>] link_path_walk+0x79/0x126 Jan 14 21:51:36 windsor kernel: [<ffffffff8020c192>] do_path_lookup+0x2d3/0x34f Jan 14 21:51:36 windsor kernel: [<ffffffff80222c7a>] __user_walk_fd+0x37/0x4c Jan 14 21:51:36 windsor kernel: [<ffffffff80227ff1>] vfs_stat_fd+0x1b/0x4a Jan 14 21:51:36 windsor kernel: [<ffffffff80274ce3>] sys32_stat64+0x11/0x29 Jan 14 21:51:36 windsor kernel: [<ffffffff8025d8f2>] ia32_sysret+0x0/0xa Jan 14 21:51:36 windsor kernel: DWARF2 unwinder stuck at ia32_sysret+0x0/0xa Jan 14 21:51:36 windsor kernel: Leftover inexact backtrace: Jan 14 21:51:36 windsor kernel: Jan 14 21:51:36 windsor kernel: xfs_da_do_buf: bno 8388608 Jan 14 21:51:36 windsor kernel: dir: inode 56659184 раздел 140Gb. диск меняли, память меняли-проверяли. Эффекта нет. рядом i386 машина с похожей нагрузкой и таким же ядром -- проблемы нет, хотя это не показатель, нагрузка может все-таки разная... в рассылке упоминается похожая проблема (http://oss.sgi.com/archives/xfs/2006-07/msg00271.html) (голова темы http://oss.sgi.com/archives/xfs/2006-07/msg00180.html), но решения я так и не понял. Так же пишут что с XFS есть проблемы вплоть до 2.6.22, на сколько это верно?
(In reply to comment #0) > в рассылке упоминается похожая проблема (http://oss.sgi.com/archives/xfs/2006-07/msg00271.html) > (голова темы http://oss.sgi.com/archives/xfs/2006-07/msg00180.html), но решения я так и не понял. Ту старую ошибку, попавшую в релиз 2.6.17, уже исправили (но старые ядра оставляют на диске испорченные структуры ФС, проявляющиеся при работе с исправленными ядрами). Хотя в данном случае ошибка немного другая - bno 8388608 (0x800000), а не 16777216 (0x1000000). > Так же пишут что с XFS есть проблемы вплоть до 2.6.22, на сколько это верно? На самом деле, возможно, что-то есть даже в более свежих ядрах - вот для 2.6.28-rc2: http://lkml.org/lkml/2009/1/4/11 (хотя в этом случае пока проблему списали на порчу данных при отключении питания). xfs_repair исправляет что-либо в ФС? После этих исправлений через некоторое время проблема появляется вновь?
(In reply to comment #1) > xfs_repair исправляет что-либо в ФС? После этих исправлений через некоторое > время проблема появляется вновь? > xfs_repair исправляет. Проблема появляется вновь и вновь, но без определенной периодичности. Может в день 2 раза упасть, а может 3-4 месяца проработать, как последний раз. Но xfs_repair ошибки исправляет каждый раз.
что же делать?.. 2.6.26 совсем не стабильно, даже если там этой проблемы нет
Перешли на 2.6.27-ovz-smp-alt7, возможно ошибка сменилась. Действующие лица те же. Подозрение вызывает 4-хядерный Phenom на этой машине и 64-битное ядро. Aug 1 19:08:16 windsor kernel: [179109.896440] XFS internal error XFS_WANT_CORRUPTED_GOTO at line 1676 of file fs/xfs/xfs_alloc.c. Caller 0xffffffffa0303a6d Aug 1 19:08:16 windsor kernel: [179109.896516] Pid: 11893, comm: mc Tainted: G W 2.6.27-ovz-smp-alt7 #1 Aug 1 19:08:16 windsor kernel: [179109.896516] Aug 1 19:08:16 windsor kernel: [179109.896516] Call Trace: Aug 1 19:08:16 windsor kernel: [179109.896516] [<ffffffffa032af5e>] xfs_error_report+0x3e/0x40 [xfs] Aug 1 19:08:16 windsor kernel: [179109.896516] [<ffffffffa0303a6d>] ? xfs_free_extent+0xad/0xd0 [xfs] Aug 1 19:08:16 windsor kernel: [179109.896516] [<ffffffffa0301ff3>] xfs_free_ag_extent+0x5f3/0x6f0 [xfs] Aug 1 19:08:16 windsor kernel: [179109.896516] [<ffffffffa0303a6d>] xfs_free_extent+0xad/0xd0 [xfs] Aug 1 19:08:16 windsor kernel: [179109.896516] [<ffffffffa0311066>] xfs_bmap_finish+0x156/0x1a0 [xfs] Aug 1 19:08:16 windsor kernel: [179109.896516] [<ffffffffa0335bde>] xfs_itruncate_finish+0x13e/0x330 [xfs] Aug 1 19:08:16 windsor kernel: [179109.896516] [<ffffffffa0351ab6>] xfs_inactive+0x386/0x4b0 [xfs] Aug 1 19:08:16 windsor kernel: [179109.896516] [<ffffffff804beb71>] ? mutex_lock+0x11/0x30 Aug 1 19:08:16 windsor kernel: [179109.896516] [<ffffffffa035e55a>] xfs_fs_clear_inode+0xca/0x120 [xfs] Aug 1 19:08:16 windsor kernel: [179109.896516] [<ffffffff802ee1ea>] clear_inode+0x8a/0x110 Aug 1 19:08:16 windsor kernel: [179109.896516] [<ffffffff802eec06>] generic_delete_inode+0x146/0x180 Aug 1 19:08:16 windsor kernel: [179109.896516] [<ffffffff802eecc5>] generic_drop_inode+0x85/0x210 Aug 1 19:08:16 windsor kernel: [179109.896516] [<ffffffff802ed99d>] iput+0x5d/0x70 Aug 1 19:08:16 windsor kernel: [179109.896516] [<ffffffff802e29ac>] do_unlinkat+0x10c/0x1c0 Aug 1 19:08:16 windsor kernel: [179109.896516] [<ffffffff802e2a71>] sys_unlink+0x11/0x20 Aug 1 19:08:16 windsor kernel: [179109.896516] [<ffffffff8022dc72>] ia32_sysret+0x0/0xa Aug 1 19:08:16 windsor kernel: [179109.896516] Aug 1 19:08:16 windsor kernel: [179109.896516] xfs_force_shutdown(dm-1,0x8) called from line 4269 of file fs/xfs/xfs_bmap.c. Return address = 0xffffffffa03110a4 Aug 1 19:08:16 windsor kernel: [179109.898107] Filesystem "dm-1": Corruption of in-memory data detected. Shutting down filesystem: dm-1
Попробуйте там всё-таки ovz-rhel ещё.
Ушли от XFS. В итоге: на 2.6.27 регулярно заканчивается память (с уходом в своп), при том, что free показывает 5Гб (из 8-ми) свободно. вернулись на 2.6.18 rhel - проблемы с памятью нет (хотя контейнер на еженощный перезапуск пришлось поставить), но периодически ядро падает в kernel panic.
ovz-rhel рекомендую сразу из M51 брать. И x86_64, i586 в апстриме официально тестируется по остаточному принципу.
В 4.0/branch исправления не будут вноситься уже технически (заглушена очередь на сборку), поэтому прошу ошибки, актуальные для sisyphus/p7/t7, перевесить на текущие ветки или сизиф.