Bug 26145 - Отваливается модуль sky2
Summary: Отваливается модуль sky2
Status: NEW
Alias: None
Product: Sisyphus
Classification: Development
Component: kernel-image-un-def (show other bugs)
Version: unstable
Hardware: all Linux
: P3 major
Assignee: Vitaly Chikunov
QA Contact: qa-sisyphus
URL:
Keywords:
Depends on:
Blocks:
 
Reported: 2011-08-23 11:32 MSK by serpiph
Modified: 2012-02-03 07:46 MSK (History)
4 users (show)

See Also:


Attachments
Список устройств компьютера (6.59 KB, application/x-bzip)
2011-08-23 11:32 MSK, serpiph
no flags Details

Note You need to log in before you can comment on or make changes to this bug.
Description serpiph 2011-08-23 11:32:17 MSK
Created attachment 5054 [details]
Список устройств компьютера

Версия ядра 3.0.3-alt1. Но и на других версиях (вплоть где-то до 2.6.32) тоже появляется.
==========================
Aug 23 06:43:00 pif kernel: [94033.141296] DRHD: handling fault status reg 2
Aug 23 06:43:00 pif kernel: [94033.141301] DMAR:[DMA Read] Request device [08:00.0] fault addr ffdff000
Aug 23 06:43:00 pif kernel: [94033.141302] DMAR:[fault reason 06] PTE Read access is not set
Aug 23 06:43:00 pif kernel: [94033.141309] sky2 0000:08:00.0: error interrupt status=0x80000000
Aug 23 06:43:00 pif kernel: [94033.141314] sky2 0000:08:00.0: PCI hardware error (0x2010)
Aug 23 06:43:06 pif kernel: [94039.080641] ------------[ cut here ]------------
Aug 23 06:43:06 pif kernel: [94039.080649] WARNING: at net/sched/sch_generic.c:255 dev_watchdog+0x252/0x260()
Aug 23 06:43:06 pif kernel: [94039.080651] Hardware name: System Product
Aug 23 06:43:06 pif kernel: [94039.080654] NETDEV WATCHDOG: hub (sky2): transmit queue 0 timed out
Aug 23 06:43:06 pif kernel: [94039.080656] Modules linked in: nls_utf8 nls_cp866 vfat fat binfmt_misc rfcomm bnep af_packet iptable_nat nf_nat nf_conntrack_ipv4 nf_conntrack nf_defrag_ipv4 ipt_REJECT xt_tcpudp iptable_filter iptable_mangle ip_tables x_tables fuse dm_mod btusb uinput bluetooth crc16 usbhid hid uas usb_storage usb_libusual ata_generic keucr(C) ide_pci_generic pata_acpi jmicron radeon arc4 ide_core ath9k ttm mac80211 ath9k_common ath9k_hw drm_kms_helper drm snd_hda_codec_hdmi ath snd_hda_codec_realtek cfg80211 snd_hda_intel snd_hda_codec firewire_ohci hwmon i7core_edac uhci_hcd firewire_core mxm_wmi pata_jmicron rfkill snd_hwdep sr_mod snd_pcm snd_timer snd crc_itu_t i2c_algo_bit wmi soundcore rtc_cmos edac_core sg i2c_i801 cdrom i2c_core sky2 ehci_hcd snd_page_alloc usbcore serio_raw pcspkr fan processor ipmi_poweroff ipmi_msghandler button thermal psmouse evdev joydev xfs sd_mod crc_t10dif ahci libahci libata scsi_mod
Aug 23 06:43:06 pif kernel: [94039.080729] Pid: 10472, comm: transmission-da Tainted: G        WC  3.0.3-un-def-alt1 #1
Aug 23 06:43:06 pif kernel: [94039.080731] Call Trace:
Aug 23 06:43:06 pif kernel: [94039.080732]  <IRQ>  [<ffffffff810618ba>] warn_slowpath_common+0x7a/0xb0
Aug 23 06:43:06 pif kernel: [94039.080738]  [<ffffffff81061991>] warn_slowpath_fmt+0x41/0x50
Aug 23 06:43:06 pif kernel: [94039.080740]  [<ffffffff81399672>] dev_watchdog+0x252/0x260
Aug 23 06:43:06 pif kernel: [94039.080743]  [<ffffffff81071ba5>] run_timer_softirq+0x195/0x450
Aug 23 06:43:06 pif kernel: [94039.080745]  [<ffffffff81399420>] ? __netdev_watchdog_up+0x80/0x80
Aug 23 06:43:06 pif kernel: [94039.080748]  [<ffffffff81013593>] ? read_tsc+0x13/0x30
Aug 23 06:43:06 pif kernel: [94039.080750]  [<ffffffff810684b5>] __do_softirq+0xd5/0x270
Aug 23 06:43:06 pif kernel: [94039.080753]  [<ffffffff81088fc5>] ? hrtimer_interrupt+0x165/0x260
Aug 23 06:43:06 pif kernel: [94039.080756]  [<ffffffff8143cb5c>] call_softirq+0x1c/0x30
Aug 23 06:43:06 pif kernel: [94039.080757]  [<ffffffff8100e6c5>] do_softirq+0x95/0xe0
Aug 23 06:43:06 pif kernel: [94039.080759]  [<ffffffff81068305>] irq_exit+0xd5/0xf0
Aug 23 06:43:06 pif kernel: [94039.080762]  [<ffffffff8102c258>] smp_apic_timer_interrupt+0x68/0xa0
Aug 23 06:43:06 pif kernel: [94039.080764]  [<ffffffff8143c313>] apic_timer_interrupt+0x13/0x20
Aug 23 06:43:06 pif kernel: [94039.080765]  <EOI>  [<ffffffff8143b952>] ? system_call_fastpath+0x16/0x1b
Aug 23 06:43:06 pif kernel: [94039.080768] ---[ end trace 93d72a36b9146f26 ]---
Aug 23 06:43:06 pif kernel: [94039.080770] sky2 0000:08:00.0: hub: tx timeout
=======================
Происходит очень редко, но приводит к разваливанию сетевой подсистемы и к необходимости перезагруки компьютера. Причина неясна.
Comment 1 Sergey Vlasov 2011-08-26 18:35:34 MSK
Похожие ошибки на 2.6.36:
http://www.spinics.net/lists/netdev/msg146087.html
(там проявлялось при включении TCP timestamps, но у нас по умолчанию в /etc/net/sysctl.conf стоит net.ipv4.tcp_timestamps = 0).
Comment 2 Michael Shigorin 2011-12-26 18:33:33 MSK
На 3.1 всё то же?

PS: critical было бы, если бы отъедало разъём на патче или фирмварь сетевушки: http://www.altlinux.org/BugSeverityPolicy
Comment 3 serpiph 2011-12-27 09:13:36 MSK
2 раза словил на 3.1.4. Может работать неделю или более, а потом (судя по всему) перестает передавать и принимать данные, хотя интерфейс якобы исправно поднимается и опускается (судя по ifconfig). DHCP клиент не может получить IP-адрес. В этот раз kernel trace отсутствует, но пишет что-то о сбое в RX/TX, после чего падает связь и dhcp-клиент. Выгрузка/загрузка модуля ядра не помогает. Перезагрузка проблему снимает. Под Windows такой проблемы ни разу не было. Дома поточнее посмотрю сообщения об ошибке.

P.S. Тогда уж major, так как потеря связи с компьютером, когда физически невозможно быть рядом - это точно не normal. А у меня этот вариант преобладает.
Comment 4 Michael Shigorin 2011-12-28 13:04:55 MSK
Видите ли, майнтейнер пакета вряд ли сможет что-то сделать -- работать по таким багам приходится сразу с апстримом (крайне желательно с возможностью проверки на железе), ну и как бы ни была критична бага в _моих_ именно обстоятельствах -- взвешивать её приходится в перспективе, а свои вопросы закрывать опять же локально.

В данном разе можно попробовать либо воткнуть беспроблемную сетевую (вроде интеловской), либо нарисовать пинговалку-ребуталку -- на monit это где-то так:

--- /etc/monitrc.d/ping
check host внешнийхост with address 10.9.8.7
        if failed icmp type echo count 4 with timeout 15 seconds
                then exec "/sbin/shutdown -r +1 sky2 failure"
---