Summary: | incorrect parsing of UTF-8 files | ||
---|---|---|---|
Product: | Sisyphus | Reporter: | kirill <kirill> |
Component: | ALDConvert | Assignee: | Nobody's working on this, feel free to take it <nobody> |
Status: | CLOSED WONTFIX | QA Contact: | qa-sisyphus |
Severity: | blocker | ||
Priority: | P5 | CC: | lav, real.altlinux.org, vyt |
Version: | unstable | ||
Hardware: | all | ||
OS: | Linux |
Description
kirill
2007-05-07 17:55:05 MSD
Сюрприз! Python-овские регулярные выражения, похоже, _вообще_ не работают с кодировкой UTF-8. Или я не знаю как. Можно попробовать так: if not hasattr(sys, 'setdefaultencoding'): reload(sys) sys.setdefaultencoding('utf_8') Но это хак. Или можно перекодировать входящий поток в то, что в питоне называют UNICODE. В любом случае нужно детектить кодировку документа. Желательно это сделать оперативно, иначе для сборки документации к дистрибутиву в пакеты придётся перекодировать исходные документы из utf-8 вручную. В общем, если до вторника эту ошибку не исправят, я добавлю в rpm-build-docs очередной костыль - перекодирование с помощью enca. Добавил костыль, доступен здесь: http://git.altlinux.org/people/vyt/packages/?p=rpm-build-docs.git;a=commit;h=f521925bf7cf5518765ac5efbf52ac0eff9cea78 install2.kirill с ним собрался (In reply to comment #2) > Можно попробовать так: > if not hasattr(sys, 'setdefaultencoding'): > reload(sys) > sys.setdefaultencoding('utf_8') Это не заработает :( > Или можно перекодировать входящий поток в то, что в питоне называют > UNICODE. С налёту поставить везде u'...' вместо '...' не помогло. Значит, требует переписывания и тестирования всех модулей конвертора :((. Наступило ли LATER? (In reply to comment #6) > Наступило ли LATER? Нет :(. Upstream заморозил разработку :(( Надеюсь, это больше нигде не используется |