<?xml version="1.0" encoding="UTF-8" ?>

<bugzilla version="5.2"
          urlbase="https://bugzilla.altlinux.org/"
          
          maintainer="jenya@basealt.ru"
>

    <bug>
          <bug_id>11718</bug_id>
          
          <creation_ts>2007-05-07 17:55:05 +0400</creation_ts>
          <short_desc>incorrect parsing of UTF-8 files</short_desc>
          <delta_ts>2012-04-17 12:49:38 +0400</delta_ts>
          <reporter_accessible>1</reporter_accessible>
          <cclist_accessible>1</cclist_accessible>
          <classification_id>4</classification_id>
          <classification>Development</classification>
          <product>Sisyphus</product>
          <component>ALDConvert</component>
          <version>unstable</version>
          <rep_platform>all</rep_platform>
          <op_sys>Linux</op_sys>
          <bug_status>CLOSED</bug_status>
          <resolution>WONTFIX</resolution>
          
          
          <bug_file_loc></bug_file_loc>
          <status_whiteboard></status_whiteboard>
          <keywords></keywords>
          <priority>P5</priority>
          <bug_severity>blocker</bug_severity>
          <target_milestone>---</target_milestone>
          
          
          <everconfirmed>1</everconfirmed>
          <reporter name="kirill">kirill</reporter>
          <assigned_to name="Nobody&apos;s working on this, feel free to take it">nobody</assigned_to>
          <cc>lav</cc>
    
    <cc>real.altlinux.org</cc>
    
    <cc>vyt</cc>
          
          <qa_contact>qa-sisyphus</qa_contact>

      

      

      

          <comment_sort_order>oldest_to_newest</comment_sort_order>  
          <long_desc isprivate="0" >
    <commentid>49986</commentid>
    <comment_count>0</comment_count>
    <who name="kirill">kirill</who>
    <bug_when>2007-05-07 17:55:05 +0400</bug_when>
    <thetext>Обнаруживает фиктивные синтаксические ошибки в файлах в UTF-8.

Пример файла:
http://git.altlinux.org/people/kirill/packages/?p=docs-install2-kirill.git;a=blob;f=doc/index.m-k;hb=heap

$ file index.m-k
index.m-k: UTF-8 Unicode text
$ LC_ALL=POSIX ALDConvert -t index.m-k
Traceback (most recent call last):
  File &quot;/usr/libexec/ALDConvert/ALDConvert.py&quot;, line 123, in ?
    result = reader(s)
  File &quot;/usr/libexec/ALDConvert/ALDC.py&quot;, line 28, in __call__
    ret=tpg.Parser.__call__(self,self.prefilter(txt))
  File &quot;/usr/lib/python2.4/site-packages/tpg.py&quot;, line 933, in __call__
    return self.parse(&apos;START&apos;, input, *args, **kws)
  File &quot;/usr/lib/python2.4/site-packages/tpg.py&quot;, line 956, in parse
    raise SyntacticError((line, column), &quot;Syntax error near %s&quot;%last_token)
tpg.SyntacticError: SyntacticError at line 32, column 1: Syntax error near 

$ iconv -f utf-8 -t koi8-r index.m-k &gt; /tmp/o.m-k
$</thetext>
  </long_desc><long_desc isprivate="0" >
    <commentid>50041</commentid>
    <comment_count>1</comment_count>
    <who name="Fr. Br. George">george</who>
    <bug_when>2007-05-09 21:05:19 +0400</bug_when>
    <thetext>Сюрприз! Python-овские регулярные выражения, похоже, _вообще_ не работают с
кодировкой UTF-8. Или я не знаю как.</thetext>
  </long_desc><long_desc isprivate="0" >
    <commentid>50106</commentid>
    <comment_count>2</comment_count>
    <who name="Vitaly A. Ostanin">vyt</who>
    <bug_when>2007-05-11 14:01:30 +0400</bug_when>
    <thetext>Можно попробовать так:
if not hasattr(sys, &apos;setdefaultencoding&apos;):
  reload(sys)
sys.setdefaultencoding(&apos;utf_8&apos;)

Но это хак. Или можно перекодировать входящий поток в то, что в питоне называют
UNICODE. В любом случае нужно детектить кодировку документа.

Желательно это сделать оперативно, иначе для сборки документации к дистрибутиву
в пакеты придётся перекодировать исходные документы из utf-8 вручную.
</thetext>
  </long_desc><long_desc isprivate="0" >
    <commentid>50115</commentid>
    <comment_count>3</comment_count>
    <who name="Vitaly A. Ostanin">vyt</who>
    <bug_when>2007-05-11 17:13:52 +0400</bug_when>
    <thetext>В общем, если до вторника эту ошибку не исправят, я добавлю в rpm-build-docs
очередной костыль - перекодирование с помощью enca.</thetext>
  </long_desc><long_desc isprivate="0" >
    <commentid>50329</commentid>
    <comment_count>4</comment_count>
    <who name="Vitaly A. Ostanin">vyt</who>
    <bug_when>2007-05-17 18:57:52 +0400</bug_when>
    <thetext>Добавил костыль, доступен здесь:
http://git.altlinux.org/people/vyt/packages/?p=rpm-build-docs.git;a=commit;h=f521925bf7cf5518765ac5efbf52ac0eff9cea78

install2.kirill с ним собрался</thetext>
  </long_desc><long_desc isprivate="0" >
    <commentid>51013</commentid>
    <comment_count>5</comment_count>
    <who name="Fr. Br. George">george</who>
    <bug_when>2007-06-03 15:04:14 +0400</bug_when>
    <thetext>(In reply to comment #2)
&gt; Можно попробовать так:
&gt; if not hasattr(sys, &apos;setdefaultencoding&apos;):
&gt;   reload(sys)
&gt; sys.setdefaultencoding(&apos;utf_8&apos;)
Это не заработает :(
&gt; Или можно перекодировать входящий поток в то, что в питоне называют
&gt; UNICODE.
С налёту поставить везде u&apos;...&apos; вместо &apos;...&apos; не помогло. Значит, требует
переписывания и тестирования всех модулей конвертора :((.
</thetext>
  </long_desc><long_desc isprivate="0" >
    <commentid>63805</commentid>
    <comment_count>6</comment_count>
    <who name="Mikhail Gusarov">dottedmag</who>
    <bug_when>2008-02-16 00:13:27 +0300</bug_when>
    <thetext>Наступило ли LATER?</thetext>
  </long_desc><long_desc isprivate="0" >
    <commentid>66481</commentid>
    <comment_count>7</comment_count>
    <who name="Fr. Br. George">george</who>
    <bug_when>2008-03-24 10:35:44 +0300</bug_when>
    <thetext>(In reply to comment #6)
&gt; Наступило ли LATER?

Нет :(. Upstream заморозил разработку :((</thetext>
  </long_desc><long_desc isprivate="0" >
    <commentid>130676</commentid>
    <comment_count>8</comment_count>
    <who name="Fr. Br. George">george</who>
    <bug_when>2012-04-17 12:49:38 +0400</bug_when>
    <thetext>Надеюсь, это больше нигде не используется</thetext>
  </long_desc>
      
      

    </bug>

</bugzilla>