<?xml version="1.0" encoding="UTF-8" ?>

<bugzilla version="5.2"
          urlbase="https://bugzilla.altlinux.org/"
          
          maintainer="jenya@basealt.ru"
>

    <bug>
          <bug_id>6201</bug_id>
          
          <creation_ts>2005-03-03 15:02:39 +0300</creation_ts>
          <short_desc>wrong detecting cp1251 as MACCYRILLIC</short_desc>
          <delta_ts>2010-10-30 13:18:45 +0400</delta_ts>
          <reporter_accessible>1</reporter_accessible>
          <cclist_accessible>1</cclist_accessible>
          <classification_id>4</classification_id>
          <classification>Development</classification>
          <product>Sisyphus</product>
          <component>libenca</component>
          <version>unstable</version>
          <rep_platform>all</rep_platform>
          <op_sys>Linux</op_sys>
          <bug_status>CLOSED</bug_status>
          <resolution>NOTABUG</resolution>
          
          
          <bug_file_loc></bug_file_loc>
          <status_whiteboard></status_whiteboard>
          <keywords></keywords>
          <priority>P2</priority>
          <bug_severity>minor</bug_severity>
          <target_milestone>---</target_milestone>
          
          
          <everconfirmed>1</everconfirmed>
          <reporter name="Nick S. Grechukh">gns</reporter>
          <assigned_to name="Nick S. Grechukh">gns</assigned_to>
          <cc>icesik</cc>
    
    <cc>lav</cc>
    
    <cc>mike</cc>
          
          <qa_contact>qa-sisyphus</qa_contact>

      

      

      

          <comment_sort_order>oldest_to_newest</comment_sort_order>  
          <long_desc isprivate="0" >
    <commentid>22341</commentid>
    <comment_count>0</comment_count>
    <who name="Nick S. Grechukh">gns</who>
    <bug_when>2005-03-03 15:02:39 +0300</bug_when>
    <thetext>&quot;Янис&quot; в кодировке cp1251 enca определяет как MACCYRILLIC, из-за чего enconv    
преобразовывает его в &quot;янис&quot; (коцается заглавная Я).     
непонятно почему cp1251 не подходит, ведь в ней тоже все символы есть?   
 
дело не в длине образца, потмоу что текст _любой_ длины в cp1251, содержащий   
только строчные буквы  и ЭЮЯ  будет определен как MAC, и преобразован   
соответственно в Ёёя.    
м.б.  имеет смысл cp1251 поставить приоритет чуть выше чем у MAC? или 
какой-нибудь более автоугадавный вариант, учитывающий заглавную букву в 
начале текста как +1.</thetext>
  </long_desc><long_desc isprivate="0" >
    <commentid>22342</commentid>
    <comment_count>1</comment_count>
    <who name="Michael Shigorin">mike</who>
    <bug_when>2005-03-03 15:10:45 +0300</bug_when>
    <thetext>Общайся с апстримом (посмотрев 1.7) :-)

Автор, кстати, позиционирует enca как определялку кодировки текста в, возможно,
смешанных данных/тексте.  И ни разу не для минимализации длины текста, по
которому идёт сколь-нибудь надёжное определение.

За последним -- к Знаменскому и в xcode.</thetext>
  </long_desc><long_desc isprivate="0" >
    <commentid>22343</commentid>
    <comment_count>2</comment_count>
    <who name="Nick S. Grechukh">gns</who>
    <bug_when>2005-03-03 16:44:45 +0300</bug_when>
    <thetext>(In reply to comment #1)     
&gt; Общайся с апстримом (посмотрев 1.7) :-)     
1.7 все так же     
&gt; Автор, кстати, позиционирует enca как определялку кодировки текста в,     
&gt;возможно, смешанных данных/тексте.  И ни разу не для минимализации длины     
&gt;текста, по которому идёт сколь-нибудь надёжное определение.     
да, согласен, на бОльших частотность спасает.  
но вот 28 символов:     
$ echo Янис ни фига не сумасшедший ЭЮЯ | enca   
Macintosh Cyrillic     
мне это надо для id3, а xcode не знает utf8.     
видимо, придется ставить дополнительный угадав  после enca и активировать его  
в случае mac.  
хочется совершенства :-)  
 </thetext>
  </long_desc><long_desc isprivate="0" >
    <commentid>39938</commentid>
    <comment_count>3</comment_count>
    <who name="Michael Shigorin">mike</who>
    <bug_when>2006-09-01 03:35:51 +0400</bug_when>
    <thetext>(In reply to comment #2)
&gt; хочется совершенства :-)  
Ну ты ж собирал librcd. :-)
</thetext>
  </long_desc><long_desc isprivate="0" >
    <commentid>53680</commentid>
    <comment_count>4</comment_count>
    <who name="Nick S. Grechukh">gns</who>
    <bug_when>2007-08-06 09:44:56 +0400</bug_when>
    <thetext>причесать и выкатить свой мегаугадав, что ли...</thetext>
  </long_desc><long_desc isprivate="0" >
    <commentid>53682</commentid>
    <comment_count>5</comment_count>
    <who name="Vitaly Lipatov">lav</who>
    <bug_when>2007-08-06 09:53:20 +0400</bug_when>
    <thetext>Было очень неплохо, если бы он был патчем к enca.</thetext>
  </long_desc><long_desc isprivate="0" >
    <commentid>53684</commentid>
    <comment_count>6</comment_count>
    <who name="Nick S. Grechukh">gns</who>
    <bug_when>2007-08-06 09:59:41 +0400</bug_when>
    <thetext>ой. скорее, третим бэкэндом к rcc.

иначе от энки только обложка останется.</thetext>
  </long_desc><long_desc isprivate="0" >
    <commentid>53691</commentid>
    <comment_count>7</comment_count>
    <who name="Michael Shigorin">mike</who>
    <bug_when>2007-08-06 13:37:42 +0400</bug_when>
    <thetext>BTW насколько помню -- в librcc был ещё свой автоугадав для кириллицы, который
для коротких строк работал лучше, чем в enca.</thetext>
  </long_desc><long_desc isprivate="0" >
    <commentid>114476</commentid>
    <comment_count>8</comment_count>
    <who name="Michael Shigorin">mike</who>
    <bug_when>2010-10-30 13:18:45 +0400</bug_when>
    <thetext>В общем, с учётом позиционирования апстрима это нотабуг.</thetext>
  </long_desc>
      
      

    </bug>

</bugzilla>