Bug 6201 - wrong detecting cp1251 as MACCYRILLIC
: wrong detecting cp1251 as MACCYRILLIC
Status: CLOSED NOTABUG
: Sisyphus
(All bugs in Sisyphus/libenca)
: unstable
: all Linux
: P2 minor
Assigned To:
:
:
:
:
:
  Show dependency tree
 
Reported: 2005-03-03 15:02 by
Modified: 2010-10-30 13:18 (History)


Attachments


Note

You need to log in before you can comment on or make changes to this bug.


Description From 2005-03-03 15:02:39
"Янис" в кодировке cp1251 enca определяет как MACCYRILLIC, из-за чего enconv    
преобразовывает его в "янис" (коцается заглавная Я).     
непонятно почему cp1251 не подходит, ведь в ней тоже все символы есть?   

дело не в длине образца, потмоу что текст _любой_ длины в cp1251, содержащий   
только строчные буквы  и ЭЮЯ  будет определен как MAC, и преобразован   
соответственно в Ёёя.    
м.б.  имеет смысл cp1251 поставить приоритет чуть выше чем у MAC? или 
какой-нибудь более автоугадавный вариант, учитывающий заглавную букву в 
начале текста как +1.
------- Comment #1 From 2005-03-03 15:10:45 -------
Общайся с апстримом (посмотрев 1.7) :-)

Автор, кстати, позиционирует enca как определялку кодировки текста в, возможно,
смешанных данных/тексте.  И ни разу не для минимализации длины текста, по
которому идёт сколь-нибудь надёжное определение.

За последним -- к Знаменскому и в xcode.
------- Comment #2 From 2005-03-03 16:44:45 -------
(In reply to comment #1)     
> Общайся с апстримом (посмотрев 1.7) :-)     
1.7 все так же     
> Автор, кстати, позиционирует enca как определялку кодировки текста в,     
>возможно, смешанных данных/тексте.  И ни разу не для минимализации длины     
>текста, по которому идёт сколь-нибудь надёжное определение.     
да, согласен, на бОльших частотность спасает.  
но вот 28 символов:     
$ echo Янис ни фига не сумасшедший ЭЮЯ | enca   
Macintosh Cyrillic     
мне это надо для id3, а xcode не знает utf8.     
видимо, придется ставить дополнительный угадав  после enca и активировать его  
в случае mac.  
хочется совершенства :-)  
 
------- Comment #3 From 2006-09-01 03:35:51 -------
(In reply to comment #2)
> хочется совершенства :-)  
Ну ты ж собирал librcd. :-)
------- Comment #4 From 2007-08-06 09:44:56 -------
причесать и выкатить свой мегаугадав, что ли...
------- Comment #5 From 2007-08-06 09:53:20 -------
Было очень неплохо, если бы он был патчем к enca.
------- Comment #6 From 2007-08-06 09:59:41 -------
ой. скорее, третим бэкэндом к rcc.

иначе от энки только обложка останется.
------- Comment #7 From 2007-08-06 13:37:42 -------
BTW насколько помню -- в librcc был ещё свой автоугадав для кириллицы, который
для коротких строк работал лучше, чем в enca.
------- Comment #8 From 2010-10-30 13:18:45 -------
В общем, с учётом позиционирования апстрима это нотабуг.