Bug 13870

Summary: Character ranges misbehavior in UTF8 locale
Product: Sisyphus Reporter: Nikolay A. Fetisov <naf>
Component: grepAssignee: placeholder <placeholder>
Status: CLOSED NOTABUG QA Contact: qa-sisyphus
Severity: major    
Priority: P2 CC: erthad, glebfm, juliette, ldv, mike, placeholder, wrar
Version: unstable   
Hardware: all   
OS: Linux   
URL: http://bugs.gentoo.org/show_bug.cgi?id=149526

Description Nikolay A. Fetisov 2008-01-04 14:19:33 MSK
Для 2.5.1a-alt3 (как в Sisyphus, так и в Branch 4.0) при использовании в 
шаблонах в списках символов диапазонов (например, [A-Z]) в локали ru_RU.UTF-8 
наблюдаются ошибки в раскрытии таких диапазонов.

Пример:
$ cat test
A
a
K
k
Z
z

$ grep '[A-Z]' test
A
K
k
Z
z

$ LC_ALL=C grep '[A-Z]' test
A
K
Z

$ grep '[AKZ]' test
A
K
Z
Comment 1 Andrey Rahmatullin 2008-01-04 14:27:53 MSK
Боян.

echo {A..Z} {a..z} | fmt -w 1 | LANG=C sort
echo {A..Z} {a..z} | fmt -w 1 | LANG=ru_RU sort
Comment 2 Dmitry V. Levin 2008-01-04 16:07:58 MSK
(In reply to comment #0)
> Для 2.5.1a-alt3 (как в Sisyphus, так и в Branch 4.0) при использовании в 
> шаблонах в списках символов диапазонов (например, [A-Z]) в локали ru_RU.UTF-8 
> наблюдаются ошибки в раскрытии таких диапазонов.

Collation в разных локалях отличается.
Comment 3 Michael Shigorin 2008-01-25 17:27:47 MSK
На будущее -- heirloom toolchest куда лучше работает с UTF-8 в среднем, чем
coreutils.
Comment 4 Andrey Rahmatullin 2008-05-30 19:42:31 MSD
*** Bug 15851 has been marked as a duplicate of this bug. ***