Bug 13870 - Character ranges misbehavior in UTF8 locale
Summary: Character ranges misbehavior in UTF8 locale
Status: CLOSED NOTABUG
Alias: None
Product: Sisyphus
Classification: Development
Component: grep (show other bugs)
Version: unstable
Hardware: all Linux
: P2 major
Assignee: placeholder@altlinux.org
QA Contact: qa-sisyphus
URL: http://bugs.gentoo.org/show_bug.cgi?i...
Keywords:
Depends on:
Blocks:
 
Reported: 2008-01-04 14:19 MSK by Nikolay A. Fetisov
Modified: 2008-09-30 17:21 MSD (History)
7 users (show)

See Also:


Attachments

Note You need to log in before you can comment on or make changes to this bug.
Description Nikolay A. Fetisov 2008-01-04 14:19:33 MSK
Для 2.5.1a-alt3 (как в Sisyphus, так и в Branch 4.0) при использовании в 
шаблонах в списках символов диапазонов (например, [A-Z]) в локали ru_RU.UTF-8 
наблюдаются ошибки в раскрытии таких диапазонов.

Пример:
$ cat test
A
a
K
k
Z
z

$ grep '[A-Z]' test
A
K
k
Z
z

$ LC_ALL=C grep '[A-Z]' test
A
K
Z

$ grep '[AKZ]' test
A
K
Z
Comment 1 Andrey Rahmatullin 2008-01-04 14:27:53 MSK
Боян.

echo {A..Z} {a..z} | fmt -w 1 | LANG=C sort
echo {A..Z} {a..z} | fmt -w 1 | LANG=ru_RU sort
Comment 2 Dmitry V. Levin 2008-01-04 16:07:58 MSK
(In reply to comment #0)
> Для 2.5.1a-alt3 (как в Sisyphus, так и в Branch 4.0) при использовании в 
> шаблонах в списках символов диапазонов (например, [A-Z]) в локали ru_RU.UTF-8 
> наблюдаются ошибки в раскрытии таких диапазонов.

Collation в разных локалях отличается.
Comment 3 Michael Shigorin 2008-01-25 17:27:47 MSK
На будущее -- heirloom toolchest куда лучше работает с UTF-8 в среднем, чем
coreutils.
Comment 4 Andrey Rahmatullin 2008-05-30 19:42:31 MSD
*** Bug 15851 has been marked as a duplicate of this bug. ***