Bug 4911 - IGNORECASE с локалью UTF-8
: IGNORECASE с локалью UTF-8
Status: CLOSED FIXED
: Sisyphus
(All bugs in Sisyphus/gawk)
: unstable
: all Linux
: P2 normal
Assigned To:
:
:
:
:
: 10446
  Show dependency tree
 
Reported: 2004-07-28 12:59 by
Modified: 2010-06-04 03:55 (History)


Attachments
Скрипт GAWK (42 bytes, text/plain)
2004-08-02 15:36, Renat Sabitov
no flags Details
Входные данные (41 bytes, text/plain)
2004-08-02 15:36, Renat Sabitov
no flags Details
Правильный результат (37 bytes, text/plain)
2004-08-02 15:37, Renat Sabitov
no flags Details
Неправильный результат (23 bytes, text/plain)
2004-08-02 15:37, Renat Sabitov
no flags Details


Note

You need to log in before you can comment on or make changes to this bug.


Description From 2004-07-28 12:59:13
В общем, работает с локалью UTF-8 gawk неверно:
 awk '{IGNORECASE=1;if ($1~"йцу") print $1;}'
<- йцуккк
-> йцуккк
<- йцу123
<- йцуккк

(символами <- и -> обозначается ввод и вывод соотв.)
------- Comment #1 From 2004-08-02 12:59:38 -------
Я так догадываюсь это частный случай той самой не решённой до конца проблемы. 
сделайте пожайлуста testcase для отправки в upstream. 
------- Comment #2 From 2004-08-02 15:36:25 -------
Created an attachment (id=534) [details]
Скрипт GAWK
------- Comment #3 From 2004-08-02 15:36:57 -------
Created an attachment (id=535) [details]
Входные данные
------- Comment #4 From 2004-08-02 15:37:26 -------
Created an attachment (id=536) [details]
Правильный результат
------- Comment #5 From 2004-08-02 15:37:56 -------
Created an attachment (id=537) [details]
Неправильный результат
------- Comment #6 From 2006-09-28 02:34:16 -------
В качестве частного рещения этой и кучи других проблем с coreutils в UTF8 могу
порекомендовать найти на freshmeat.net "legacy toolchest" и собрать себе в
~/bin
нужное.  У меня есть заготовка для выдранного оттуда tr, но всё полностью
опакетить я совсем морально не готов.

См. тж. баги с "UTF" на coreutils.
------- Comment #7 From 2006-12-17 19:18:06 -------
(In reply to comment #6)
> См. тж. баги с "UTF" на coreutils.
Нет такой (на сегодня), было в рассылках:
http://lists.altlinux.org/pipermail/devel/2006-October/037964.html
------- Comment #8 From 2006-12-18 04:03:17 -------
Собственно говоря, вот весь тест:
echo 'Б' |gawk -vIGNORECASE=1 '$1~"б"{print}' |wc -l
------- Comment #9 From 2009-03-29 14:25:39 -------
(В ответ на комментарий №8)
> Собственно говоря, вот весь тест:
> echo 'Б' |gawk -vIGNORECASE=1 '$1~"б"{print}' |wc -l

На 3.1.6 возвращает 0 => не исправлено.
------- Comment #10 From 2009-04-01 22:58:44 -------
(In reply to comment #6)
> В качестве частного рещения этой и кучи других проблем с coreutils в UTF8 могу
> порекомендовать найти на freshmeat.net "legacy toolchest"
Точнее, apt-get install heirloom

(In reply to comment #9)
> > echo 'Б' |gawk -vIGNORECASE=1 '$1~"б"{print}' |wc -l
> На 3.1.6 возвращает 0 => не исправлено.
Н-да, /usr/lib/heirloom/bin/awk обломался.
------- Comment #11 From 2009-08-04 19:23:49 -------
Для 3.1.6-alt2 актуально; собрал на скору руку 3.1.7 -- то же.  Ренат, похоже,
эту багу придётся излагать апстриму.  Справитесь?
------- Comment #12 From 2010-06-04 03:55:54 -------
gawk-3.1.8-alt1 -> sisyphus:

* Thu Jun 03 2010 Dmitry V. Levin <ldv@altlinux> 3.1.8-alt1
- Updated to 3.1.8 (closes: #4911, #16359).