Bug 4911 - IGNORECASE с локалью UTF-8
Summary: IGNORECASE с локалью UTF-8
Status: CLOSED FIXED
Alias: None
Product: Sisyphus
Classification: Development
Component: gawk (show other bugs)
Version: unstable
Hardware: all Linux
: P2 normal
Assignee: placeholder@altlinux.org
QA Contact: qa-sisyphus
URL:
Keywords:
Depends on:
Blocks: 10446
  Show dependency tree
 
Reported: 2004-07-28 12:59 MSD by Renat Sabitov
Modified: 2010-06-04 03:55 MSD (History)
5 users (show)

See Also:


Attachments
Скрипт GAWK (42 bytes, text/plain)
2004-08-02 15:36 MSD, Renat Sabitov
no flags Details
Входные данные (41 bytes, text/plain)
2004-08-02 15:36 MSD, Renat Sabitov
no flags Details
Правильный результат (37 bytes, text/plain)
2004-08-02 15:37 MSD, Renat Sabitov
no flags Details
Неправильный результат (23 bytes, text/plain)
2004-08-02 15:37 MSD, Renat Sabitov
no flags Details

Note You need to log in before you can comment on or make changes to this bug.
Description Renat Sabitov 2004-07-28 12:59:13 MSD
В общем, работает с локалью UTF-8 gawk неверно:
 awk '{IGNORECASE=1;if ($1~"йцу") print $1;}'
<- йцуккк
-> йцуккк
<- йцу123
<- йцуккк

(символами <- и -> обозначается ввод и вывод соотв.)
Comment 1 inger@altlinux.org 2004-08-02 12:59:38 MSD
Я так догадываюсь это частный случай той самой не решённой до конца проблемы. 
сделайте пожайлуста testcase для отправки в upstream. 
 
Comment 2 Renat Sabitov 2004-08-02 15:36:25 MSD
Created attachment 534 [details]
Скрипт GAWK
Comment 3 Renat Sabitov 2004-08-02 15:36:57 MSD
Created attachment 535 [details]
Входные данные
Comment 4 Renat Sabitov 2004-08-02 15:37:26 MSD
Created attachment 536 [details]
Правильный результат
Comment 5 Renat Sabitov 2004-08-02 15:37:56 MSD
Created attachment 537 [details]
Неправильный результат
Comment 6 Michael Shigorin 2006-09-28 02:34:16 MSD
В качестве частного рещения этой и кучи других проблем с coreutils в UTF8 могу
порекомендовать найти на freshmeat.net "legacy toolchest" и собрать себе в ~/bin
нужное.  У меня есть заготовка для выдранного оттуда tr, но всё полностью
опакетить я совсем морально не готов.

См. тж. баги с "UTF" на coreutils.
Comment 7 Michael Shigorin 2006-12-17 19:18:06 MSK
(In reply to comment #6)
> См. тж. баги с "UTF" на coreutils.
Нет такой (на сегодня), было в рассылках:
http://lists.altlinux.org/pipermail/devel/2006-October/037964.html
Comment 8 Dmitry V. Levin 2006-12-18 04:03:17 MSK
Собственно говоря, вот весь тест:
echo 'Б' |gawk -vIGNORECASE=1 '$1~"б"{print}' |wc -l
Comment 9 Slava Semushin 2009-03-29 14:25:39 MSD
(В ответ на комментарий №8)
> Собственно говоря, вот весь тест:
> echo 'Б' |gawk -vIGNORECASE=1 '$1~"б"{print}' |wc -l

На 3.1.6 возвращает 0 => не исправлено.
Comment 10 Michael Shigorin 2009-04-01 22:58:44 MSD
(In reply to comment #6)
> В качестве частного рещения этой и кучи других проблем с coreutils в UTF8 могу
> порекомендовать найти на freshmeat.net "legacy toolchest"
Точнее, apt-get install heirloom

(In reply to comment #9)
> > echo 'Б' |gawk -vIGNORECASE=1 '$1~"б"{print}' |wc -l
> На 3.1.6 возвращает 0 => не исправлено.
Н-да, /usr/lib/heirloom/bin/awk обломался.
Comment 11 Michael Shigorin 2009-08-04 19:23:49 MSD
Для 3.1.6-alt2 актуально; собрал на скору руку 3.1.7 -- то же.  Ренат, похоже, эту багу придётся излагать апстриму.  Справитесь?
Comment 12 Repository Robot 2010-06-04 03:55:54 MSD
gawk-3.1.8-alt1 -> sisyphus:

* Thu Jun 03 2010 Dmitry V. Levin <ldv@altlinux> 3.1.8-alt1
- Updated to 3.1.8 (closes: #4911, #16359).