Bug 4911

Summary: IGNORECASE с локалью UTF-8
Product: Sisyphus Reporter: Renat Sabitov <r_sabitov>
Component: gawkAssignee: placeholder <placeholder>
Status: CLOSED FIXED QA Contact: qa-sisyphus
Severity: normal    
Priority: P2 CC: glebfm, ldv, mike, php-coder, placeholder
Version: unstable   
Hardware: all   
OS: Linux   
Bug Depends on:    
Bug Blocks: 10446    
Attachments:
Description Flags
Скрипт GAWK
none
Входные данные
none
Правильный результат
none
Неправильный результат none

Description Renat Sabitov 2004-07-28 12:59:13 MSD
В общем, работает с локалью UTF-8 gawk неверно:
 awk '{IGNORECASE=1;if ($1~"йцу") print $1;}'
<- йцуккк
-> йцуккк
<- йцу123
<- йцуккк

(символами <- и -> обозначается ввод и вывод соотв.)
Comment 1 inger@altlinux.org 2004-08-02 12:59:38 MSD
Я так догадываюсь это частный случай той самой не решённой до конца проблемы. 
сделайте пожайлуста testcase для отправки в upstream. 
 
Comment 2 Renat Sabitov 2004-08-02 15:36:25 MSD
Created attachment 534 [details]
Скрипт GAWK
Comment 3 Renat Sabitov 2004-08-02 15:36:57 MSD
Created attachment 535 [details]
Входные данные
Comment 4 Renat Sabitov 2004-08-02 15:37:26 MSD
Created attachment 536 [details]
Правильный результат
Comment 5 Renat Sabitov 2004-08-02 15:37:56 MSD
Created attachment 537 [details]
Неправильный результат
Comment 6 Michael Shigorin 2006-09-28 02:34:16 MSD
В качестве частного рещения этой и кучи других проблем с coreutils в UTF8 могу
порекомендовать найти на freshmeat.net "legacy toolchest" и собрать себе в ~/bin
нужное.  У меня есть заготовка для выдранного оттуда tr, но всё полностью
опакетить я совсем морально не готов.

См. тж. баги с "UTF" на coreutils.
Comment 7 Michael Shigorin 2006-12-17 19:18:06 MSK
(In reply to comment #6)
> См. тж. баги с "UTF" на coreutils.
Нет такой (на сегодня), было в рассылках:
http://lists.altlinux.org/pipermail/devel/2006-October/037964.html
Comment 8 Dmitry V. Levin 2006-12-18 04:03:17 MSK
Собственно говоря, вот весь тест:
echo 'Б' |gawk -vIGNORECASE=1 '$1~"б"{print}' |wc -l
Comment 9 Slava Semushin 2009-03-29 14:25:39 MSD
(В ответ на комментарий №8)
> Собственно говоря, вот весь тест:
> echo 'Б' |gawk -vIGNORECASE=1 '$1~"б"{print}' |wc -l

На 3.1.6 возвращает 0 => не исправлено.
Comment 10 Michael Shigorin 2009-04-01 22:58:44 MSD
(In reply to comment #6)
> В качестве частного рещения этой и кучи других проблем с coreutils в UTF8 могу
> порекомендовать найти на freshmeat.net "legacy toolchest"
Точнее, apt-get install heirloom

(In reply to comment #9)
> > echo 'Б' |gawk -vIGNORECASE=1 '$1~"б"{print}' |wc -l
> На 3.1.6 возвращает 0 => не исправлено.
Н-да, /usr/lib/heirloom/bin/awk обломался.
Comment 11 Michael Shigorin 2009-08-04 19:23:49 MSD
Для 3.1.6-alt2 актуально; собрал на скору руку 3.1.7 -- то же.  Ренат, похоже, эту багу придётся излагать апстриму.  Справитесь?
Comment 12 Repository Robot 2010-06-04 03:55:54 MSD
gawk-3.1.8-alt1 -> sisyphus:

* Thu Jun 03 2010 Dmitry V. Levin <ldv@altlinux> 3.1.8-alt1
- Updated to 3.1.8 (closes: #4911, #16359).