Bug 728 - \'encoding\' field ignored by utils
Summary: \'encoding\' field ignored by utils
Status: CLOSED WONTFIX
Alias: None
Product: Sisyphus
Classification: Development
Component: docbook-utils (show other bugs)
Version: unstable
Hardware: all Linux
: P4 minor
Assignee: Mikhail Zabaluev
QA Contact:
URL:
Keywords:
Depends on:
Blocks:
 
Reported: 2002-03-19 16:59 MSK by Vitaly A. Ostanin
Modified: 2003-08-25 15:18 MSD (History)
1 user (show)

See Also:


Attachments

Note You need to log in before you can comment on or make changes to this bug.
Description Vitaly A. Ostanin 2002-03-19 16:59:12 MSK
Из файла со следующим заголовком
<?xml version=\"1.0\" encoding=\"koi8-r\"?>
<!DOCTYPE chapter PUBLIC \"-//OASIS//DTD DocBook XML V4.1.2//EN\"
                  \&quot;<a href="http://www.oasis-open.org/docbook/xml/4.1.2/docbookx.dtd\&quot;&gt">http://www.oasis-open.org/docbook/xml/4.1.2/docbookx.dtd\&quot;&gt</a>;
получаются файлы без указания кодировки, проверено на docbook2html -u file.xml и docbook2rtf file.xml.

В file.html указания charset нет вообще, file.rtf показывается в word\'е (97) кракозябрами, смена шрифта не помогает.

Перекодировка file.xml в cp1251 и смена encoding на cp1251 (как и убирание совсем) не помогла.

Текст в file.xml в кодировке koi8-r, конвертацию запускаю на системе в CP1251.

docbook-utils-0.6.9-alt2
openjade-1.3.1-alt1
docbook-dtds-1.0-alt2

Система - Master beta 1/Sisyphus 20020314, CP1251

---

---

Comment 1 Mikhail Zabaluev 2002-03-20 01:39:47 MSK
Explicit specification of the character set in HTML files is:
- not belonging to the core standard;
- considered harmful.
Therefore, I think, the HTML issue is not a bug.
On RTF I\'m not sure; the codepage information might probably be hacked into
\\ansicpgNNN tag (oh ugliness), but this would open another can of worms.
Comment 2 Mikhail Zabaluev 2002-03-20 01:39:47 MSK
Explicit specification of the character set in HTML files is:
- not belonging to the core standard;
- considered harmful.
Therefore, I think, the HTML issue is not a bug.
On RTF I\'m not sure; the codepage information might probably be hacked into
\\ansicpgNNN tag (oh ugliness), but this would open another can of worms.
Comment 3 Vitaly A. Ostanin 2002-03-20 12:44:22 MSK
Так чем нужно пользоваться для определения кодировки в html? Не по content type charset= работает автоопределение кодировки? Для rtf указание языка должно быть - сделал rtf из koi8-r и из cp1251 - оба в ворде не читаются. В общем, если это не баги, поделитесь right way, pls.
Comment 4 Vitaly A. Ostanin 2002-03-20 12:44:22 MSK
Так чем нужно пользоваться для определения кодировки в html? Не по content type charset= работает автоопределение кодировки? Для rtf указание языка должно быть - сделал rtf из koi8-r и из cp1251 - оба в ворде не читаются. В общем, если это не баги, поделитесь right way, pls.
Comment 5 Mikhail Zabaluev 2002-03-20 13:37:19 MSK
Определение кодировки в HTML традиционно возложено на внешние средства,
главным образом HTTP (откуда и пришла &lt;META http-equiv=\&quot;...\&quot; ...&gt;) и MIME.
Автоопределение кодировки в файле, по-моему, не входит в сферу рассмотрения системы генерации.
Насчёт rtf присяжные всё ещё совещаются. Может быть, имеет смысл делать escapes для всех не-ASCII символов? Будем смотреть, что на самом деле производит backend rtf.
Comment 6 Mikhail Zabaluev 2002-03-20 13:37:19 MSK
Определение кодировки в HTML традиционно возложено на внешние средства,
главным образом HTTP (откуда и пришла &lt;META http-equiv=\&quot;...\&quot; ...&gt;) и MIME.
Автоопределение кодировки в файле, по-моему, не входит в сферу рассмотрения системы генерации.
Насчёт rtf присяжные всё ещё совещаются. Может быть, имеет смысл делать escapes для всех не-ASCII символов? Будем смотреть, что на самом деле производит backend rtf.
Comment 7 Vitaly A. Ostanin 2002-03-20 15:44:30 MSK
Неудачная традиция, совершенно не right way :( Как быть с html, полученными не через http, локально, например? Лучше бы это было опционально в utils - ставить кодировку или нет. Я бы, например, ставил - документацию будут читать люди, которые про \&quot;not belonging\&quot; не слышали (надеюсь, что будут :)). Кстати, russian apache, упомянутый в похожем обсуждении в <a href="mailto:devel@altlinux.ru" target="_new">devel@altlinux.ru</a> - тоже не лучшее решение. Насчет rtf как-то упоминалось (если не ошибаюсь, AEN\'ом), что там должно быть указание языка.
Comment 8 Vitaly A. Ostanin 2002-03-20 15:44:30 MSK
Неудачная традиция, совершенно не right way :( Как быть с html, полученными не через http, локально, например? Лучше бы это было опционально в utils - ставить кодировку или нет. Я бы, например, ставил - документацию будут читать люди, которые про \&quot;not belonging\&quot; не слышали (надеюсь, что будут :)). Кстати, russian apache, упомянутый в похожем обсуждении в <a href="mailto:devel@altlinux.ru" target="_new">devel@altlinux.ru</a> - тоже не лучшее решение. Насчет rtf как-то упоминалось (если не ошибаюсь, AEN\'ом), что там должно быть указание языка.
Comment 9 Mikhail Zabaluev 2002-03-30 10:31:08 MSK
The problem is, OpenJade in its current state does not recognize koi8-r and windows-1251 (NB the IANA-approved name). For HTML, this is not fatal, apart from the questionable META issue. The RTF case can be helped by converting the XML source file to utf-8, with appropriate document changes. Then, run jw this way:
SP_ENCODING=utf-8 jw -b rtf file.xml
Comment 10 Mikhail Zabaluev 2002-03-30 10:31:08 MSK
The problem is, OpenJade in its current state does not recognize koi8-r and windows-1251 (NB the IANA-approved name). For HTML, this is not fatal, apart from the questionable META issue. The RTF case can be helped by converting the XML source file to utf-8, with appropriate document changes. Then, run jw this way:
SP_ENCODING=utf-8 jw -b rtf file.xml
Comment 11 Vitaly A. Ostanin 2002-03-30 12:39:02 MSK
Ок, спасибо. Feedback все еще нужен? Тогда чем, перевесить багу на openjade?
Comment 12 Vitaly A. Ostanin 2002-03-30 12:39:02 MSK
Ок, спасибо. Feedback все еще нужен? Тогда чем, перевесить багу на openjade?
Comment 13 Mikhail Zabaluev 2003-01-30 02:59:49 MSK
Use xsltproc with either chunk stylesheets or hack stylesheet wrappers with charset specified, supplied in the docbook-style-xsl package.
Comment 14 Mikhail Zabaluev 2003-01-30 02:59:49 MSK
Use xsltproc with either chunk stylesheets or hack stylesheet wrappers with charset specified, supplied in the docbook-style-xsl package.
Comment 15 Vitaly A. Ostanin 2003-01-30 15:02:42 MSK
Как оказалось, это не баг. Для указания кодировки действительно лучше пользоваться стилями из docbook-style-xsl.
Comment 16 Vitaly A. Ostanin 2003-01-30 15:02:42 MSK
Как оказалось, это не баг. Для указания кодировки действительно лучше пользоваться стилями из docbook-style-xsl.