<?xml version="1.0" encoding="UTF-8" ?>

<bugzilla version="5.2"
          urlbase="https://bugzilla.altlinux.org/"
          
          maintainer="jenya@basealt.ru"
>

    <bug>
          <bug_id>5183</bug_id>
          
          <creation_ts>2004-09-08 20:22:05 +0400</creation_ts>
          <short_desc>htmldoc uses bad fonts (without cyrillic glyphs)</short_desc>
          <delta_ts>2005-10-12 00:03:45 +0400</delta_ts>
          <reporter_accessible>1</reporter_accessible>
          <cclist_accessible>1</cclist_accessible>
          <classification_id>4</classification_id>
          <classification>Development</classification>
          <product>Sisyphus</product>
          <component>htmldoc</component>
          <version>unstable</version>
          <rep_platform>all</rep_platform>
          <op_sys>Linux</op_sys>
          <bug_status>CLOSED</bug_status>
          <resolution>FIXED</resolution>
          
          
          <bug_file_loc></bug_file_loc>
          <status_whiteboard></status_whiteboard>
          <keywords></keywords>
          <priority>P2</priority>
          <bug_severity>normal</bug_severity>
          <target_milestone>---</target_milestone>
          
          
          <everconfirmed>1</everconfirmed>
          <reporter name="Michael Shigorin">mike</reporter>
          <assigned_to name="Andrei Bulava">abulava</assigned_to>
          
          
          <qa_contact>qa-sisyphus</qa_contact>

      

      

      

          <comment_sort_order>oldest_to_newest</comment_sort_order>  
          <long_desc isprivate="0" >
    <commentid>18689</commentid>
    <comment_count>0</comment_count>
    <who name="Michael Shigorin">mike</who>
    <bug_when>2004-09-08 20:22:05 +0400</bug_when>
    <thetext>htmldoc seems to have &apos;bad&apos; PostScript fonts with it (in
/usr/share/htmldoc/fonts) which don&apos;t have Cyrillic glyphs.

maybe it can be hacked to use urw-fonts (e.g. require that and plant/generate
symlinks to proper fonts into that dir)

hope to try if/when time allows again....
Steps to Reproduce:
htmldoc --webpage --charset cp-1251 -f news.pdf
&apos;http://linux.kiev.ua/news.html?&amp;L=1&apos;
xpdf news.pdf</thetext>
  </long_desc><long_desc isprivate="0" >
    <commentid>18700</commentid>
    <comment_count>1</comment_count>
    <who name="Andrei Bulava">abulava</who>
    <bug_when>2004-09-09 12:53:20 +0400</bug_when>
    <thetext>I&apos;m not sure where exactly problem with Cyrillic support is, but can approve
that htmldoc can&apos;t handle none of Cyrillic codepage variant: ISO8859-5, KOI8-R
and CP-1251 :-(</thetext>
  </long_desc><long_desc isprivate="0" >
    <commentid>18701</commentid>
    <comment_count>2</comment_count>
    <who name="Michael Shigorin">mike</who>
    <bug_when>2004-09-09 13:56:27 +0400</bug_when>
    <thetext>--- Valentin Nechaev

Если в выходном документе htmldoc&apos;а выделить кусок того, что у него
вместо текста, и скопировать, например, в xterm с koi8 - будет виден
исходный текст без проблем.

Копание внутри htmldoc показало, что он собственно восьмибитный вход никак не
трогает. Более того, в заданиях вида &amp;#1040; он обрезает до 8 бит (а вот
это уже явная бага). Настройка кодировки играет роль только в задании таблицы
понимания кодировки шрифта (как она там в pdf зовётся); это задание
делается правильно, но вот сами фонты из стандартной поставки не знают
ничего за пределами iso-8859-1.

Если подменить шрифты на содержащие кириллицу - будет работать.
</thetext>
  </long_desc><long_desc isprivate="0" >
    <commentid>18805</commentid>
    <comment_count>3</comment_count>
    <who name="Andrei Bulava">abulava</who>
    <bug_when>2004-09-14 14:38:58 +0400</bug_when>
    <thetext>(In reply to comment #2)

&lt;skip/&gt;

&gt; Если подменить шрифты на содержащие кириллицу - будет работать.
 
Я проверил путём подмены шрифтов из /usr/share/htmldoc/fonts/* на шрифты,
полученные из urw-fonts путём преобразования pfb -&gt; pfa с последующим
переименованием _файлов_ на принятые htmldoc&apos;ом Courier*.{afm,pfa},
Helvetica*.{afm,pfa}, Times*.{afm,pfa} (NB! внутри *.afm и *.pfa так и остались
названия шрифтов Nimbus*)

Результат положительный только наполовину.

Отрицательная половина:

Без использования опции --embedfonts htmldoc выдает такой же pdf, как и раньше.
Кстати, pdf не такой уж и неправильный: проверьте результат преобразования
html-файла, в котором есть строка с _единственной_ буквой кириллицы - xpdf
покажет букву в этой строке абсолютно корректно. Проблема описана в #5183 не
совсем точно: на деле все буквы , не входящие в ISO-8859-1, присутствуют в
результирующем pdf, но отрендериваются xpdf&apos;ом в одну позицию (легко проверить
на случае всего двух букв в строке).

Положительная половина:

С использованием шрифтов, полученных из urw-fonts, в сочетании с опцией
--embedfonts удаётся получить корректно отображающийся в xpdf и acroread(!) pdf.
Но без ложки дёгтя не обошлось - htmldoc встраивает шрифты &quot;как есть&quot;, т.е.
просто вставляет содержимое pfa в результат. Объём результирующего pdf
непригоден для генерации pdf из html &quot;на лету&quot; (для web-применения). Более
продвинутая техника генерации &quot;субшрифтов&quot;, содержащих только необходимые глифы,
не поддерживается htmldoc&apos;ом.

В общем, текущий результат я могу оформить в виде новой сборки - на ISO-8859-1
нововведения не скажутся. Но реально поддержка &quot;не ISO-8859-1&quot; будет возможна
только с использованием опции --embedfonts. Такую опцию, согласно ChangeLog,
разработчики htmldoc и ввели ради поддержки &quot;не ISO-8859-1&quot; кодировок. Другое
дело, что техника встраивания шрифтов у htmldoc очень примитивная и будет давать
результирующие файлы слишком большого для web-применения объёма.
</thetext>
  </long_desc><long_desc isprivate="0" >
    <commentid>18806</commentid>
    <comment_count>4</comment_count>
    <who name="Michael Shigorin">mike</who>
    <bug_when>2004-09-14 14:59:07 +0400</bug_when>
    <thetext>Давайте так.  Это ничего не ухудшает, зато по крайней мере будет дополнительная
возможность.

Да и объём пакета, кажется, уменьшается (правда, за счет добавления
urw-fonts-ttf к зависимостям).

Спасибо за исследование!</thetext>
  </long_desc><long_desc isprivate="0" >
    <commentid>18895</commentid>
    <comment_count>5</comment_count>
    <who name="Andrei Bulava">abulava</who>
    <bug_when>2004-09-22 10:22:22 +0400</bug_when>
    <thetext>Исправлено в htmldoc-1.8.23-alt5

Корректный pdf с кириллицей можно получить только с указанием опции
--embedfonts, размер pdf&apos;а в этом случае будет достаточно большим.
</thetext>
  </long_desc><long_desc isprivate="0" >
    <commentid>31715</commentid>
    <comment_count>6</comment_count>
    <who name="Michael Shigorin">mike</who>
    <bug_when>2005-10-12 00:03:45 +0400</bug_when>
    <thetext>btw, http://lostclus.linux.kiev.ua/patches/index-ru.html :)
(повесить отдельно как FR?)</thetext>
  </long_desc>
      
      

    </bug>

</bugzilla>