Bug 19542 - раcпознавание PDF
Summary: раcпознавание PDF
Status: CLOSED NOTABUG
Alias: None
Product: Sisyphus
Classification: Development
Component: cuneiform-qt (show other bugs)
Version: unstable
Hardware: all Linux
: P2 enhancement
Assignee: Andrey Cherepanov
QA Contact: qa-sisyphus
URL:
Keywords:
Depends on:
Blocks:
 
Reported: 2009-04-08 17:13 MSD by Sergey V Turchin
Modified: 2013-11-25 00:08 MSK (History)
2 users (show)

See Also:


Attachments

Note You need to log in before you can comment on or make changes to this bug.
Description Sergey V Turchin 2009-04-08 17:13:06 MSD
Единственный раз, когда пришлось столкнуться с распознаванием -- книга в PDF, в которой нет текста. Все картинками. Т.е. команднострочными утилитами вытащить можно, но малоприменимо для "простого пользователя". В FineReader такая функциональность есть.
Comment 1 Andrey Cherepanov 2009-04-08 19:29:26 MSD
Наверно, лучше пропустить через пайп? Посмотрю и реализую в следующих версиях.
Comment 2 Sergey V Turchin 2009-04-08 20:49:15 MSD
Если pdftohtml, то в из моего PDF много JPG получается. По одному на каждую страницу. Т.е. возможность для распознавания сразу нескольких файлов еще нужно реализовать. Из pipe эти файлы точно не полезут.
Comment 3 Sergey V Turchin 2009-04-09 15:29:49 MSD
Не подумал. Есть же poppler
Comment 4 Andrey Cherepanov 2009-04-09 15:40:51 MSD
gs -dNOPAUSE -q -r300 -sDEVICE=tiffg4 -sPAPERSIZE=a4 -dBATCH -sOutputFile=gl.tif _Glossary.pdf

А дальше - см. TODO по распознаванию многостраничных TIFF. ;)
Comment 5 Sergey V Turchin 2009-04-09 18:26:50 MSD
(В ответ на комментарий №4)
> gs -dNOPAUSE -q -r300 -sDEVICE=tiffg4 -sPAPERSIZE=a4 -dBATCH
> -sOutputFile=gl.tif _Glossary.pdf
Ну, уж точно Poppler::renderToImage() лучше. Сразу сделает тебе QImage. 
Не знаю, можно ли им не рендерить всё, а только картинки повыдергивать.

Собственно, у меня это (ваrе3)
http://forums.rusmedserv.com/showpost.php?s=98dbcdfddc86a3423486b317ca0d3ded&p=295564&postcount=14
Comment 6 Zerg 2013-11-25 00:08:41 MSK
Неактуально уже