#19542 – раcпознавание PDF

Bug 19542 - раcпознавание PDF

Summary: раcпознавание PDF

Status:	CLOSED NOTABUG

Alias:	None

Product:	Sisyphus
Classification:	Development
Component:	cuneiform-qt (show other bugs)
Version:	unstable
Hardware:	all Linux

Importance:	P2 enhancement
Assignee:	Andrey Cherepanov
QA Contact:	qa-sisyphus

URL:
Keywords:

Depends on:
Blocks:

Reported:	2009-04-08 17:13 MSD by Sergey V Turchin
Modified:	2013-11-25 00:08 MSK (History)
CC List:	2 users (show)

See Also:

Attachments
Add an attachment (proposed patch, testcase, etc.)

Note You need to log in before you can comment on or make changes to this bug.

Description Sergey V Turchin 2009-04-08 17:13:06 MSD

Единственный раз, когда пришлось столкнуться с распознаванием -- книга в PDF, в которой нет текста. Все картинками. Т.е. команднострочными утилитами вытащить можно, но малоприменимо для "простого пользователя". В FineReader такая функциональность есть.

Comment 1 Andrey Cherepanov 2009-04-08 19:29:26 MSD

Наверно, лучше пропустить через пайп? Посмотрю и реализую в следующих версиях.

Comment 2 Sergey V Turchin 2009-04-08 20:49:15 MSD

Если pdftohtml, то в из моего PDF много JPG получается. По одному на каждую страницу. Т.е. возможность для распознавания сразу нескольких файлов еще нужно реализовать. Из pipe эти файлы точно не полезут.

Comment 3 Sergey V Turchin 2009-04-09 15:29:49 MSD

Не подумал. Есть же poppler

Comment 4 Andrey Cherepanov 2009-04-09 15:40:51 MSD

gs -dNOPAUSE -q -r300 -sDEVICE=tiffg4 -sPAPERSIZE=a4 -dBATCH -sOutputFile=gl.tif _Glossary.pdf

А дальше - см. TODO по распознаванию многостраничных TIFF. ;)

Comment 5 Sergey V Turchin 2009-04-09 18:26:50 MSD

(В ответ на комментарий №4)
> gs -dNOPAUSE -q -r300 -sDEVICE=tiffg4 -sPAPERSIZE=a4 -dBATCH
> -sOutputFile=gl.tif _Glossary.pdf
Ну, уж точно Poppler::renderToImage() лучше. Сразу сделает тебе QImage. 
Не знаю, можно ли им не рендерить всё, а только картинки повыдергивать.

Собственно, у меня это (ваrе3)
http://forums.rusmedserv.com/showpost.php?s=98dbcdfddc86a3423486b317ca0d3ded&p=295564&postcount=14

Comment 6 Zerg 2013-11-25 00:08:41 MSK

Неактуально уже