Bug 19542

Summary:	раcпознавание PDF
Product:	Sisyphus	Reporter:	Sergey V Turchin <zerg>
Component:	cuneiform-qt	Assignee:	Andrey Cherepanov <cas>
Status:	CLOSED NOTABUG	QA Contact:	qa-sisyphus
Severity:	enhancement
Priority:	P2	CC:	anubix, cas
Version:	unstable
Hardware:	all
OS:	Linux

Description Sergey V Turchin 2009-04-08 17:13:06 MSD

Единственный раз, когда пришлось столкнуться с распознаванием -- книга в PDF, в которой нет текста. Все картинками. Т.е. команднострочными утилитами вытащить можно, но малоприменимо для "простого пользователя". В FineReader такая функциональность есть.

Comment 1 Andrey Cherepanov 2009-04-08 19:29:26 MSD

Наверно, лучше пропустить через пайп? Посмотрю и реализую в следующих версиях.

Comment 2 Sergey V Turchin 2009-04-08 20:49:15 MSD

Если pdftohtml, то в из моего PDF много JPG получается. По одному на каждую страницу. Т.е. возможность для распознавания сразу нескольких файлов еще нужно реализовать. Из pipe эти файлы точно не полезут.

Comment 3 Sergey V Turchin 2009-04-09 15:29:49 MSD

Не подумал. Есть же poppler

Comment 4 Andrey Cherepanov 2009-04-09 15:40:51 MSD

gs -dNOPAUSE -q -r300 -sDEVICE=tiffg4 -sPAPERSIZE=a4 -dBATCH -sOutputFile=gl.tif _Glossary.pdf

А дальше - см. TODO по распознаванию многостраничных TIFF. ;)

Comment 5 Sergey V Turchin 2009-04-09 18:26:50 MSD

(В ответ на комментарий №4)
> gs -dNOPAUSE -q -r300 -sDEVICE=tiffg4 -sPAPERSIZE=a4 -dBATCH
> -sOutputFile=gl.tif _Glossary.pdf
Ну, уж точно Poppler::renderToImage() лучше. Сразу сделает тебе QImage. 
Не знаю, можно ли им не рендерить всё, а только картинки повыдергивать.

Собственно, у меня это (ваrе3)
http://forums.rusmedserv.com/showpost.php?s=98dbcdfddc86a3423486b317ca0d3ded&p=295564&postcount=14

Comment 6 Zerg 2013-11-25 00:08:41 MSK

Неактуально уже