Bug 19542

Summary: раcпознавание PDF
Product: Sisyphus Reporter: Sergey V Turchin <zerg>
Component: cuneiform-qtAssignee: Andrey Cherepanov <cas>
Status: CLOSED NOTABUG QA Contact: qa-sisyphus
Severity: enhancement    
Priority: P2 CC: anubix, cas
Version: unstable   
Hardware: all   
OS: Linux   

Description Sergey V Turchin 2009-04-08 17:13:06 MSD
Единственный раз, когда пришлось столкнуться с распознаванием -- книга в PDF, в которой нет текста. Все картинками. Т.е. команднострочными утилитами вытащить можно, но малоприменимо для "простого пользователя". В FineReader такая функциональность есть.
Comment 1 Andrey Cherepanov 2009-04-08 19:29:26 MSD
Наверно, лучше пропустить через пайп? Посмотрю и реализую в следующих версиях.
Comment 2 Sergey V Turchin 2009-04-08 20:49:15 MSD
Если pdftohtml, то в из моего PDF много JPG получается. По одному на каждую страницу. Т.е. возможность для распознавания сразу нескольких файлов еще нужно реализовать. Из pipe эти файлы точно не полезут.
Comment 3 Sergey V Turchin 2009-04-09 15:29:49 MSD
Не подумал. Есть же poppler
Comment 4 Andrey Cherepanov 2009-04-09 15:40:51 MSD
gs -dNOPAUSE -q -r300 -sDEVICE=tiffg4 -sPAPERSIZE=a4 -dBATCH -sOutputFile=gl.tif _Glossary.pdf

А дальше - см. TODO по распознаванию многостраничных TIFF. ;)
Comment 5 Sergey V Turchin 2009-04-09 18:26:50 MSD
(В ответ на комментарий №4)
> gs -dNOPAUSE -q -r300 -sDEVICE=tiffg4 -sPAPERSIZE=a4 -dBATCH
> -sOutputFile=gl.tif _Glossary.pdf
Ну, уж точно Poppler::renderToImage() лучше. Сразу сделает тебе QImage. 
Не знаю, можно ли им не рендерить всё, а только картинки повыдергивать.

Собственно, у меня это (ваrе3)
http://forums.rusmedserv.com/showpost.php?s=98dbcdfddc86a3423486b317ca0d3ded&p=295564&postcount=14
Comment 6 Zerg 2013-11-25 00:08:41 MSK
Неактуально уже