Единственный раз, когда пришлось столкнуться с распознаванием -- книга в PDF, в которой нет текста. Все картинками. Т.е. команднострочными утилитами вытащить можно, но малоприменимо для "простого пользователя". В FineReader такая функциональность есть.
Наверно, лучше пропустить через пайп? Посмотрю и реализую в следующих версиях.
Если pdftohtml, то в из моего PDF много JPG получается. По одному на каждую страницу. Т.е. возможность для распознавания сразу нескольких файлов еще нужно реализовать. Из pipe эти файлы точно не полезут.
Не подумал. Есть же poppler
gs -dNOPAUSE -q -r300 -sDEVICE=tiffg4 -sPAPERSIZE=a4 -dBATCH -sOutputFile=gl.tif _Glossary.pdf А дальше - см. TODO по распознаванию многостраничных TIFF. ;)
(В ответ на комментарий №4) > gs -dNOPAUSE -q -r300 -sDEVICE=tiffg4 -sPAPERSIZE=a4 -dBATCH > -sOutputFile=gl.tif _Glossary.pdf Ну, уж точно Poppler::renderToImage() лучше. Сразу сделает тебе QImage. Не знаю, можно ли им не рендерить всё, а только картинки повыдергивать. Собственно, у меня это (ваrе3) http://forums.rusmedserv.com/showpost.php?s=98dbcdfddc86a3423486b317ca0d3ded&p=295564&postcount=14
Неактуально уже