19542 2009-04-08 17:13:06 +0400 раcпознавание PDF 2013-11-25 00:08:56 +0400 1 1 4 Development Sisyphus cuneiform-qt unstable all Linux CLOSED NOTABUG P2 enhancement --- 1 zerg cas anubix cas qa-sisyphus oldest_to_newest 88978 0 zerg 2009-04-08 17:13:06 +0400 Единственный раз, когда пришлось столкнуться с распознаванием -- книга в PDF, в которой нет текста. Все картинками. Т.е. команднострочными утилитами вытащить можно, но малоприменимо для "простого пользователя". В FineReader такая функциональность есть. 88984 1 cas 2009-04-08 19:29:26 +0400 Наверно, лучше пропустить через пайп? Посмотрю и реализую в следующих версиях. 88985 2 zerg 2009-04-08 20:49:15 +0400 Если pdftohtml, то в из моего PDF много JPG получается. По одному на каждую страницу. Т.е. возможность для распознавания сразу нескольких файлов еще нужно реализовать. Из pipe эти файлы точно не полезут. 89019 3 zerg 2009-04-09 15:29:49 +0400 Не подумал. Есть же poppler 89023 4 cas 2009-04-09 15:40:51 +0400 gs -dNOPAUSE -q -r300 -sDEVICE=tiffg4 -sPAPERSIZE=a4 -dBATCH -sOutputFile=gl.tif _Glossary.pdf А дальше - см. TODO по распознаванию многостраничных TIFF. ;) 89041 5 zerg 2009-04-09 18:26:50 +0400 (В ответ на комментарий №4) > gs -dNOPAUSE -q -r300 -sDEVICE=tiffg4 -sPAPERSIZE=a4 -dBATCH > -sOutputFile=gl.tif _Glossary.pdf Ну, уж точно Poppler::renderToImage() лучше. Сразу сделает тебе QImage. Не знаю, можно ли им не рендерить всё, а только картинки повыдергивать. Собственно, у меня это (ваrе3) http://forums.rusmedserv.com/showpost.php?s=98dbcdfddc86a3423486b317ca0d3ded&p=295564&postcount=14 143902 6 anubix 2013-11-25 00:08:41 +0400 Неактуально уже