Навеяно https://www.lesbonscomptes.com/recoll/features.html Убрать 'catdoc' и вместо него добавить 'python-module-libxslt', 'python-module-libxml2', так как: Powerpoint and Excel with the catdoc utilities up to recoll 1.19.12. Recoll 1.19.12 and later use internal Python filters for Excel and Powerpoint, and catdoc is not needed at all (catdoc did not work on many semi-recent Excel and Powerpoint files). Добавить 'wv', так как в бинарных файлах MSO иначе не ищет: msword with antiword. It is also useful to have wvWare installed as it may be be used as a fallback for some files which antiword does not handle.
Здесь ещё уточнение про модули python есть https://en.wikipedia.org/wiki/Recoll The XML ones The following types need xsltproc from the libxslt package for Recoll versions before 1.22, or python-libxslt1 and python-libxml2 for 1.22 to 1.24, or python3-lxml for 1.25 and newer. Получается нужен только модуль lxml.
Ещё требуется 'unrtf' для индексации файлов *.rtf
Спасибо за внимательность! Добавил зависимости на python3-module-lxml и wv в recoll-full 1.25.21-alt2. unrtf там уже был.
recoll-1.25.21-alt2 -> sisyphus: Thu Aug 29 2019 Michael Shigorin <mike@altlinux> 1.25.21-alt2 - updated -full subpackage dependencies (closes: #37146) Mon Aug 26 2019 Michael Shigorin <mike@altlinux> 1.25.21-alt1 - new version (watch file uupdate)
На самом деле, если вчитаться, то получается ещё много чего нет в зависимостях, но думаю было бы полезно. Например: 'unzip', 'python-module-pylzma', 'libwpd10', 'mutagen', 'python-module-icalendar', 'unrar' и 'rarfile' (http://pypi.python.org/pypi/rarfile/), 'python-epub' (https://pypi.org/project/epub/), 'perl-base' и 'exiftool' (https://sno.phy.queensu.ca/~phil/exiftool/)... Ну и т.д.
Александр, проверьте у себя и выверенный до буковки список -- в студию ;-) Приму с радостью, чуточку лучше уже следующим багом.