Поскольку вы работаете с отсканированным файлом PDF, сам файл PDF содержит сжатые данные изображения. Он не содержит текст как таковой. Таким образом, ваше решение должно:
- Извлеките изображение из PDF в формат изображения
- Возможно, проанализировать текст с помощью специального инструмента OCR
Из вашего вопроса не ясно, какие ОС и инструменты у вас есть, а также как вы умеете писать. Из-за этого, вот общий ответ сейчас, и этот процесс является довольно автоматизируемым (с учетом изменений в PDF-файлах), если вам нужно повторить его много раз.
Если вы делаете это вручную, первый шаг может быть таким же простым, как печать экрана и возможное кадрирование. Альтернативой является использование инструмента для преобразования документа PDF в файл изображения . Тогда вы можете обрезать в соответствии с вашими потребностями, например, с GIMP .
На втором этапе вы можете использовать любое программное обеспечение OCR, например, Tesseract .