Извлечение PDF-данных с использованием категорированных аннотаций

359

bman 2017-02-19 в 17:11

Существуют ли какие-либо инструменты для извлечения данных из файлов PDF с использованием этого метода. Допустим, у меня есть 3 категории

Изображение - это будет прямоугольная аннотация, которая обрежет ту конкретную область, где размещена аннотация
Заголовок - это еще одна аннотация прямоугольника, которая просто получит текст внутри этого прямоугольника. Если изображение, оно будет преобразовано в текст через OCR
Автор - то же самое с # 2, но теперь сопоставлено с автором

Затем создадим формат файла, скажем, CSV:

ImageURL,Title,Author

Эти категории (поля) также должны быть сгруппированы в записи, чтобы в каждой строке было по 1 записи.

Если для этого не существует какого-либо инструмента, какие инструменты или API / SDK для программирования могут помочь мне его создать?

0 ответов на вопрос