Извлечение PDF-данных с использованием категорированных аннотаций
359
bman
Существуют ли какие-либо инструменты для извлечения данных из файлов PDF с использованием этого метода. Допустим, у меня есть 3 категории
- Изображение - это будет прямоугольная аннотация, которая обрежет ту конкретную область, где размещена аннотация
- Заголовок - это еще одна аннотация прямоугольника, которая просто получит текст внутри этого прямоугольника. Если изображение, оно будет преобразовано в текст через OCR
- Автор - то же самое с # 2, но теперь сопоставлено с автором
Затем создадим формат файла, скажем, CSV:
ImageURL,Title,Author
Эти категории (поля) также должны быть сгруппированы в записи, чтобы в каждой строке было по 1 записи.
Если для этого не существует какого-либо инструмента, какие инструменты или API / SDK для программирования могут помочь мне его создать?
0 ответов на вопрос
Похожие вопросы
-
14
PDF Viewer в Windows
-
8
Firefox PDF плагин для просмотра PDF в браузере на Windows
-
17
Как распечатать документы в pdf
-
-
2
Firefox печать в PDF-файл
-
4
PDF Reader для iPhone
-
8
Программное обеспечение для получения аудио с домашних DVD?
-
6
Извлечение файла .zip в Program Files (x86)
-
16
Запрос файла CSV
-
6
Adobe Reader: запомните пароль для файла PDF
-
4
Можно ли добавить свои собственные закладки / вкладки в файл PDF?