Если я вас правильно понимаю, вы хотите извлечь заголовок бумаги, который присутствует на первой странице PDF (обычно более крупным шрифтом, чем реферат и следующий текст), и использовать его в качестве имени файла.
Боюсь, что вы, вероятно , не найдете универсального решения, так как в начале PDF-файла может быть разное количество текста без заголовка, что затрудняет извлечение фактического заголовка для PDF-файлов из разных журналы.
Чтобы получить решение, которое работает для определенного процента ваших PDF-файлов, я бы, вероятно,
- использовать Ghostscript pdf2ps и ps2ascii для извлечения простого текста из PDF
- проанализируйте этот простой текст для заголовка журнала где-то в первом килобайте или около того
- в зависимости от журнала попробуйте придумать эвристическое извлечение названия статьи из открытого текста.
Конечно, если вы можете найти инструмент, который может извлечь относительный размер текста, а также обычный текст из PDF, это, вероятно, также очень поможет.
Удачи - было бы интересно посмотреть, если вы найдете способ автоматизировать это! Главное, что я делаю, когда загружаю статьи, - это систематически их называю, но было бы здорово, если бы потом было что-то для этого ...