TIFF в TEXT или индексировать файлы TIFF на основе текстового содержимого


У меня есть пара тысяч файлов Tiff, каждый из которых представляет собой многостраничный текстовый документ. Я хотел бы иметь возможность искать содержимое этих файлов и упорядочивать / индексировать их на основе определенной информации, такой как имя, город, округ, штат, улица, почтовый индекс и т. Д. Цель состоит в том, чтобы найти соответствующие файлы на основе условия поиска. Например, если бы мне пришлось искать «Дойл, Боб» И «Округ Ориндж», все файлы, содержащие эти термины, были бы найдены. У меня есть ПК с ОС Windows и Linux, но они не должны быть кроссплатформенными.

Что ты предлагаешь?


1 ответ на вопрос


I would like to be able to search the content of these (tiff) files.

Two solutions are presented below, for Windows and for Linux.

Windows Solution

You can install the TIFF IFilter.

Windows® TIFF IFilter enables you to search for TIFF documents based on text content. When loaded, Windows TIFF IFilter performs optical character recognition (OCR) processing of TIFF images, and then it provides the recognized text to the caller to build the search index.

Windows TIFF IFilter focuses on text-based documents, which means that searching will be more successful for documents that contain clearly identifiable text (for example, black text on a white background), and less successful for documents that contain mixed content (for example, artistic text or text inside of pictures). Additionally, low-quality images and mixed languages can negatively impact OCR processing, and consequently, lower the quality of the search results.

Windows TIFF IFilter supports all TIFF documents that are complaint with Adobe TIFF Revision 6.0 specifications, and it includes the most frequent compressions (such as LZW, JPG, CCITT v4, CCITT v6, and uncompressed).

The source link includes detailed installation instructions.


Source Windows TIFF IFilter Installation and Operations Guide

Linux Solution

  1. Convert the TIFF files to Text files or PDF files.

    • The link belows shows how to convert to PDF with an intermediate OCR step (that uses Tesseract).

    • The intermediate step produces a Text file.

    • This means that the PDF is created from text not images.

  2. Search the Text files or the PDF files as you wish.

See Scanning and editing text with OCR for one approach for the conversion.

PDF может содержать изображения, и обычно TIFF, преобразованный в PDF, включает только изображения файлов (не OCR-конвертер). Giacomo Catenazzi 8 лет назад 0
@GiacomoCatenazzi Ссылка, которую я цитировал, решает эту проблему с помощью промежуточного шага OCR с использованием Tesseract;) Я поясню ответ. DavidPostill 8 лет назад 0