отсканировать A4 doc> pdf> ocr> перевести на английский?

3725
adolf garlic

Я пытался использовать комбинацию

  • мой домашний сканер для создания документов «300 точек на дюйм», «документ», «pdf» (параметры Canon all-in-one)
  • ZoHoViewer для создания файла RTF или TXT
  • Google Документы для перевода

Я не уверен, насколько хорош или плох продукт ZoHoViewer, но следующее:

Als Arbeitsmarkbehörde haben wir den gesetzlichen Auftrag, die Vermittelbarkeit von

превращается в:

AlsArbeitsmarktbeh6rde habenwirdengesetzlichenAuftrag, dieVermittelbarkeit vonSt ...

следовательно, goog docs делает завтрак свиньи, пытаясь перевести его.

У кого-нибудь есть лучшие предложения (желательно бесплатные онлайн-сервисы)

2
Поскольку нет точного дубликата, я оставляю этот открытый. Однако вы должны пройти через вопросы, которые я связал, поскольку они, вероятно, предложат возможные решения. Ivo Flipse 14 лет назад 0
В случае, если кто-то заинтересован, перевод должен быть «Когда у власти на рынке труда есть законный мандат, возможность трудоустройства» - или что-то в этом роде ChrisF 14 лет назад 0
Поправка: «Как авторитет рынка труда» ... звучит лучше :) 14 лет назад 0
@Molly - это была просто копия и вставка в Google Translate! ChrisF 14 лет назад 0

3 ответа на вопрос

5
Ivo Flipse

На SuperUser было несколько других вопросов о OCR, которые, возможно, стоит проверить на предмет возможных решений.

В частности, этот ответ Молли выглядит многообещающе:

Мне действительно нравится TopOCR, безусловно, отличное дополнение к вашим средствам сканирования:

  • Невероятная точность распознавания, до 99,8% с 3 Мп камерой
  • Нет ограничений на количество страниц, не требуются дополнительные загрузки или компоненты
  • Обрабатывает изображения со смешанным текстом и графикой (ручное или автоматическое зонирование)
  • Выдерживает перекос и неравномерное освещение
  • Несколько форматов вывода текста, включая PDF и HTML с возможностью поиска
  • Умеет читать 11 разных языков
  • Мощная, простая в использовании обработка изображений с искажением изображения
  • Поддерживает смартфоны: см. Некоторые образцы смартфонов
  • Включает встроенные полнофункциональные текстовые и графические редакторы WYSIWYG
  • Проверка орфографии пост-обработки для всех 11 языков
  • Встроенное программное обеспечение Text-To-Speech. Как насчет OCR в MP3?
  • Включает встроенный многоязычный текстовый переводчик
  • Поддерживает интерфейс командной строки и графический интерфейс
  • Создание высокопроизводительной системы поиска и индексации документов
  • Browser Helper Mode поддерживает создание бесплатных аудио книг
  • С WebOC Engine TopOCR легко добавлять новые функции

альтернативный текст

это очень точно и отлично работает с изображениями низкого качества, такими как фотографии страниц / документов

TopOCR является бесплатным (может быть сделан переносимым с помощью Universal Extractor )

Дальнейшее чтение:

Какое программное обеспечение для распознавания текста имеет больше всего вариантов?

Практическое решение для оптического распознавания текста для преобразования большой книги в цифровой формат?

Как извлечь текст с помощью OCR из PDF в Linux?

этот «бизнес по сокращению голосов» здесь становится нелепым, фактически TopOCR идеально подходит для этой работы, поскольку он «понимает» немецкий (и многие другие языки) и включает переводчика. +1 и отмечен модератором. 14 лет назад 0
2 вверх, 2 вниз: / Sathya 14 лет назад 0
Выглядит хорошо, но я не хочу вытаскивать свою камеру, когда хочу сканировать документ. Я могу видеть, как это может быть хорошо, если у вас нет сканера или нет на вашем телефоне, хотя. adolf garlic 14 лет назад 0
Это означает, что вы также можете сделать это на отсканированном документе ;-) Ivo Flipse 14 лет назад 0
Хорошо, я попробую. adolf garlic 14 лет назад 0
Я попытался topOCR с другим документом, и это бесполезно. Тильды и прочее повсюду [это был документ, отсканированный с разрешением 600 точек на дюйм]. Также я испытываю боль при переключении с Windows на Mac и Topocr только для Windows. adolf garlic 14 лет назад 0
4
ChrisF

Учитывая, что OCR преобразовал:

Als Arbeitsmarkbehörde ...

чтобы:

AlsArbeitsmarktbeh6rde ...

На ум приходит пара вещей.

  1. Попробуйте сканировать с более высоким разрешением. Похоже, что он не может распознать пробел между словами, более высокое значение dpi может улучшить это.

  2. Вы можете установить язык своей программы OCR? Я вижу, что это преобразовало "ö" в "6". Хотя это может быть проблемой, вызванной разрешением, может также оказаться, что, поскольку «ö» не является повседневной частью английского языка, программа выбирает «следующую наилучшую» подборку - в данном случае «6».

Хорошие очки Крис! Ivo Flipse 14 лет назад 0
Сканирование с разрешением 600 точек на дюйм, я просто (навсегда) жду, когда Замзар пришлет мне конвертированный документ .... Я думаю, что когда он бесплатный, вы не можете ожидать слишком многого, но почти дня !? Слишком долго adolf garlic 14 лет назад 0
Теперь я только что проверил, и срок конверсии истек. Начиная снова. Harumph. adolf garlic 14 лет назад 0
Неее. zamzar бесполезен при распознавании пробелов даже при 600 dpi, попробует другой инструмент для конвертации. adolf garlic 14 лет назад 0
0
adolf garlic

Не на 100% идеально, но лучшее из всего, что я пробовал:

http://www.paperfile.net/ в сочетании с языковым пакетом (бесплатно загружать инструкции в приложении) скопируйте и вставьте весь текст в документ Google, затем используйте инструменты> перевести в документах Google

Похожие вопросы