Новые вопросы с тегом «tesseract-ocr»

Всего найдено 31 вопрос

голосов

ответов

327

просмотров

Ошибка в обучении Тессеракта с jTessBoxEditor

Я объединил около 50 изображений в один файл .tif с помощью jTessBoxEditor (Linux), но когда я пытаюсь получить файл .box с этим кодом: tesseract mjchar.tif mjchar -l eng --psm 10 batch.nochop makebox произошла ошибка: Tesseract Open Source OCR Engine v4.0.0-beta.1 с Leptonica Ошибка в findFileFo...

ocr tesseract-ocr

спросил J.C.Liu 5 лет назад

голосов

ответов

232

просмотра

Тессеракт OCR: Как показать все возможные ответы для изображения?

Я работаю над использованием Tesseract для обнаружения некоторых старых древних скриптов. Тессеракт как инструмент показывает только один ответ (вывод) для любого изображения, а иногда вывод неправильный. Я хочу быть в состоянии увидеть все возможные прогнозы (ответы) для любого изображения и выбрат...

tesseract-ocr

спросил agent2247 5 лет назад

голосов

ответ

519

просмотров

Как разместить Tesseract OCR для расширения Chrome?

В настоящее время я работаю над созданием расширения Google Chrome, которое принимает изображение. Предполагается, что это изображение будет передано в Tesseract OCR с помощью команды (cmd) и получено в виде текста. Текстовая область в расширении покажет результат. Я не знаю, где можно начать с хост...

google-chrome-extensions hosting tesseract-ocr

спросил user6512156 5 лет назад

голосов

ответов

285

просмотров

Tesseract 4.0 не читает изображения только одним словом текста

Я использую Tesseract v4.0.0-beta.1-108-gf291 Изображение 5.jpg не читается (одно слово: символы хорошего размера) tesseract 5.jpg out.txt Я перепробовал все виды параметров --psm и до сих пор не читается Однако изображение (50.jpg) читается очень хорошо ... Что здесь происходит? Одно слово не читае...

microsoft-word tesseract-ocr

спросил YounesCHTIOUI 5 лет назад

голосов

ответов

483

просмотра

Можно ли преобразовать субтитры dvdsub в srt через командную строку?

Есть ли способ конвертировать субтитры dvdsub (на основе изображений) в srt? например с mencoder или ffmpeg в сочетании с тессерактом? Я ищу что-то на основе командной строки, и я в порядке, чтобы пройти через несколько проходов. Я менее увлечен инструментами на основе графического интерфейса.

ffmpeg mencoder tesseract-ocr

спросил simone 6 лет назад

голосов

ответов

668

просмотров

Как автоматически определить язык текста на фотографии и перевести его

Мне удалось встроить приложение OCR для обнаружения текста по фотографии https://obserbot.com/, но оно только извлекает точный текст из фотографии и не конвертирует его на нескольких языках. Я хочу, чтобы приложение распознавало текстовый язык и автоматически переводило его на язык читателя в зависи...

ocr tesseract-ocr

спросил Abdullah Hussain 7 лет назад

голосов

ответов

442

просмотра

Как мне научить tesseract игнорировать волнистые линии, добавленные из орфографических и грамматических ошибок?

Я использую tesseract для обнаружения текста на различных типах изображений, в том числе на снимках экрана, его спутывают волнистые красные и синие подчеркивания для орфографических и грамматических предупреждений, как в примере ниже. Я не получаю ни текста, ни искаженного беспорядка. Я рассмотрел...

imagemagick tesseract-ocr

спросил GdD 7 лет назад

голосов

ответ

1212

просмотров

Оптимальный шрифт для Tesseract? (в частности, оболочка .NET)

Я использую Tesseract как средство для преобразования печатных текстовых документов, снятых моей камерой мобильного телефона, в текст. Результаты не велики. Качество изображения очень хорошее, намного более четкое, чем у факса, но, похоже, очень сложно идентифицировать символы. Я также попытался ими...

tesseract-ocr

спросил user613051 7 лет назад

голосов

ответов

423

просмотра

Смешная OCR-ситуация

У меня есть отсканированный многостраничный PDF-файл с разрешением 300 точек на дюйм в системе Ubuntu 16.04. Когда я запускаю следующую команду: pdfocr -t -l swe -i *.pdf -o newfile.pdf В результате получается файл, полностью читаемый OCR. Каждое слово доступно для поиска независимо от размера и фо...

pdf ocr ghostscript tesseract-ocr

спросил Paul Bergström 7 лет назад

голосов

ответов

1165

просмотров

Как сжимать файлы PDF в кодировке Tesseract, сохраняя встроенный текст из OCR?

Я экспериментировал с использованием Tesseract для распознавания моих PDF-файлов, и он был в основном успешным, особенно с текстами немецкого языка Fraktur (готический шрифт старого стиля), которые такие инструменты, как Adobe Acrobat, не могут правильно распознать. Проблема в том, что выходные фай...

pdf compression adobe-acrobat ocr tesseract-ocr

спросил Jason 7 лет назад

голосов

ответ

1090

просмотров

Как извлечь символ Unicode из файла .png?

Я хочу извлечь символ Unicode из файлов .jpg и .png. Я пытаюсь сделать это с помощью следующей команды: tesseract 1.png output.txt Эта команда работает для английских символов, но когда я пробую ее для Юникода, такого как хинди, маратхи или сценарий деванагари, она выдает неправильный вывод. Есть...

ocr tesseract-ocr

спросил Madhav Nikam 8 лет назад

голосов

ответ

1461

просмотр

Как заставить OCR распознавать это изображение

исходное изображение Я думаю, что распознать цифры из этого изображения было бы действительно легко, но это не может быть распознано тессерактом и большим количеством онлайн-распознавания текста. Затем я обрабатываю это так. изображение процесса К сожалению это все еще не может быть признано тессе...

ocr tesseract-ocr

спросил too lazy to log in 8 лет назад

голосов

ответ

982

просмотра

В jTessBoxEditor for Tesseract, как объединить несколько файлов TIFF / boxfile в один файл с обученными данными

Я думаю, что это было бы возможно с командной строкой, но как это сделать с помощью jTessBoxEditor, поскольку это автоматизировало бы большую часть рабочего процесса. Так как jTessBox поддерживает многостраничный TIFF, я думаю, что так может быть, но как мне организовать box-файлы в этом случае?

ocr tesseract-ocr

спросил coldbreeze16 8 лет назад

голосов

ответов

286

просмотров

Tesseract на Windows: выходы всегда неточны

Поэтому я пытаюсь распознать это изображение: (на самом деле это имена пользователей) используя эту команду в командной строке Windows: tesseract screenshot.png out Однако out.txt всегда дает неточные результаты. В этом случае это: belsahx Что я делаю неправильно? Это белый текст на черном фоне,...

tesseract-ocr

спросил yasuo 8 лет назад

голосов

ответ

855

просмотров

Как избежать искажения результатов с помощью инструмента OCR pdfsandwich?

Обычно отсканированные страницы должны быть выровнены до применения инструмента OCR. Здесь мой вход - это страница с прямым сканированием, а выходной сигнал OCR иногда искажается, по часовой стрелке или против часовой стрелки. В моем случае использования английской книги на 260 страниц это происходи...

pdf scanning ocr tesseract-ocr

спросил lalebarde 9 лет назад

голосов

ответов

603

просмотра

Отключить словарь в Tess4J

Точность распознавания символов в моем приложении tess4j OCR очень низкая. Я слышал, что отключение словаря в tess4j повысит точность, позволяя распознавать отдельные символы. Но я не знаю, как это сделать. Кто-нибудь знает, как отключить словарь в tess4j ?

java ocr tesseract-ocr

спросил Chalaka Ellawala 9 лет назад

голосов

ответ

3878

просмотров

Use ffmpeg for JPEG to TIFF conversion

I would like to use Tesseract OCR with a video. With ffmpeg I can export some (.jpeg) images from a video. Can I convert a .jpeg into a valid .tiff or export directly .tiff images from the video with ffmpeg?

ffmpeg jpeg tiff image-conversion tesseract-ocr

спросил Tenaciousd93 9 лет назад

голосов

ответа

1700

просмотров

Тессеракт на Linux

Как решить проблему, не устанавливая tesseract 3.03, когда я получаю предупреждение: Предупреждение. Вы используете неподдерживаемую версию Tesseract. Ожидается версия 3.03, ваша версия: 3.02.02 Ошибка открытия файла данных /usr/local/share/tessdata/lus.traineddata Убедитесь, что для переменной сре...

linux tesseract-ocr

спросил Rogerrubens 9 лет назад

голосов

ответов

3313

просмотров

Tesseract не может загрузить языки

Запуск tesseract makeboxкоманды выдал мне следующую ошибку Error opening data file /opt/local/share/tessdata/eng.traineddata Please make sure the TESSDATA_PREFIX environment variable is set to the parent directory of your "tessdata" directory. Failed loading language 'eng' Tesseract couldn't load an...

macos homebrew ghostscript tesseract-ocr tif

спросил Nina 9 лет назад

голосов

ответ

4394

просмотра

Тессеракт OCR: неподдерживаемый тип изображения

Я преобразовал PDF в TIF файл, используя следующие команды на терминале convert -density 300 -depth 4 lang.font-name.exp0.pdf lang.font-name.exp0.tif convert lang.font-name.exp0.tif -colorspace rgb -type truecolor lang.font-name.exp0.tif Затем я попытался запустить makeboxкоманду, tesseract lang.fon...

macos macports homebrew tesseract-ocr

спросил Nina 9 лет назад

голосов

ответа

5707

просмотров

Tesseract 3.03 данные английского языка

Tesseract 3.03 был выпущен недавно, и я только что установил его. Тем не менее, данные на английском языке не предоставляются при загрузке (с https://launchpad.net/ubuntu/+source/tesseract/3.03.03-1 ). На веб-сайте Tesseract есть ссылка «Загрузить», но вы можете найти только «Данные по английскому я...

tesseract-ocr

спросил MarAja 9 лет назад

голосов

ответ

4675

просмотров

OCR с неязыковым текстом

Мне интересно использовать OCR для распознавания текста из документа, который не содержит слов. Скорее, это документ с длинной строкой «случайных» печатных символов. Я пытался использовать tesseract для сканирования текста, но, похоже, он ищет слова. Есть ли способ заставить tesseract просто распозн...

ocr tesseract-ocr

спросил Daniel 10 лет назад

голосов

ответ

1872

просмотра

Tesseract hocr и txt одновременно, или преобразование из Tesseracts hocr в txt

Я играл с программным обеспечением Linux OCR, и мне очень нравится Tesseract, особенно в сочетании с gsan2pdf. Tesseract v3 или более поздней версии поддерживает вывод в формате hocr, и gscan2pdf может использовать его для создания отсканированных документов PDF с возможностью поиска. Иногда, однако...

linux pdf tesseract-ocr

спросил PSkocik 10 лет назад

голосов

ответа

2209

просмотров

Невозможно обработать GIF с помощью Tesseract в OSX

Получение следующей ошибки: Tesseract Open Source OCR Engine v3.02.02 with Leptonica Error in pixReadStreamGif: function not present Error in pixReadStream: gif: no pix returned Error in pixRead: pix not read Unsupported image type. Есть идеи почему?

macos mac gif tesseract-ocr

спросил Sherzod 11 лет назад

голосов

ответ

1406

просмотров

TesseractOCR специализированное обучение

Я не понимаю, как я должен сказать Тессеракту, что это на самом деле a b cбуквы? Добавляя makebox в cli, выдает этот файл: C 78 127 104 166 0 l 96 127 118 166 0 . 116 127 126 140 0 - 124 127 130 145 0 j 145 127 162 188 0 o 154 127 183 158 0 b 203 131 241 164 0

tesseract-ocr

спросил Jim 11 лет назад

голосов

ответа

14401

просмотр

OCR Tesseract, Ошибка пустой страницы?

Я собрал это из источников с leptonica. Это изображение в формате png с прозрачным фоном, которое я отредактировал, добавив синий цвет, и все еще эта ошибка: Tesseract Open Source OCR Engine v3.02.02 with Leptonica Empty page!! Empty page!! Вот входное изображение:

ocr tesseract-ocr

спросил Jim 11 лет назад

голосов

ответов

410

просмотров

Tesseract не может сканировать `Ошибка: поддерживаются только 1,2,4,5,6,8 бит / с: 32`

Даже при том, что я сделал, convert canvas.png -depth 8 canvas.tifя все еще вижу это сообщение об ошибках: Tesseract Open Source OCR Engine check_legal_image_size:Error:Only 1,2,4,5,6,8 bpp are supported:32 Segmentation fault Может кто-нибудь объяснить, почему, пожалуйста?

conversion ocr tesseract-ocr

спросил Jim 11 лет назад

голосов

ответ

344

просмотра

Буфер обмена gImageReader не работает в Windows

Я использую gImageReader для некоторого распознавания текста в Windows 7, и хотя я могу копировать из самого приложения, я не могу скопировать во внешний буфер обмена Windows 7. Я считаю, что программа основана на gtk, и, возможно, необходимо изменить настройку в gtk, чтобы включить эту функцию; Каж...

clipboard ocr gtk tesseract-ocr

спросил leeand00 11 лет назад

голосов

ответа

6410

просмотров

Установите tesseract ocr 3 на OSX

Я пытаюсь установить Tesseract OCR на OSX 10.6 ... Я дошел до установки leptonic ( скачав src и установив с помощью ./configure; make; sudo make install), казалось бы, без проблем - но я не знаю, как это проверить. Я также установил Tesseract OCR 3 (из Google Code с ./runautoconf; ./configure; make;...

macos installation ocr tesseract-ocr

спросил Billy Moon 12 лет назад

голосов

ответ

2881

просмотр

Тренинг Tesseract-OCR для шрифтов английского языка

У меня есть около 3000 небольших изображений отдельных слов, которые я пытаюсь преобразовать в текст. Я установил tesseract на свой компьютер под управлением Windows 7 с помощью установщика и успешно сумел распознать образы через cmd и powershell. tesseract.exe imagename.png imagename создает текс...

ocr tesseract-ocr

спросил andrew 13 лет назад