Новые вопросы с тегом «tesseract-ocr»

Всего найдено 31 вопрос

0
голосов
0
ответов
327
просмотров

Ошибка в обучении Тессеракта с jTessBoxEditor

Я объединил около 50 изображений в один файл .tif с помощью jTessBoxEditor (Linux), но когда я пытаюсь получить файл .box с этим кодом: tesseract mjchar.tif mjchar -l eng --psm 10 batch.nochop makebox произошла ошибка: Tesseract Open Source OCR Engine v4.0.0-beta.1 с Leptonica Ошибка в findFileFo...
спросил J.C.Liu 5 лет назад

0
голосов
0
ответов
232
просмотра

Тессеракт OCR: Как показать все возможные ответы для изображения?

Я работаю над использованием Tesseract для обнаружения некоторых старых древних скриптов. Тессеракт как инструмент показывает только один ответ (вывод) для любого изображения, а иногда вывод неправильный. Я хочу быть в состоянии увидеть все возможные прогнозы (ответы) для любого изображения и выбрат...
спросил agent2247 5 лет назад

0
голосов
1
ответ
519
просмотров

Как разместить Tesseract OCR для расширения Chrome?

В настоящее время я работаю над созданием расширения Google Chrome, которое принимает изображение. Предполагается, что это изображение будет передано в Tesseract OCR с помощью команды (cmd) и получено в виде текста. Текстовая область в расширении покажет результат. Я не знаю, где можно начать с хост...
спросил user6512156 5 лет назад

0
голосов
0
ответов
285
просмотров

Tesseract 4.0 не читает изображения только одним словом текста

Я использую Tesseract v4.0.0-beta.1-108-gf291 Изображение 5.jpg не читается (одно слово: символы хорошего размера) tesseract 5.jpg out.txt Я перепробовал все виды параметров --psm и до сих пор не читается Однако изображение (50.jpg) читается очень хорошо ... Что здесь происходит? Одно слово не читае...
спросил YounesCHTIOUI 5 лет назад

1
голосов
0
ответов
483
просмотра

Можно ли преобразовать субтитры dvdsub в srt через командную строку?

Есть ли способ конвертировать субтитры dvdsub (на основе изображений) в srt? например с mencoder или ffmpeg в сочетании с тессерактом? Я ищу что-то на основе командной строки, и я в порядке, чтобы пройти через несколько проходов. Я менее увлечен инструментами на основе графического интерфейса.
спросил simone 6 лет назад

1
голосов
0
ответов
668
просмотров

Как автоматически определить язык текста на фотографии и перевести его

Мне удалось встроить приложение OCR для обнаружения текста по фотографии https://obserbot.com/, но оно только извлекает точный текст из фотографии и не конвертирует его на нескольких языках. Я хочу, чтобы приложение распознавало текстовый язык и автоматически переводило его на язык читателя в зависи...
спросил Abdullah Hussain 7 лет назад

1
голосов
0
ответов
442
просмотра

Как мне научить tesseract игнорировать волнистые линии, добавленные из орфографических и грамматических ошибок?

Я использую tesseract для обнаружения текста на различных типах изображений, в том числе на снимках экрана, его спутывают волнистые красные и синие подчеркивания для орфографических и грамматических предупреждений, как в примере ниже. Я не получаю ни текста, ни искаженного беспорядка. Я рассмотрел...
спросил GdD 7 лет назад

0
голосов
1
ответ
1212
просмотров

Оптимальный шрифт для Tesseract? (в частности, оболочка .NET)

Я использую Tesseract как средство для преобразования печатных текстовых документов, снятых моей камерой мобильного телефона, в текст. Результаты не велики. Качество изображения очень хорошее, намного более четкое, чем у факса, но, похоже, очень сложно идентифицировать символы. Я также попытался ими...
спросил user613051 7 лет назад

2
голосов
0
ответов
423
просмотра

Смешная OCR-ситуация

У меня есть отсканированный многостраничный PDF-файл с разрешением 300 точек на дюйм в системе Ubuntu 16.04. Когда я запускаю следующую команду: pdfocr -t -l swe -i *.pdf -o newfile.pdf В результате получается файл, полностью читаемый OCR. Каждое слово доступно для поиска независимо от размера и фо...
спросил Paul Bergström 7 лет назад

2
голосов
0
ответов
1165
просмотров

Как сжимать файлы PDF в кодировке Tesseract, сохраняя встроенный текст из OCR?

Я экспериментировал с использованием Tesseract для распознавания моих PDF-файлов, и он был в основном успешным, особенно с текстами немецкого языка Fraktur (готический шрифт старого стиля), которые такие инструменты, как Adobe Acrobat, не могут правильно распознать. Проблема в том, что выходные фай...
спросил Jason 7 лет назад

3
голосов
1
ответ
1090
просмотров

Как извлечь символ Unicode из файла .png?

Я хочу извлечь символ Unicode из файлов .jpg и .png. Я пытаюсь сделать это с помощью следующей команды: tesseract 1.png output.txt Эта команда работает для английских символов, но когда я пробую ее для Юникода, такого как хинди, маратхи или сценарий деванагари, она выдает неправильный вывод. Есть...
спросил Madhav Nikam 8 лет назад

1
голосов
1
ответ
1461
просмотр

Как заставить OCR распознавать это изображение

исходное изображение Я думаю, что распознать цифры из этого изображения было бы действительно легко, но это не может быть распознано тессерактом и большим количеством онлайн-распознавания текста. Затем я обрабатываю это так. изображение процесса К сожалению это все еще не может быть признано тессе...
спросил too lazy to log in 8 лет назад

1
голосов
1
ответ
982
просмотра

В jTessBoxEditor for Tesseract, как объединить несколько файлов TIFF / boxfile в один файл с обученными данными

Я думаю, что это было бы возможно с командной строкой, но как это сделать с помощью jTessBoxEditor, поскольку это автоматизировало бы большую часть рабочего процесса. Так как jTessBox поддерживает многостраничный TIFF, я думаю, что так может быть, но как мне организовать box-файлы в этом случае?
спросил coldbreeze16 8 лет назад

1
голосов
0
ответов
286
просмотров

Tesseract на Windows: выходы всегда неточны

Поэтому я пытаюсь распознать это изображение: (на самом деле это имена пользователей) используя эту команду в командной строке Windows: tesseract screenshot.png out Однако out.txt всегда дает неточные результаты. В этом случае это: belsahx Что я делаю неправильно? Это белый текст на черном фоне,...
спросил yasuo 8 лет назад

0
голосов
1
ответ
855
просмотров

Как избежать искажения результатов с помощью инструмента OCR pdfsandwich?

Обычно отсканированные страницы должны быть выровнены до применения инструмента OCR. Здесь мой вход - это страница с прямым сканированием, а выходной сигнал OCR иногда искажается, по часовой стрелке или против часовой стрелки. В моем случае использования английской книги на 260 страниц это происходи...
спросил lalebarde 9 лет назад

1
голосов
0
ответов
603
просмотра

Отключить словарь в Tess4J

Точность распознавания символов в моем приложении tess4j OCR очень низкая. Я слышал, что отключение словаря в tess4j повысит точность, позволяя распознавать отдельные символы. Но я не знаю, как это сделать. Кто-нибудь знает, как отключить словарь в tess4j ?
спросил Chalaka Ellawala 9 лет назад

1
голосов
1
ответ
3878
просмотров

Use ffmpeg for JPEG to TIFF conversion

I would like to use Tesseract OCR with a video. With ffmpeg I can export some (.jpeg) images from a video. Can I convert a .jpeg into a valid .tiff or export directly .tiff images from the video with ffmpeg?
спросил Tenaciousd93 9 лет назад

1
голосов
2
ответа
1700
просмотров

Тессеракт на Linux

Как решить проблему, не устанавливая tesseract 3.03, когда я получаю предупреждение: Предупреждение. Вы используете неподдерживаемую версию Tesseract. Ожидается версия 3.03, ваша версия: 3.02.02 Ошибка открытия файла данных /usr/local/share/tessdata/lus.traineddata Убедитесь, что для переменной сре...
спросил Rogerrubens 9 лет назад

0
голосов
0
ответов
3313
просмотров

Tesseract не может загрузить языки

Запуск tesseract makeboxкоманды выдал мне следующую ошибку Error opening data file /opt/local/share/tessdata/eng.traineddata Please make sure the TESSDATA_PREFIX environment variable is set to the parent directory of your "tessdata" directory. Failed loading language 'eng' Tesseract couldn't load an...
спросил Nina 9 лет назад

5
голосов
1
ответ
4394
просмотра

Тессеракт OCR: неподдерживаемый тип изображения

Я преобразовал PDF в TIF файл, используя следующие команды на терминале convert -density 300 -depth 4 lang.font-name.exp0.pdf lang.font-name.exp0.tif convert lang.font-name.exp0.tif -colorspace rgb -type truecolor lang.font-name.exp0.tif Затем я попытался запустить makeboxкоманду, tesseract lang.fon...
спросил Nina 9 лет назад

4
голосов
2
ответа
5707
просмотров

Tesseract 3.03 данные английского языка

Tesseract 3.03 был выпущен недавно, и я только что установил его. Тем не менее, данные на английском языке не предоставляются при загрузке (с https://launchpad.net/ubuntu/+source/tesseract/3.03.03-1 ). На веб-сайте Tesseract есть ссылка «Загрузить», но вы можете найти только «Данные по английскому я...
спросил MarAja 9 лет назад

3
голосов
1
ответ
4675
просмотров

OCR с неязыковым текстом

Мне интересно использовать OCR для распознавания текста из документа, который не содержит слов. Скорее, это документ с длинной строкой «случайных» печатных символов. Я пытался использовать tesseract для сканирования текста, но, похоже, он ищет слова. Есть ли способ заставить tesseract просто распозн...
спросил Daniel 10 лет назад

2
голосов
1
ответ
1872
просмотра

Tesseract hocr и txt одновременно, или преобразование из Tesseracts hocr в txt

Я играл с программным обеспечением Linux OCR, и мне очень нравится Tesseract, особенно в сочетании с gsan2pdf. Tesseract v3 или более поздней версии поддерживает вывод в формате hocr, и gscan2pdf может использовать его для создания отсканированных документов PDF с возможностью поиска. Иногда, однако...
спросил PSkocik 10 лет назад

0
голосов
2
ответа
2209
просмотров

Невозможно обработать GIF с помощью Tesseract в OSX

Получение следующей ошибки: Tesseract Open Source OCR Engine v3.02.02 with Leptonica Error in pixReadStreamGif: function not present Error in pixReadStream: gif: no pix returned Error in pixRead: pix not read Unsupported image type. Есть идеи почему?
спросил Sherzod 11 лет назад

1
голосов
1
ответ
1406
просмотров

TesseractOCR специализированное обучение

Я не понимаю, как я должен сказать Тессеракту, что это на самом деле a b cбуквы? Добавляя makebox в cli, выдает этот файл: C 78 127 104 166 0 l 96 127 118 166 0 . 116 127 126 140 0 - 124 127 130 145 0 j 145 127 162 188 0 o 154 127 183 158 0 b 203 131 241 164 0
спросил Jim 11 лет назад

5
голосов
3
ответа
14401
просмотр

OCR Tesseract, Ошибка пустой страницы?

Я собрал это из источников с leptonica. Это изображение в формате png с прозрачным фоном, которое я отредактировал, добавив синий цвет, и все еще эта ошибка: Tesseract Open Source OCR Engine v3.02.02 with Leptonica Empty page!! Empty page!! Вот входное изображение:
спросил Jim 11 лет назад

2
голосов
0
ответов
410
просмотров

Tesseract не может сканировать `Ошибка: поддерживаются только 1,2,4,5,6,8 бит / с: 32`

Даже при том, что я сделал, convert canvas.png -depth 8 canvas.tifя все еще вижу это сообщение об ошибках: Tesseract Open Source OCR Engine check_legal_image_size:Error:Only 1,2,4,5,6,8 bpp are supported:32 Segmentation fault Может кто-нибудь объяснить, почему, пожалуйста?
спросил Jim 11 лет назад

0
голосов
1
ответ
344
просмотра

Буфер обмена gImageReader не работает в Windows

Я использую gImageReader для некоторого распознавания текста в Windows 7, и хотя я могу копировать из самого приложения, я не могу скопировать во внешний буфер обмена Windows 7. Я считаю, что программа основана на gtk, и, возможно, необходимо изменить настройку в gtk, чтобы включить эту функцию; Каж...
спросил leeand00 11 лет назад

0
голосов
3
ответа
6410
просмотров

Установите tesseract ocr 3 на OSX

Я пытаюсь установить Tesseract OCR на OSX 10.6 ... Я дошел до установки leptonic ( скачав src и установив с помощью ./configure; make; sudo make install), казалось бы, без проблем - но я не знаю, как это проверить. Я также установил Tesseract OCR 3 (из Google Code с ./runautoconf; ./configure; make;...
спросил Billy Moon 12 лет назад

3
голосов
1
ответ
2881
просмотр

Тренинг Tesseract-OCR для шрифтов английского языка

У меня есть около 3000 небольших изображений отдельных слов, которые я пытаюсь преобразовать в текст. Я установил tesseract на свой компьютер под управлением Windows 7 с помощью установщика и успешно сумел распознать образы через cmd и powershell. tesseract.exe imagename.png imagename создает текс...
спросил andrew 13 лет назад