Ответ 1
Я попытался добавить к переменной пути, как уже упоминали другие, но все равно получил ту же ошибку. что работало, добавив это в мой скрипт:
pytesseract.pytesseract.tesseract_cmd = r "C:\Program Files (x86)\Tesseract-OCR\tesseract.exe"
Я пытаюсь использовать pytesseract в Python, но всегда получаю следующую ошибку:
raise TesseractNotFoundError()
pytesseract.pytesseract.TesseractNotFoundError: tesseract is not installed or it not in your path
Однако в моей системе установлены pytesseract и Tesseract.
Пример кода, который выдает эту ошибку:
import cv2
import pytesseract
img = cv2.imread('1d.png')
print(pytesseract.image_to_string(img))
Я попытался добавить к переменной пути, как уже упоминали другие, но все равно получил ту же ошибку. что работало, добавив это в мой скрипт:
pytesseract.pytesseract.tesseract_cmd = r "C:\Program Files (x86)\Tesseract-OCR\tesseract.exe"
Я получил эту ошибку, потому что я установил pytesseract
с pip
, но забыл установить двоичный файл.
sudo apt update
sudo apt install tesseract-ocr
sudo apt install libtesseract-dev
brew install tesseract
скачать бинарный файл из https://github.com/UB-Mannheim/tesseract/wiki. затем добавьте pytesseract.pytesseract.tesseract_cmd = 'C:\\Program Files (x86)\\Tesseract-OCR\\tesseract.exe'
к вашему сценарию. (замените путь двоичного файла Тессеракта, если необходимо)
Рекомендации: https://pypi.org/project/pytesseract/ (раздел УСТАНОВКА) иhttps://github.com/tesseract-ocr/tesseract/wiki#installation
Возможно, вам не хватает tesseract-ocr
вашей машине. Проверьте инструкцию по установке здесь: https://github.com/tesseract-ocr/tesseract/wiki
На Mac вы можете просто установить с помощью homebrew:
brew install tesseract
После этого должно работать нормально
В среде ОС Windows 10 у меня работает следующий метод:
https://github.com/tesseract-ocr/tesseract/wiki Скачайте tesseract и установите его. Версия для Windows доступна здесь: https://github.com/UB-Mannheim/tesseract/wiki
Найдите файл сценария pytesseract.py в C:\Users\User\Anaconda3\Lib\site-packages\pytesseract и откройте его.
Измените следующий код с tesseract_cmd = 'tesseract'
на: tesseract_cmd = 'D:/Program Files (x86)/Tesseract-OCR/tesseract.exe'
Вам также может понадобиться добавить переменную среды D:/Program Files (x86)/Tesseract-OCR/
Надеюсь, это работает для вас!
Одна простая вещь, которая на самом деле работала для меня в Jupyter Notebook, заключалась в использовании двойной обратной косой черты вместо одной обратной косой черты в пути pytesseract.pytesseract.tesseract_cmd:
pytesseract.pytesseract.tesseract_cmd = 'C:\\Program Files (x86)\\Tesseract-OCR\\tesseract.exe'
Я работаю на Mac OS и установил tesseract с brew, так что вот мое мнение об этом. Поскольку pytesseract - это то, как вы можете получить доступ к tesseract из python, вы должны указать, где tesseract уже находится на вашем компьютере.
Для Mac OS
Попробуйте найти, где tesseract.exe is-, если вы установили его с помощью brew, на вашем терминале используйте:
>brew list tesseract
Это должно перечислить, где ваш tesseract.exe, где-то более или менее как
> /usr/local/Cellar/tesseract/3.05.02/bin/tesseract
Затем следуйте их инструкциям:
pytesseract.pytesseract.tesseract_cmd = r'<full_path_to_your_tesseract_executable>'
pytesseract.pytesseract.tesseract_cmd = r '/usr/local/Cellar/tesseract/3.05.02/bin/tesseract'
должен сделать трюк!
Я сталкиваюсь с этой же проблемой. Я просто использую эту команду, которая поможет мне.
sudo apt install tesseract-ocr
Обратите внимание, что это будет работать только в Ubuntu. sudo
- это эксклюзивная команда Unix (Linux, Mac, Rasbian и т.д.), а apt
специфична для Ubuntu.
Я столкнулся с той же проблемой. Я надеюсь, что вы установили отсюда, а также сделали pip install pytesseract
.
Если все в порядке, вы должны увидеть путь C:\Program Files (x86)\Tesseract-OCR where tesseract.exe
доступен C:\Program Files (x86)\Tesseract-OCR where tesseract.exe
.
Добавление переменной Path мне не помогло, я фактически добавил новую переменную с именем tesseract
в переменные окружения со значением C:\Program Files (x86)\Tesseract-OCR\tesseract.exe
.
Ввод команды tesseract
в командной строке теперь должен работать как положено, предоставляя вам информацию об использовании. Теперь вы можете использовать pytesseract
как таковой (не забудьте перезапустить ядро python перед запуском этого!):
import pytesseract
from PIL import Image
value=Image.open("text_image.png")
text = pytesseract.image_to_string(value, config='')
print("text present in images:",text)
наслаждаться!
Вы можете загрузить tesseract-ocr setup, используя следующую ссылку,
Затем добавьте новую переменную с именем tesseract в переменные среды со значением C:\Program Files (x86)\Tesseract-OCR\tesseract.exe
Для Mac:
Это должно работать нормально.
Установите tesseract из https://github.com/UB-Mannheim/tesseract/wiki и добавьте путь tesseract.exe к переменной окружения Path.
Следующие три команды сделают все необходимое:
sudo apt update
# This will update your packages
sudo apt install tesseract-ocr
# This will install OCR
sudo apt install libtesseract-dev
# This will add it as development dependency
ВНИМАНИЕ: ТОЛЬКО ДЛЯ WINDOWS
Я столкнулся с этой проблемой сегодня, и все ответы, упомянутые здесь, помогли мне, но мне лично пришлось много копать, чтобы решить ее. Итак, позвольте мне помочь всем остальным, предложив решение в очень простой форме:
Загрузите исполняемый файл 64-разрядной (32-разрядной, если ваш компьютер имеет 32-разрядную версию) отсюда.
(Имя файла будет tesseract-ocr-w64-setup-v5.0.0.20190526 (alpha))
Установите это. Позвольте ему установить себя в директорию C по умолчанию.
Теперь перейдите к вашей переменной среды (откройте ее, просто выполнив поиск в меню "Пуск" или выберите " Control Panel > System > Advanced System Settings > Environment Variables
).
а) Выберите PATH, а затем отредактируйте его. Нажмите на NEW и добавьте путь, где он установлен (обычно C:\Program Files\Tesseract-OCR\
)
Теперь вы не получите ошибку!
Вы импортируете
from tesseract import image_to_string
Не импортировать из pytesseract
Я также столкнулся с той же проблемой, просто добавьте C:\Program Files (x86)\Tesseract-OCR
в вашу переменную пути. Если он все еще не работает, добавьте C:\Program Files (x86)\Tesseract-OCR\tessdata
в вашу переменную пути в новой строке. И не забудьте перезагрузить компьютер после добавления переменной пути.
В настоящее время я использую Windows и вам нужно разработать парсер PDF, но добавление новой переменной среды через sysdm.cpl
не sysdm.cpl
. Для других пользователей Windows я настоятельно рекомендую добавить C:\Program Files (x86)\Tesseract-OCR
в свой файл profile.ps1
(если используется Powershell).
Небольшая ошибка - я знал, что мне нужно было открыть/закрыть мой cmd, чтобы обновить путь к размышлению. Используя Jupyter Notebook, мне пришлось выключить клиент и снова инициализировать его.
Скорее всего, у вас установлены разные версии Python, убедитесь, что установленный Tesseract установлен на одну и ту же версию Python.
which pip3
показывает вам путь к установке pip3, а which python3
показывает соответствующий путь к установке Python.
Убедитесь, что эти два одинаковы.
Я также столкнулся с той же ошибкой, когда пытался создать экстрактор текста с помощью pytesseract, но решение было в инструкциях по установке pytesseract на сайте pypi: pytesseract Есть много альтернатив, чтобы избежать ошибки, но добавив еще один параметр в методе pytesseract.image_to_string решил это для меня, как
tessdata_dir_config = "/usr/share/tesseract-ocr/4.00/tessdata"
output = pytesseract.image_to_string(image, lang='eng', config=tessdata_dir_config)
Это происходит в Windows (по крайней мере, в версии 3.05 tesseract), когда текущий каталог находится на диске, отличном от того, где установлен tesseract.
Что-то в tesseract ожидает, что файлы данных будут находиться в \Program Files... (а не в C:\Program Files, скажем). Так что, если вы не находитесь на той же букве диска, что и tesseract, произойдет сбой. Было бы здорово, если бы мы могли обойти эту проблему, временно заменив диски (только под Windows) на установочный диск tesseract перед выполнением tesseract и вернувшись обратно после. Пример в вашем случае: вы можете скопировать yourmodule_python.py в "C/Program Files (x86)/Tesseract-OCR/" и запустить!