본문 바로가기
python3 selenium

Tesseract, PyTesseract 설치방법

by Pymac 2023. 12. 7.
반응형

Tesseract는 OCR(광학 문자 인식) 엔진으로, 이미지에서 텍스트를 추출하는 데 사용됩니다. PyTesseract는 Tesseract를 Python에서 사용하기 쉽게 만든 래퍼입니다. Tesseract를 사용하려면 두 가지를 설치해야 합니다: Tesseract 엔진 자체와 PyTesseract Python 래퍼.

아래는 Tesseract와 PyTesseract를 설치하는 방법입니다.

1. Tesseract 설치

1.테서랙트 설치 파일을 다운로드.

Windows용은 https://github.com/UB-Mannheim/tesseract/wiki 에서 다운로드 가능.
Windows 64비트용 설치 파일: tesseract-ocr-w64-setup-v5.0.1.20220118.exe
설치

2.다운로드한 설치 프로그램을 실행.
Choose Components 화면에서 Additional language data (download)를 선택하고 Korean 선택
 

 
!!! 한국어 추가 하기

   설치경로는 :C:/Program Files/Tesseract-OCR/tesseract.exe


macOS:

brew install tesseract


Ubuntu:

sudo apt-get update
sudo apt-get install tesseract-ocr


2. PyTesseract 설치

pip install pytesseract



 3. 테스트

다음 코드를 사용하여 PyTesseract가 제대로 설치되었는지 확인할 수 있습니다:

import pytesseract
from PIL import Image

# Tesseract 엔진의 경로를 지정합니다 (Windows의 경우 기본 설치 경로일 수 있습니다).
# pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'

# 이미지를 열고 텍스트를 추출합니다.
image_path = 'your_image_path.png'
img = Image.open(image_path)
text = pytesseract.image_to_string(img)

print(text)


위 코드에서 `your_image_path.png` 부분을 사용하고자 하는 이미지 파일의 경로로 변경하세요. 또한, Windows에서는 Tesseract 엔진의 경로를 지정해야 할 수 있습니다.

이제 Tesseract와 PyTesseract가 정상적으로 설치되었고, 이미지에서 텍스트를 추출할 수 있게 됩니다.

반응형