Software Engineer :: OCR with Tesseract on Windows - Windows에서 테서랙트 사용하기

OCR with Tesseract on Windows - Windows에서 테서랙트 사용하기

AI, ML, DL 2020. 10. 7. 21:41 |

광학 문자 인식(Optical Character Recognition; OCR)은 사람이 쓰거나 기계로 인쇄한 문자의 영상이나 이미지를 기계가 읽을 수 있는 문자로 변환하는 것이다. 다양한 운영체제를 위한 광학 문자 인식 엔진 Tesseract를 윈도우즈에서 사용해 보자.

Tesseract Windows version을 제공하는 UB Mannheim에 접속해서 적당한 플랫폼의 Tesseract를 다운 받는다.

설치한다.

Additional language data (download)를 클릭한다.

Korean을 선택한다.

Python-tesseract(pytesseract)를 설치한다. Python-tesseract은 Google의 Tesseract-OCR Engine의 wrapper이다.

영문 이미지를 준비한다.

한글 이미지를 준비한다.

from PIL import Image
import pytesseract

pytesseract.pytesseract.tesseract_cmd = r'D:\Program Files\Tesseract-OCR\tesseract'

print(pytesseract.image_to_string(Image.open('English.png')))
#print(pytesseract.image_to_string(Image.open('Korean.png'), lang = 'kor'))

영문 이미지 결과.

한글 이미지 결과.

Console에서 아래 명령어로도 같은 결과를 얻을 수 있다.

tesseract English.png stdout

tesseract Korean.png stdout -l kor

stdout이 아닌 다른 이름으로 출력을 지정하면 그 이름의 텍스트 파일로 출력된다.

tesseract English.png result

※참고

2026.03.15 - [OpenCV] - [OpenCV] Tesseract OCR C++ 문자, 숫자 인식

저작자표시 비영리 변경금지 (새창열림)

'AI, ML, DL' 카테고리의 다른 글

[Scraping] 환율 정보를 SMS로 보내기 (3)	2024.01.02
[Scraping] 환율 정보 (0)	2024.01.02
[Python] CSV 분석 (0)	2019.01.20
[Python] JSON 분석, 추출, 변환 (0)	2019.01.18
Beautifulsoup XML 분석 (0)	2019.01.15

Posted by J-sean

Software Engineer English & Software Engineering Blog - Sean

Category

Recent Posts

Recent Comments

Tags

OCR with Tesseract on Windows - Windows에서 테서랙트 사용하기

'AI, ML, DL' 카테고리의 다른 글

티스토리툴바