쉽게 쓴 데이터·AI 지식/AI

OCR(광학 문자 인식)기술은 어떻게 발달하고 있을까?

정데만 2023. 7. 10. 17:47
728x90
 

 

 

생활 속에서 널리 쓰이는 OCR

 
최신 스마트폰은 카메라를 켜고 글자가 있는 곳에 가져가면 문서 모양 아이콘 [=] 이 나타나면서 글자를 자동으로 인식한다.
 
별도 앱을 활용해서 명함과 문서를 찍으면 글자 부분만 인식해 자동으로 등록해주기도하고, 자동차 주행거리를 찍으면 보험사앱에서 주행거리를 자동으로 인식하여 보험료를 할인해주기도 한다.
 
예전에는 프린터기 구매 시 번들로 제공되거나 유료로만 구할 수 있었으나 성능마저 형편없었던 문자인식 프로그램이 어떻게 이렇게까지 자연스럽게 녹아들 수 있었을까?
 


출처 : 매일신문(2011)

 

OCR기술의 구조

 
OCR기술은 생각보다 오래되었다. 지금으로부터 무려 100여년 전인 1928년에 오스트리아에서 포토 센서를 활용한 패턴 매칭 기반 Reading Machine을 만들었으며, 이를 최초의 OCR기기로 보고 있다.
 
현재의 OCR기술은 1985년 HP에서 개발한 Tesseract OCR이 모체이며, 2005년에 오픈소스로 공개되었고2006년부터 구글이 이어받았다.
 
OCR기술은 크게 Text detection(문자 찾기)와 Text recognition(문자 매칭)으로 구성되어있다.
 
먼저, Text detection은 이미지에서 문자가 있는 영역을 찾아낸 후 글자가 어떤 형식으로 구성되어 있는 지 파악하는 부분으로 글자의 방향과 배치(종/횡, 왼쪽부터 시작 등) 등을 파악하는 부분이다.
 
그리고, Text recognition은 이렇게 찾아낸 글자가 실제 어떤 문자에 해당하는 지 분류하는 역할을 담당한다.
 
해당 기술들은 초기 패턴기반 알고리즘이 주로 사용되었으나, 딥러닝을 적용하여 CNN과 RNN을 결합된 CRNN을 주로 사용하였으며, 최근에는 챗GPT에 적용된 Attention 및 Transformer알고리즘을 활용하기 시작하였다.

 


 

OCR의 활용범위 확대

 

OCR은 자체로도 유용한 AI지만, 인간이 축적한 데이터와 시스템(문서)를 그대로 활용할 수 있다는 부분에서 다른 AI를 보조하는 역할을 충실히 하고 있다. 
 
이미지 형태로만 남아있는 문서에서 AI 학습용 데이터로 추출하거나, 자율주행 AI가 표지판을 인식하는데 활용될 수 있으며, 멀티모달 AI의 문자 정보 추출 부분을 담당할 수도 있다.
 
다만, 확장분야로 넘어가면 문자인지와는 다른 기술 영역으로 넘어가는데, 이는 대부분의 일반 소비자들은 단순히 문자만 인지하길 원하는 것이 아니라 스캔한 문서를 모양 그대로 복원하길 원하기 때문이다.
 
 

여러 요소의 문서 인지기능 제공(ABBYY OCR 프로그램)

 
우선 문서 내 표를 해석하기 위한 Table OCR이라는 분야가 탄생하였다. Table OCR은 표를 워드나 엑셀에서 그대로 구현하는 것 뿐 아니라, 장부 형태의 문서를 일괄 스캔하여 데이터화 한 후 검색할 수 있는 기능까지 제공한다.
 

Table OCR

 
또한, 그래프는 Chart OCR이라는 분야로 나눠져 단순히 모양을 복원하는 것이 아닌 차트에서 데이터를 어떻게 추출(해석)할지 연구되고 있으며, 차트 상의 정보를 텍스트로 전환하는 Chart to Text기술이 널리 쓰인다.
 

 


728x90