생활 속에서 널리 쓰이는 OCR
최신 스마트폰은 카메라를 켜고 글자가 있는 곳에 가져가면 문서 모양 아이콘 [=] 이 나타나면서 글자를 자동으로 인식한다.
별도 앱을 활용해서 명함과 문서를 찍으면 글자 부분만 인식해 자동으로 등록해주기도하고, 자동차 주행거리를 찍으면 보험사앱에서 주행거리를 자동으로 인식하여 보험료를 할인해주기도 한다.
예전에는 프린터기 구매 시 번들로 제공되거나 유료로만 구할 수 있었으나 성능마저 형편없었던 문자인식 프로그램이 어떻게 이렇게까지 자연스럽게 녹아들 수 있었을까?
OCR기술의 구조
OCR기술은 생각보다 오래되었다. 지금으로부터 무려 100여년 전인 1928년에 오스트리아에서 포토 센서를 활용한 패턴 매칭 기반 Reading Machine을 만들었으며, 이를 최초의 OCR기기로 보고 있다.
현재의 OCR기술은 1985년 HP에서 개발한 Tesseract OCR이 모체이며, 2005년에 오픈소스로 공개되었고2006년부터 구글이 이어받았다.
OCR기술은 크게 Text detection(문자 찾기)와 Text recognition(문자 매칭)으로 구성되어있다.
먼저, Text detection은 이미지에서 문자가 있는 영역을 찾아낸 후 글자가 어떤 형식으로 구성되어 있는 지 파악하는 부분으로 글자의 방향과 배치(종/횡, 왼쪽부터 시작 등) 등을 파악하는 부분이다.
그리고, Text recognition은 이렇게 찾아낸 글자가 실제 어떤 문자에 해당하는 지 분류하는 역할을 담당한다.
해당 기술들은 초기 패턴기반 알고리즘이 주로 사용되었으나, 딥러닝을 적용하여 CNN과 RNN을 결합된 CRNN을 주로 사용하였으며, 최근에는 챗GPT에 적용된 Attention 및 Transformer알고리즘을 활용하기 시작하였다.
OCR의 활용범위 확대
OCR은 자체로도 유용한 AI지만, 인간이 축적한 데이터와 시스템(문서)를 그대로 활용할 수 있다는 부분에서 다른 AI를 보조하는 역할을 충실히 하고 있다.
이미지 형태로만 남아있는 문서에서 AI 학습용 데이터로 추출하거나, 자율주행 AI가 표지판을 인식하는데 활용될 수 있으며, 멀티모달 AI의 문자 정보 추출 부분을 담당할 수도 있다.
다만, 확장분야로 넘어가면 문자인지와는 다른 기술 영역으로 넘어가는데, 이는 대부분의 일반 소비자들은 단순히 문자만 인지하길 원하는 것이 아니라 스캔한 문서를 모양 그대로 복원하길 원하기 때문이다.
우선 문서 내 표를 해석하기 위한 Table OCR이라는 분야가 탄생하였다. Table OCR은 표를 워드나 엑셀에서 그대로 구현하는 것 뿐 아니라, 장부 형태의 문서를 일괄 스캔하여 데이터화 한 후 검색할 수 있는 기능까지 제공한다.
또한, 그래프는 Chart OCR이라는 분야로 나눠져 단순히 모양을 복원하는 것이 아닌 차트에서 데이터를 어떻게 추출(해석)할지 연구되고 있으며, 차트 상의 정보를 텍스트로 전환하는 Chart to Text기술이 널리 쓰인다.
'쉽게 쓴 데이터·AI 지식 > AI' 카테고리의 다른 글
자연어 검색에 쓰이는 기술과 AI검색엔진 (108) | 2023.10.08 |
---|---|
인간처럼 학습하는 AI로 가기 위한 멀티모달 기술 (75) | 2023.07.13 |
이미지 3장으로 알아보는 AI학습(가중치와 편향) (65) | 2023.06.28 |
AI 추가 학습의 종류와 리소스(Fine-Tuning, Prefix tuning, LoRa) (30) | 2023.06.21 |
음성 합성 기술 - TTS(Text To Speech, 텍스트의 음성 전환) (64) | 2023.06.20 |