쉽게 쓴 데이터·AI 지식 25

OCR(광학 문자 인식)기술은 어떻게 발달하고 있을까?

생활 속에서 널리 쓰이는 OCR 최신 스마트폰은 카메라를 켜고 글자가 있는 곳에 가져가면 문서 모양 아이콘 [=] 이 나타나면서 글자를 자동으로 인식한다. 별도 앱을 활용해서 명함과 문서를 찍으면 글자 부분만 인식해 자동으로 등록해주기도하고, 자동차 주행거리를 찍으면 보험사앱에서 주행거리를 자동으로 인식하여 보험료를 할인해주기도 한다. 예전에는 프린터기 구매 시 번들로 제공되거나 유료로만 구할 수 있었으나 성능마저 형편없었던 문자인식 프로그램이 어떻게 이렇게까지 자연스럽게 녹아들 수 있었을까? OCR기술의 구조 OCR기술은 생각보다 오래되었다. 지금으로부터 무려 100여년 전인 1928년에 오스트리아에서 포토 센서를 활용한 패턴 매칭 기반 Reading Machine을 만들었으며, 이를 최초의 OCR기기..

금융마이데이터서비스(통합 자산 조회)와 미 가입 시 대안

금융권의 데이터 유출 사고 2011년 현대캐피탈과 삼성카드에서 대규모 고객정보 유출사고가 발생했었다. 그 이전에도 쇼핑과 포털사이트 등에서 회원정보가 유출되는 사건은 있었으나 금융데이터가 유출되는 건 피해규모가 다르기 때문에 더 큰 파장으로 번지게 되었다. 이 사건을 기점으로 금융권의 보안은 더욱 엄격하게 관리되면서, 업무와 고객 네트워크자체를 분리해버리는 망분리와 전산 시스템 접근 권한 및 기기 통제 등을 시행하고 있으며, 신용정보기관 등을 제외하고는 고객정보 공유자체를 통제하고 있다. 그러나 이러한 엄격한 통제가 시행된 후 고객이 여러 금융권에 가지고 있는 자산을 각각 인증해야 한다거나 관련 자산을 찾지도 못하는 상황까지 발생하는 등 여러 불편사항도 동반되었다. 여기에 대한 대안으로 나온 것이 당시 ..

이미지 3장으로 알아보는 AI학습(가중치와 편향)

AI학습에는 엄청난 리소스가 발생한다. AI를 사용할 때는 리소스가 많이 들지 않지만 AI를 학습시킬 때는 모델의 크기에 따라 리소스도 많아진다. 챗GPT를 만든 오픈AI도 학습 비용을 감당하기 어려워지자 마이크로소프트와 협업하기 시작했고, 구글은 바드를 가르치기 위해 자사 클라우드를 외부에 임대하지 않고 AI학습에 투입해야만 했다. AI는 왜 학습할 때 엄청난 리소스를 필요로 할까? 결론만 간단히 말하자면 "학습할 때 연산을 많이 하기 때문"이다. 하지만, 기업에서 AI를 도입할 때 또는 챗GPT를 둘러싼 기업의 경쟁을 지켜볼 때 자주 언급되는 사전학습과 추가 학습, 그리고 프롬프트에 대해 궁금하다면, 최대한 쉽고 자세하게 설명하기위해 준비한 아래 3장의 이미지를 봐주기 바란다. ※ 준비한 이미지는 원..

데이터 분석 실무의 핵심! 드릴 다운(Drill-Down)

인간은 새로운 지식나 정보를 처리할 때 개체를 나누고 쪼개어 종전에 알고 있던 사실과 비교하여 이해한다. 나눌 분(分)과 쪼갤 석(析)으로 이루어진 분석(分析)이란 단어는 인간의 해석 방식을 그대로 반영하는 단어로, 인간은 성장하면서 개체가 남긴 흔적이나 사건에 대한 관찰 기록을 자연스럽게 나누고 숨겨진 속성을 파헤쳐서 새로운 정보를 습득한다. 분석이 인간의 기본적인 정보처리 능력이라서 그런건지 실무에서도 업무를 오래한 직장인은 분석 방법을 따로 배우지 않아도 엑셀에 기록된 자료를 이리저리 파헤치고 인사이트를 발굴하지만, 어떤 업무든 선배들이 남긴 요령이 있기 마련이다. 다만, 그 요령을 배우려고 관련 학문을 뒤적거리면 첫장부터 수학과 통계학이 자리잡고 있어서 엄청난 입장료를 지불하게 만들거나 진입을 포..

AI 추가 학습의 종류와 리소스(Fine-Tuning, Prefix tuning, LoRa)

초거대AI의 파라미터 GPT와 같은 초거대 AI는 데이터를 학습하면서 AI를 구성하는 최소 단위의 모델 "퍼셉트론"의 계산 결과를 연결해주는 엄청난 양의 파라미터를 가지고 있다. 인간의 뇌는 뉴런이 처리한 정보를 시냅스가 전달하고 집적된 신호를 바탕으로 판단을 내리는 데, AI 또한 퍼셉트론(인공 뉴런)이 정보를 처리하면 파라미터(시냅스 역할)가 이를 전달하여 최종 예측을 진행한다. 인간이 성장할 수록 시냅스를 늘려나가듯이 초거대 AI도 데이터와 처리량이 많아지면서 파라미터를 지속 확대해 왔는데, GPT 4를 기준으로는 전작에 비해 6배에 달하는 1조 개까지 도달하였다. 다만, 기존 AI의 파라미터에 비해 많을 뿐 인간의 시냅스(성인 기준 100조 개)에 비하면 아직 부족하다는 의견도 있으며, AI의 성..

음성 합성 기술 - TTS(Text To Speech, 텍스트의 음성 전환)

TTS의 정의와 적용 현황 음성 합성(Speech synthesis 또는 Text To Speech) 기술이란 인간의 말소리를 합성하는 기술로서 텍스트를 입력하면 음성의 발음, 속도, 호흡, 운율 등을 추정하여 녹음해둔 음성을 조합하거나 생성하는 기술이다. 1930년대 텍스트를 입력하면 이에 맞춰 피아노를 동작시키는 아이디어에서 시작하여 80년대부터 본격적으로 상용화되었으며 90년대에 이르러서는 음성 인식(STT, Speech To Text)과 더불어 활용도가 넓어지기 시작하였다. 초기에는 시각장애인을 위한 기술 위주로 시작하였으나 상용화되면서 안내 음성, ARS 등 기계음의 영역에서 이용되었으며, 현재는 AI를 기반으로 자연스러운 음성을 만들어짐에 따라 오디오북, 게임, AI앵커 등과 같은 성우의 역할..

고객 이탈 분석과 관리를 위한 퍼널 분석의 종류

퍼널분석(Funnel Analysis)은 고객이 방문부터 최종과정에 이르기까지의 단계별로 이탈하는 현상을 밑으로 내려갈수록 좁아지는 깔대기(퍼널, Funnel)모양에 빗대어 만들어진 분석방법이다. 단순하게 방문하는 순간부터 가입까지 도달하는 과정을 나누어 단계별 고객 수를 세는 것도 의미있지만, 각 단계들이 고객 행동 관점에서 어떤 의사결정이 필요한지, 그래서 왜 다음 단계로 넘어가지 않는지 알기 위해서는 마케팅 관점에서 퍼널 분석 모델을 선택하고 자사 프로세스에 적용해볼 필요가 있다. 퍼널 분석 기본 모델(AIDA) 퍼널 분석은 여러가지 모델이 있어서 시대에 따라 점점 발전한 것처럼 보이지만, 고객 행동을 분석하는 것이 목적이다보니 새로운 채널과 구매방법이 등장할 때마다 이에 따른 모델이 만들어지면서 ..

음성 인식 기술 - STT(Speech To Text, 음성의 텍스트 전환)

음성인식의 발전 과정 음성인식은 Speech Recognition 또는 STT(Speech To Text)으로 불리며, 인간의 육성을 인지하여 문자로 전환(기록)하는 기술을 말한다. 음성을 텍스트로 전환해주는 기술은 1950년대부터 숫자를 인지하는 것부터 시작하여 단어와 문장을 구분하는 형태로 발전하였으나 정체기에 있다가 AI를 활용한 예측기술이 도입되고 2010년 구글에서 Voice Speech를 발표하면서 각광받기 시작하였다. 구글과 애플은 기본적으로 음성입력장치가 부착되어있고 상시적으로 네트워크가 연결된 스마트폰을 통해 사용자들의 막대한 데이터를 수집하였으며 개인별로 다른 억양과 말투, 습관 등을 학습할 수 있었다. STT를 기반으로 한 음성 명령 체계는 TTS(Text to speech, 음성합성..

AI학습의 장애물, 암묵적 지식에 대한 정의와 해결 방법

1. 정의 암묵적 지식(Tacit Knowledge)이란 문자나 언어로 표현하기 어려운 지식으로, 명시적 지식(Explicit Knowledge)과 상반된 개념이다. 특정 분야의 전문가들이 가지고 있는 통찰력이나 상황 대처에 대한 능력은 오랜 시간 동안 서서히 체득되어 타인에게 전달하기 어려운 경우가 많은데, 이러한 경우 보통 암묵적인 지식이 많이 포함되어있다. 또한, 자전거를 탈 때 '한쪽으로 치우치지 않게 균형을 잡아야 한다'와 같이 명시적으로는 서술할 수 있지만, 제대로 전달하기 어려운 경우 암묵적인 지식으로 분류할 수 있다. 암묵적 지식은 가지고 있는 당사자도 스스로 인지하지 못하거나 쓸모 없다고 생각하는 경우도 많은 데, 흔히 상식이라 생각하는 단편적 지식이나 문화에 따라 형성된 자연스러운 행동..

언어모델에 프롬프트 엔지니어링이 필요한 이유

대화의 맥락 변화 인간의 대화는 질문과 답변을 통해 수없이 많은 경로로 이어지며, 대화 도중에 주고 받은 정보를 학습하기도 하면서 맥락을 형성한다. GPT와 같은 언어모델은 이전의 챗봇들과 달리 대화가 이어지더라도 이에 맞는 답변을 하기 때문에 마치 맥락을 이해하는 것처럼 보이지만, 사실 대화를 통째로 학습하여 앞선 문장과 연결된 답변을 생성하는 것이다. 이러한 특성으로 인해 챗GPT와 구글 Bard는 맥락에 맞지 않는 대화를 이어나가면 유사한 데이터를 찾지 못해 엉뚱한 답변을 하거나 환각현상(거짓 답변)을 일으킨다. 대화형AI에서 원하는 답변을 얻기 위해서는 언어모델이 학습한 다양한 텍스트 데이터를 탐색하고 이에 맞는 문장을 생성할 수 있도록 풍부한 키워드가 포함된 맥락적인 프롬프트(질문, 명령)를 입..

반응형