데이터 전쟁

네이버 블로그 20주년과 자연어 처리의 변천사

정데만 2023. 11. 4. 19:56
728x90

 

 

네이버 블로그 20주년의 숨겨진 의미

인류의 역사에서 데이터가 중요하지 않은 시기는 없었지만, 빅데이터와 AI기술이 발달하면서 데이터의 활용 범위는 전례 없이 확대되었다. 특히 각종 데이터가 AI학습에 활용되기 시작하면서 구하기 어려운 정보나 지식뿐 아니라 일상생활의 데이터까지 높은 값어치가 매겨지면서 빅테크 기업들은 저마다의 방법으로 데이터를 모으고 있다. 

 

이러한 흐름에서 네이버 블로그 20주년 캐치프레이즈인 "기록이 쌓이면 ○○된다"는 단순히 감성을 자극하는 문구라기 보다는 상당히 노골적이면서 절박하기까지 한 결의문으로 보인다.

 

 

 

그 간 네이버 블로그는 사용자를 유입시키기 위한 서비스이자 블로거와 이웃을 활용한 소셜네트워킹의 수단, 그리고 검색용 콘텐츠로써 활용되었다. 20주년 페이지에 표시되어 있는 각종 수치들은 이러한 기여도를 나타내고 있다.

 

하지만, 캠페인는 빠져있는 가장 큰 가치, 이미 많은 사람들이 알고 있는 데로 네이버는 AI학습에 블로그 데이터를 활용하고 있다. 그리고 이러한 부분이 네이버가 생성형 AI 경쟁에서 국내 기업 중 가장 큰 두각을 드러내는 이유이기도 하다.

 

21년에 공개한 내용이기는 하지만 네이버가 AI학습에 사용한 블로그 데이터는 2,736억 토큰(단어)으로 전체 학습데이터 5,618 토큰 중 49%를 차지하고 있으며, 이렇게 구축한 데이터는 무려 1.96TB이며, 뉴스로 치면 50년 치에 해당한다.(관련 기사)

 

물론 이렇게 데이터를 확보하는 것에 대해 논쟁이 생기고 있지만, 약관에 따라 적법하게 수집된 것이라 오픈AI처럼 엄청난 비용을 지불하거나 모델 사용을 철회해야 할 만큼의 위협 요소는 없으며, 네이버라는 든든한 플랫폼이 존재하는 한 앞으로도 계속 최신 데이터를 확보할 수 있을 것이다.

 

네이버의 지식체계는 국립국어원이나 위키피디아를 이용하거나 일일이 계약을 맺어 데이터를 수집하는 모델과 근본적인 차이를 가지고 있으며, 이러한 모델들이 절대 이겨낼 수 없는 본질적인 경쟁력이기도 하다.


자연어처리(NLP)의 변천사

영화에서 외계인이나 원시인을 만나면 자신을 가르키며 이름을 말하고 먹는 시늉을 하며 "먹는다"라고 말하는 장면이 자주 나온다. 이러한 클리셰는 실제로 언어학자들이 자주 말하는 언어의 태동과 규칙의 형성과 연관되어 있는 내용이다.

 

아기는 엄마라는 개체를 처음으로 인지한 후 자연스럽게 먹이를 주는 존재이며, 안락함을 주는 인격체로서 의미를 추가해 나간다. 이는 사물을 행동이나 속성뿐 아니라 주변에 끼치는 영향으로 인식하는 것으로 언어 모델이 토큰(데이터의 최소단위, 단어 등)의 의미를 찾아나가는 과정과 비슷하다.

 

인간이 유년기부터 사과는 맛있다. 사과는 빨갛다. 사과는 아삭하다 등의 문장을 반복적으로 배우면서 단어에 대해 정의해 나가는 것처럼 AI도 다양한 문장을 학습하면서 토큰의 의미를 찾아나간다. 

 

다만, 동일한 단어가 전혀 다른 의미로 사용될 경우, 예를 들어 철수가 영희에게 사과하고 있다 등의 이제까지 학습한 단어의 용도와 전혀 다른 쓰임새가 있을 경우, 인간이 실수를 범하듯이 AI도 오류를 일으키며, 이러한 이유 때문에 최대한 다양한 수식어로 포장된 단어를 학습해야만 적재적소에 단어를 활용할 수 있다.

 

자연어처리는 이러한 언어의 특성을 이해하면서 발전해왔으며, 그간 여러 가지 변화가 있었지만 크게 구분하면 다음과 같은 3가지 형태로 나눌 수 있다.

 

word cloud

 

1) TA(Text Analisys)

초기 빅데이터 분석가들이 자연어에서 정보를 수집한 방법은 "빈도"를 계산하는 방식이었다. 지금은 거의 독립적으로 발전하고 있지만, 초창기 데이터 분석과 AI알고리즘은 통계학에 많이 의존했는데, 통계학은 빈도를 요약하고 해석하는데 특화되어 있어서 인터넷에서 수집한 뉴스와 소셜 등 각종 텍스트 데이터를 해석하는데 아주 유용하게 활용되었다.

 

단어의 개수만 파악하는 워드클라우드부터 문서 간의 빈도에 따라 중요한 단어를 추출하는 TF-IDF, 문장 간 공통 단어를 이용해 주제를 추출하는 LDA까지, TA는 단어의 빈도를 계산하여 핵심 단어를 추출하는 방식으로 발전해왔으며, 최근에도 대용량 텍스트를 분석하거나 검색엔진이 웹사이트를 찾을 때 활용하고 있다. 

 

word2vec

 

2) Word Embeding

임베딩(embeding)은 "끼워넣기"라는 의미로 말 그대로 단어를 적정한 공간에 끼워넣는끼워 넣는 것을 말한다. 단어를 다차원의 공간에서 적절한 위치에 끼워 넣는다는 의미로 사용되었으며, 실제로는 단어마다 여러 개의 숫자로 구성된 행렬로 만들어 유사한 단어를 찾는 방식이다.

 

예를 들어 사과와 바나나는 모두 과일, 맛있다, 달다라는 수식어를 공통적으로 가지고 유사한 공간에 배치되어, 수식어가 다른 에어컨, 자동차 등과 배치되는 값을 가지게 되는 것이다.

 

대표적인 알고리즘은 Word2Vec(워드투벡)으로 문장을 단어별로 잘라낸 후 딥러닝 알고리즘으로 주변 단어를 예측하게 하면 공통적인 수식어를 가진 단어끼리 비슷한 벡터(다차원 행렬) 값을 가지는 것에 착안하여 만들어졌다.

 

워드 임베딩을 통해 산출된 단어별 행렬값은 단어의 유사도를 계산하기 쉽다는 장점 때문에 초창기 챗봇에서 질문과 답변을 구분하는데 활용되었으며, 현재도 유사한 문서를 분류하거나 특정한 문장을 모니터링하는데 활용되고 있다.

 

transformer - encoder/decoder

 

3) Transfomer

한국인에게는 변신 로봇을 먼저 떠올리게 만드는 트랜스포머(transformer)라는 이름은 실제로도 변환기라는 의미로 사용되었으며, 최초에는 단어의 개수와 순서가 다른 언어 간 번역을 위해 고안된 알고리즘이었다.

 

문장의 순서를 이해하지 못하는 Word2Vec의 단점을 개선하기 위한 다양한 시도 끝에 나온 산출물로써 순서가 있는 데이터를 예측하는 알고리즘을 이용하여 이전 또는 이후의 단어를 예측하는 방식으로 단어의 벡터값을 계산한다.

 

챗GPT의 경우 트랜스포머 모델의 이후 단어 예측 부분을 차용하여 특정 단어를 입력하면 이후 단어를 예측하는 방식으로 동작하며, 이를 통해 질문을 입력하면 답변을 예측하는 방식으로 대화를 구성해 나간다.

 

이러한 특징 때문에 처음 트랜스포머 알고리즘을 소개할 때는 맥락을 이해하는 알고리즘으로 자주 안내되었으며, 트랜스포머로 학습된 단어의 행렬에는 워드투백과 달리 순서값도 포함되어 있다.


 

앞으로의 발전 방향

철학자들이 인간의 인지와 이해를 다양하게 해석하는 것처럼, 과학자들도 저마다의 방법으로 데이터를 해석하고 뇌의 동작하는 원리를 짐작해 가면서 가설에 따라 알고리즘을 만들어 내고 있다.

 

본질적인 원리와 규칙은 모른 채 인간의 동작을 모방한다는 한계점이 과학자들로 하여금 트랜스포머 알고리즘을 단순한 발명품이라고 깎아내리게 만들고 있지만, 이러한 인지가 오히려 끊임없이 개선하고 발전하기 위한 노력으로 이어지고 있다.

 

하지만, 당분간 자연어 처리는 알고리즘의 발전보다 이를 보완하기 위한 구조에 집중할 것으로 보인다. 이전에 언급했던 오픈AI의 슈퍼정렬(관련 포스트)과 MoE(관련 포스트), 그리고 RAG모델(검색 기반 증강 언어 생성모델)은 모두 트랜스포머모델이 가진 문제점을 보완하기 위한 수단으로 활용되고 있으며, 트랜스포머 모델은 그대로 두고 다른 알고리즘으로 이를 보완하면서 언어모델을 발전시키고 있다.

 

트랜스포머모델이 나온 지 벌써 6년이나 지났지만(2017년 구글 발표), 그간 알고리즘 자체의 개선은 크지 않았으며 GPT가 버전이 올라간 것도 알고리즘이 아닌 RLHF(reinforcement learning with human feedback)라는 학습 방법과 초거대AI라는 컴퓨팅 파워의 확대였다.

 

신기술이 나올 때마다 논문을 발표하던 구글도 더 이상 새로운 논문이 나오지 않고, 실용성에 바탕을 두고 있는 오픈AI도 향후 4년간은 슈퍼정렬에 자원을 투입하겠다고 발표한 만큼, 당분간 알고리즘 개선은 요원하다고 보는 편이 맞다.


언어모델의 활용 범위

앞서 3단계에 걸친 자연어처리의 발전을 이루고 트랜스포머를 마지막으로 자연어처리 방식은 정체된 것처럼 보이지만, 실질적으로는 현시점에 필요한 기술이 어느 정도 완성되었다고 보는 편이 맞다.

 

단순히 뉴스/소셜데이터를 분류하거나 검색하기 위한 기술에서 이제는 문서를 요약하거나 비교하고, 심지어 원하는 방향으로 문장을 만들어내기까지 하니 대화와 생산성도구, 그리고 언어기반 인터페이스까지 영역을 확장하고 있다.

 

그야말로 LLM에 의한 비즈니스가 본격적으로 시작되었으며, 이에 따른 엄청난 경제적 이득이 예상되는 가운데 이제는 플랫폼이 AI를 활용하는 것이 아니라 AI를 위해 플랫폼이 필요한 시대가 온 것이다.

 

이러한 흐름으로 인해 블로그를 학습한 AI가 다시 블로그를 작성하는 데 사용되는 아이러니한 흐름을 만들어 낸 것이다.


 

728x90