오픈 전부터 보도자료로 엄청나게 예열하더니 네이버가 드디어 어제(8.24) 하이퍼클로바X를 발표하고 선착순으로 베타테스터 인원을 받기 시작했다.(☞ 대기 등록하기)
서비스가 오픈된 후 실체가 드러날 때쯤 포스트를 작성하려고 생각했었는데, 발표된 내용 중 미처 예상하지 못했던 부분도 있길래 이해를 도울 겸 네이버가 구상하는 내용을 뒷받침할 만한 자료를 정리해보았다.
네이버와 구글의 사업구조 비교
네이버는 글로벌 빅테크와 비교해봐도 상당히 특이하면서 견고한 사업구조를 가지고 있다.
대부분의 빅테크들이 창업당시 가졌던 비즈니스 모델에서 크게 벗어나지 못하고 있는 반면에 네이버는 끊임없이 사업을 확장하면서 여러 분야에서 성과를 거두었고 빅테크에 견줄만한 서비스도 조금씩 만들어내고 있다.
아래의 네이버 전체 사업구조를 살펴보자.
같은 검색엔진으로 시작한 만큼 구글과 상당히 닮아있지만 국내를 기준으로 보면 소셜(블로그, 카페, 밴드, 라인 등)과 웹툰, 쇼핑 등 더 많은 영역에 걸쳐있을 것을 볼 수 있다.
그리고 국내에서 성장한 플랫폼을 이용하여 아직은 작지만 글로벌 네트워크도 구축하고 있으며, 웹툰과 메신저(라인)는 상당 부분 성과를 거두고 있다.
사실 구글과 네이버의 가장 큰 차이점은 이러한 부분보다 컨텐츠의 귀속성에 있다. 포스팅을 통해 몇 차례 언급한 적있지만, 구글은 검색을 통해서 웹사이트를 연결하고 애드센스를 이용해 광고를 판매한다.
이러한 비즈니스 구조로 인해 구글은 자체 컨텐츠 보다는 애드센스를 통한 영역 확대에 관심을 보인 반면, 네이버는 대부분의 서비스를 자사에 편입시킴으로써 플랫폼 내 컨텐츠 강화에 더욱 힘을 써왔다.
물론 구글이 소셜서비스 구축을 시도하지 않은 것은 아니지만 구글 Blogger만 보더라도 자사 서비스라고 해서 특별히 노출을 강화하는 모습은 보여주지 않는 등 매번 미지근한 태도를 보이며 실패를 거듭해왔다.
네이버는 구글과 달리 웹사이트를 연결하기 보다는 자체적인 서비스를 강화하는 쪽으로 성장해온 것인데, 이는 한국어라는 제약적인 환경에 기인하기도 하지만, 결국 누구보다 많은 한국어 컨텐츠를 직접 보유할 수 있게 된 것이다.
챗GPT = 위키 vs. 네이버 = 지식인
하이퍼클로바X 특장점은 한국어다. 네이버는 지식인을 비롯해 뉴스 50년치, 블로그 9년치에 달하는 데이터를 익혔다. 오픈AI 챗GPT와 비교하면, 하이퍼클로바는 6천500배 더 많은 한국어를 학습했다.(ZDNET)
LLM(언어모델)을 학습하는 데 있어서 가장 중요한 데이터는 다양한 경우의 수를 가진 고품질(전문성, 문법 등)의 글이다. 특히 질문과 답변으로 연결되어 있거나 하나의 주제로 맥락에 따라 연결된 글은 언어모델이 환각현상을 일으키지 않고 맥락에 맞는 답변을 하도록 하는데 가장 중요한 요소이다.
오픈AI가 챗GPT 데이터를 소개할 때 웹크롤링 4100억개, 웹텍스트 190억개, 책 120억개, 위키피디아 30억개의 데이터를 활용했다고 밝혔는데, 다국어로 구성되어 있다고는 하지만 영어와 달리 한국어는 이 만한 양의 데이터를 확보하는 건 불가능에 가깝다.
그래서 챗GPT가 나온 후 학계에서는 투자뿐 아니라 정책 등을 보완하여 한국형 언어학습 데이터를 구축해야 한다는 의견이 빈번했었는데, 책이나 뉴스 등을 통한 양질의 글뭉치는 저작권으로 인해 확보하는게 쉽지 않다.
그런 부분에서 네이버는 자체적으로 보유하고 있는 지식인, 블로그, 카페, 밴드를 통해 양질의 글뭉치를 확보할 수 있으며, 뉴스 데이터도 확보하기 쉬웠을 것이다.
데이터 생태계와 비즈니스 생태계
아울러 그는 "생성형 AI와 이에 기반을 둔 다양한 기술 프로덕트들의 중심에는 사용자, 판매자, 창작자의 경쟁력 향상에 있다"며 "네이버의 경쟁력은 다양한 서비스와 파트너들이 서로 연결되어 성장을 이끌고, 이는 다시 플랫폼의 성장으로 이어지는 '위닝루프' 구조에 있다. '하이퍼클로바X'는 이러한 위닝루프를 더욱 가속할 것"이라고 기대감을 드러냈다.(연합뉴스)
네이버 최수연 대표가 언급한 "위닝루프"는 결국 단순히 AI를 앞세우기보다는 생태계에 더 큰 초점을 맞추고 있는 것으로 보인다. 실제로 견고한 비즈니스가 구축되어 있지 않으면 경쟁력 있는 데이터도 만들어지지 않는다.
네이버는 이러한 관점에서 이미 NAVER AI RUSH 2023을 통해 이미 스타트업과 학생(학계)에 API와 개발환경을 제공하고 있으며, 금번 컨퍼런스에서도 단순히 소개나 시연이 아닌 사용자/창작자, 그리고 판매자/광고주와 기업으로 구분된 라인업을 중심으로 소개하고 있다.
먼저, 사용자/창작자에게는 LLM기반으로 사용자에게 제공된 서비스는 챗GPT(=CLOVA X) / 구글마기(=CUE:) / 노션AI(=CLOVA for Writing) / AI플러그인(=버티컬 서비스)를 전부 오픈할 모양이다.
전선이 넓어지는 게 걱정은 되지만 해당 서비스들이 현재까지 나온 LLM기반 핵심서비스이기도 하고, 대고객서비스가 다양하게 구축되어 있어야 생태계가 동작하니 어쩔 수 없는 선택이기도 하다.
두번째, 판매자/광고주 서비스 중 눈에 띄는 건 광고주에 제공되는 CLOVA for AD가 사용자와 AI 대화 중 적절한 맥락에서 광고를 제공한다는 부분이다. 챗GPT가 오픈하고 나서 사람들이 가장 우려했던 부분은 대화형AI가 검색을 대체할 수도 있다는 것이었다.
우려와 달리 이러한 일은 발생하지 않았지만, 앞으로 충분히 벌어질 수 있는 일이며, 가장 크게 타격을 입는 건 검색 결과에 연결된 수많은 광고들로 이는 단순히 네이버의 몰락으로만 끝나는 게 아니라 검색광고에 의지하는 수 많은 업체들까지 연쇄적으로 타격이 발생할 수도 있다.
네이버의 생성형 AI기반 광고는 추후 검색플랫폼이 대화형AI로 이동되었을 경우 자연스럽게 광고를 노출할 수 있는 기능을 사전에 안배되 것으로 보여지며, 메신저(라인)을 통해서 대화형서비스를 운영해본 경험을 토대로 훌륭하게 성장시킬 수 있을 것으로 생각된다.
하지만, 당장에는 개편된 네이버앱의 클립(숏폼), 홈피드(블로그, 카페 등)에서 먼저 사용될 것으로 보인다.
네이버앱에 숏폼과 피드를 강화하는 건 그동안 데스크탑에서 검색과 뉴스를 중심으로 운영했던 것과 달리 모바일은 소셜을 강화하려는 것처럼 보이며 숏폼과 피드는 개인화 알고리즘의 역할이 중요하기 때문에 CLOVA for AD가 이러한 역할을 하지 않을까 추정해볼 수 있다.
참고로 새로운 앱의 주력 중 하나인 "Na."는 페이서비스로 학생증, 멤버십, 페이로 연결된다.
마지막으로 기업에 LLM모델을 직접 제공하고 학습시킬 수 있도록 스튜디오와 클라우드를 제공하는 부분은 빅테크업체들과 비교해도 나쁘지 않은 환경이다.
이와 유사한 환경을 제공하는 구글과 MS 등은 모두 클라우드 기반으로 서비스를 제공하여 데이터 유출에 불안정한 모습을 보여주는 반면, 네이버는 비슷한 환경과 더불어 고객사 데이터센터에서도 AI를 학습시킬 수 있으니 데이터를 클라우드에 올리지 않고도 성능 좋은 언어모델을 사용할 수 있는 것이다.
이러한 방식은 메타의 LLaMA공개 전략처럼 궁극적으로 하이퍼클로바X의 완성도를 높여줄 것이다.
플랫폼 장악력 → 데이터 경쟁력
최 대표는 "네이버는 구매, 예약, 재탐색까지 광범위한 데이터를 확보할 수 있다"며 "네이버의 대규모 언어모델은 매일 광범위하게 생산되고 갱신되는 데이터를 학습한 만큼 생성형 AI 시대에서 누구도 보여줄 수 없는 경쟁력을 가져올 것"이라고 바라봤다.(DEALSITE)
네이버는 자체 컨텐츠와 서비스를 중심으로 운영되기 때문에 구글보다 플랫폼 종속력이 강력하다.
네이버와 협업하지 않으면 살아남기 어렵다는 말이 나올 정도인데, 네이버가 자사 서비스 전반에 AI를 적용하고 기업에 모델을 제공하려는 것은 강력한 비즈니스 생태계를 통해 자사 AI를 산업 전반에 확대하고 이를 기반으로 데이터 경쟁력을 확보하려는 것으로 보인다.
비즈니스 장악력이 강하기 때문에 일부 업종에서는 경쟁사를 견제하기 위해서라도 네이버가 제시하는 표준에 따르지 않을 수 없을텐데. 이러한 면이 너무 부각되면 기술보다 비즈니스로 이 상황을 모면하려는 것처럼 보일 수도 있겠지만, 그동안 꾸준히 기술을 개발해왔고 이를 공유하는 것이기 때문에 충분히 환영받을 수 있다고 생각한다.
'최신 데이터 동향 및 향후 전망' 카테고리의 다른 글
국내 초거대 AI 구축에 대한 냉정한 현실 (104) | 2023.09.06 |
---|---|
한국어의 특성으로 보는 클로바X 성능 비교 (100) | 2023.08.30 |
메타의 행보로 바라보는 플랫폼의 LLM(거대언어모델) 활용 전략 (59) | 2023.08.11 |
앤드류 응 교수의 데이터 중심 AI(Data-centric AI) (83) | 2023.07.26 |
원하는 정보를 찾는 방법과 AI검색엔진 시대의 도래 (66) | 2023.07.17 |