최신 데이터 동향 및 향후 전망

한국어의 특성으로 보는 클로바X 성능 비교

정데만 2023. 8. 30. 16:24
728x90

GPT가 발표되면서 초거대AI라는 말이 생겨나고 빅테크업계에 파라미터 경쟁이 시작되었다. 파라미터의 개수가 초거대AI의 성능을 보여주는 지표가 되기 시작했고, GPT4는 어느덧 1조개에 달하는 파라미터를 가지고 있다.

 

AI의 파라미터는 뉴런을 연결하는 시냅스처럼 퍼셉트론(인공뉴런)을 연결하여 뉴런간의 정보를 전달하는 역할을 한다. 그래서 파라미터의 개수가 많다는 것은 같은 정보라도 뉴런 간의 소통을 통해서 더욱 다양한 정보를 해석할 수 있다는 것을 말하며, 인간이 성장하면서 경험에 따라 시냅스가 많아지는 것과 유사하다.

 

하지만, 인간도 경험이 많이 쌓일수록 새로운 지식에 대해 종전의 학습치를 갱신하기 어려운 것처럼 AI또한 파라미터가 많아질 수록 데이터를 학습하는 과정에서 조정해야하는 파라미터가 많아져 더 많은 컴퓨팅파워를 필요로 하게 된다.


파라미터 경쟁 → AI구축 비용 증가

 

챗GPT의 성공과 더불어 빅테크의 경쟁이 가속화되었고 이로 인해 단기적으로 봐도 고객용 검색엔진 뿐 아니라 오피스 제품과 같은 기업 솔루션에도 AI가 적용되기 시작했으니, 챗봇/AICC같이 종전에도 AI가 적용되던 분야는 빠르게 확장될 것으로 예상된다. 거창하게 특정 직업이 사라진다고 예측하지 않더라도 예전부터 시도했으나 한계가 있던 분야부터 당장 내년에 투자할 가능성이 높아지는 것이다.

 

그러나, 이렇게 성장에 예상됨에도 불구하고 일반 기업에서 AI를 구축하려면 장비를 갖추는 것부터 쉽지 않다. 당장 AI학습용 GPU만 보더라도 H100기준으로 작년 4700만원에서 6000만원까지 가격이 치솟았으며(23.4월 기준), 기존모델을 튜닝해서 사용한다해도 파라미터 개수가 많은 AI모델을 사용할 경우 안그래도 감가상각이 높은 전산장비에 엄청난 초기 투자를 감행해야 하는 것이다.


클로바스튜디오의 전략 

AI는 생산성과 직결되기 때문에 일부 산업에서는 당장 도태되지 않으려면 어쩔 수 없이 AI를 구축해야 할 수도 있다. 하지만 앞서 말한 초기 투자 비용은 어찌어찌 해결한다고 해도 전문인력을 확보하는 건 단순 비용으로만 해결할 순 없다.

 

AI개발 인력은 갑작스런 산업발전으로 경력자가 턱없이 부족하기도 하지만, 학교에서도 장비가 부족하다보니 관련 학과 졸업생의 AI 개발 경험이 부족하고, 설령 산학 등을 통해서 경험을 많이 해봤다고 해도 전문가로써 비즈니스(데이터)를 접목한 구축전략을 제시한다는 건 불가능에 가깝다.

 

네이버 하이퍼클로바X B2B솔루션

 

이러한 업계의 현실로 인해 네이버는 구축 인프라로 클라우드부터 하이브리드까지 단계별로 조정하여 초기비용을 줄여주고 학습인프라까지 지원하여 자사 언어모델을 활용할 수 있도록 해주겠다고 하는 것이다.

 

재밌는 건 B2B개발분야에서는 SK C&C와 협력하겠다고 하는건데, 얼마 전까지만 해도 AI인력 유출(관련기사)로 경쟁하던 기업이 손을 잡는다는 건 플랫폼과 기술력을 쥐고 있는 네이버와 AI반도체(사피온)와 B2B개발사를 운용하는 SK가 본진을 사수하기 위해 어쩔 수 없이 한 선택으로 비춰진다.


B2B에서 하이퍼클로바X의 효용성

 

네이버와 SK가 손잡고 이를 공략하려는 배경에는 자사 모델의 수준을 높이고 비즈니스 생태계를 구축하려는 네이버와 국내 AI시장을 점유하면서 AI반도체 성장을 견인하려는 SK의 전략이 포함되어 있을 것이다.

 

그러나, 이러한 전략은 하이퍼클로바X가 최소한의 성능을 내줬을 때나 가능한 이야기다. 현실적으로 GPT 3.5(1750억)보다는 파라미터가 많지만 최신 모델인 GPT4(1조개), 그리고 구글 PaLM2와 비교했을 때 적은 개수의 파라미터를 가지고 있을 것으로 추정되기 때문에 비슷한 수준의 알고리즘을 적용했다고 하더라도 전체 성능 측면에서는 떨어질 수 밖에 없다.

 

유일하게 기대할 수 있는 것은 파라미터를 모조리 한국어에 투자하고, 더 많은 데이터를 학습시켰다는 것인데 네이버는 한국어 데이터를 확보하면서 50년치의 뉴스데이터를 무단으로 사용했다며 신문협회에 항의를 받으면서(관련기사) 지난 4월 약관 개정 이후론 사용하지 않았다고 답변했으니, 같이 학습시킨 블로그 데이터 9년치도 약관 어딘가에 관련 조항이 포함되어 있다는 걸 스스로 알린 셈이다.

 

결국 이러한 조건을 종합해보면 한국어 성능이 뛰어나고 적은 파라미터를 가지고 있어서 학습비용은 적은 데다가 기술인력도 지원해주겠다고 하니 국내 기업이 활용하기에는 네이버가 좋은 조건을 가진 셈이다.


한국어의 특성에 따른 답변 예시

그럼, 실제 이러한 전략이 정말 효율적인지 간단한 실험을 한번 해보자.

 

한국어는 영어에 비해 상당히 높은 수준의 맥락체계를 가진 고맥락 언어에 해당한다. 고맥락 언어들은 일반적으로 문맥을 전제로 하기 때문에 주어가 생략되거나 표현이 간결해지며, 음운적인 특성으로 감정이나 상황을 표현할 수 있다.

 

다만, 이로 인하여 같은 문화권에 있지 않을 경우 의미를 이해하기 어렵고 추상적인 표현으로 인해 의미전달이 어려워지는 경우가 발생하며, 한국인이라면 문장의 어순을 바꾸더라도 전체 뜻을 이해하는데 어려움을 겪지 않을만큼 문맥에 익숙해지지만, 외국인들은 수시로 바뀌는 표현으로 인해 한국어를 배우는 데 어려움을 겪는다.

 

이러한 언어적 특성으로 인해 결국 은유적인 표현을 하거나 문장을 엉망으로 만들어도 언어모델이 이해하는지가 한국어 학습 성능을 테스트하는 방법이 되는 것이다.

 

<첫번째 상황 : 은유적인 표현>

 

한국어를 곧잘하는 외국인과 회의를 하다가 "벽에 부딪쳤다"라고 했다가 "안 다쳤어요?"라고 하는 바람에 웃음을 참지 못하고 한참을 어렵게 설명했던 경험이 있다. 이를 GPT3.5와 클로바X에 한번 적용해보자.

 

클로바X
GPT 3.5
GPT 4(뤼튼)

 

 

<두번째 상황 : 어순 변경>

 

한국어는 어순을 문법에 맞지 않게 바꿔도 맥락에 따라 이해가 가능하다. 어순을 바꾼 문장에 적합한 답변을 한다면 그만큼 다양한 한국어를 학습했다는 것을 의미한다.

 

클로바X
GPT 3.5
GPT 4(뤼튼)

<세번째 상황 : 신조어>

 

신조어는 누적 관점에서 보면 일반적인 표현대비 학습데이터가 적고 금방사라지기 때문에 얼마나 다양한 데이터를 확보했는지를 검증할 수 있는 방식이다. 

 

클로바X
GPT 3.5
GPT 4(뤼튼)

 

가설을 세우고 몇개의 문장을 테스트하지도 않았는데, 대체적으로 하이퍼클로바X가 우수한 성능을 보였다. 한국어에 치우친 편향된 실험이기는 하지만 비슷한 수준의 성능만 나와도 학습 효율성을 따져보고 도입 가능할텐데, 실제로 기업AI분야에서도 이러한 성능을 보인다면 예상보다 빠르게 국내 AI생태계를 장악하는게 가능할 것으로 보인다.


 

728x90