쉽게 쓴 데이터·AI 지식/AI

GPT4는 GPT3를 8개 합쳤다? 차세대 LLM의 해법이 된 MoE

정데만 2023. 10. 31. 09:13
728x90

GPT4는 GPT3 8개로 구성?

조금 지난 떡밥이지만 올해 6월 미국 천재 해커 조지 호츠가 GPT 4는 GPT 3규모의 모델 8개를 엮어서 파라미터가 1조개 인척하는 트릭을 썼다고 주장했다. 물론 이 내용은 오픈AI가 모델에 대한 세부 정보를 공개하지 않아서 공식적인 내용은 아니지만, 당시 여러 전문가들에게 이 가설을 설득력있게 받아들였다.

 

게다가 얼마 전 오픈AI가 지난해 말부터 GPT5에 해당하는 '아라키스(Arrakis)'라는 모델 개발을 진행했다가 올여름에 폐기했다는 소식이 나오면서 해당 모델에 MoE를 적용했었다는 사실도 함께 알려졌다.(관련 기사)


MoE모델이란

MoE는 Mixture of Expert의 약자로 문장 그대로 "전문가의 혼합"을 말한다. LLM에서는 특정 분야의 지식을 집중적으로 학습한 Expert AI를 결합하여 가장 좋은 답변을 채택하거나 혼합하여 최종 답변을 생성해 내는 방식으로 구현된다.

 

이렇게 하면 성능 뿐 아니라 MoE를 구성하는 하위 LLM(대형 언어 모델)을 적은 리소스로 학습시킬 수 있으며, 소요 시간도 단축되기 때문에 성능을 높이기 위한 파라미터 경쟁에서 어느정도 자유로워질 수 있는 것이다.

 

LLM은 파라미터수가 늘어날 수록 필요한 GPU장비가 기하급수적으로 늘어난다.(GPU장비가 부족한 상태에서 학습하다보면 단순히 소요시간이 늘어나는 것이 아니라 아예 멈춰버린 듯한 느낌을 받는다.)

 

이렇하다보니 네이버도 1조원가까이 투입해서 GPT와 구글 제미니보다 작은 3~4천억개(추정)규모의 모델을 만들 수 밖에 없었을 것이다. 실망스러울지 모르겠으나 구축비용 뿐 아니라 운용 효율성까지 고려하면 국내 빅테크에서는 이 이상 파라미터를 늘리는 건 쉽지 않다.(관련 기사)

 

 

MoE모델 구조(출처: SPARSE UPCYCLING)

 

 

MoE구조는 이러한 상황의 대안으로 적은 수의 장비로 여러 개의 LLM을 학습한 후 혼합하여 활용하면, 훨씬 높은 성능을 낼 수 있으며, 이론적으로는 경량화LLM으로도 빅테크 못지 않은 LLM을 구축할 수 있다.

☞ MoE관련 논문 : https://openreview.net/pdf?id=T5nUQDrM4u

 


 

차세대 LLM을 위한 필수 기술

MoE는 멀티모달(여러가지 형태의 데이터기반 소통방식) AI를 구현하는데 중요한 역할을 차지한다.(관련 내용 : 구글 LiMoE)

 

여러 종류의 LLM 뿐 아니라 이미지처럼 다른 형태의 데이터와 알고리즘을 가지고 있는 AI끼리 정보를 주고받을 수 있도록 구성하는 데에 이용되는데, 이러한 방식은 궁극적으로는 AGI(범용 인공지능)에 도달하기 위해 꼭 필요하다.

 

다만, MoE구조는 여러 AI를 섞어서 만들다보니 검색AI를 연동한 RAG(Retrieval Augmented Generation)모델처럼 맥락을 유지하기 위해서는 고도의 기술 개발이 필요하다.

 

GPT4가 오픈한 후 한동안 GPT3보다 어설픈 대답을 했던 건 MoE를 적용하는 과정에서 발생한 것으로 추정되는 만큼, 최고의 기술력을 자랑하는 오픈AI도 애먹을 만큼 쉬운 기술은 아닌 것이다.


 

728x90