구글이 Bard를 출시하고 나서 작년 말부터 떠들석했던 MS와 구글의 LLM(Large Language Models, 대규모 언어 모델) 경쟁이 조금씩 진정되고, 관련 산업들도 방향을 잡고 있는 것처럼 보인다.
하나씩 올리고 있던 데이터 강의에서 언어모델을 작성할 때 쯤 LLM에 대한 기업의 대응 방안을 써볼까 했는데 예상보다 상황이 빨리 진정되고 업계와 학계 모두 얼추 대응안을 마련한 것 같아서 관련해서 글을 써볼까 한다.
AI 학습 및 활용 데이터의 변화
GPT(Generative Pre-trained Transformer)는 이름에 포함된 단어에서 알 수 있듯이 사전학습된 생성형모델이다. Transformer라는 알고리즘도 궁금한 사람이 있겠지만, 기업에서 중요한 부분은 '생성형'과 '사전학습'이라는 부분이다.
언어모델은 자연어를 수치화하는 과정부터 학습까지 엄청난 리소스를 잡아먹기 때문에 독자적인 언어모델을 처음부터 만드는 건 대규모 투자가 필요하다.
그러나 GPT를 시작으로 사전학습된 모델이 배포되면서 AI 개발보다 활용이 필요한 기업들은 추가학습에 필요한 데이터와 인프라만 확보하여 언어모델을 구축하기 시작하였다.
그런데 챗GPT가 출시되면서 대화형AI로 인하여 생성형 모델 특유의 '프롬프트'라는 개념이 정착되면서, 이제 추가학습마저 안해도 되는 환경이 펼쳐지고 있다.
여기까지의 상황에 대해 기업의 AI개발과 활용이라는 관점에서 정리해보면 다음과 같다.
구분 | 설명 | 기업의 활용 방법 | 비고 |
사전학습 | 대용량 데이터와 알고리즘을 이용하여 언어모델 구축 |
라이센스, 활용 목적, 학습 비용 등을 고려하여 LLM선택 |
LLM참고(파라미터 수) - GPT-3(175B) : 모델공개X, API기반 - LLaMA(7B~65B) : 모델공개O, 선택적 라이센스 - T5(11B) : 모델공개O, Apache 2.0 |
추가학습 | 사전학습 모델에 데이터를 추가하여 중요도 등을 조정 |
LLM 도입 후 자사 데이터 추가 학습, 학습 방법에 따라 성능과 비용이 달라짐 |
추가학습 방법 : Fine-tuning, Prefix tuning, LoRa 등 |
프롬프트 | 사전학습 및 추가학습이 완료된 생성형 모델에 프롬프트를 입력하여 답변 생성 |
프롬프트 영역에 답변에 필요한 데이터를 추가로 입력하여 원하는 답변 생성 |
챗GPT API기반 확장 프로그램 참고 |
사전학습모델은 광범위한 데이터를 학습하여 자연어에 대한 기본적인 수치전환은 완성되어 있지만, 일반적인 문장과 대화를 중심으로 학습하기 때문에 기업별 전문 분야에서 활용하려면 추가학습을 통해 이를 보정해줘야한다.
예를 들어 '수신'이라는 단어는 일반적으로는 무언가를 받는다는 의미로 메시지 수신, 수신함 등에 사용되지만 금융에서는 고객의 예금을 받는다는 차원에서 예/적금을 지칭한다.
프롬프트에 역할을 입력함으로써 비슷한 효과를 줄 수는 있지만, 해당 분야에서 사용하는 문장을 추가로 학습하는 것과는 성능차이가 발생하기 때문에 결국, 자사에 특화된 언어모델을 구축하려 한다면 추가학습이 필요하다.
다만, 추가학습에도 비용과 인프라는 수반되니 사전학습모델과 학습방법을 고를 때는 무작정 최고 사양을 고르는 게 아닌 자사의 서비스 목적(챗봇, AICC, 텍스트 처리 등)에 맞는 모델을 선택해야하며, 한국어 생성능력도 따져봐야 한다.
특히 한국어에 대해서는 LLaMA와 T5같은 경량화 모델도 괜찮은 성능을 보이고 있으며, 사전학습모델의 성능 뿐 아니라 추가학습 후 예상되는 성능도 같이 고려하는 것이 좋다.
프롬프트 데이터의 역할
'프롬프트'는 위에서 언급한 바와 같이 학습을 거치지 않고 AI를 구축할 수 있는 방편이기도 하지만, 생성형 모델의 가장 큰 문제점인 환각(Hallucination) 현상을 해결할 수 있는 실마리가 될 수도 있다.
GPT를 기반으로 한 Bing Chat은 사용자가 입력한 문장을 토대로 웹사이트를 검색한 후 검색결과를 프롬프트 영역에 로딩한 후 답변을 생성한다. 구글의 Bard 또한 문장에 따라 검색아이콘과 함께 결과를 요약해서 보여주기도 한다.
Bing Chat과 Bard는 이를 통해서 출처를 명확히 하고 환각현상을 줄이고 있지만, 일반 기업들은 이를 참고하여 추가학습을 거치지 않고 자사 데이터를 연결하여 AI 서비스를 신규로 구축하거나 고도화할 수 있다.
위와 같은 프로세스는 AI 인터페이스로 확대되고 있다.
오픈AI에서 API를 제공하는 것을 시작으로 구글도 클라우드 서비스에서 생성형 AI를 추가했으며, MS는 코파일럿(23.6월)을 통해 자사의 강점인 오피스와 개발환경을 시작으로 자사의 AI가 탑재된 서비스를 확대하려고 하고 있다.
국내 스타트업(뤼튼)에서도 AI툴 빌더를 공개(23.6월)하였으니 이러한 흐름은 당분간 계속 될 것으로 보인다.
'최신 데이터 동향 및 향후 전망' 카테고리의 다른 글
인간의 창작과 생성형 AI의 동작 방식 (65) | 2023.06.30 |
---|---|
언어 모델의 원리로 알아보는 AI의 인격 (69) | 2023.06.27 |
디지털 휴먼 기술과 활용 방식, 그리고 비전 프로의 MR전략 (68) | 2023.06.26 |
서치AI로 인해 더욱 중요해진 검색의 기술(feat. 네이버) (91) | 2023.06.25 |
메타가 대화형 AI를 무료로 공개하는 이유 (43) | 2023.06.21 |