언어모델의 환각(Hallucination) 현상과 해결 방법

쉽게 쓴 데이터·AI 지식/AI

정데만 2023. 6. 2. 10:13

환각(Hallucination)현상이란 언어모델이 잘못된 사실을 확정적으로 답변하는 것에 대해 인간이 환청, 환시과 같이 감각기관의 자극이 없음에도 무언가를 지각하는 현상에 빗댄 것이다.
환각현상은 AI가 겪고 있는 증상을 말하며, 실제 이용자가 느끼는 현상은 공상허언증(사실이 아닌 것을 왜곡하거나 과장해서 말하는 증상)에 가깝다.
이러한 현상은 모방학습을 통해 유사한 결과를 생성하는 생성형 AI들의 특징으로, 언어모델에서는 확률에 기반하여 문장을 생성하는 Transformer알고리즘의 한계로 인한 것이다.
이런 문제점에도 불구하고 빌게이츠는 “과거 인터넷 발명만큼 중대한 발명이 될 수 있으며, 우리의 세상을 바꿀 것”이라고 말하며 상용화에 앞장서고 있으며, 정작 오픈AI를 설립했던 일론 머스크는 “인공지능은 문명의 미래에 가장 큰 위험 중 하나이며 규제가 필요하다”고 주장하며, 거짓말을 안하는 트루스GPT만들겠다고 말하고 있다.

Transformer에 기반한 언어모델의 환각현상을 줄이는 방법으로는 결국 AI가 빈약한 확률의 답변을 생성하지 않도록 정확하고 다양한 데이터를 학습시키거나 올바른 맥락의 질문(프롬프트)를 하는 것이다.
또는 언어모델의 프롬프트에 데이터를 입력한 후 이를 바탕으로 답변(요약)하는 것이 현재로써 최선의 방법으로 손꼽히고 있다.
MS의 빙챗(Bing chat)은 이러한 방식을 이용하여 사용자의 질문에서 키워드를 추출하여 웹페이지를 검색한 후 해당 웹페이지에 기반하여 답변을 생성한다.
구글 바드(Bard)는 사용자의 질문에 따라 빙챗과 유사한 방식으로 검색결과에 따라 답변하거나 최신 데이터를 매일 추가 학습하여 이러한 문제를 최소화하려고 하고 있다.

AI학습의 장애물, 암묵적 지식에 대한 정의와 해결 방법 (13)	2023.06.11
언어모델에 프롬프트 엔지니어링이 필요한 이유 (18)	2023.06.10
AICC(AI Contact Center) 현황과 성장 전망 (2)	2023.06.01
초거대 AI 등장과 파라미터에 의한 주도권 변화 (0)	2023.05.30
데이터 라벨링이란? 솔루션과 비용 절감 (0)	2023.05.29

정데만(Honest Data Only)