쉽게 쓴 데이터·AI 지식/AI

인간처럼 학습하는 AI로 가기 위한 멀티모달 기술

정데만 2023. 7. 13. 15:23
728x90
 

 

범용인공지능의 목표

 
범용인공지능(Artificial General Intelligence)이라는 영역이 있다. 통칭 AGI라고 부르는 General AI는 정해진 역할만 수행하는 이미지, 음성, 챗봇 등과 달리 다양한 기능을 수행하면서 스스로 학습하고 발전해나가는 AI를 목표로 한다.
 
올해 5월에 구글 AI 조직이 개편되면서 사임한 제프리 힌튼교수는 딥러닝에 역전파라는 개념을 도입한 AI의 대부라고 불리던 사람이었다.
 
그런 그가 구글을 떠나면서 남긴 말이 'AI가 핵보다 위험하다' 였으며, 75세의 노교수가 무엇을 두려워하는지는 모르겠지만, 현재의 추세대로라면 AGI가 5~20년이내에 완성될 것이라며 규제해야한다고 주장하였다.


인간의 센싱능력 

 
센싱(감지)이랑 센서(감각)에 이해 입력된 데이터를 정보로 전환 하는 것을 말한다. 인간은 기본적으로 시각, 촉각, 미각, 후각을 가지고 있으며, 각 정보들을 결합하여 해석할 수 있는 능력을 가지고 있다.
 
예를 들면, 시각을 텍스트를 인지할 뿐 아니라 청각을 통해서 화자의 감정이나 위급함 등의 정보까지 추가로 받아들여 해석할 수 있으며, 시각 안에서도 텍스트만 받아들이는 것이 아니라 텍스트가 기재된 매체(뉴스와 책, 표지판)이나 디자인까지 파악하면서 중요성과 같은 추가적인 정보까지 인지할 수 있는 것이다.
 
인간은 이러한 능력으로 어떠한 상황에 처했을 때, 각 인물들의 특징이나 배경, 그리고 주변의 소리와 냄새 등을 활용해 위험을 인지할 수 있지만, 만약 텍스트만 주어진 상태라면 정보량의 한계로 인해 제한된 데이터로만 정보를 처리하게 된다.
 
마치 소설책에서 등장인물을 묘사하고, 음악과 상황을 알려주면서 심지어 속마음까지 모두 말해주는데도 불구하여 영화를 통해서는 동일하게 재연되지 어려운 것과 마찬가지 인 것이다.
 
이러한 차이로 인해 제법 그럴듯한 말을 만들어내는 챗GPT이지만, 텍스트로만 정보를 이해하는 한계가 발생해 버리는 것이다.

 


 

멀티모달 AI의 정보처리 방식

 
오픈AI는 GPT4를 공개하면서 멀티모달이라는 단어를 강조했다. 멀티라는 말을 쓴 것치고는 아직은 이미지와 텍스트 뿐이지만, 멀티모달은 AI에게 더 많은 센싱을 적용하기 위한 시도이며, 인간처럼 각기 다른 형태의 정보를 통합해서 처리하려는 노력의 일환이다.
 
현재 대부분의 AI들은 Weak AI라는 형태로 분야별로 개발되어 각기 다른 형태의 데이터를 가지고 알고리즘을 구성하고 있다. 하지만, 이로 인해 각 AI가 서로 정보를 전달하려면 데이터 형태를 변경해야 하는 문제점이 있다.
 
그래서 중간 역할을 하는 AI를 만들기도 하는데, 대표적인 것이 이미지를 텍스트로 설명해주는 AI로 이미지에 등장하는 사물 뿐 아니라 특정 영역을 찾거나 설명해주는 기능을 개발하여 이미지를 텍스트 정보를 전환하고 있다.
 
하지만, 이러한 방식은 사전에 추출할 정보를 정의해두지 않으면 정보가 소실되는 단점이 있다.

 

예를 들어 AI음성비서는 음성전환(STT) → 언어모델(LLM) → 음성합성(TTS)로 구성(관련 포스트)되어 제법 그럴듯한 명령을 수행하고 있지만, STT에서 고객 음성에 있는 감정 정보를 LLM에 전달하지 않으면 우울한 목소리로 날씨를 물어봤는데, 그냥 쪽지를 건내받은 듯 마냥 즐겁게 날씨를 답해주는 현상이 발생하는 것이다.

 

인간은 이미지를 봤을 때 대부분 텍스트 정보를 먼저 기억하지만, 중요한 내용을 놓친 경우에는 다시 이미지를 연상하며 정보를 추출할 수 있다.
 

예를 들어, 책상위에 남겨진 메모에서 습관적으로 텍스트 정보인 연락처만 기억했지만, 나중에 해당 메모가 잘못되었다는 사실이 확인되면 메모에 남겨진 필체나 종이의 형태 등을 희미하게라도 떠올릴 수 있는 것이다.
 

멀티모달은 AI가 각기 구현되어 정보를 주고받는 형태가 아닌, 궁극적으로는 정보를 그대로 보관하고 필요할 때 필요한 부분을 모아서 같이 처리하는 형태로 구현된다.
 

 
현재 적용된 방식은 인간의 멀티모달 뉴런(Multimodal neurons)을 모방하기 위해 이미지의 특징을 여러가지 형태로 추상화 한 후 텍스트 데이트와 함께 처리하는 방식이다. 앞서 예시로 들었던 메모처럼 각각의 정보는 그대로 두고 필요한 값만 취사 선택하여 처리하고, 필요하면 다시 호출하는 방식으로 현재로써는 인간의 사고방식과 가장 가깝다고 생각되는 형태이다.
 
다만, 아직까지는 이미지에 국한되어 있는 등 여러가지 한계점을 가지고 있으며, 혹시 현재 기술의 수준과 방식이 궁금하다면 OpenAI의 문서를 참고해보는 것도 좋을 것이다.(관련 문서 : https://openai.com/research/multimodal-neurons)
 
멀티모달은 AGI로 가는 유일한 길은 아니지만, AI가 인간만큼 다양한 정보를 처리할 수 있게 되면 인간이 구축한 플랫폼과 데이터에서 동일하게 학습하면서 스스로 발전할 수 있는 경로는 생기는 셈이다.

 


728x90