최신 데이터 동향 및 향후 전망

아이폰 시리의 진화, 그리고 LLM OS에 대한 아이디어

정데만 2024. 5. 18. 15:43
728x90

/AFPBBNews=뉴스1

 

애플 차세대 시리 발표 예정(MM1 or GPT)

애플이 내달 세계개발자콘퍼런스(WWDC, 24.6.10~)에서 생성형 AI를 탑재한 시리를 발표할 것으로 알려졌다(관련기사) 기사로는 챗GPT가 탑재될 가능성이 높지만, 자체 모델을 활용할 가능성도 가지고 있다
 
지난 3월 애플은 MM1이라는 멀티모달 AI를 발표했었다. 당시 기사를 보면 AI가 이미지를 이해하고 답하는 데 초점을 뒀는데 예시는 다음과 같다.
 
- 이미지에 등장하는 개체를 구분하고 숫자를 셀 수 있다.
- 이미지 속 간판이나 표시 등 텍스트를 정확하게 읽어낼 수 있다.
- 이미지 속 냉장고의 무게 등과 같은 사물에 대한 지식을 설명할 수 있다.
- 이미지를 통한 기본적인 계산이 가능하다.
 
위 내용만 살펴보면, 애플이 원하는 건 마치 시리가 카메라까지 활용해가며 스마트폰을 제어하고 다양한 응답까지 하는 것으로 보인다. 이는 멀티모달AI인 GPT-4o가 탑재된다면 충분히 가능한 일이다.

다만, 먼저 출시한 윈도우 코파일럿과 갤럭시24를 보면 시리가 스마트폰을 제어하는 것엔 한계가 있어보인다. 기존 사례를 하나씩 살펴보자.
 

이미지:삼성전자 Galaxy Unpacked 2024 행사 및 구글, 출처:aitimes.kr

 

사례1. 갤럭시 24 AI(Gemini Pro)

24년 1월 17일 출시, 구글의 멀티모달 AI 제미나이 프로(Gemini Pro)와 이미지 생성툴 이마젠(Imagen 2)를 탑재하며 아래와 같은 AI기능을 강화했지만(관련기사), 각 AI는 서로 연계되지 않고 독립적으로 동작한다.
 
- 실시간 통역 : 동시번역(데이터 미 사용)
- 채팅 어시스트 : 메시지 번역 및 톤 변경 등
- 서클 투 서치 : 화면에 원을 그리면 구글 이미지 검색 연동
- 노트 어시스트 : 문서 요약, 맞춤법, 번역 등을 지원
- 생성형 편집 : 사진 요소 제거, 배경 재구성 등
 

출처 : 마이크로소프트 홈페이지

 

사례2. 윈도우 코파일럿(GPT 4.0)

23년 9월 23일 공개했으며, 현재 윈도우 11로 업그레이드하면 미리보기 형태로 동작한다. 출시 전에는 윈도우의 다양한 기능을 제어할 것으로 기대했으나, 아직은 윈도우 다크/라이드모드 제어와 앱 실행 등 제한된 기능만 동작하며, 나머지 부분은 빙챗(Bing Chat)과 동일한 기능을 제공한다.
 

LLM OS로 보는 음성비서의 미래

스마트폰과 PC 모두에서 AI의 역할을 제한하고 있는데 반해 일부에서는 LLM을 OS로 사용하는 것까지 구상하고 있다. 테슬라 AI 및 오토파일럿 비전부분 이사를 역임했고 오픈AI에서도 근무했던 안드레이 카르파티(Andrej Karpathy)는 자신의 X에 LLM OS에 대한 구상을 아래와 같이 발표했다.
 

출처 : https://twitter.com/karpathy/status/1723140519554105733

 
 

구성을 보면 LLM을 각종 명령을 처리하는 CPU로 사용하고 프롬프트를 입력하는 Context Window를 RAM으로 활용한다. 소프트웨어는 파이썬 인터프리터를 통해 제어하고 브라우저 및 다른 언어모델들과 통신하면서 OS의 기능을 수행하는 것이다.
 
아직 발상에 불과하지만, 만약 이러한 발상이 애플에도 적용된다면 더욱 똑똑해진 시리가 아이폰의 단축어 기능을 제어하면서 진정한 음성비서로 거듭날 수 있을 것이다. 물론 환각현상을 제어할 수 있다면 말이다.


 

728x90