앤드류 응 교수의 데이터 중심 AI(Data-centric AI)

최신 데이터 동향 및 향후 전망

앤드류 응 교수의 데이터 중심 AI(Data-centric AI)

정데만 2023. 7. 26. 16:43

샘 알트만(오픈AI) - 홍채데이터

오픈AI 대표 샘 알트만에 이어 AI 4대 석학이라는 앤드류 응 교수까지 AI업계에 유명한 사람들이 연달아 한국을 방문하고 있다.

지난 번 샘 알트만은 ▲국내 반도체와 협력, ▲AI스타트업 투자, ▲AI활용 규제에 대한 예기를 남기고 갔었다. 하지만, 당시 월드코인 프로젝트를 진행 중이었고, 어제(7.25) 거래소에 상장하면서, 당시 월드코인 홍보가 방한의 주목적이었다는 말에 설득력이 실린다(관련 기사)

월드코인은 홍채인식이 AI와 인간을 구분하는 수단이라며 오브라는 기기에 홍채를 등록하면 코인을 무료로 지급하는 프로젝트로 진짜 목적이 무엇인지는 모르겠으나 엄청난 양의 홍채데이터와 개인이 식별된 상황에서 코인을 주고 받는 데이터까지 확보할 것은 자명해보이는데, 아프리카와 같이 통화 및 금융시스템이 낙후된 지역에서는 경제 전반에 걸쳐 엄청난 데이터를 수집할 가능성이 높아보인다.(관련 기사 1 / 관련 기사 2)

앤드류 응 교수 - 데이터 중심의 AI

앤드류 응 교수는 샘 알드만에 비해 점잖은 방식이기는 하지만 AI업계에 투자를 유도하고 데이터 수집에 대한 방향을 제시하는 내용의 대담을 진행하였다.(관련 기사).

특히, 앤드류 응 교수가 말한 "인공지능 업계에 영원한 봄이 왔다"는 메시지는 두 번에 걸친 AI Winter(1차 1974-1980 / 2차 1987 ~ 1993)를 의식한 듯한 발언으로 AI분야는 그간 엄청난 기대에 비해 별 볼일 없는 성과로 인해 기업의 외면을 받았던 역사가 존재한다.

그리고 중심메시지는 ▲프롬프트 기반 AI개발, ▲데이터 중심의 AI(Data-centric AI)로 프롬프트 활용에 대해서는 이전 포스팅에서 다뤘기 때문에 이번에는 데이터 중심의 AI에 대해서 예기해보고자 한다.

☞ 프롬프트 기반 AI개발 관련 포스팅

셀렉트스타 김세엽 대표가 데이터 중심의AI를 설명하기 위해 데이터 플라이휠 개념을 소개하고 있다 / 출처=IT동아

Data-centric AI

대담회에서 Data-centric AI에 대한 실무적인 발표는 국내 데이터 스타트업인 셀렉트스타가 담당했다. 셀렉트스타 김세엽대표는 이전에도 AI데이터 플라이휠이라는 개념을 통해서 이에 대한 인터뷰를 진행한 적이 있는데 자세한 내용은 다음과 같다.(관련 기사)

Data-centric AI란 종전에는 데이터를 수집한 후 모델을 개선해나갔으나, 앞으로는 AI모델은 그대로 두고 데이터를 추가하면서 개선하자는 개념으로 실제로는 오픈AI GPT, 구글 PaLM, 메타 LLaMA 같은 사전학습모델에 추가학습 또는 프롬프트를 활용하는 것을 의미한다.

필자 또한 이러한 방식에 대해서 자주 언급한적 있으나, Data-centric AI는 단순히 추가학습 수준으로 AI 개발방식을 바꾸자는 것이 아닌 모델보다 데이터에 집중하자는 패러다임 변화와 이에 따른 데이터 수집을 말한다.

실제로 Data-centric AI에 추가 설명을 위해 제시한 AI Data Flywheel의 개념은 종전처럼 AI에게 언어 자체를 가르치는데 초점을 두지 않고 기존 AI의 성능을 보완하기 위한 데이터셋을 기획/보완하는 방식으로 진행하는 것이다.

이를 입증이라도 하듯이 네이버, 카카오, SKT, KT, LG 등은 한국지능정보사회진흥원(NIA) 주관으로 'LLM 신뢰성 벤치마크 데이터' 구축 컨소시엄이 추진하며 셀렉트스타와 스캐터랩이 구축을 담당한다.(관련 기사)

여기서 나온 'LLM 신뢰성 벤치마크 데이터 구축'은 얼마 전 조 바이든 대통령이 오픈AI, 구글, MS, 메타, 아마존 등 미국 AI기업을 초청하여 맺은 서약서에 포함된 내용과도 비슷한 맥락으로 시행되는 것이며, 조금 과장해서 예기하면 SF소설에서나 다룰 법한 로봇 3원칙이 발표되는 순간이라 할 수 있다.(관련 기사)

각자의 목적은 다르지만 혹시나 모를 사고를 방지하고 규제에 대응하기 위한 데이터 수집에는 동참하는 셈이다.

'최신 데이터 동향 및 향후 전망' 카테고리의 다른 글

네이버 사업구조로 보는 하이퍼클로바X 경쟁력과 데이터 전략 (104)	2023.08.25
메타의 행보로 바라보는 플랫폼의 LLM(거대언어모델) 활용 전략 (59)	2023.08.11
원하는 정보를 찾는 방법과 AI검색엔진 시대의 도래 (66)	2023.07.17
거대 플랫폼 기업들이 데이터를 모으는 방법과 규제 (52)	2023.07.15
챗GPT 제멋대로 행동을 차단하는 오픈AI 슈퍼정렬팀 (56)	2023.07.09

현재글앤드류 응 교수의 데이터 중심 AI(Data-centric AI)

정데만(Honest Data Only)