쉽게 쓴 데이터·AI 지식 25

코호트, 피어그룹, 페르소나의 차이점과 쉽게 구분하는 방법

세그먼트란 데이터를 분석할 때 고객을 분류하거나 군집화한 후 최소 단위의 그룹을 세그먼트라고 부른다. 세그먼트는 속성이나 행동에 따라 또다른 유사 속성을 가지거나 연결된 행동을 할 가능성이 있으므로, 고객 분석 시 세그먼트를 활용하면 향후 행동에 대한 예측이나 원인에 대한 추정이 가능해진다. 통계학과 사회학에서도 고객을 분류하고 행동을 분석하여 공동 연구를 목적으로 세그먼트를 활용하며, 특성에 따라 코호트, 피어그룹, 페르소나로 나눈다. 이러한 분류들은 다른 이론적 배경을 가지고 있지만, 쓰임새가 비슷해서 기업 내에서 잘못 정의되는 경우가 많다. 특히 페르소나의 경우 산출과정에서는 데이터를 참고할 수 있지만, 실제로는 존재하지 않는 이상적인 세그먼트를 지칭할 때 자주 사용하기 때문에 다른 단어와 같이 쓸..

언어모델의 환각(Hallucination) 현상과 해결 방법

언어모델의 환각현상이란 환각(Hallucination)현상이란 언어모델이 잘못된 사실을 확정적으로 답변하는 것에 대해 인간이 환청, 환시과 같이 감각기관의 자극이 없음에도 무언가를 지각하는 현상에 빗댄 것이다. 환각현상은 AI가 겪고 있는 증상을 말하며, 실제 이용자가 느끼는 현상은 공상허언증(사실이 아닌 것을 왜곡하거나 과장해서 말하는 증상)에 가깝다. 이러한 현상은 모방학습을 통해 유사한 결과를 생성하는 생성형 AI들의 특징으로, 언어모델에서는 확률에 기반하여 문장을 생성하는 Transformer알고리즘의 한계로 인한 것이다. 이런 문제점에도 불구하고 빌게이츠는 “과거 인터넷 발명만큼 중대한 발명이 될 수 있으며, 우리의 세상을 바꿀 것”이라고 말하며 상용화에 앞장서고 있으며, 정작 오픈AI를 설립했..

AICC(AI Contact Center) 현황과 성장 전망

AICC 정의 AI Contact Center는 AI를 이용하여 고객의 문의나 요청사항을 처리하는 시스템 또는 이를 관리하는 부서를 말한다. 현재의 AICC는 보통 챗봇과 음성봇(Voice bot)이 주를 이루며, 이메일 및 게시판 문의사항을 응대하거나 기존 상담원을 보조하는 기능을 수행한다. 현재 챗봇은 주로 고객 문의사항을 수행하면서 모바일 App 또는 웹페이지를 안내하며, 음성봇은 ARS와 연동하거나 고객에게 직접 전화를 걸어 계약을 확인하는 등의 역할을 수행한다. AICC 현황 및 전망 구글은 클라우드에서 기업이 직접 AICC를 구축할 수 있는 Contact Center AI(CCAI) 서비스를 제공하고 있으며, Dialogflow를 통해 챗봇, 음성봇을 만들거나 Agent Assist를 활용해 ..

초거대 AI 등장과 파라미터에 의한 주도권 변화

AI 파라미터와 초거대AI AI 파라미터(Parameter)는 딥러닝에서 알고리즘을 구성하는 최소단위의 모델이 다른 층의 모델에 전달하는 매개 변수를 말한다. 딥러닝은 파라미터의 개수가 많을수록 데이터 한꺼번에 입력받아 복합적으로 처리할 수 있다. 자연어를 생성하는 언어모델(Language Model)은 문장을 구성하는 단어의 의미와 맥락 등 다양한 데이터를 사용하며, 파라미터 개수가 클수록 문장 생성에 필요한 확률 계산을 더 잘 할 수 있다. GPT-3는 레이어 96개에 각 18억개로 총 1750억개의 파라미터를 가지고 있으며, GPT-4의 파라미터는 공개되지 않았지만, 1조개 이상으로 추정되고 있다. 빅테크기업들은 언어모델을 비롯하여 이미지, 음성AI 등에 사용되는 파라미터 개수를 늘리기 시작하였으며..

데이터 라벨링이란? 솔루션과 비용 절감

데이터 라벨링 정의 데이터 라벨링은 데이터에 의미있는 정보(레이블)를 부여하여, AI학습을 위한 데이터셋을 만드는 과정이다. 라벨링된 데이터는 정답을 예측하는 지도 학습(Supervised Learning)에 주로 이용된다. 이미지, 음성, 텍스트 등 다양한 유형의 데이터에서 개체를 분류하거나 정보를 입력하는 데 적용된다. 라벨링에 사용되는 도구는 Labelbox, RectLabel, VGG Image Annotator 등이 있으며, 클라우드 서비스 등에서도 제공하고 있다. 일부 라벨링 작업은 정확도가 떨어지더라도 자동화 도구(오토 라벨링 툴)를 이용할 수 있다. 라벨링 정확도를 높이기 위해서 품질 관리 및 검토 프로세스를 포함해야 한다. 개인정보가 포함된 데이터를 라벨링할 때는 데이터 유출에 대한 보호..

반응형