세줄 코딩(실무용 알고리즘)

데이터 수집과 선택(Data Scientist vs. Data Owner vs. AI)

정데만 2023. 7. 20. 16:43
728x90
 

데이터가 기록되는 방식

신규 영업사원이 고객관리를 위해 상담내역과 특징을 다이어리에 기록하는 상황을 가정해보자.

 

우선은 이름과 연락처를 적은 후 상담 내용을 되도록 많이 기재하려할 것이다. 하지만, 어느정도 경험이 쌓이고 나면 상담 내용을 전부 적기 보다는 고객 관리에 필요한 특징과 상품 등만 적을 것이며, 이러한 과정을 반복하면서 점점 필요한 데이터만 기재하게 될 것이다.

 

데이터를 기록하는 것은 단순히 펜과 종이만 소모되는게 아니라, 기록하는 사람의 시간과 노력이 들기 때문에 필요한 데이터만 압축하여 기록하는 것은 당연한 선택이다.

 

만약, 이러한 과정에서 데이터를 놓치는 것을 우려하여 녹음기를 켠다고 해도 여전히, 고객의 표정과 복장은 남길 수 없으며, 영상으로 남긴다고 해도 채취 등을 인간의 감각 모두를 기록한다는 것은 불가능에 가깝다.

 

데이터가 세상을 구성하는 모든 것이라고 표현되기도 하지만, 안타깝게도 그 모든 것이 기록되지는 않는다.

 


데이터 분석과 AI개발의 차이점

분석가들은 직원이 일하는 매장과 사무실, 그리고 웹사이트 같이 기업이 운영하는 곳에서 데이터를 수집하고 이를 분석한다. 하지만, 앞서 말한 바와 같이 현장에서 발생한 데이터가 전부 기록되는 것은 아니기 때문에 서버에 저장된 데이터는 기업과 고객의 모든 것을 설명해줄 수 없다.

 

그래서 분석가들은 마치 형사가 범인을 잡듯이 현장에 남겨져 있는 흔적을 수집한 후 과거 유사한 사건과 비교하면서 차이점을 찾고, 필요하면 현장 조사를 해나가면서 부족한 부분을 메꿔나가고 추론을 완성해야한다.

 

사실 이러한 부분이 데이터 분석과 AI 개발의 가장 큰 차이점이기도 하다.

 

현재 개발되고 있는 AI들은 대부분 ANI(Artificial narrow intelligence)로 음성, 이미지, 텍스트 등 한정된 영역에서 데이터를 수집하고 분류, 예측, 생성 등을 처리한다. 실험실처럼 격리된 공간에서 주어진 데이터만 학습하며 정해진 기능만 수행하는 것이다.

 

하지만, 데이터 분석은 비즈니스를 완수하기 위해 좀 더 광범위하게 데이터를 활용하고, 데이터가 부족하면 추가로 수집하거나 부족분을 메꾸면서 인사이트를 도출해야하며, 이 과정에서 필요하면 AI를 개발하기도 하고 최종적으로는 성과도 분석한다.

 


 

데이터를 수집하고 선택하는 방법

예시를 하나 들어보자.

 

신규 OTT(Over The Top, 온라인 동영상 서비스) 회사가 출범하였다. 처음 이 회사는 영화와 TV를 추천하기 위해 과거 흥행기록이나 평론가의 점수 등을 활용하였다.

 

그리고는 회원 가입 시 선호 장르나 감독 등을 입력받아 작품을 추천하기도 하였다. 그러나 추천 영화의 만족도가 떨어지기 시작하자 회원들에게 영화별 평점을 받았고 이를 기반으로 유사한 성향을 가진 고객이 평점을 높게 준 작품을 추천하였다.

 

하지만, 평점체계는 회원들에게 너무나 귀찮은 일이었고, 악의적으로 활용되면서 좋은 작품이 사장되기도 하자, 평점이 아닌 감상패턴을 분석하여 이를 대체하였고, 장르나 감독정보 한계를 극복하기 위해 영상에서 직접 다양한 정보를 태깅하였다.

 

OTT기업들의 추천시스템은 하루 아침에 완성되지 않았다. 시장이 확대되면서 수 많은 시행착오를 거쳐 데이터를 수집했으며 기술에 따라 AI를 수시로 교체했다.

 

 

 

 

Data Owner vs. Data Scientist

앞선 OTT사례를 계속해서 예기해보자.

 

다양한 형태의 데이터와 알고리즘에 익숙한 데이터사이언티스트가 있다. 그리고 영화 배급과 제작, 그리고 프로모션 등에 오랜 경험을 쌓은 분야별 전문가들이 있다.

 

하나의 작품에 대해 어떤 전문가는 감독과 배우로 작품을 평가했으며, 다른 전문가는 시장의 트렌드로 흥행을 예측했으나, 또 다른 전문가는 경쟁사로 인해 실패를 예견하였다.

 

이러한 분야별 전문가를 데이터 분석에서는 데이터의 주인이라는 의미에서 Data Owner라고 부른다. 데이터 오너들은 각자의 전문적인 지식을 활용하여 작품을 분류하거나 평가하면서 데이터를 생성해낸다.

 

데이터 사이언티스트는 데이터 오너들이 제출한 데이터를 형태별로 수집하여 목적에 따라 알고리즘을 적용할 수 있지만, 상대적으로 영화와 시장에 대한 전문지식은 없다. 

 


수집된 데이터의 한계와 극복 방안

기업 현장에서는 데이터 오너와 데이터 사이언티스트의 업무 영역이 불분명한 경우가 많다. 특히 DT(디지털전환)가 잘 안된 기업일수 록 기존 직원들이 가진 기술이 달라 데이터 사이언티스트에게 더 많은 역할을 부여하기도 한다.

 

과도기적 역할일 수도 있지만, 잊지 말아야할 건 서버에 있는 게 기업이 가진 모든 데이터는 아니라는 것이다. 앞선 OTT사례처럼 장르 정보만 가지고 있던 기업이 평점체계를 도입하고 동영상에서 적정한 정보를 태깅하려면 업계에 통달하고 분야의 전문지식을 갖추고 있는 Data Owner의 통찰력이 필요하다.

 

또한, 주어진 데이터만으로는 현장에서 놓친 정보, 그리고 미쳐 수집하지 못한 흔적과 고객의 의도를 애초에 떠올리기도 어렵다.기업에서 이러한 역할은 시장과 고객에 대한 경험을 가지고 있는 Data Owner가 해낼 가능성이 높다.

 

그리고 이러한 환경 변화가 수 많은 Data Owner들에게 데이터 활용을 요구하게 되는 것이다.

 


728x90