데이터가 없다는 기업들
기업의 데이터 분석을 하다보면 데이터가 없다는 불평을 자주 듣는다. 그리곤 경쟁업체나 플랫폼기업을 예시로 들며 고객이 많고 비즈니스 영역이 넓어서 데이터가 풍부한데 우리는 그러지 못하니 한계가 있다고 한다.
결론만 예기하면, 데이터에 대해 제대로 파악 하지 못한 틀린 말이다!
기업에 데이터가 없는 이유는 그저 시도하지 않았거나 요령이 부족하기 때문이다.
데이터는 보통 수집/분석/활용 단계를 거치며 플랫폼기업들은 수집을 효율화하기 위해 엄청난 공을 들인다. 특히, 고객이 없는 초창기에는 상품과 컨텐츠에서 여러가지 형태의 라벨(데이터)을 붙인 후 다양한 구성으로 고객에게 제공하는데, 라벨링된 상품이 고객에게 제공되면 판매가 진행되면서 고객 반응이 다시 상품정보로 반영되어 눈덩이가 커지듯이 데이터가 모인다.
이러한 방식은 플랫폼기업처럼 투자하지 않아도 기업별 환경에 맞춰 수행할 수 있다. 오히려 자사의 상품과 서비스에 맞는 데이터가 더 중요한데, 예를 들어 동네 식당에서 돈가스만 팔아도 소스의 맛, 튀긴 정도, 사이드를 이용해 고객 선호도를 파악한다면 상권에 맞춰 제품을 보완하거나 단골의 입맛에 맞는 식사를 제공하여 성공할 수 있다.
하지만, 데이터가 없는 기업들은 대부분 전산화 초창기에 구축한 업무 시스템만 가지고는 서버에 데이터가 없으니 아무것도 할 수 없다는 예기를 한다.
세번째 데이터 활용 사례 - 데이터 수집
이런 측면에서 넷플릭스는 다양한 방식으로 데이터를 수집하고 꾸준히 개선해왔다.
1) 상품 데이터 수집
영화라는 상품에 대한 최종 평가 지표는 "재미있느냐"라는 물음에 대한 공정한 대답이다. 로튼토마토지수는 공정한 평가를 위해 평론가를 엄격하게 선정하고 등급을 나눠왔음에도 불구하고 편중된 점수로 인해 신뢰성에 의구심이 제기되고 있다. 네이버의 경우 작품보다는 배우로 인해 별점테러가 이루어지기도 하며, 평론가의 사전 점수가 낮은 작품이 흥행에 성공하기도 한다.
넷플릭스의 추천시스템(협업 필터링)을 접해본 사람이라면, 사용자의 평점으로 유사 고객이 시청한 영화를 추천하는 글을 읽어봤을 것이다. 그리고 별점이 영화의 중요한 정보라고 인식하는 경우가 많은데 재미있게도 넷플릭스에는 현재 별점 시스템이 없다.
☞ 참고: 별점 시스템 대신 ‘좋아요/별로예요’ 시스템 도입
물론, 고객 개인의 취향을 파악하기 위해 좋아요라는 시스템을 활용하고 있지만, 좋아하는 영화를 추천하기 위해서는 영화 자체의 정보가 많이 필요하다.
넷플릭스는 배급사를 통해 받을 수 있는 일반적인 정보(감독, 배우, 줄거리 등)와 AI를 통해 수집할 수 있는 영상정보 뿐만 아니라 태거를 채용하여 수작업으로 데이터를 수집한다.
넷플릭스의 영화 태깅은 전문성을 가진 사람을 채용하여 정책자료(36페이지)를 숙달시킨 후 1,000여개 이상의 태그를 5점 척도를 사용해가며 부착한 후 교차검증까지 하는 엄격한 프로세스를 갖춘 것으로 알려졌는데, 모두 정규직에 출퇴근까지 해야 한다고 하니 이름만으로 예상하듯이 소셜에서 아무렇게나 부착하는 태그(#)와는 다른 작업이다.
특히, 인간의 주관적인 감상평, 예를 들어 주인공의 도덕성이나 해피엔딩 여부가 가장 중요한 업무로 현재의 AI기술로는 구현하기 어려운 정보를 별도의 인력을 고용해가며 수집한 것이다.
☞참고 : 넷플릭스 전직 태거 라파엘 세리벨리 인터뷰
2) 고객 데이터 수집
넷플릭스 고객센터에 올라와 있는 추천 알고리즘 작동 방법에 보면 "추천 콘텐츠 시스템은 인구통계 정보(연령, 성별 등)를 의사결정 절차의 일부로 포함하지 않습니다."라는 문장이 포함되어 있다.
그도 그럴듯이 가입자와 관련없이 여러 개의 프로파일을 돌려쓰는 앱에서 정확한 연령과 성별을 파악한다는 건 불가능에 가깝지만, 이렇게 대놓고 활용데이터를 공홈에서 안내하는건 흥미롭다.
넷플릭스 고객센터의 컨텐츠 추천용 데이터 |
|
국내에서 빅테크의 행태정보 수집은 최근에 페이스북이 연결사이트의 행태정보까지 몰래(주의사항을 작게 표시) 수집하면서 부정적인 인식과 함께 동의 프로세스가 필요해졌지만, 넷플릭스와 유튜브 같은 곳에서는 오히려 내 시청기록을 무시한테 영화를 추천한다면 불편함을 느끼게 될 정도로 행동데이터 활용이 보편화 되어있다.
일찌감치 행동데이터를 활용하여 겉으로 드러나지 않거나 남에게 설명하기 어려운 개인의 취향을 찾아내고, 방대한 태깅정보를 활용한 넷플릭스의 컨텐츠 추천 방식은 과거 온라인 구독 방식을 유지하기 위해 어쩔수 없이 선택했던 방법이 아닌 평론가의 점수와 언론의 홍보에도 흔들리지 않는 굳건한 시스템을 만들어냈다.
지금에 와서는 당연한 예기지만 넷플릭스는 장르와 감독, 주인공 등의 정보만 이용하던 경쟁사와 달리 시간과 비용이 들어가는 태깅 시스템을 운영하고, 모두가 연령, 성별만 쓰던 시기에 행동 데이터를 모아 적극 활용한 셈이다.
[전체 글 목록 ▼]
넷플릭스가 데이터를 사용하는 방법을 천천히 알아보자 ①추천 알고리즘
넷플릭스가 데이터를 사용하는 방법을 천천히 알아보자 ②의사결정
넷플릭스가 데이터를 사용하는 방법을 천천히 알아보자 ③데이터 수집
'데이터 전쟁' 카테고리의 다른 글
넷플릭스가 데이터를 사용하는 방법을 천천히 알아보자 ④성과 분석 (126) | 2024.01.05 |
---|---|
넷플릭스가 데이터를 사용하는 방법을 천천히 알아보자 ②의사결정 (86) | 2023.12.10 |
넷플릭스가 데이터를 사용하는 방법을 천천히 알아보자 ①추천 알고리즘 (106) | 2023.12.01 |
네이버 블로그 20주년과 자연어 처리의 변천사 (87) | 2023.11.04 |