전체 글 108

넷플릭스가 데이터를 사용하는 방법을 천천히 알아보자 ②의사결정

스트리밍 서비스 시작 온라인 DVD 대여 서비스로 시작했던 넷플릭스는 2006년 회원수 500만명을 돌파하고 2007년부터 스트리밍 서비스를 시작하였다. 유튜브가 2005년, 국내 VOD 시범사업이 2006년에 시작되었으니, 기술적으로 스트리밍의 태동기 이긴하였으나 당시 OTT 서비스를 운영한 건 아마존 프라임 비디오(2006.9월~)와 넷플릭스 뿐이었다. 넷플릭스는 기존의 온라인 DVD대여서비스에 스트리밍을 추가하여 월 9.99달러에 제공하면서 2010년에는 캐나다에 진출하고 모바일 서비스를 시작하면서 회원수 2천만명 수준까지 지속 성장하였다. 비록 2011년 스트리밍 서비스와 DVD대여서비스를 분리하여(퀵스터라는 회사 설립) 각각 7.99달러로 운영하려다가 순식간에 회원수가 100만명이나 빠지는 사태..

데이터 전쟁 2023.12.10

넷플릭스가 데이터를 사용하는 방법을 천천히 알아보자 ①추천 알고리즘

OTT의 절대강자, 넷플릭스 유튜브와 넷플릭스, 그리고 아마존은 데이터 분석과 활용에 선두에 있으며 공개된 문서도 많은 편이다. 성능도 상당해서 사용자들사이에서 알고리즘을 칭찬하는 목소리가 높고 원리를 짐작하여 마케팅 방법을 알려주는 비즈니스도 다수 존재한다. 이 중 넷플릭스는 글로벌 플랫폼과 오리지널 컨텐츠를 무기로 영화관과 제작사들을 따돌리며 OTT라는 새로운 미디어 산업의 왕좌를 차지하고 있다. 단순 1위가 아닌 라디오, TV, 스마트폰으로 이어진 미디어의 변화와 영화관, 비디오대여점, 회원제 스트리밍으로 발전해간 매체의 변화를 캐치해낸 선구자이며, 플랫폼이라는 강점을 적극 활용하여 엄청난 자금으로 양질의 컨텐츠를 만들어 내고, 데이터를 적극 활용하는 빅테크기업으로 할 수 있는 건 모조리 하고 있는..

데이터 전쟁 2023.12.01

오픈AI사태 요약과 배경 그리고 Q*

샘 알트먼이 복귀하면서 일련의 사태는 5일만에 종료되었으나 이사회가 전면 교체되면서, 알트먼의 경영 방식에 더욱 속도가 붙게 되었다. 핵개발에 버금가는 과학계 최고 이슈 챗GPT 공개, 그리고 오픈AI사태까지 1년에 걸쳐 방영된 판타스틱한 현실 드라마에는 도대체 어떤 이면이 있었을까? 오픈AI사태 요약 11.17일 : 이사회에서 일리야 수츠케버(수석 과학자) 주도로 샘 알트먼 CEO 해고 통보 11.18일 : 이사회 의장 그렉 브룩먼 및 수석 연구원 3명 사표 제출 11.19일 : 샘 알트먼 이사회와 복귀 협상 무산 11.20일 : MS에서 샘 알트먼과 그렉 브룩먼 신설 AI팀에 합류한다고 발표, 오픈AI직원 770명 중 700여 명이 복귀 청원, 일리야 수츠케버를 포함한 505명이 MS로 이동 발표 1..

시계열 예측방식, 그리고 가장 간단한 시계열 예측 알고리즘

시계열 데이터 예측 방식 이전 포스트에서는 시계열 분해 알고리즘(관련 포스트)을 활용하여 시계열 데이터를 구성하는 추세/계절성/주기성을 알아보았다. 시계열 예측은 이러한 요소들을 조합하여 최적화 된 예측값을 계산하는 알고리즘으로 데이터에 따라 단일 값(단변량)을 이용하는 예측하는 방법과 같은 시기에 측정된 여러 데이터(다변량)을 활용하는 방식으로 나눌 수 있다. 단일 값을 이용한 예측 방식은 앞서 알아본 배추값의 사례처럼 월별 배추값으로 추세와 계절성 등을 분해하고 이를 조합하여 예측하는 방식으로 진행된다. 이는 결국 과거 자신의 값에서 규칙성을 발견하여 미래를 예측하는 방식이라 볼 수 있다. 그러나 여러 데이터를 이용한 시계열 예측 방법은 과거 자신의 값 뿐만 아니라 해당 값에 영향을 주는 값들도 예측..

시계열 데이터를 간단하게 분석하는 방법

시계열 데이터는 설명하기 쉽다!? 시계열 데이터란 시간별로 계측하고 나열한 데이터를 말한다. 흔히 보는 주식시세나 월별 매출, 일자별 기온 등은 모두 같은 방식으로 기록한 데이터를 시간순으로 나열한 시계열 데이터이다. 시계열 데이터는 차트로 구성해보면 일정한 패턴과 추세를 볼 수 있는 경우가 많은 데, 당장 기온만 하더라도 자전으로 인해 밤낮으로 등락을 반복하고 공전에 따라 계절별로 바뀌는 패턴을 가지고 있어 누구나 쉽게 인지할 수 있으며, 최근 100년간 꾸준히 상승하면서 인류 모두가 추세를 실감하고 있다. 시간에 따른 데이터의 변화는 굳이 어렵게 분석하지 않아도 패턴을 감지하거나, 복잡한 분석 기법을 적용하지 않아도 차트로 파악할 수 있다는 장점 때문에 누구나 쉽게 분석하고 공감할 수 있다는 장점을 ..

네이버 블로그 20주년과 자연어 처리의 변천사

네이버 블로그 20주년의 숨겨진 의미 인류의 역사에서 데이터가 중요하지 않은 시기는 없었지만, 빅데이터와 AI기술이 발달하면서 데이터의 활용 범위는 전례 없이 확대되었다. 특히 각종 데이터가 AI학습에 활용되기 시작하면서 구하기 어려운 정보나 지식뿐 아니라 일상생활의 데이터까지 높은 값어치가 매겨지면서 빅테크 기업들은 저마다의 방법으로 데이터를 모으고 있다. 이러한 흐름에서 네이버 블로그 20주년 캐치프레이즈인 "기록이 쌓이면 ○○된다"는 단순히 감성을 자극하는 문구라기 보다는 상당히 노골적이면서 절박하기까지 한 결의문으로 보인다. 그 간 네이버 블로그는 사용자를 유입시키기 위한 서비스이자 블로거와 이웃을 활용한 소셜네트워킹의 수단, 그리고 검색용 콘텐츠로써 활용되었다. 20주년 페이지에 표시되어 있는 ..

데이터 전쟁 2023.11.04

GPT4는 GPT3를 8개 합쳤다? 차세대 LLM의 해법이 된 MoE

GPT4는 GPT3 8개로 구성? 조금 지난 떡밥이지만 올해 6월 미국 천재 해커 조지 호츠가 GPT 4는 GPT 3규모의 모델 8개를 엮어서 파라미터가 1조개 인척하는 트릭을 썼다고 주장했다. 물론 이 내용은 오픈AI가 모델에 대한 세부 정보를 공개하지 않아서 공식적인 내용은 아니지만, 당시 여러 전문가들에게 이 가설을 설득력있게 받아들였다. 게다가 얼마 전 오픈AI가 지난해 말부터 GPT5에 해당하는 '아라키스(Arrakis)'라는 모델 개발을 진행했다가 올여름에 폐기했다는 소식이 나오면서 해당 모델에 MoE를 적용했었다는 사실도 함께 알려졌다.(관련 기사) MoE모델이란 MoE는 Mixture of Expert의 약자로 문장 그대로 "전문가의 혼합"을 말한다. LLM에서는 특정 분야의 지식을 집중적..

플랫폼 데이터 관점에서 API의 역할

API(Application programming interface)는 어플리케이션 간에 소통 환경으로 보통 웹 API를 의미한다. 기술적으로 API는 웹프로그램을 모듈화하여 재 활용하는 정도지만, 비즈니스적으로는 플랫폼 확대라는 중대한 목적을 가지고 있다. API에 대한 개념과 기술은 1940년대부터 시작되었으나 로컬에서 동작하는 앱에서는 데이터를 공유할 수 있으니 많이 활용되진 않고, 모듈화가 필요한 프로그램에서만 일부 적용되었다. 하지만, 온라인 비즈니스가 확대되고 모바일과 키오스크 같은 각종 단말이 추가되면서 웹프로그램 재활용하려는 필요에 따라 현재의 API가 완성되었다. 처음엔 기업 내 모듈 공유가 주 목적이라 자주 사용하는 기능을 개발하는 수준에 그쳤으나 페이스북, 구글, 네이버 등의 플랫폼기..

AI 생산성 도구의 방향성과 대표적인 코파일럿

생성형AI를 활용한 생산성 도구 확산 새로운 기술에 대한 관심이 투자로 이어지고 신상품 출시와 함게 다시 기술이 발전하는 순환구조가 작동하면서, 전쟁과 경기침체로 우울한 세계 경제에 조금이나마 활력을 불어넣고 있다. 결과물을 텍스트, 이미지, 음성과 영상으로 분류했을 때 각기 다른 AI기술이 적용되면서 빠른 발전을 이루고 있지만, 특히 텍스트분야에서 챗GPT가 엄청난 가능성을 보여주었고, 언어모델이라는 특수성으로 인해 단순한 문장 생성이 아닌 검색과 인터페이스, 그리고 생산성 도구로의 성장 가능성을 확인시켜주었다. 이번 포스트에서는 환각현상이라는 기술적인 한계로 오히려 지원 용도에 적합하고, 단기적 가장 먼저 크게 성장할 것으로 예상되는 있는 생산성 도구에 대해서 알아보고자 한다. 전세계 노동의 18%가..

자연어 검색에 쓰이는 기술과 AI검색엔진

자연어 검색의 태동 게시판에서 제목이나 내용을 선택하고 검색하는 기능은 데이터베이스에서 특정한 단어가 포함되었는지 여부만 체크하여 조회하는 기능으로 만들어진다. 초창기 검색엔진도 이 기능을 이용하였으며 당시 웹사이트가 그리 많지 않았기 때문에 기술적인 한계는 그다지 문제가 되지 않았다. 사실 당시 검색엔진의 역할은 도메인을 일일이 타이핑하지 않게 해주는 역할이 대부분이었기 때문에 재밌게도 야후의 주요 검색어는 "구글", 그리고 구글의 주요 검색어는 "야후"였을 정도이다. 인터넷이 활성화되면서 새로운 사이트가 많이 생겨났고, 특히 게시판과 커뮤니티, 카페 등이 활성화되면서 사람들은 점점 사이트가 아닌 정보를 찾기 시작하였다. 웹사이트에 포함된 컨텐츠, 특히 게시판 등에 포함된 정보를 통합 검색하기 시작하면..

반응형