세줄 코딩(실무용 알고리즘) 17

시계열 예측방식, 그리고 가장 간단한 시계열 예측 알고리즘

시계열 데이터 예측 방식 이전 포스트에서는 시계열 분해 알고리즘(관련 포스트)을 활용하여 시계열 데이터를 구성하는 추세/계절성/주기성을 알아보았다. 시계열 예측은 이러한 요소들을 조합하여 최적화 된 예측값을 계산하는 알고리즘으로 데이터에 따라 단일 값(단변량)을 이용하는 예측하는 방법과 같은 시기에 측정된 여러 데이터(다변량)을 활용하는 방식으로 나눌 수 있다. 단일 값을 이용한 예측 방식은 앞서 알아본 배추값의 사례처럼 월별 배추값으로 추세와 계절성 등을 분해하고 이를 조합하여 예측하는 방식으로 진행된다. 이는 결국 과거 자신의 값에서 규칙성을 발견하여 미래를 예측하는 방식이라 볼 수 있다. 그러나 여러 데이터를 이용한 시계열 예측 방법은 과거 자신의 값 뿐만 아니라 해당 값에 영향을 주는 값들도 예측..

시계열 데이터를 간단하게 분석하는 방법

시계열 데이터는 설명하기 쉽다!? 시계열 데이터란 시간별로 계측하고 나열한 데이터를 말한다. 흔히 보는 주식시세나 월별 매출, 일자별 기온 등은 모두 같은 방식으로 기록한 데이터를 시간순으로 나열한 시계열 데이터이다. 시계열 데이터는 차트로 구성해보면 일정한 패턴과 추세를 볼 수 있는 경우가 많은 데, 당장 기온만 하더라도 자전으로 인해 밤낮으로 등락을 반복하고 공전에 따라 계절별로 바뀌는 패턴을 가지고 있어 누구나 쉽게 인지할 수 있으며, 최근 100년간 꾸준히 상승하면서 인류 모두가 추세를 실감하고 있다. 시간에 따른 데이터의 변화는 굳이 어렵게 분석하지 않아도 패턴을 감지하거나, 복잡한 분석 기법을 적용하지 않아도 차트로 파악할 수 있다는 장점 때문에 누구나 쉽게 분석하고 공감할 수 있다는 장점을 ..

데이터 탐색을 위한 단계별 기초 코드

데이터 사이언티스트는 AI나 예측모델을 개발하기 위해서 가장 먼저 프로젝트의 목적에 따른 데이터의 기본 상태를 파악하고, 이에 따른 예상 결과물을 결정한 후 작업 방식과 소요시간을 예측하고 최종적으로 확보된 데이터에 대한 적합성을 판단해야 한다. 초거대 AI를 활용한 프로젝트가 많아지면서 규모가 커지고 인원과 비용도 증가함에 따라 사전 탐색과정에서 판단이 잘못되었을 경우 발생하는 손실도 커지고 있다. 서비스가 운영되고 참여자가 활동해야만 발생하는 데이터의 경우 상당한 수집 시간이 필요하며, 외부에서 구입할 경우에도 비식별처리와 전처리에 오랜 시간이 소요되기 때문에 데이터에 대한 프로젝트 초기에 이루어지는 데이터 적합성 판단은 빠르고 정확해야만 한다. 데이터 탐색의 기본 단계 데이터를 탐색할 때는 기본적으..

데이터 탐색이 모델 개발에서 가지는 의미(with 고인물)

데이터 분석 올림픽 Kaggle 전세계에서 가장 유명한 데이터 분석 대회 플랫폼 Kaggle(케글)에는 기업들이 자발적으로 자사의 데이터를 올리고 상금과 함께 분석 및 알고리즘을 겨루는 경진 대회가 수시로 개최된다. AI에 대한 전세계적인 관심이 늘어났으나 인력은 부족하다보니, Kaggle대회의 우승자는 엄청난 관심과 함께 실력을 인정 받아 대회 상금만이 아니라 수많은 기업들로 부터 러브콜을 받고 인터뷰 요청까지 쏟아지는 경험을 하게 된다. 국내에서도 최근(23.5월) Google이 등록한 수화 분류 알고리즘 대회에서 개인이 단독으로 출전해 우승하면서 기사화가 되기도 하였다.(관련 기사) Kaggle의 고인물들 이렇게 전세계인이 주목하는 Kaggle의 Code메뉴에는 사용자들이 공유한 분석 코드와 알고리..

AutoML(자동화 기계 학습)로 누구나 만들 수 있는 예측 모델

예측에 대한 부담감 통계학이나 기계학습(Meachie Leaning) 이론을 읽어본 적 없다면, 예측모델은 아무리 쉽게 만들 수 있다고 해도 사용하기에 앞서 막연한 부담감을 가질 수 밖에 없다. 이는 예측이라는 단어 자체가 가진 불확실성과 일상에서 접하는 예측이 자주 틀리기 때문인데, 특히 기상과 시장 예측 분야는 앞으로도 원하는 만큼 정확해질 가능성은 적다. 예측이 틀리는 가장 큰 이유는 기대치와 참여 주체의 개입, 그리고 데이터 부족을 꼽을 수 있다. 1) 기대치로 인하여 개인이 예측모델의 정확도를 판단할 때는 자신의 겪은 사건에 대해 높은 확률을 부여하는 확증편향을 포함하게 된다. 기상 예측 분야는 소풍날 생각지 못한 비가 오거나, 평소와 달리 우산을 챙겨간 날 비가 오지 않는 등 개인에게는 다르게..

장바구니 분석(연관분석)의 구조와 활용 방법

확률로만 계산하는 연관분석 연관분석은 협업 필터링과 달리 유사도 기반 함수를 이용하지 않고 대상 품목의 빈도를 기반으로 확률을 계산하기 때문에 분석하기 쉽다는 장점을 가지고 있다. 그래서 엑셀이나 계산기로 분석할 수 있을 만큼 간단한 구조를 가지고 있지만, 품목별 연관관계뿐 아니라 2~3가지 품목이 조합된 세트의 연관관계까지 뽑아내려면 반복적으로 계산할 수 있는 프로그램을 이용해야 한다. 하지만 이 프로그램마저 구조가 간단해서 연재의 취지에 맞게 쉽게 활용 할 수 있지만, 이왕 쉬운 분석 방법을 만났으니 통계기반 알고리즘들이 어떠한 구조로 동작하는지 설명하면서 원리에 맞는 활용 방법을 설명해보고자 한다. 연관분석은 총 3가지의 빈도계산 방식을 가지고 있으며 각각 다른 의미를 가지고 있다. 지지도(A&B ..

상품 추천 알고리즘 - 협업 필터링 vs. 연관분석

이커머스의 추천 알고리즘 앞서 추천 알고리즘을 소개하면서 아마존에서 상품 기반 협업 필터링을 이용해 관련 상품을 추천하는 것을 소개하였다. 아마존의 상품 기반 협업 필터링은 무려 25년 전인 1998년도에 발표된 것으로 당시 1~2페이지를 보는 것도 버거웠던 인터넷 환경에서 사용자의 무한 클릭을 유도하면서 종합쇼핑몰로 발전하고 개인화에 앞서나가게 하는데 일조하였다. 그러나 아마존이 처음 협업 필터링을 적용했던 이커머스 초창기에 대부분의 쇼핑몰들은 알고리즘이 아닌 신문, 잡지와 비슷한 편집장 시스템을 운용하면서 상품을 소싱하는 MD(Merchandiser)가 직접 노출을 결정했다. 그도 그럴것이 당시엔 느린 배송 시스템과 매입 방식으로 이커머스의 점유율이 낮았고, 이로 인해 상품을 소싱하는데 어려움을 겪었..

디시전트리(의사결정나무)로 쉽고 정교하게 타겟팅하는 방법

개인화와 타겟팅의 차이 고객에게 상품과 서비스를 권유하는 방법론에서 개인화와 타겟팅은 연장선에 있으며 1:1 마케팅, 개인 맞춤형 서비스 등 표현하는 방법에서도 상당히 비슷하다. 또한 데이터와 알고리즘에서도 혼용하는 부분이 많기 때문에 사실상 같은 범주로 놓고 처리하는 경향이 있기는 하지만, 사실 궁극적인 목표에서 개인화와 타겟팅은 상당히 큰 차이를 가지고 있다. 먼저, 개인화는 고객의 니즈를 충족시키는 것을 최우선 목표로 한다. 그래서 설령 기업이 당장 주력하는 상품과 서비스가 아니라고 해도 고객한테 맞춰 가다보면 결국 고객이 원하는 서비스를 제공하는 기업으로 성장하게 될 것이라는 관점을 가지고 있다. 그래서 데이터 또한 초개인화라는 관점에서 고객이 남긴 흔적 하나하나를 수집하려고 하며, 알고리즘은 고..

유사도 함수 하나로 해결하는 (개인화)추천 알고리즘

오프라인 추천 방식 매장에 단골고객이 방문하면 영업사원은 고객이 자주 찾는 상품을 안내하거나 취향에 맞는 상품을 추천한다. 그리고는 상품에 대한 반응을 지켜보거나, 정보를 제공하면서 판매를 성사시키는데 고객의 성향에 맞는 상품을 매칭하거나, 선택한 상품에 어울리는 악세사리 등을 고르는데 경험이라는 데이터를 활용한다. 오프라인 추천방식 → 온라인 전환 단골이 방문하면 그에 맞는 서비스를 제공하는 건 고객에 대한 우대 서비스이자 개인화된 추천을 통한 판매를 목적으로 한다. 오프라인에서 사람이 행했던 영업활동은 온라인 환경에서 프로그램과 데이터로 대체되었으며, 초기 자판기같이 정해진 기능만 수행하던 웹사이트는 데이터를 기반으로 좀 더 친근하고 개인화된 서비스로 개선하였으며, 웹사이트와 배송으로 사업을 키운 넷..

효과적인 타겟팅과 개인화를 위한 선제 조건

레드오션과 블루오션, 그리고 틈새시장, 세그멘테이션, 타겟 마케팅까지 관련 일을 하지 않아도 들어봤을 법한 마케팅 용어들이 있다. 이들은 모두 고객과 시장을 세분화하고 선택과 집중을 해야한다는 개념인데, 사실 자본주의와 산업화로 끊임없이 새로운 상품을 만들어내야 살아남을 수 있는 경제구조에서 기업들은 굳이 이러한 개념을 상기하지 않아도 스스로 리소스를 집중하지 않으면 생존할 수 없는 환경에 처해있다. 선택과 집중은 너무나 중요하고 모두가 의심하지 않지만, 타겟팅은 이러한 상황에 과연 효과적인 수단일까? 무엇을 타겟팅 할 것인가? 고객과 상품으로 형성되는 시장에서 기업은 저마다 특색있는 상품과 서비스, 그리고 브랜드를 구축하고 있다. 모든 시장은 고객이 상품을 구매하는 순간부터 만들어지기 때문에 고객은 시..

반응형