세줄 코딩(실무용 알고리즘)

분석용 데이터를 만드는 방법

정데만 2023. 7. 29. 21:56
728x90
 

데이터 분석 → 분해와 비교

이전 포스트(바로 가기)에서 데이터 분석의 기본 원리는 분해+비교이며, 개체의 행동을 이해하기 위해서는 시간을 대입해야 한다고 소개했었다. 이번 포스트에서는 이러한 개념을 좀 더 구체적으로 설명하고 데이터를 만드는 방법을 소개하고자 한다.

 

아래 그림을 보면서 분해와 비교, 그리고 시간을 적용하는 방식을 단계별로 살펴보자.

 

 

 

분해 → 개체 + 속성과 행동

먼저, 하나로 구성된 군집 또는 사건 등을 분석하기 위해서는 구성된 개체나 사건을 분해해야한다. 불량제품이 생산된 공장을 라인별로 쪼개거나, 지역본부를 영업점으로, 영업점을 사원 또는 상품별로 나누는 과정이 이에 해당한다.

 

그리고 개체는 속성과 행동으로 추가로 나눌 수 있다. 여기서 속성이란 개체가 가지고 있는 정적인 성질로 사람일 경우 성별이나 연령, 거주지를 기본적인 속성으로 볼 수 있으며, 영업사원일 경우 직급이나 경력 등이 추가로 적용되며, 상품이라면 품목과 가격이 속성으로 지정될 수 있다.

 

사회통계학에서는 속성으로 분해된 개체만으로도 다양한 분석 사례를 많이 볼 수 있는데, 연령과 성별, 지역은 신체 또는 물리적인 특성에 따라 영향을 받기도 하지만, 사회적인 제약(미성년 등)도 동반될 수 있기 때문에 분해 관점에서 중요한 속성에 해당한다.


행동 → 시간에 따라 분류

행동은 정적인 개념의 속성과 달리 시간에 따라 달리진다. 특히 데이터는 개체나 사건이 관측된 시점에 따라 기록된 양도 달라지며 정리할 수 있는 방식도 달라진다.

 

예를 들어, 구매라는 행동을 누적 구매금액으로 나누어 분류한다고 했을 경우 동일수준의 구매력을 가지고 있다 해도 첫 구매에 따라 달라지게되며, 만약 최근에 전혀 방문하지 않는 다 할지라도 누적 구매량만으로 고객의 행동을 분류하는 결과를 낳게된다.

 

그래서 고객의 행동에 시간을 대입한다면 월 평균 구매건수, 최근 구매 금액, 누적 구매 금액 등에 따라 데이터를 구분해야하며, 상품일 경우에는 평균 교체 주기 등이 시간에 따른 행동데이터가 될 수 있다.


비교하기 쉽게 구성한 데이터 → 분석용 데이터

공장, 영업점, 영업사원 등의 개체를 분석하든 날씨, 판매량, 연체 등의 사건을 분석하든 모든 분석은 대상을 동일한 기준의 개체 또는 속성, 행동으로 나눈 후 비교를 통하여 진행된다.

 

개체 또는 속성에 의해 구분된 데이터를 비교해본 후 추론을 거쳐 인사이트를 도출하거나, 사건의 발생확률을 예측하는 것도 모두 비교를 통해 이루어진다.

 

그래서 분석용 데이터를 구성할 때는 고객이라는 개체에 각 속성과 행동을 추가하거나, 날씨라는 사건에 온도, 습도 등의 데이터를 기록하여 구성하게 된다.

 

다음 포스트부터는 목적에 따라 실제 분석용 데이터를 구성하는 방식을 소개해보고자 한다.


728x90