기업의 데이터 분석

2.4. 수치형 자료 분류와 인사이트 도출 방법

정데만 2023. 5. 20. 12:13
728x90
 

 

데이터를 분석할 때 수치형 자료는 보통 합계와 개수 등을 산출하거나 세그먼트별 평균을 통해 비교하는 방식으로 많이 이용된다.

 

앞서 데이터 요약글에서도 설명했듯이 수치형 자료를 집계하는 방법은 크기, 대표값, 분포, 범위(순위)로 나눌 수 있지만, 인사이트를 도출하기 위해서는 세그먼트간의 비율, 비중이나 기간별 추세 등을 계산해야하며,

 

수치를 가공하는 것은 결국 세그먼트 또는 디멘젼이 가진 값을 비교하기 위함이므로 원래의 값을 해치지 않는 선에서 각 세그먼트가 가진 특징을 파악하는 것이 중요하다.

 

아래는 일반적으로는 잘 쓰이지 않지만, 통계분석에서는 이용하는 방법으로, 계산이 어렵지 않으므로 개념을 한번만 익히고 나면 실무에서 유용한 수치형자료 가공방법이다.

 

 

6. 정규화 활용 수치 비교

비교를 통해 분석하는 방법은 그룹별 차이를 계산하거나 우열을 따지기 위해 같은 컬럼을 비교하는 게 대부분이지만, 때로는 규모와 단위가 다른 컬럼과도 비교해야 하는 상황이 발생할 수 있다.

 

정규화는 이와 같이 범위가 다른 수치를 같은 범위로 바꿔주는 방법으로 아래의 수식을 이용하여 그룹의 최소값을 0, 최대값을 1로 맞춰 각 값을 0~1 사이의 값으로 변환하여 비교하면 된다.

 

 



7. 세그먼트 구간화 비교

데이터에서 고객이 밀집된 구간은 기업의 판매방식이나 사회적인 현상, 또는 개인의 성향 등으로 인해 같은 선택을 하는 고객층이 많다는 것을 의미한다.

예를 들어 상품을 묶어서 할인 판매하면 가격에 민감한 고객의 건당 구매 건수가 높아지고 이후에도 지속해서 같은 선택을 하는 것을 볼 수 있을 것이다. 이 같은 현상은 고객의 행동에 따라 세그먼트를 구간화하고 인사이트를 도출하는 데 유용하게 활용될 수 있다.

세그먼트 구간화는 우선 수치형 자료를 동일 간격으로 나눈 후 빈도(도수)를 집계하는 작업으로 시작되며, 이때 사용하는 장표는 도수분포표(frequency table)라고 한다.

 

아래는 커피구매횟수별 고객 분포 예시로 1, 2회에 고객이 밀집되어 있고, 3, 4회는 이보다 적으며, 5회 이상부터는 소수의 고객만 분포된 것을 볼 수 있다.

 

커피 구매 횟수 히스토그램

 

이를 밀집도에 따라 고객 수가 적은 3~4회와 5회 이상 그룹을 하나씩 묶고 1, 2회는 그대로 유지하여 묶고 앞서 분석했던 방법대로 세그먼트 간 속성과 행동을 비교할 수 있다. 보통 위와 같이 구간을 나누면 구매 횟수가 많은 고객은 매장 접근성이 좋거나 커피 선호를 선호하는 연령층이라는 등의 인사이트를 발굴할 수 있다.

 


728x90