업무 환경에서 자주 접하는 장표 작성에도 사실 요령과 규칙이 있다. 하지만, 대부분 선배의 장표를 따라하거나, 이리저리 시도하다가 겨우 만든 장표를 반복해서 사용하는 경우가 많은데, 통계 또는 데이터 관련 학과를 전공했거나 이미 연차가 꽤 쌓인 분석가인데도 요약에는 잼병인 경우도 가끔 보곤 한다.
장표 작성과 같이 데이터를 요약하는 과정은 어지럽게 쌓여 있는 데이터를 일목요연하게 정리하고 필요한 정보를 찾아내는 과정으로 최근 강조되는 '데이터 리터러시' 의 첫번째 단계이기도 하다.
사회생활을 막 시작한다면 꼭 읽어보길 바라며, 요약에 자신 있다고 해도 데이터 요약만 따로 가르치는 경우는 많이 없으니 아래에 정리해본 내용으로 가볍게 한번 되짚어보길 바란다.
1. 데이터와 요약의 기본 구성요소
데이터 요약이란 행렬과 구성된 정형 데이터에서 특정한 컬럼을 기준으로 다른 컬럼의 값을 집계하는 방식으로 구성된다. 기준으로 사용된 컬럼을 차원, 관점이라는 뜻에서 ‘디멘젼(Dimention)’이라고 표현하며 집계에 사용된 컬럼의 집계 값을 ‘메저(Measure)’라고 한다.
정형 데이터의 요소 | 테이블, 컬럼, 로우 |
데이터 요약을 구성하는 요소 | 디멘젼, 메저 |
데이터 요약은 디멘젼과 메저의 쌍으로 구성되어, 컬럼에서 디멘젼과 메저를 정하는 것으로 시작된다. 요약 장표를 만드는 도구(엑셀 피벗 테이블, MSTR 등)들도 대부분 이를 편하게 할 수 있도록 구성된다. 가로 또는 세로에 있는 디멘젼 영역에 들어갈 기준 컬럼을 선택하고 값이 될 컬럼을 메저로 선택한 후 합계 또는 평균 등으로 집계한다.
요약 장표 | 컬럼 목록 | |||||||
|
|
2. 디멘젼(기준)을 정하는 방법
원칙적으로 모든 컬럼은 디멘젼이 될 수 있으며 자료의 형태에 따라 다음과 같이 가공될 수 있다.
구분 | 디멘젼으로 활용하는 방법 |
범주형 자료 | 공통적인 특성에 따라 묶거나 나눠서 표현 가능 |
수치형 자료 | 구간화하여 범주형 자료로 변환 후 활용 가능 |
3. 메저(요약 값)를 정하는 방법
메저는 디멘젼에 따른 값을 집계하는 것으로 수치형 자료만 이용하게 된다. 집계하는 방법은 보통 요약하려는 목적에 따라 정하는데 총 4가지로 구성된다.
구분 | 설명 | 예시 |
크기 | 수치를 더하거나 세는 방법, 크기를 나타냄 |
합계, 개수 |
대표값 | 특정 그룹을 대표하는 속성으로 확률에 의해 결정된다. |
평균, 중앙값, 최빈값 |
분포 | 그룹 내 수치가 흩어져 있는 정도, 특정 방향으로 치우치거나 집중된 정도 |
분산, 표준편차, 왜도, 첨도 |
범위 | 그룹 내 값의 범위, 그룹 내 수치를 일정 간격으로 나눴을 때 특정 순위의 값 |
최댓값, 최솟값, 분위값 |
4. 차트(시각화)를 만드는 방법
간혹 경험이 많은 분석가는 분야의 지식이 없더라도 요약 장표를 만드는 것만으로도 지식을 습득하기도 한다. 예를 들어, 연령별 구매 품목에서 특정 연령이 자주 구매하는 품목을 발견하고 해당 품목의 용도까지 추론해 내는 것이다.
이런 사례는 디멘젼과 메저를 얼마나 어떻게 결합하느냐에 따라서 정보로서 가치 있게 변하는 과정으로, 다양한 형태의 차트를 활용하면 데이터를 이해하기 쉬워질 뿐 아니라 요약 과정에서도 도움을 받을 수 있다
'기업의 데이터 분석' 카테고리의 다른 글
2.3. 날짜 및 경과에 따른 인사이트 도출 방법 (0) | 2023.05.19 |
---|---|
2.2. 세그먼트/코호트 기반 인사이트 도출 방법 (0) | 2023.05.18 |
1.3. 데이터로 할 수 있는 업무 영역 (0) | 2023.05.16 |
1.2. 기업의 데이터 수집에 대한 현실적인 지침 (0) | 2023.05.15 |
1.1. 데이터를 활용하지 못하는 기업의 특징 (0) | 2023.05.14 |