연관성은 시간상의 전후 관계 또는 동일 시간대에 영향을 끼치는 사건과 같이 개체와 사건 간의 관계를 설명하는 단어이다.
연관성 분석은 앞서 인사이트 도출에서 진행했던 비교분석을 수치상으로 보완해주거나 수많은 데이터를 일일이 비교하지 않아도 연관성이 높은 개체를 찾아서 인사이트 도출을 수월하게 진행하는 데 도움을 준다.
또한 엑셀로 아주 쉽게 할 수 있어서 앞선 포스트의 클러스터링 작업보다 훨씬 사용 빈도가 높을 것이라 예상한다.
1. 표와 그래프를 이용한 상관관계 확인 방법
아래는 국방부에서 발표한 공군의 신체 데이터 표본을 활용하여 만든 히트맵으로 각 구간에 해당하는 인원수를 키를 기준으로 비율 계산 후 수치가 높을수록 녹색이 진해지도록 만들었다. 맵을 보면 키가 커질수록 몸무게가 높은 구간에 인원수 비중이 높아서 색이 진해지는 것이 한눈에 볼 수 있다.
상관관계는 산점도라는 그래프를 이용해도 쉽게 확인할 수 있다. 엑셀에서는 값이 들어있는 두 개 행을 선택한 후 삽입 메뉴에서 분산형 차트만 선택하면 아래와 같은 모양의 차트를 생성할 수 있다.
산점도는 개체별 몸무게와 키에 해당하는 곳에 점을 찍어 만들어지며 개체를 구성하는 두 쌍의 수치에 대한 분포를 보고자 할 때 유용하게 사용된다.
아래 키와 몸무게에 대해 산점도를 그려본 결과 각 점이 밀집된 부분이 왼쪽 아래에서 오른쪽 위로 조금씩 올라가면서 능선을 그리는 것을 볼 수 있는데 해당 차트만으로도 키가 커질수록 몸무게도 증가한다는 사실을 확인할 수 있다.
2. 엑셀에서 지원하는 상관계수
상관관계를 수치화 한 것을 상관계수라고 하는데 ‘피어슨 상관계수’가 대표적이며 대다수의 통계프로그램에서도 많이 사용된다.
상관계수는 앞서 살펴봤던 키와 몸무게 그래프와 같은 한 쌍의 데이터가 얼마나 분산되어 있는지 분산과 표준편차 등을 활용하여 계산하는 수식으로 계산된 값은 최소 -1부터 최대 +1까지의 범위의 숫자를 가지며, 0 미만의 값은 음의 상관관계, 0을 초과하는 숫자는 양의 상관관계, 0은 상관관계가 전혀 없음을 나타낸다.
산점도를 기준으로는 2개의 데이터가 흩어지지 않고 뭉쳐 있는 형태로 우측으로 상승하면 키와 몸무게처럼 같이 상승하는 양의 상관관계, 하락하면 하나의 수치가 상승하면 나머지 수치가 하락하는 음의 상관관계로 이해하면 된다. 엑셀에선 CORREL 함수를 이용하면 별도의 계산과정 없이 쉽게 추출할 수 있으며, 참고로 위에 사용된 키와 몸무게 데이터를 상관계수로 표현하면 0.405로 양의 상관관계가 나타난다.
3. 엑셀을 활용한 여러 데이터 간 상관분석
수작업으로 속성을 1쌍씩 결합한 후 분산형 차트를 여러 번 그리면 엑셀에서도 불가능한 작업은 아니다. 그러나 시간이 많이 소요되기 때문에 가뜩이나 반복이 필요한 인사이트 분석에서 이러한 업무는 작업자를 지치게 할 수 있다.
엑셀에서 제공하는 여러 데이터 간 상관계수 추출 작업은 상관분석이라는 이름으로 추가 기능 설치가 필요하지만 한번 해두면 다른 함수들과 마찬가지로 편리하게 활용할 수 있다.
'기업의 데이터 분석' 카테고리의 다른 글
3.4. 엑셀 기반 데이터 유사도와 협업 필터링 (2) | 2023.05.25 |
---|---|
3.3. 엑셀 예측모델 데이터 준비와 개발 방법 (7) | 2023.05.25 |
3.1. 엑셀 클러스터링(군집 분석) 방법 (1) | 2023.05.24 |
2.7. 알고리즘 활용 인사이트 추론 (5) | 2023.05.23 |
2.6. 외부 통계자료(데이터) 결합 분석 (1) | 2023.05.22 |