통계학은 데이터를 수치화하고 공식을 적용한 후 연산 결과로 데이터를 분석한다.
데이터 사이언스에서는 통계학의 데이터 분석 방법을 컴퓨터공학과 접목하여 알고리즘을 개발하였고, 예측 모델 개발과 AI 학습에 활용하고 있다.
통계학과 알고리즘에 기반한 데이터 분석 방법은 앞선 추론 방법과 달리 데이터를 가공하거나 공식을 적용하는 과정이 필요하므로 자세한 방법에 대해서는 별도로 다룰 예정이며, 이번 글에는 알고리즘을 활용해 인사이트를 도출하는 방식을 소개하고자 한다.
13. 클러스터링 알고리즘 활용 세분화 그룹 생성
클러스터링(Clustering)은 수치적 유사성에 따라 데이터를 분류(군집화)하는 알고리즘으로 고객, 상품 등의 개체를 분류하거나 행동 패턴을 파악하는 데 활용된다.
특히, 고객 세분화 작업에 활용하면 디멘젼을 계층적으로 탐색하는 대신 관련 디멘젼을 종합적으로 판단할 수 있는 장점이 있다.
하지만 알고리즘을 활용하기 위해서는 데이터를 별도로 가공해야 하므로, 간단한 세분화 작업에서는 준비 시간이 더 오래 걸릴 수 있으며, 고객 행동에 대한 충분한 이해 없이 작업하면, 오히려 해석하기 어려운 엉뚱한 결과가 나올 수 있어서 주의가 필요하다.
14. 예측 모델을 활용한 중요도 계산
예측 모델은 ‘미래에 발생할 사건 또는 현재 확인하기 어려운 수치를 추정하기 위한 수학적인 계산식의 집합’으로 모델의 예측 원리와 개발 방법은 별도로 설명할 예정이며, 이번 포스트에서는 예측 모델을 활용하여 인사이트를 도출하는 방법을 알아보고자 한다.
예측 모델은 말 그대로 예측을 목적으로 개발하지만, 대부분의 예측 모델 생성 공식과 알고리즘은 생성과정에서 예측하고자 하는 사건과 관련성이 높은 데이터를 수치화할 수 있으며, 이를 통해서 특정 사건에 대한 인사이트를 도출할 수 있다.
많이 알려진 바와 같이 원리금 상환을 자주 연체하는 고객의 신용평가점수가 낮아지는 것도 ‘신용평가모델’이라는 예측 모델에 의한 결과로, 신용평가모델은 고객의 자산과 소득, 금융거래 등의 데이터로 부채상환 여부를 파악하기 위한 모델로 데이터별 중요도를 점수로 환산하여 ‘신용평가표’를 만들어 활용하기도 한다.
15. 비정형 데이터를 이용한 재발견
기업은 고객 접점과 업무 현장, 그리고 상품 등에서 다양한 형태의 비정형 데이터를 남기지만 저장비용을 줄이고, 활용과 관리 효율성을 높이기 위해 핵심 정보만 정형 데이터로 남기고 비정형 데이터는 삭제해왔다.
하지만 최근 데이터를 보관하는 비용이 저렴해지고, AI로 데이터를 가공하여 고객 행동과 이상 거래 등의 중요 정보를 활용할 수 있는 방법이 많아지면서 비정형 데이터를 이용하려는 기업이 많아지고 있다.
대부분 기업이 공통으로 가지고 있는 비정형 데이터는 CCTV, 대화 녹취록, 문서 등으로 각각 동영상, 음성, 텍스트의 형태를 가지고 있다. 이러한 형태의 데이터는 여태까지는 사람이 수작업으로 필요한 정보를 발췌하여 활용하였으나 최근에는 AI를 통해 형태별로 적절한 방식으로 가공하거나 정보를 추출하는 방법이 많아졌다.
'기업의 데이터 분석' 카테고리의 다른 글
3.2. 데이터로 연관성을 해석하는 방법(엑셀 상관분석) (1) | 2023.05.25 |
---|---|
3.1. 엑셀 클러스터링(군집 분석) 방법 (1) | 2023.05.24 |
2.6. 외부 통계자료(데이터) 결합 분석 (1) | 2023.05.22 |
2.5. 행동 기반 세그먼트 생성 및 인사이트 도출 (1) | 2023.05.21 |
2.4. 수치형 자료 분류와 인사이트 도출 방법 (1) | 2023.05.20 |