데이터분석 3

3.4. 엑셀 기반 데이터 유사도와 협업 필터링

사물의 유사성은 모양, 크기 등의 외형과 용도뿐 아니라 사물 간의 관계까지 고려하여 복합적으로 결정된다. 데이터 유사도는 수치화된 데이터를 이용하여 수학적인 유사성을 측정하는 방법으로, 앞서 살펴본 클러스터링이나 상관계수와 수학적인 원리는 비슷하다. 수치로 계산된 개체간 유사도는 주로 행동 유사도에 따른 패턴 인식에 이용되거나 성향이 유사한 고객을 찾아서 상품을 추천 하는 데 주로 사용된다. 상품과 컨텐츠는 개인의 성향에 따라 선택되는 것 같지만, 사실 지역이나 국가와 같은 집합체에 속해 있어서 문화와 규범에 따라 서로 영향을 받으며, 상품이나 콘텐츠도 이러한 영향에 의해 유사한 고객군을 가지게 된다. 대표적으로 라면과 김치, 그리고 삼겹살과 쌈장 같은 상품간의 관계는 결국 한국인의 음식 문화에 의해 상..

3.3. 엑셀 예측모델 데이터 준비와 개발 방법

일반적으로 사용되는 예측이라는 단어에는 ‘미래’에 대한 조건이 포함되어있다. 사전적 정의인 ‘미리 헤아려 짐작함’에서도 알 수 있듯이 단어 자체에서 이미 짐작하고자 하는 사건이 미래에 발생할 것임을 명확히 하는 만큼 예측과 미래는 떼려야 뗄 수 없는 관계이다. 대다수의 예측 모델 또한 실제로 미래를 예측하기 위한 목적으로 활용되고 있으며 시계열 예측 모델의 경우에는 시간순으로 배열된 데이터를 이용해 연결된 미래의 값을 예측하는 것을 목적으로 발달한 모델이기도 하다. 그러나 데이터 기반 예측 모델의 전체 사용 범위를 살펴보면 미래에 대한 ‘예측’보다는 현재 존재하는 값을 ‘추정’하기 위한 용도로도 많이 활용된다. 예를 들면, 수술을 통해서 확인할 수 있는 질병의 발명 여부를 증상만으로 먼저 추정한 후 수술..

3.1. 엑셀 클러스터링(군집 분석) 방법

개체를 분류하는 것은 연령, 성별과 같은 정해진 속성으로 분류하거나, 행동을 기반으로 유사한 개체, 예를 들어 커피를 평균보다 많이 마시는 ‘고객’ 또는 주말보다 평일에 매출이 많이 발생하는 ‘대리점’과 같이 분류할 수 있으며, 속성과 행동을 모두 포함하여 ‘평일에 커피를 많이 마시는 30대 남성’과 같은 분류하기도 한다. 개체를 분류한다는 것은 각 개체가 가진 정보를 펼쳐놓고 하나의 정보든 여러 개의 정보든 유사성을 가지는 개체를 묶는 것을 의미하며, 클러스터링 기법은 이러한 데이터를 수치화하여 수학적인 방법으로 반복 연산하는 알고리즘이다. 클러스터링 기법은 활용도가 높은 만큼 분석하는 과정에 대한 자유도도 높아서 엑셀뿐 아니라 데이터 분석 도구를 이용할 때도 데이터를 준비하는 과정부터 분석 결과를 확..

반응형