기업의 데이터 분석

3.4. 엑셀 기반 데이터 유사도와 협업 필터링

정데만 2023. 5. 25. 20:32
728x90
 

 

사물의 유사성은 모양, 크기 등의 외형과 용도뿐 아니라 사물 간의 관계까지 고려하여 복합적으로 결정된다.

데이터 유사도는 수치화된 데이터를 이용하여 수학적인 유사성을 측정하는 방법으로, 앞서 살펴본 클러스터링이나 상관계수와 수학적인 원리는 비슷하다.
 
수치로 계산된 개체간 유사도는 주로 행동 유사도에 따른 패턴 인식에 이용되거나 성향이 유사한 고객을 찾아서 상품을 추천 하는 데 주로 사용된다. 

 

추천 시스템

 

상품과 컨텐츠는 개인의 성향에 따라 선택되는 것 같지만, 사실 지역이나 국가와 같은 집합체에 속해 있어서 문화와 규범에 따라 서로 영향을 받으며, 상품이나 콘텐츠도 이러한 영향에 의해 유사한 고객군을 가지게 된다.
 
대표적으로 라면과 김치, 그리고 삼겹살과 쌈장 같은 상품간의 관계는 결국 한국인의 음식 문화에 의해 상품간의 연관성이 발생하게 되는 것이다.
 
'협업 필터링'은 이와 같이 상품과 고객의 유사성을 기반으로 만들어진 추천 알고리즘으로 상품 기반(Item-Based) 협업 필터링과 사용자 기반(User-based) 협업 필터링으로 나누어진다.
 


 
유사도 설명과 엑셀 활용 협업 필터링

엑셀 협업필터링(practical-data.tistory.com).xlsx
0.02MB

엑셀 협업필터링 활용 예시 (비번 : pdata)

 

 

1. 상품 기반 협업 필터링 

상품 기반 협업 필터링은 상품을 기준으로 한 유사도로 산출되며인터넷쇼핑몰에서 상품정보 페이지에서 연관된 다른 상품을 표시하거나 소매유통점에서 연관된 상품의 진열에 활용된다. 

 

2. 사용자 기반 협업 필터링 

사용자 기반 필터링은 사용자간의 유사도를 기준으로 추천하며 음악, 영화와 같이 사용자의 성향에 크게 좌우되는 콘텐츠 영역에서 많이 활용된다. 

 

특히, 유튜브와 넷플릭스에서 자주 소개되는 알고리즘으로 수없이 많은 콘텐츠가 끊임없이 업데이트되는 특성을 가진 사이트에서 개별 품목별로 추천하는 상품 기반 협업 필터링보다는개인에 대한 취향을 더 자세하게 맞출 수 있어서 콘텐츠 개인화라는 측면에서 많이 활용되는 알고리즘이다.


728x90