기업의 데이터 분석 19

4.5. 플랫폼과 데이터 용도 변화

데이터는 개체의 모든 활동을 기록해둔 아카이브이자 자신을 스스로 되돌아볼 수 있는 일기장 같은 역할을 한다. 통계학자와 컴퓨터공학자들은 아카이브를 체계적으로 관리하는 방법을 오랜 시간 동안 연구해왔으며, 일기장을 들춰 새로운 사실을 도출하거나 판단하는 방법도 제시해왔다. [ 데이터의 활용 주체와 주요 활용 방법의 변화 ] 구분 활용처 주요 활용 방법 3차 산업혁명 초기 (PC) 기업 [수집]DBMS기반 업무용 데이터 수집 [요약]실적 보고서 등 장표 작성 [추론]내부 데이터 기반 인사이트 도출 [예측]마케팅, 신용평가 모델 개발 3차 산업혁명 중기 (인터넷) 소비자 [수집]웹/앱에서 주문 및 게시글 작성 [요약]시각화된 정보 활용 [추론]공개 데이터 기반 인사이트 도출 [예측]개인화된 서비스 이용 4차 ..

4.4. 기업이 AI를 만들고 활용하는 방법

챗봇과 자율주행, 그리고 이미지 생성까지 다양한 역할을 하는 AI가 출시되고 있다. 인간을 대체하기 아직 미흡한 부분이 있을지는 모르지만, 앞서 비정형 데이터 처리에서 소개한 OCR과 STT 같은 경우에는 데이터 분석 업무에서도 이미 필수적인 부분을 차지하기도 한다. AI가 만들어지는 과정 자체는 사실 여타의 데이터 분석 방법들과 유사하다. 데이터를 수집한 후 수치 형태로 변환하고 수학 공식을 기반으로 한 알고리즘을 활용하여 분류하거나 예측하는 모델을 만들거나, 여러 개의 모델을 조합하여 하나의 프로그램으로 구성하는 것이다. 다만, 현재와 같은 AI가 만들어지기까지는 딥러닝(Deep Learning)이라는 조금 특별한 알고리즘이 중요한 역할을 하였다. 딥러닝은 복잡한 분류 및 예측 문제를 해결하기 위해 ..

4.3. 추천과 개인화, 그리고 타겟마케팅

추천 상품을 선정하는 방식은 기업 내부에서 서로 의견이 다를 수 있지만, 사실 상품 선정 방식뿐만 아니라 대상과 목적, 그리고 적용하는 방식까지도 차이가 생길 수 있다. 시장 점유율 강화는 ‘타겟마케팅(Target Marketing)’ 관점의 데이터를 활용해야 하며, 개인 만족도 제고는 ‘개인화(Personalisation)’라는 관점으로 데이터 기반 알고리즘을 개발하고, 판매량 증대는 추천이라기보다는 시장 분석에 의한 ‘의사결정’ 업무라고 봐야 한다. 물론, 타겟마케팅과 개인화는 둘 다 데이터를 활용하는 관점에서 비슷하게 느껴질 때가 많지만, 방향성과 목적에 따라 세부적으로 처리하는 방식이 다르니 각각의 차이를 정리해보고 어떠한 형태로 데이터가 활용되는지 알아보도록 하자. 데이터 기반 개인화(Peson..

4.2. 데이터 기반 의사 결정과 효과 측정

인간은 간혹 부정확한 기억이나 한정된 경험을 가지고 중요한 판단을 내리기 때문에 데이터 기반 의사결정은 이를 보완하는 방식으로 자주 소개되곤 한다. 그러나, 기업의 데이터 기반 의사결정은 단순히 데이터를 자료로 활용하고 통계치를 근거로 제시함으로써 중요한 판단을 뒷받침하는 것으로 끝나지 않으며, 기업이 요구하는 데이터 기반 의사결정이란 엄밀히 말하면 기업 자신을 스스로 분석하고 평가하는 것을 의미한다. 이번 포스트에서는 이러한 관점에 따라 기업이 지표관리와 성과분석을 통해 데이터를 수집하고 활용할 수 있는 방법을 소개하고자 한다. 지표관리란 기업의 지표라는 것은 기업이라는 개체의 속성에 해당하는 것으로 다양하고 상세할수록 깊이 있는 분석이 가능해진다. 물론, 활용할 때마다 단계별로 데이터를 수집하고 분석..

4.1. 기업의 데이터 활용 프로세스

전산화된 업무 환경에서 정형 데이터는 입력과 동시에 수집되며 별도의 가공처리 없이 활용할 수 있지만, 비정형 데이터를 추가로 활용하려면 데이터의 형태에 따라 별도의 수집 및 가공 과정이 필요하다. 그리고 목적에 맞는 알고리즘을 선택하여 데이터를 분석해야만 비로소 활용할 수 있다. 기업의 규모가 커질수록 이러한 처리를 위해서는 단계별로 시스템을 구축하고 역할별로 업무를 분담할 필요가 있는데, 기업에서 데이터를 이용하는데 필요한 단계별 업무와 시스템을 알아보자. 기업이 데이터를 활용하는 단계는 아래와 같이 4단계로 나뉘진다. 단계 단계별 업무 수집 기업 내/외부에 보관된 데이터를 조사하고 이용할 수 있도록 관리하는 단계 가공 형태가 다른 데이터를 활용하기 쉽게 변환하거나 동일한 규칙으로 가공하는 단계 분석 ..

3.4. 엑셀 기반 데이터 유사도와 협업 필터링

사물의 유사성은 모양, 크기 등의 외형과 용도뿐 아니라 사물 간의 관계까지 고려하여 복합적으로 결정된다. 데이터 유사도는 수치화된 데이터를 이용하여 수학적인 유사성을 측정하는 방법으로, 앞서 살펴본 클러스터링이나 상관계수와 수학적인 원리는 비슷하다. 수치로 계산된 개체간 유사도는 주로 행동 유사도에 따른 패턴 인식에 이용되거나 성향이 유사한 고객을 찾아서 상품을 추천 하는 데 주로 사용된다. 상품과 컨텐츠는 개인의 성향에 따라 선택되는 것 같지만, 사실 지역이나 국가와 같은 집합체에 속해 있어서 문화와 규범에 따라 서로 영향을 받으며, 상품이나 콘텐츠도 이러한 영향에 의해 유사한 고객군을 가지게 된다. 대표적으로 라면과 김치, 그리고 삼겹살과 쌈장 같은 상품간의 관계는 결국 한국인의 음식 문화에 의해 상..

3.3. 엑셀 예측모델 데이터 준비와 개발 방법

일반적으로 사용되는 예측이라는 단어에는 ‘미래’에 대한 조건이 포함되어있다. 사전적 정의인 ‘미리 헤아려 짐작함’에서도 알 수 있듯이 단어 자체에서 이미 짐작하고자 하는 사건이 미래에 발생할 것임을 명확히 하는 만큼 예측과 미래는 떼려야 뗄 수 없는 관계이다. 대다수의 예측 모델 또한 실제로 미래를 예측하기 위한 목적으로 활용되고 있으며 시계열 예측 모델의 경우에는 시간순으로 배열된 데이터를 이용해 연결된 미래의 값을 예측하는 것을 목적으로 발달한 모델이기도 하다. 그러나 데이터 기반 예측 모델의 전체 사용 범위를 살펴보면 미래에 대한 ‘예측’보다는 현재 존재하는 값을 ‘추정’하기 위한 용도로도 많이 활용된다. 예를 들면, 수술을 통해서 확인할 수 있는 질병의 발명 여부를 증상만으로 먼저 추정한 후 수술..

3.2. 데이터로 연관성을 해석하는 방법(엑셀 상관분석)

연관성은 시간상의 전후 관계 또는 동일 시간대에 영향을 끼치는 사건과 같이 개체와 사건 간의 관계를 설명하는 단어이다. 연관성 분석은 앞서 인사이트 도출에서 진행했던 비교분석을 수치상으로 보완해주거나 수많은 데이터를 일일이 비교하지 않아도 연관성이 높은 개체를 찾아서 인사이트 도출을 수월하게 진행하는 데 도움을 준다. 또한 엑셀로 아주 쉽게 할 수 있어서 앞선 포스트의 클러스터링 작업보다 훨씬 사용 빈도가 높을 것이라 예상한다. 1. 표와 그래프를 이용한 상관관계 확인 방법 아래는 국방부에서 발표한 공군의 신체 데이터 표본을 활용하여 만든 히트맵으로 각 구간에 해당하는 인원수를 키를 기준으로 비율 계산 후 수치가 높을수록 녹색이 진해지도록 만들었다. 맵을 보면 키가 커질수록 몸무게가 높은 구간에 인원수 ..

3.1. 엑셀 클러스터링(군집 분석) 방법

개체를 분류하는 것은 연령, 성별과 같은 정해진 속성으로 분류하거나, 행동을 기반으로 유사한 개체, 예를 들어 커피를 평균보다 많이 마시는 ‘고객’ 또는 주말보다 평일에 매출이 많이 발생하는 ‘대리점’과 같이 분류할 수 있으며, 속성과 행동을 모두 포함하여 ‘평일에 커피를 많이 마시는 30대 남성’과 같은 분류하기도 한다. 개체를 분류한다는 것은 각 개체가 가진 정보를 펼쳐놓고 하나의 정보든 여러 개의 정보든 유사성을 가지는 개체를 묶는 것을 의미하며, 클러스터링 기법은 이러한 데이터를 수치화하여 수학적인 방법으로 반복 연산하는 알고리즘이다. 클러스터링 기법은 활용도가 높은 만큼 분석하는 과정에 대한 자유도도 높아서 엑셀뿐 아니라 데이터 분석 도구를 이용할 때도 데이터를 준비하는 과정부터 분석 결과를 확..

2.7. 알고리즘 활용 인사이트 추론

통계학은 데이터를 수치화하고 공식을 적용한 후 연산 결과로 데이터를 분석한다. 데이터 사이언스에서는 통계학의 데이터 분석 방법을 컴퓨터공학과 접목하여 알고리즘을 개발하였고, 예측 모델 개발과 AI 학습에 활용하고 있다. 통계학과 알고리즘에 기반한 데이터 분석 방법은 앞선 추론 방법과 달리 데이터를 가공하거나 공식을 적용하는 과정이 필요하므로 자세한 방법에 대해서는 별도로 다룰 예정이며, 이번 글에는 알고리즘을 활용해 인사이트를 도출하는 방식을 소개하고자 한다. 13. 클러스터링 알고리즘 활용 세분화 그룹 생성 클러스터링(Clustering)은 수치적 유사성에 따라 데이터를 분류(군집화)하는 알고리즘으로 고객, 상품 등의 개체를 분류하거나 행동 패턴을 파악하는 데 활용된다. 특히, 고객 세분화 작업에 활용..

반응형