전체 글 108

데이터 라벨링이란? 솔루션과 비용 절감

데이터 라벨링 정의 데이터 라벨링은 데이터에 의미있는 정보(레이블)를 부여하여, AI학습을 위한 데이터셋을 만드는 과정이다. 라벨링된 데이터는 정답을 예측하는 지도 학습(Supervised Learning)에 주로 이용된다. 이미지, 음성, 텍스트 등 다양한 유형의 데이터에서 개체를 분류하거나 정보를 입력하는 데 적용된다. 라벨링에 사용되는 도구는 Labelbox, RectLabel, VGG Image Annotator 등이 있으며, 클라우드 서비스 등에서도 제공하고 있다. 일부 라벨링 작업은 정확도가 떨어지더라도 자동화 도구(오토 라벨링 툴)를 이용할 수 있다. 라벨링 정확도를 높이기 위해서 품질 관리 및 검토 프로세스를 포함해야 한다. 개인정보가 포함된 데이터를 라벨링할 때는 데이터 유출에 대한 보호..

4.3. 추천과 개인화, 그리고 타겟마케팅

추천 상품을 선정하는 방식은 기업 내부에서 서로 의견이 다를 수 있지만, 사실 상품 선정 방식뿐만 아니라 대상과 목적, 그리고 적용하는 방식까지도 차이가 생길 수 있다. 시장 점유율 강화는 ‘타겟마케팅(Target Marketing)’ 관점의 데이터를 활용해야 하며, 개인 만족도 제고는 ‘개인화(Personalisation)’라는 관점으로 데이터 기반 알고리즘을 개발하고, 판매량 증대는 추천이라기보다는 시장 분석에 의한 ‘의사결정’ 업무라고 봐야 한다. 물론, 타겟마케팅과 개인화는 둘 다 데이터를 활용하는 관점에서 비슷하게 느껴질 때가 많지만, 방향성과 목적에 따라 세부적으로 처리하는 방식이 다르니 각각의 차이를 정리해보고 어떠한 형태로 데이터가 활용되는지 알아보도록 하자. 데이터 기반 개인화(Peson..

4.2. 데이터 기반 의사 결정과 효과 측정

인간은 간혹 부정확한 기억이나 한정된 경험을 가지고 중요한 판단을 내리기 때문에 데이터 기반 의사결정은 이를 보완하는 방식으로 자주 소개되곤 한다. 그러나, 기업의 데이터 기반 의사결정은 단순히 데이터를 자료로 활용하고 통계치를 근거로 제시함으로써 중요한 판단을 뒷받침하는 것으로 끝나지 않으며, 기업이 요구하는 데이터 기반 의사결정이란 엄밀히 말하면 기업 자신을 스스로 분석하고 평가하는 것을 의미한다. 이번 포스트에서는 이러한 관점에 따라 기업이 지표관리와 성과분석을 통해 데이터를 수집하고 활용할 수 있는 방법을 소개하고자 한다. 지표관리란 기업의 지표라는 것은 기업이라는 개체의 속성에 해당하는 것으로 다양하고 상세할수록 깊이 있는 분석이 가능해진다. 물론, 활용할 때마다 단계별로 데이터를 수집하고 분석..

4.1. 기업의 데이터 활용 프로세스

전산화된 업무 환경에서 정형 데이터는 입력과 동시에 수집되며 별도의 가공처리 없이 활용할 수 있지만, 비정형 데이터를 추가로 활용하려면 데이터의 형태에 따라 별도의 수집 및 가공 과정이 필요하다. 그리고 목적에 맞는 알고리즘을 선택하여 데이터를 분석해야만 비로소 활용할 수 있다. 기업의 규모가 커질수록 이러한 처리를 위해서는 단계별로 시스템을 구축하고 역할별로 업무를 분담할 필요가 있는데, 기업에서 데이터를 이용하는데 필요한 단계별 업무와 시스템을 알아보자. 기업이 데이터를 활용하는 단계는 아래와 같이 4단계로 나뉘진다. 단계 단계별 업무 수집 기업 내/외부에 보관된 데이터를 조사하고 이용할 수 있도록 관리하는 단계 가공 형태가 다른 데이터를 활용하기 쉽게 변환하거나 동일한 규칙으로 가공하는 단계 분석 ..

3.4. 엑셀 기반 데이터 유사도와 협업 필터링

사물의 유사성은 모양, 크기 등의 외형과 용도뿐 아니라 사물 간의 관계까지 고려하여 복합적으로 결정된다. 데이터 유사도는 수치화된 데이터를 이용하여 수학적인 유사성을 측정하는 방법으로, 앞서 살펴본 클러스터링이나 상관계수와 수학적인 원리는 비슷하다. 수치로 계산된 개체간 유사도는 주로 행동 유사도에 따른 패턴 인식에 이용되거나 성향이 유사한 고객을 찾아서 상품을 추천 하는 데 주로 사용된다. 상품과 컨텐츠는 개인의 성향에 따라 선택되는 것 같지만, 사실 지역이나 국가와 같은 집합체에 속해 있어서 문화와 규범에 따라 서로 영향을 받으며, 상품이나 콘텐츠도 이러한 영향에 의해 유사한 고객군을 가지게 된다. 대표적으로 라면과 김치, 그리고 삼겹살과 쌈장 같은 상품간의 관계는 결국 한국인의 음식 문화에 의해 상..

3.3. 엑셀 예측모델 데이터 준비와 개발 방법

일반적으로 사용되는 예측이라는 단어에는 ‘미래’에 대한 조건이 포함되어있다. 사전적 정의인 ‘미리 헤아려 짐작함’에서도 알 수 있듯이 단어 자체에서 이미 짐작하고자 하는 사건이 미래에 발생할 것임을 명확히 하는 만큼 예측과 미래는 떼려야 뗄 수 없는 관계이다. 대다수의 예측 모델 또한 실제로 미래를 예측하기 위한 목적으로 활용되고 있으며 시계열 예측 모델의 경우에는 시간순으로 배열된 데이터를 이용해 연결된 미래의 값을 예측하는 것을 목적으로 발달한 모델이기도 하다. 그러나 데이터 기반 예측 모델의 전체 사용 범위를 살펴보면 미래에 대한 ‘예측’보다는 현재 존재하는 값을 ‘추정’하기 위한 용도로도 많이 활용된다. 예를 들면, 수술을 통해서 확인할 수 있는 질병의 발명 여부를 증상만으로 먼저 추정한 후 수술..

3.2. 데이터로 연관성을 해석하는 방법(엑셀 상관분석)

연관성은 시간상의 전후 관계 또는 동일 시간대에 영향을 끼치는 사건과 같이 개체와 사건 간의 관계를 설명하는 단어이다. 연관성 분석은 앞서 인사이트 도출에서 진행했던 비교분석을 수치상으로 보완해주거나 수많은 데이터를 일일이 비교하지 않아도 연관성이 높은 개체를 찾아서 인사이트 도출을 수월하게 진행하는 데 도움을 준다. 또한 엑셀로 아주 쉽게 할 수 있어서 앞선 포스트의 클러스터링 작업보다 훨씬 사용 빈도가 높을 것이라 예상한다. 1. 표와 그래프를 이용한 상관관계 확인 방법 아래는 국방부에서 발표한 공군의 신체 데이터 표본을 활용하여 만든 히트맵으로 각 구간에 해당하는 인원수를 키를 기준으로 비율 계산 후 수치가 높을수록 녹색이 진해지도록 만들었다. 맵을 보면 키가 커질수록 몸무게가 높은 구간에 인원수 ..

3.1. 엑셀 클러스터링(군집 분석) 방법

개체를 분류하는 것은 연령, 성별과 같은 정해진 속성으로 분류하거나, 행동을 기반으로 유사한 개체, 예를 들어 커피를 평균보다 많이 마시는 ‘고객’ 또는 주말보다 평일에 매출이 많이 발생하는 ‘대리점’과 같이 분류할 수 있으며, 속성과 행동을 모두 포함하여 ‘평일에 커피를 많이 마시는 30대 남성’과 같은 분류하기도 한다. 개체를 분류한다는 것은 각 개체가 가진 정보를 펼쳐놓고 하나의 정보든 여러 개의 정보든 유사성을 가지는 개체를 묶는 것을 의미하며, 클러스터링 기법은 이러한 데이터를 수치화하여 수학적인 방법으로 반복 연산하는 알고리즘이다. 클러스터링 기법은 활용도가 높은 만큼 분석하는 과정에 대한 자유도도 높아서 엑셀뿐 아니라 데이터 분석 도구를 이용할 때도 데이터를 준비하는 과정부터 분석 결과를 확..

2.7. 알고리즘 활용 인사이트 추론

통계학은 데이터를 수치화하고 공식을 적용한 후 연산 결과로 데이터를 분석한다. 데이터 사이언스에서는 통계학의 데이터 분석 방법을 컴퓨터공학과 접목하여 알고리즘을 개발하였고, 예측 모델 개발과 AI 학습에 활용하고 있다. 통계학과 알고리즘에 기반한 데이터 분석 방법은 앞선 추론 방법과 달리 데이터를 가공하거나 공식을 적용하는 과정이 필요하므로 자세한 방법에 대해서는 별도로 다룰 예정이며, 이번 글에는 알고리즘을 활용해 인사이트를 도출하는 방식을 소개하고자 한다. 13. 클러스터링 알고리즘 활용 세분화 그룹 생성 클러스터링(Clustering)은 수치적 유사성에 따라 데이터를 분류(군집화)하는 알고리즘으로 고객, 상품 등의 개체를 분류하거나 행동 패턴을 파악하는 데 활용된다. 특히, 고객 세분화 작업에 활용..

2.6. 외부 통계자료(데이터) 결합 분석

앞선 단락에서는 내부 데이터를 이용해 시장 변화와 소비행태를 분석하는 방법을 알아보았다. 하지만, 새로운 시장에 진출하거나 다른 업종과 연계를 계획하고 있다면 내부 데이터만으로는 자사 고객이 다른 업종에서 어떤 상품을 구매하고 선호하는지 파악하기 쉽지 않다. 이번 포스트에서는 외부 통계자료와 데이터를 활용하여 자사 데이터와 결합한 후 인사이트를 도출하는 방법을 알아보자. 10. 코호트로 구분된 외부 통계자료 활용 인사이트 도출 산업별 협회와 공공기관 또는 통계청 등에서는 업종과 관련되어있는 현황 또는 조사자료 등을 홈페이지에 제공하고 있다. 이 중 연령, 성별, 지역 등의 인구통계학적 속성에 의해 구분된 통계자료는 앞선 단락에서 설명했듯이 코호트에 의한 동질성을 가지기 때문에 내부 데이터와 결합하여 통계..

반응형