세줄 코딩(실무용 알고리즘)

데이터가 축적된 과정과 분석의 기본 원리

정데만 2023. 7. 25. 19:51
728x90
 

COBOL (Computer History Museum)

 

지금 같은 형태의 데이터가 기록된 이유

용돈기입장을 쓴다고 생각해보자. 매월 정해진 날짜에 용돈을 받고 다음 날짜까지 쓰기만 하면 되니 지출항목과 날짜 그리고 금액이라는 3가지 항목만으로도 관리할 수 있을 것이다.
 
이제 회계장부를 정리한다고 생각해보자. 용돈기입장을 쓸 때는 지출하는 주체가 혼자였지만, 회계장부는 수입과 지출을 일으키는 주체가 여럿이고 항목도 많아지기 때문에 비슷한 항목을 묶어 카테고리를 만들고, 주체에 대한 항목을 추가하여 좀 더 체계적으로 관리해야한다.
 
1950년대 중앙집중식 컴퓨터가 개발되고 기업은 회계장부를 비롯한 매출, 재고 등의 각종 서류와 장부를 수월하게 관리하길 원했고, 코볼(COBOL, COmmon Business-Oriented Language, 사무 지향 보통 언어)같은 언어를 활용하여 지금의 행과 열로 구성된 방식의 데이터를 기록하기 시작하였다.
 


데이터를 활용하는 "분해"와 "비교"

인터넷과 스마트폰, 그리고 AI에 이르기까지 IT산업이 활성화되면서 검색엔진과 소셜커머스같이 데이터만으로 구성된 서비스가 만들어졌고, 사진, 동영상 같은 디지털화된 기록물도 흔해지면서 이제는 어디까지가 데이터고 무엇이 실체인지 구분하기 어려울 만큼 데이터가 넘치는 세상이 되었지만, 여전히 데이터를 이해하는데 가장 중요한 부분은 어떤 목적으로 데이터를 기록하기 시작했는지이다.
 
일반 기업이 공장에서 제품을 생산하고 영업점을 통해 영업사원이 판매한다고 가정하여, 각 주체가 기록하는 데이터를 예시로 들어보자.
 

구분 데이터 데이터 활용 목적
공장 품목, 제품일련번호, 생산라인, 검수자, 생산날짜 불량률 관리
영업점 제품 입고날짜, 일별 판매 수량, 품목별 재고 매출/제고 관리
영업사원 구매 고객, 고객 요청사항 고객 관리

 
기업을 구성하고 있는 각 주체들은 정보 제공이 아닌 관리를 목적으로 데이터를 기록하였다. 공장에서 불량률이 갑자기 높아졌거나, 특정 영업점의 매출이 이유없이 증가하고. 일부 영업사원의 클레임이 증가하는 일은 흔하게 발생할 수도 있다.

 

이럴 때 데이터를 활용하는 가장 좋은 방법은 "분해"와 "비교"이다.
 
데이터는 기본적으로 데이터를 기록한 각 주체들을 물리적으로 쪼개지 않고도 "분해"해볼 수 있는 기회를 제공한다. 공장은 데이터를 활용하여 생산라인을 "분해"하고 라인별로 "비교"함으로써 불량률이 높아진 라인을 찾아낼 수 있을 것이며, 갑자기 실적이 증가한 영업점, 그리고 클레임이 증가한 영업사원도 분해와 비교를 통해 원인을 파악할 수 있다.

 

이러한 사용방식은 우리가 흔히 사용하는 쇼핑몰에서도 판매량과 가격 등을 비교하여 보여주는데 활용되며, 검색엔진에서도 각 웹페이지가 가진 정보를 비교하여 노출 우선순위를 정하는데 활용한다.
 


출처 : retalon.com

 

속성과 행동, 시간에 따른 변화

데이터는 정적인 속성과 행동에 대한 기록으로 구성된다. 정적인 속성은 성별, 연령, 거주지와 같은 개체를 정의하거나 분류하는데 사용되는 속성이며, 행동이란 방문, 조회, 구매 등의 행동에 의해 발생하는 것으로 구매건수, 구매금액과 같은 데이터도 행동에 대한 기록이다.


그리고 행동을 기록하거나 분석할 때 가장 중요한 부분은 시간이다.

 

최근에 얼마나 구매했는지, 과거에 비해 구매건수가 증가했는지 감소했는지를 알아보기 위해서는 당연히 시간이 필요한데, 시간별로 기록된 데이터를 "분해"하고 "비교"하면 행동이 변화하는 원인을 찾거나 다음 행동을 예측할 수도 있다.

 

예를 들어, 특정 상품을 구매한 후 고객의 구매건수가 증가했거나, 매출이 점점 감소하는 영업점을 다른 영업점과 비교하는 등 시간을 대입한 후 분해하고 비교하면 동일한 시간대의 데이터를 비교하는 것보다 훨씬 입체적으로 각 개체의 행동을 추적하고 분석할 수 있다.

 

다음 포스트에서는 "분해", "비교", "시간"이라는 관점에서 데이터를 정리하는 방법을 소개해보고자 한다.


728x90