세줄 코딩(실무용 알고리즘) 17

초간단 클러스터링 분석하기(feat. 코랩 이용방법)

코랩(Colab) 소개 앞서 데이터를 분석하기 위해 파이썬을 공부할 필요는 없다고 예기하였다.(포스트 바로 가기) 파이썬은 굉장히 유연한 언어이기 때문에 복잡한 설정이나 규칙이 없어도 스크립트를 입력하듯이 필요한 부분만 복사해서 활용해도 무난하게 동작하며, 분석가들 또한 코딩의 완성도보다는 분석결과에 초점을 맞추고 있다. 그리고, 파이썬을 추천하는 또 한가지 이유는 로컬PC에 복잡한 프로그램을 설치하지 않아도 구글 코랩(Colab) 사이트를 통해 편하게 이용할 수 있다는 것이다. 아직 코랩을 이용해보지 않았다면 아래 사이트로 이동 후 구글아이디로 로그인 해보자. https://colab.research.google.com/ 그리고 첫 화면의 팝업창에서 새노트를 클릭하거나 창을 닫은 후 파일의 새 노트를 ..

고객을 분류하는 이유와 클러스터링 활용 방법

프롤로그 이태리에서 30년간 구두를 만든 장인이 있다. 그는 공방의 막내로 일할 때부터 항상 디자인보다는 편안함을 추구했으며, 수석 디자이너가 된 이후에는 공방의 전통에 맞춰 제작하긴 했지만, 가죽이나 밑창, 그리고 바느질까지 자신의 손길이 닿는 모든 곳에서 조금이라도 편하게 느낄 수 있도록 최선을 다했으며, 공방에서 일한지 정확히 30년이 된 해 자신만의 구두를 만들기 위해 조국으로 돌아왔다. 30년만에 돌아온 한국은 낯설었다. 고층빌딩이 즐비하고 사람들의 삶은 풍요로워졌으나 정작 자신이 처음 구두를 배워야겠다고 마음을 먹은 수제화거리는 역사의 뒤편으로 사라졌으며, 기존 방식론 더 이상 구두를 팔지 못할 것 같았다. 하지만, 그는 자신의 구두에 강한 확신을 가지고 있었다. 그래서, 구석이기는 하지만 수..

분석용 데이터를 만드는 방법

데이터 분석 → 분해와 비교 이전 포스트(바로 가기)에서 데이터 분석의 기본 원리는 분해+비교이며, 개체의 행동을 이해하기 위해서는 시간을 대입해야 한다고 소개했었다. 이번 포스트에서는 이러한 개념을 좀 더 구체적으로 설명하고 데이터를 만드는 방법을 소개하고자 한다. 아래 그림을 보면서 분해와 비교, 그리고 시간을 적용하는 방식을 단계별로 살펴보자. 분해 → 개체 + 속성과 행동 먼저, 하나로 구성된 군집 또는 사건 등을 분석하기 위해서는 구성된 개체나 사건을 분해해야한다. 불량제품이 생산된 공장을 라인별로 쪼개거나, 지역본부를 영업점으로, 영업점을 사원 또는 상품별로 나누는 과정이 이에 해당한다. 그리고 개체는 속성과 행동으로 추가로 나눌 수 있다. 여기서 속성이란 개체가 가지고 있는 정적인 성질로 사..

데이터가 축적된 과정과 분석의 기본 원리

지금 같은 형태의 데이터가 기록된 이유 용돈기입장을 쓴다고 생각해보자. 매월 정해진 날짜에 용돈을 받고 다음 날짜까지 쓰기만 하면 되니 지출항목과 날짜 그리고 금액이라는 3가지 항목만으로도 관리할 수 있을 것이다. 이제 회계장부를 정리한다고 생각해보자. 용돈기입장을 쓸 때는 지출하는 주체가 혼자였지만, 회계장부는 수입과 지출을 일으키는 주체가 여럿이고 항목도 많아지기 때문에 비슷한 항목을 묶어 카테고리를 만들고, 주체에 대한 항목을 추가하여 좀 더 체계적으로 관리해야한다. 1950년대 중앙집중식 컴퓨터가 개발되고 기업은 회계장부를 비롯한 매출, 재고 등의 각종 서류와 장부를 수월하게 관리하길 원했고, 코볼(COBOL, COmmon Business-Oriented Language, 사무 지향 보통 언어)같..

분석 데이터 추출 방법과 인간의 인지 편향

데이터가 편향에서 벗어나게 해준다? 전문가들은 데이터 분석이 필요한 이유를 들 때 인간의 편향된 사고방식에 대해 자주 언급한다. 필자도 가끔 비슷한 말을 하기는 하지만, 편향적인 사고에서 벗어나라는 의미에서 말할 뿐 데이터를 분석하면 편향이 줄어든다고 말하지는 않는 편이다. 데이터는 모든 사물과 사건에 대해서 공정하게 기록되지 않는다. 북반구에서 관측된 천체는 남반구에서 기록된 천체와 다를 수 밖에 없으며, 비정상적인 사건만 기록되거나 왜곡되서 남기도 한다. 또한 같은 데이터를 가지고 있다고 해도 해석이 달라지기도 한다. 데이터라는 건 어차피 관측 가능한 현상을 남기는 것에 불과하기 때문에 관측할 수 없는 부분은 결국 추론으로 완성된다. 유사이래 해가 동쪽에 떠서 서쪽으로 지는 것을 모조리 기록했다고 해..

데이터 수집과 선택(Data Scientist vs. Data Owner vs. AI)

데이터가 기록되는 방식 신규 영업사원이 고객관리를 위해 상담내역과 특징을 다이어리에 기록하는 상황을 가정해보자. 우선은 이름과 연락처를 적은 후 상담 내용을 되도록 많이 기재하려할 것이다. 하지만, 어느정도 경험이 쌓이고 나면 상담 내용을 전부 적기 보다는 고객 관리에 필요한 특징과 상품 등만 적을 것이며, 이러한 과정을 반복하면서 점점 필요한 데이터만 기재하게 될 것이다. 데이터를 기록하는 것은 단순히 펜과 종이만 소모되는게 아니라, 기록하는 사람의 시간과 노력이 들기 때문에 필요한 데이터만 압축하여 기록하는 것은 당연한 선택이다. 만약, 이러한 과정에서 데이터를 놓치는 것을 우려하여 녹음기를 켠다고 해도 여전히, 고객의 표정과 복장은 남길 수 없으며, 영상으로 남긴다고 해도 채취 등을 인간의 감각 모..

데이터 분석에는 복잡한 기술과 코딩이 필요한가?

한국인이 영어를 못하게 된 이유 얼마 전 유튜브 쇼츠 영상에서 우연히 여행유튜버 빠니보틀이 가진 영어에 대한 생각을 보게 되었다.(관련 동영상 보기) 영어에 대해 말하려는 건 아니지만, 데이터를 분석하려는 초급 분석가 또는 일반 직장인들과 대화하면서 느낀 점은 그들이 말하는 현장의 고충은 한국인이 영어를 사용하면서 느끼는 감정과 비슷하다는 것이다. 비대면 거래가 활성화되면서 영업점에서 고객은 사라졌고, 트렌드는 거리가 아닌 소셜에서 형성되기 시작하였다. 웹사이트를 운영하는 사람이라면 빅데이터 분석은 아니라도 유입채널과 키워드는 분석해야 하는 것이 당연해졌으며, 전문가가 아니더라도 자신의 업무에서 발생한 데이터는 모두가 분석해야 하는 시대가 되었다. 일반인이 의사소통을 목표로 영어를 배우듯이 일반 분석가들..

반응형