전체 글 108

유사도 함수 하나로 해결하는 (개인화)추천 알고리즘

오프라인 추천 방식 매장에 단골고객이 방문하면 영업사원은 고객이 자주 찾는 상품을 안내하거나 취향에 맞는 상품을 추천한다. 그리고는 상품에 대한 반응을 지켜보거나, 정보를 제공하면서 판매를 성사시키는데 고객의 성향에 맞는 상품을 매칭하거나, 선택한 상품에 어울리는 악세사리 등을 고르는데 경험이라는 데이터를 활용한다. 오프라인 추천방식 → 온라인 전환 단골이 방문하면 그에 맞는 서비스를 제공하는 건 고객에 대한 우대 서비스이자 개인화된 추천을 통한 판매를 목적으로 한다. 오프라인에서 사람이 행했던 영업활동은 온라인 환경에서 프로그램과 데이터로 대체되었으며, 초기 자판기같이 정해진 기능만 수행하던 웹사이트는 데이터를 기반으로 좀 더 친근하고 개인화된 서비스로 개선하였으며, 웹사이트와 배송으로 사업을 키운 넷..

메타의 행보로 바라보는 플랫폼의 LLM(거대언어모델) 활용 전략

(23.2월) AI관련 부서 조직개편 메타는 GPT열풍이 한참이었던 올해 2월 '생성형 AI팀'을 출범시켰다. 이는 4월에 사내 브레인팀과 영국소재의 자회사 딥마인드를 합친 구글보다 좀 더 빠른 의사결정이었으며, 재밌게도 메타에서도 유럽팀과 미국팀의 갈등이 심하다고 한다. ☞관련기사 : 메타 생성형AI 제품 개발 드림팀 꾸렸다…인스타그램, 왓츠앱 등으로 상용화 모색(2.28) ☞관련기사 : 메타, 돈 안되는 AI 단백질 데이터베이스 팀 해체...상용화에 집중(8.8) (23.3~7월) 언어모델 유출 및 공개 사명까지 바꿔가면서 메타버스와 VR사업에 매진하다가 AI를 등한시 한 것을 뒤늦게 만회하려고 하는건지 메타는 과감한 전략을 쓰기 시작했다. 조직개편과 함께 공개했던 언어모델 라마2(LLaMA2)가 유..

효과적인 타겟팅과 개인화를 위한 선제 조건

레드오션과 블루오션, 그리고 틈새시장, 세그멘테이션, 타겟 마케팅까지 관련 일을 하지 않아도 들어봤을 법한 마케팅 용어들이 있다. 이들은 모두 고객과 시장을 세분화하고 선택과 집중을 해야한다는 개념인데, 사실 자본주의와 산업화로 끊임없이 새로운 상품을 만들어내야 살아남을 수 있는 경제구조에서 기업들은 굳이 이러한 개념을 상기하지 않아도 스스로 리소스를 집중하지 않으면 생존할 수 없는 환경에 처해있다. 선택과 집중은 너무나 중요하고 모두가 의심하지 않지만, 타겟팅은 이러한 상황에 과연 효과적인 수단일까? 무엇을 타겟팅 할 것인가? 고객과 상품으로 형성되는 시장에서 기업은 저마다 특색있는 상품과 서비스, 그리고 브랜드를 구축하고 있다. 모든 시장은 고객이 상품을 구매하는 순간부터 만들어지기 때문에 고객은 시..

초간단 클러스터링 분석하기(feat. 코랩 이용방법)

코랩(Colab) 소개 앞서 데이터를 분석하기 위해 파이썬을 공부할 필요는 없다고 예기하였다.(포스트 바로 가기) 파이썬은 굉장히 유연한 언어이기 때문에 복잡한 설정이나 규칙이 없어도 스크립트를 입력하듯이 필요한 부분만 복사해서 활용해도 무난하게 동작하며, 분석가들 또한 코딩의 완성도보다는 분석결과에 초점을 맞추고 있다. 그리고, 파이썬을 추천하는 또 한가지 이유는 로컬PC에 복잡한 프로그램을 설치하지 않아도 구글 코랩(Colab) 사이트를 통해 편하게 이용할 수 있다는 것이다. 아직 코랩을 이용해보지 않았다면 아래 사이트로 이동 후 구글아이디로 로그인 해보자. https://colab.research.google.com/ 그리고 첫 화면의 팝업창에서 새노트를 클릭하거나 창을 닫은 후 파일의 새 노트를 ..

고객을 분류하는 이유와 클러스터링 활용 방법

프롤로그 이태리에서 30년간 구두를 만든 장인이 있다. 그는 공방의 막내로 일할 때부터 항상 디자인보다는 편안함을 추구했으며, 수석 디자이너가 된 이후에는 공방의 전통에 맞춰 제작하긴 했지만, 가죽이나 밑창, 그리고 바느질까지 자신의 손길이 닿는 모든 곳에서 조금이라도 편하게 느낄 수 있도록 최선을 다했으며, 공방에서 일한지 정확히 30년이 된 해 자신만의 구두를 만들기 위해 조국으로 돌아왔다. 30년만에 돌아온 한국은 낯설었다. 고층빌딩이 즐비하고 사람들의 삶은 풍요로워졌으나 정작 자신이 처음 구두를 배워야겠다고 마음을 먹은 수제화거리는 역사의 뒤편으로 사라졌으며, 기존 방식론 더 이상 구두를 팔지 못할 것 같았다. 하지만, 그는 자신의 구두에 강한 확신을 가지고 있었다. 그래서, 구석이기는 하지만 수..

분석용 데이터를 만드는 방법

데이터 분석 → 분해와 비교 이전 포스트(바로 가기)에서 데이터 분석의 기본 원리는 분해+비교이며, 개체의 행동을 이해하기 위해서는 시간을 대입해야 한다고 소개했었다. 이번 포스트에서는 이러한 개념을 좀 더 구체적으로 설명하고 데이터를 만드는 방법을 소개하고자 한다. 아래 그림을 보면서 분해와 비교, 그리고 시간을 적용하는 방식을 단계별로 살펴보자. 분해 → 개체 + 속성과 행동 먼저, 하나로 구성된 군집 또는 사건 등을 분석하기 위해서는 구성된 개체나 사건을 분해해야한다. 불량제품이 생산된 공장을 라인별로 쪼개거나, 지역본부를 영업점으로, 영업점을 사원 또는 상품별로 나누는 과정이 이에 해당한다. 그리고 개체는 속성과 행동으로 추가로 나눌 수 있다. 여기서 속성이란 개체가 가지고 있는 정적인 성질로 사..

앤드류 응 교수의 데이터 중심 AI(Data-centric AI)

샘 알트만(오픈AI) - 홍채데이터 오픈AI 대표 샘 알트만에 이어 AI 4대 석학이라는 앤드류 응 교수까지 AI업계에 유명한 사람들이 연달아 한국을 방문하고 있다. 지난 번 샘 알트만은 ▲국내 반도체와 협력, ▲AI스타트업 투자, ▲AI활용 규제에 대한 예기를 남기고 갔었다. 하지만, 당시 월드코인 프로젝트를 진행 중이었고, 어제(7.25) 거래소에 상장하면서, 당시 월드코인 홍보가 방한의 주목적이었다는 말에 설득력이 실린다(관련 기사) 월드코인은 홍채인식이 AI와 인간을 구분하는 수단이라며 오브라는 기기에 홍채를 등록하면 코인을 무료로 지급하는 프로젝트로 진짜 목적이 무엇인지는 모르겠으나 엄청난 양의 홍채데이터와 개인이 식별된 상황에서 코인을 주고 받는 데이터까지 확보할 것은 자명해보이는데, 아프리카..

데이터가 축적된 과정과 분석의 기본 원리

지금 같은 형태의 데이터가 기록된 이유 용돈기입장을 쓴다고 생각해보자. 매월 정해진 날짜에 용돈을 받고 다음 날짜까지 쓰기만 하면 되니 지출항목과 날짜 그리고 금액이라는 3가지 항목만으로도 관리할 수 있을 것이다. 이제 회계장부를 정리한다고 생각해보자. 용돈기입장을 쓸 때는 지출하는 주체가 혼자였지만, 회계장부는 수입과 지출을 일으키는 주체가 여럿이고 항목도 많아지기 때문에 비슷한 항목을 묶어 카테고리를 만들고, 주체에 대한 항목을 추가하여 좀 더 체계적으로 관리해야한다. 1950년대 중앙집중식 컴퓨터가 개발되고 기업은 회계장부를 비롯한 매출, 재고 등의 각종 서류와 장부를 수월하게 관리하길 원했고, 코볼(COBOL, COmmon Business-Oriented Language, 사무 지향 보통 언어)같..

분석 데이터 추출 방법과 인간의 인지 편향

데이터가 편향에서 벗어나게 해준다? 전문가들은 데이터 분석이 필요한 이유를 들 때 인간의 편향된 사고방식에 대해 자주 언급한다. 필자도 가끔 비슷한 말을 하기는 하지만, 편향적인 사고에서 벗어나라는 의미에서 말할 뿐 데이터를 분석하면 편향이 줄어든다고 말하지는 않는 편이다. 데이터는 모든 사물과 사건에 대해서 공정하게 기록되지 않는다. 북반구에서 관측된 천체는 남반구에서 기록된 천체와 다를 수 밖에 없으며, 비정상적인 사건만 기록되거나 왜곡되서 남기도 한다. 또한 같은 데이터를 가지고 있다고 해도 해석이 달라지기도 한다. 데이터라는 건 어차피 관측 가능한 현상을 남기는 것에 불과하기 때문에 관측할 수 없는 부분은 결국 추론으로 완성된다. 유사이래 해가 동쪽에 떠서 서쪽으로 지는 것을 모조리 기록했다고 해..

데이터 수집과 선택(Data Scientist vs. Data Owner vs. AI)

데이터가 기록되는 방식 신규 영업사원이 고객관리를 위해 상담내역과 특징을 다이어리에 기록하는 상황을 가정해보자. 우선은 이름과 연락처를 적은 후 상담 내용을 되도록 많이 기재하려할 것이다. 하지만, 어느정도 경험이 쌓이고 나면 상담 내용을 전부 적기 보다는 고객 관리에 필요한 특징과 상품 등만 적을 것이며, 이러한 과정을 반복하면서 점점 필요한 데이터만 기재하게 될 것이다. 데이터를 기록하는 것은 단순히 펜과 종이만 소모되는게 아니라, 기록하는 사람의 시간과 노력이 들기 때문에 필요한 데이터만 압축하여 기록하는 것은 당연한 선택이다. 만약, 이러한 과정에서 데이터를 놓치는 것을 우려하여 녹음기를 켠다고 해도 여전히, 고객의 표정과 복장은 남길 수 없으며, 영상으로 남긴다고 해도 채취 등을 인간의 감각 모..

반응형