전체 글 108

데이터 탐색을 위한 단계별 기초 코드

데이터 사이언티스트는 AI나 예측모델을 개발하기 위해서 가장 먼저 프로젝트의 목적에 따른 데이터의 기본 상태를 파악하고, 이에 따른 예상 결과물을 결정한 후 작업 방식과 소요시간을 예측하고 최종적으로 확보된 데이터에 대한 적합성을 판단해야 한다. 초거대 AI를 활용한 프로젝트가 많아지면서 규모가 커지고 인원과 비용도 증가함에 따라 사전 탐색과정에서 판단이 잘못되었을 경우 발생하는 손실도 커지고 있다. 서비스가 운영되고 참여자가 활동해야만 발생하는 데이터의 경우 상당한 수집 시간이 필요하며, 외부에서 구입할 경우에도 비식별처리와 전처리에 오랜 시간이 소요되기 때문에 데이터에 대한 프로젝트 초기에 이루어지는 데이터 적합성 판단은 빠르고 정확해야만 한다. 데이터 탐색의 기본 단계 데이터를 탐색할 때는 기본적으..

데이터 탐색이 모델 개발에서 가지는 의미(with 고인물)

데이터 분석 올림픽 Kaggle 전세계에서 가장 유명한 데이터 분석 대회 플랫폼 Kaggle(케글)에는 기업들이 자발적으로 자사의 데이터를 올리고 상금과 함께 분석 및 알고리즘을 겨루는 경진 대회가 수시로 개최된다. AI에 대한 전세계적인 관심이 늘어났으나 인력은 부족하다보니, Kaggle대회의 우승자는 엄청난 관심과 함께 실력을 인정 받아 대회 상금만이 아니라 수많은 기업들로 부터 러브콜을 받고 인터뷰 요청까지 쏟아지는 경험을 하게 된다. 국내에서도 최근(23.5월) Google이 등록한 수화 분류 알고리즘 대회에서 개인이 단독으로 출전해 우승하면서 기사화가 되기도 하였다.(관련 기사) Kaggle의 고인물들 이렇게 전세계인이 주목하는 Kaggle의 Code메뉴에는 사용자들이 공유한 분석 코드와 알고리..

AutoML(자동화 기계 학습)로 누구나 만들 수 있는 예측 모델

예측에 대한 부담감 통계학이나 기계학습(Meachie Leaning) 이론을 읽어본 적 없다면, 예측모델은 아무리 쉽게 만들 수 있다고 해도 사용하기에 앞서 막연한 부담감을 가질 수 밖에 없다. 이는 예측이라는 단어 자체가 가진 불확실성과 일상에서 접하는 예측이 자주 틀리기 때문인데, 특히 기상과 시장 예측 분야는 앞으로도 원하는 만큼 정확해질 가능성은 적다. 예측이 틀리는 가장 큰 이유는 기대치와 참여 주체의 개입, 그리고 데이터 부족을 꼽을 수 있다. 1) 기대치로 인하여 개인이 예측모델의 정확도를 판단할 때는 자신의 겪은 사건에 대해 높은 확률을 부여하는 확증편향을 포함하게 된다. 기상 예측 분야는 소풍날 생각지 못한 비가 오거나, 평소와 달리 우산을 챙겨간 날 비가 오지 않는 등 개인에게는 다르게..

장바구니 분석(연관분석)의 구조와 활용 방법

확률로만 계산하는 연관분석 연관분석은 협업 필터링과 달리 유사도 기반 함수를 이용하지 않고 대상 품목의 빈도를 기반으로 확률을 계산하기 때문에 분석하기 쉽다는 장점을 가지고 있다. 그래서 엑셀이나 계산기로 분석할 수 있을 만큼 간단한 구조를 가지고 있지만, 품목별 연관관계뿐 아니라 2~3가지 품목이 조합된 세트의 연관관계까지 뽑아내려면 반복적으로 계산할 수 있는 프로그램을 이용해야 한다. 하지만 이 프로그램마저 구조가 간단해서 연재의 취지에 맞게 쉽게 활용 할 수 있지만, 이왕 쉬운 분석 방법을 만났으니 통계기반 알고리즘들이 어떠한 구조로 동작하는지 설명하면서 원리에 맞는 활용 방법을 설명해보고자 한다. 연관분석은 총 3가지의 빈도계산 방식을 가지고 있으며 각각 다른 의미를 가지고 있다. 지지도(A&B ..

국내 초거대 AI 구축에 대한 냉정한 현실

지난 7월 LG가 엑사원 발표할 때만해도 그다지 반응이 없더니, 네이버가 하이퍼클로바X를 발표하자 증권사를 비롯한 언론과 관련 업계까지 전반적으로 떠들석하다. 이는 국산 LLM을 구축했다는 사실보다는 초거대 AI가 얼마나 비즈니스 영향력을 가지고 있는지에 따라 시장이 반응하는 것으로 IT업계에서 네이버의 영향력이 얼마나 큰지 짐작케 하는 것이다. 최근 기획 기사들이 많이 보도되고 있으며, 심도 있는 자료들도 나오고 있는 만큼 현 상황에 대한 나름의 진단을 정리해보고자 한다. 국내 초거대 AI 개발현황 현재 국내 초거대 AI개발현황은 아래와 같다. 이 중 빅테크와 견줄만한 수준의 LLM(GPT 3.5 기준 1750억개 이상)을 가지고 있는 기업은 네이버, LG, KT(10월 출시예정) 정도이며 이 중 B2..

한국어의 특성으로 보는 클로바X 성능 비교

GPT가 발표되면서 초거대AI라는 말이 생겨나고 빅테크업계에 파라미터 경쟁이 시작되었다. 파라미터의 개수가 초거대AI의 성능을 보여주는 지표가 되기 시작했고, GPT4는 어느덧 1조개에 달하는 파라미터를 가지고 있다. AI의 파라미터는 뉴런을 연결하는 시냅스처럼 퍼셉트론(인공뉴런)을 연결하여 뉴런간의 정보를 전달하는 역할을 한다. 그래서 파라미터의 개수가 많다는 것은 같은 정보라도 뉴런 간의 소통을 통해서 더욱 다양한 정보를 해석할 수 있다는 것을 말하며, 인간이 성장하면서 경험에 따라 시냅스가 많아지는 것과 유사하다. 하지만, 인간도 경험이 많이 쌓일수록 새로운 지식에 대해 종전의 학습치를 갱신하기 어려운 것처럼 AI또한 파라미터가 많아질 수록 데이터를 학습하는 과정에서 조정해야하는 파라미터가 많아져 ..

네이버 사업구조로 보는 하이퍼클로바X 경쟁력과 데이터 전략

오픈 전부터 보도자료로 엄청나게 예열하더니 네이버가 드디어 어제(8.24) 하이퍼클로바X를 발표하고 선착순으로 베타테스터 인원을 받기 시작했다.(☞ 대기 등록하기) 서비스가 오픈된 후 실체가 드러날 때쯤 포스트를 작성하려고 생각했었는데, 발표된 내용 중 미처 예상하지 못했던 부분도 있길래 이해를 도울 겸 네이버가 구상하는 내용을 뒷받침할 만한 자료를 정리해보았다. 네이버와 구글의 사업구조 비교 네이버는 글로벌 빅테크와 비교해봐도 상당히 특이하면서 견고한 사업구조를 가지고 있다. 대부분의 빅테크들이 창업당시 가졌던 비즈니스 모델에서 크게 벗어나지 못하고 있는 반면에 네이버는 끊임없이 사업을 확장하면서 여러 분야에서 성과를 거두었고 빅테크에 견줄만한 서비스도 조금씩 만들어내고 있다. 아래의 네이버 전체 사업..

상품 추천 알고리즘 - 협업 필터링 vs. 연관분석

이커머스의 추천 알고리즘 앞서 추천 알고리즘을 소개하면서 아마존에서 상품 기반 협업 필터링을 이용해 관련 상품을 추천하는 것을 소개하였다. 아마존의 상품 기반 협업 필터링은 무려 25년 전인 1998년도에 발표된 것으로 당시 1~2페이지를 보는 것도 버거웠던 인터넷 환경에서 사용자의 무한 클릭을 유도하면서 종합쇼핑몰로 발전하고 개인화에 앞서나가게 하는데 일조하였다. 그러나 아마존이 처음 협업 필터링을 적용했던 이커머스 초창기에 대부분의 쇼핑몰들은 알고리즘이 아닌 신문, 잡지와 비슷한 편집장 시스템을 운용하면서 상품을 소싱하는 MD(Merchandiser)가 직접 노출을 결정했다. 그도 그럴것이 당시엔 느린 배송 시스템과 매입 방식으로 이커머스의 점유율이 낮았고, 이로 인해 상품을 소싱하는데 어려움을 겪었..

스마트폰에서 위치 데이터를 수집하는 방식

피처폰시절부터 위치데이터는 통신사의 주요 데이터 중 하나였다. 당시에도 GPS장비는 있었으나 가격도 비싸고 덩치도 커서 네비게이션에만 부착되었으며, 피처폰에서 GPS신호를 이용하려면 별도의 장비가 필요했다. 하지만 셀룰러(2G, 3G) 신호가 연결된 기지국 정보를 기반으로 위치를 확보할 수 있었으며, 분실폰 찾기, 미아 찾기 등의 서비스를 제공하거나 범죄 추적 등에 활용되었다. 스마트폰(3G, LTE, 5G)에는 당시 사용하던 셀룰러 뿐 아니라 GPS와 WiFi는 물론이고 블루투스, RFID(NFC)까지 다양한 네트워크 기술을 이용하여 정교한 위치데이터를 수집하고 있다. 실외 위치 데이터 측위 방식 위치 데이터 측정방식은 크게 실외와 실내 측위 방식으로 나눠지며, 연결된 네트워크에 따라 구분된다. 실외 ..

디시전트리(의사결정나무)로 쉽고 정교하게 타겟팅하는 방법

개인화와 타겟팅의 차이 고객에게 상품과 서비스를 권유하는 방법론에서 개인화와 타겟팅은 연장선에 있으며 1:1 마케팅, 개인 맞춤형 서비스 등 표현하는 방법에서도 상당히 비슷하다. 또한 데이터와 알고리즘에서도 혼용하는 부분이 많기 때문에 사실상 같은 범주로 놓고 처리하는 경향이 있기는 하지만, 사실 궁극적인 목표에서 개인화와 타겟팅은 상당히 큰 차이를 가지고 있다. 먼저, 개인화는 고객의 니즈를 충족시키는 것을 최우선 목표로 한다. 그래서 설령 기업이 당장 주력하는 상품과 서비스가 아니라고 해도 고객한테 맞춰 가다보면 결국 고객이 원하는 서비스를 제공하는 기업으로 성장하게 될 것이라는 관점을 가지고 있다. 그래서 데이터 또한 초개인화라는 관점에서 고객이 남긴 흔적 하나하나를 수집하려고 하며, 알고리즘은 고..

반응형