데이터 분석 올림픽 Kaggle
전세계에서 가장 유명한 데이터 분석 대회 플랫폼 Kaggle(케글)에는 기업들이 자발적으로 자사의 데이터를 올리고 상금과 함께 분석 및 알고리즘을 겨루는 경진 대회가 수시로 개최된다.
AI에 대한 전세계적인 관심이 늘어났으나 인력은 부족하다보니, Kaggle대회의 우승자는 엄청난 관심과 함께 실력을 인정 받아 대회 상금만이 아니라 수많은 기업들로 부터 러브콜을 받고 인터뷰 요청까지 쏟아지는 경험을 하게 된다.
국내에서도 최근(23.5월) Google이 등록한 수화 분류 알고리즘 대회에서 개인이 단독으로 출전해 우승하면서 기사화가 되기도 하였다.(관련 기사)
Kaggle의 고인물들
이렇게 전세계인이 주목하는 Kaggle의 Code메뉴에는 사용자들이 공유한 분석 코드와 알고리즘이 공유되어있다. 오픈소스를 통한 발전이라는 목적으로 모두가 스스로 코드를 공유하고, 오류가 발생했을 때 친절하게 코드까지 작성해주는 생태계가 구성되어 있어, 분석가들은 Kaggle에서 활동하다 보면 어느새 최신 기술을 습득하고 그럴 듯한 데이터 사이언티스트로 거듭날 수 있다.
하지만, Kaggle의 고인물들이 간과하고 있는 것이 있으니 그들은 말을 쉽게 할 줄 모른다. 간혹 새롭게 등장한 코드를 보다보면 켜켜이 쌓인 지식으로 이미 일반적인 대화는 잊어버린 듯 새로운 용어를 일상어처럼 구사하면서 작성된 글이 보이기도 하면서 초보가 느낄 수 있는 고인물과의 거리감을 체험하기도 한다.
미친듯이 빠른 기술 발전 때문에 최신 논문을 탐색하느라 뇌가 절여졌지만, 코드를 공유하고 자신의 결과물을 자랑하고 싶은 그들의 순수한 마음을 어찌 막을 수 있겠는가? Kaggle을 탐색하다 다소 어려운 글이 만났다면 포기하지 말고 더 친절한 고인물을 찾아 다른 길로 떠나보자.
데이터 탐색이 가지는 의미
Kaggle에는 여러 유형의 고인물이 있지만, 대부분 데이터를 처음 만났을 때 상당히 신중하며 조심스러운 태도를 가지고 있다. 이는 전문가라면 당연히 처음보는 재료에 대해 누구보다 더 조심스럽게 살펴본 후, 실수를 하지않으려고 하는 마음가짐이기도 하기 때문에 분석가들이 데이터라는 재료를 처음 봤을 때 신중해지는 모습을 판타지의 장인들과(드워프) 비교해본다면 아래와 같을 것이다.
구분 | 판타지의 장인들 | 데이터 사이언티스트 |
목적 | - 네 직업과 스킬은 무엇인가? - 그래서 어떤 아이템을 만들고 싶은가? |
- 어떻게 수집된 데이터 인가요? - 어떤 비즈니스에 활용할 계획을 가지고 있나요? |
재료의 상태 | - 불순물이 너무 많이 섞여 있어서 시간이 많이 걸린다. - 이 재료로 그정도 아이템은 만들 수 없다. |
- 데이터의 상태가 좋지 않아 작업이 오래 걸립니다. - 데이터가 부족해서 한계가 있습니다. |
적합성 | - 옜다. 다음엔 더 좋은 재료를 가져오도록! (하지만 꽤 좋음) |
- 이 정도 예측력이 최선입니다. (하지만 꽤 잘 맞음) |
데이터 사이언티스트가 데이터를 처음 접할 때 드는 마음은 어떤 채널과 비즈니스를 통하여 수집된 데이터인지, 그리고 추천이든 개인화든 무엇을 목적으로 분석을 의뢰하는 건지 확인해야한다.
그리고, 데이터의 상태를 파악한후 원하는 결과물을 만들 수 있는지 확인하여 예상 소요시간과 결과물을 품질을 설명해주고 작업 여부를 결정하게 된다.
판타지의 장인들이 의뢰주가 가져온 재료를 정확하게 파악하지 못하여 약속한 제품을 만들어내지 못한다면 추가 의뢰를 받을 수 없는 것처럼, 데이터 사이언티스트도 데이터를 제대로 파악하지 못한 상태에서 과한 품질을 약속하거나 엉뚱한 결과를 만들어낸다면 중요한 일을 맡기 어려울 것이다.
그래서 모든 데이터 분석에서 최초 탐색과정은 아주 중요하며, 분석가의 역량을 파악할 수 있는 방법이기도 하다. 경험이 많거나 원리와 이론이 해박할 수록 탐색과정에서 능숙한 모습을 보이며 빠르게 진단을 내릴 수 있다.
하지만, 철광석만 재련하던 장인이 미스릴을 만난 것처럼 자주 접하지 못하는 재료를 보게된다면 그 어느 때보다 신중하게 데이터를 뜯어보고 더 많은 시간을 요구해야하며, 평소에 다양한 데이터를 살펴보면서 실력을 키워나가야 한다.
다음 포스트에서는 모델링을 위해서 데이터를 어떻게 탐색하고 진단하는지 간단한 코드와 함께 알아보도록 하겠다.
'세줄 코딩(실무용 알고리즘)' 카테고리의 다른 글
시계열 데이터를 간단하게 분석하는 방법 (99) | 2023.11.10 |
---|---|
데이터 탐색을 위한 단계별 기초 코드 (112) | 2023.10.01 |
AutoML(자동화 기계 학습)로 누구나 만들 수 있는 예측 모델 (89) | 2023.09.15 |
장바구니 분석(연관분석)의 구조와 활용 방법 (99) | 2023.09.09 |
상품 추천 알고리즘 - 협업 필터링 vs. 연관분석 (89) | 2023.08.24 |