데이터 라벨링이란? 솔루션과 비용 절감

쉽게 쓴 데이터·AI 지식/AI

데이터 라벨링이란? 솔루션과 비용 절감

정데만 2023. 5. 29. 12:16

데이터 라벨링 정의

데이터 라벨링은 데이터에 의미있는 정보(레이블)를 부여하여, AI학습을 위한 데이터셋을 만드는 과정이다.
라벨링된 데이터는 정답을 예측하는 지도 학습(Supervised Learning)에 주로 이용된다.
이미지, 음성, 텍스트 등 다양한 유형의 데이터에서 개체를 분류하거나 정보를 입력하는 데 적용된다.
라벨링에 사용되는 도구는 Labelbox, RectLabel, VGG Image Annotator 등이 있으며, 클라우드 서비스 등에서도 제공하고 있다.
일부 라벨링 작업은 정확도가 떨어지더라도 자동화 도구(오토 라벨링 툴)를 이용할 수 있다.
라벨링 정확도를 높이기 위해서 품질 관리 및 검토 프로세스를 포함해야 한다.
개인정보가 포함된 데이터를 라벨링할 때는 데이터 유출에 대한 보호 조치가 필요하다.

데이터 라벨링 외주 및 비용 절감

데이터 라벨링은 전문 서비스를 이용할 수 있으며 Amazon SageMaker Ground Truth, Google AI Platform Data Labeling Service, Appen, Scale AI 등이 유명하다.
라벨링 서비스는 대부분 클라우드 소싱 기반으로 글로벌 인력망을 이용하여 비용을 절감하고 있다.
국내 라벨링 서비스는 크라우드 웍스, 레이블러, 메트 웍스, 에이모, 나초스 등이 있으며 부수익을 원하는 직장인, 또는 주부, 학생, 은퇴자 등이 많이 참여한다.
라벨링 알바 후기를 보면 생각보다 작업이 어렵고 비용은 크지 않으며, 검수과정을 통과하기 어렵다는 글이 많다.

'쉽게 쓴 데이터·AI 지식 > AI' 카테고리의 다른 글

AI학습의 장애물, 암묵적 지식에 대한 정의와 해결 방법 (13)	2023.06.11
언어모델에 프롬프트 엔지니어링이 필요한 이유 (18)	2023.06.10
언어모델의 환각(Hallucination) 현상과 해결 방법 (0)	2023.06.02
AICC(AI Contact Center) 현황과 성장 전망 (2)	2023.06.01
초거대 AI 등장과 파라미터에 의한 주도권 변화 (0)	2023.05.30

현재글데이터 라벨링이란? 솔루션과 비용 절감

티스토리툴바