728x90
데이터 라벨링 정의
- 데이터 라벨링은 데이터에 의미있는 정보(레이블)를 부여하여, AI학습을 위한 데이터셋을 만드는 과정이다.
- 라벨링된 데이터는 정답을 예측하는 지도 학습(Supervised Learning)에 주로 이용된다.
- 이미지, 음성, 텍스트 등 다양한 유형의 데이터에서 개체를 분류하거나 정보를 입력하는 데 적용된다.
- 라벨링에 사용되는 도구는 Labelbox, RectLabel, VGG Image Annotator 등이 있으며, 클라우드 서비스 등에서도 제공하고 있다.
- 일부 라벨링 작업은 정확도가 떨어지더라도 자동화 도구(오토 라벨링 툴)를 이용할 수 있다.
- 라벨링 정확도를 높이기 위해서 품질 관리 및 검토 프로세스를 포함해야 한다.
- 개인정보가 포함된 데이터를 라벨링할 때는 데이터 유출에 대한 보호 조치가 필요하다.
데이터 라벨링 외주 및 비용 절감
- 데이터 라벨링은 전문 서비스를 이용할 수 있으며 Amazon SageMaker Ground Truth, Google AI Platform Data Labeling Service, Appen, Scale AI 등이 유명하다.
- 라벨링 서비스는 대부분 클라우드 소싱 기반으로 글로벌 인력망을 이용하여 비용을 절감하고 있다.
- 국내 라벨링 서비스는 크라우드 웍스, 레이블러, 메트 웍스, 에이모, 나초스 등이 있으며 부수익을 원하는 직장인, 또는 주부, 학생, 은퇴자 등이 많이 참여한다.
- 라벨링 알바 후기를 보면 생각보다 작업이 어렵고 비용은 크지 않으며, 검수과정을 통과하기 어렵다는 글이 많다.
728x90
'쉽게 쓴 데이터·AI 지식 > AI' 카테고리의 다른 글
AI학습의 장애물, 암묵적 지식에 대한 정의와 해결 방법 (13) | 2023.06.11 |
---|---|
언어모델에 프롬프트 엔지니어링이 필요한 이유 (18) | 2023.06.10 |
언어모델의 환각(Hallucination) 현상과 해결 방법 (0) | 2023.06.02 |
AICC(AI Contact Center) 현황과 성장 전망 (2) | 2023.06.01 |
초거대 AI 등장과 파라미터에 의한 주도권 변화 (0) | 2023.05.30 |