728x90
음성인식의 발전 과정
- 음성인식은 Speech Recognition 또는 STT(Speech To Text)으로 불리며, 인간의 육성을 인지하여 문자로 전환(기록)하는 기술을 말한다.
- 음성을 텍스트로 전환해주는 기술은 1950년대부터 숫자를 인지하는 것부터 시작하여 단어와 문장을 구분하는 형태로 발전하였으나 정체기에 있다가 AI를 활용한 예측기술이 도입되고 2010년 구글에서 Voice Speech를 발표하면서 각광받기 시작하였다.
- 구글과 애플은 기본적으로 음성입력장치가 부착되어있고 상시적으로 네트워크가 연결된 스마트폰을 통해 사용자들의 막대한 데이터를 수집하였으며 개인별로 다른 억양과 말투, 습관 등을 학습할 수 있었다.
- STT를 기반으로 한 음성 명령 체계는 TTS(Text to speech, 음성합성)기술과 함께 음성으로 지시하고 피드백하는 인터페이스를 구축하였으며 현재는 스마트폰과 AI스피커를 필두로 IoT를 구현하기 위한 각종 장치에 부착되어 AI음성비서로써 자리매김하고 있다.
기업의 STT 구축 및 활용
- AICC(AI컨택센터)와 같은 기업의 활용 측면에서 STT는 단순한 음성 명령을 뛰어넘어 화자의 감정이나 상담원과 대화과정에 발생하는 맥락인지를 포함해야하며, 산업별 전문 용어 등을 인지하기 위해 언어 뿐 아니라 음성 신호를 활용하여 감정과 뉘앙스를 해석해야 하며 구체적으로 다음과 같이 학습한다.
1) 언어 가중치 : 기본 어휘에 있는 용어를 벗어나 자주 발화되는 단어에 가중치 부여
2) 화자 분리 : 다수의 참여자가 나누는 대화에서 각 화자의 발화를 인용 또는 태깅
3) 음향 훈련 : 음향과 화자의 스타일(음역대 및 속도 등)에 적응하도록 훈련
- STT는 위와 같은 특징으로 인해 스마트폰이나 네이버 클로바 노트 같은 일반 제품의 기능이 상당히 발전하고 있음에도 불구하고 대다수 기업에서 도입 시 자사 데이터를 활용하여 추가 학습이 필요한 분야이다.
728x90
'쉽게 쓴 데이터·AI 지식 > AI' 카테고리의 다른 글
AI 추가 학습의 종류와 리소스(Fine-Tuning, Prefix tuning, LoRa) (30) | 2023.06.21 |
---|---|
음성 합성 기술 - TTS(Text To Speech, 텍스트의 음성 전환) (64) | 2023.06.20 |
AI학습의 장애물, 암묵적 지식에 대한 정의와 해결 방법 (13) | 2023.06.11 |
언어모델에 프롬프트 엔지니어링이 필요한 이유 (18) | 2023.06.10 |
언어모델의 환각(Hallucination) 현상과 해결 방법 (0) | 2023.06.02 |