쉽게 쓴 데이터·AI 지식/AI

음성 인식 기술 - STT(Speech To Text, 음성의 텍스트 전환)

정데만 2023. 6. 13. 12:35
728x90
 

 

 

음성인식의 발전 과정

 

  • 음성인식은 Speech Recognition 또는 STT(Speech To Text)으로 불리며, 인간의 육성을 인지하여 문자로 전환(기록)하는 기술을 말한다.

  • 음성을 텍스트로 전환해주는 기술은 1950년대부터 숫자를 인지하는 것부터 시작하여 단어와 문장을 구분하는 형태로 발전하였으나 정체기에 있다가 AI를 활용한 예측기술이 도입되고 2010년 구글에서 Voice Speech를 발표하면서 각광받기 시작하였다.

  • 구글과 애플은 기본적으로 음성입력장치가 부착되어있고 상시적으로 네트워크가 연결된 스마트폰을 통해 사용자들의 막대한 데이터를 수집하였으며 개인별로 다른 억양과 말투, 습관 등을 학습할 수 있었다.
     
  • STT를 기반으로 한 음성 명령 체계는 TTS(Text to speech, 음성합성)기술과 함께 음성으로 지시하고 피드백하는 인터페이스를 구축하였으며 현재는 스마트폰과 AI스피커를 필두로 IoT를 구현하기 위한 각종 장치에 부착되어 AI음성비서로써 자리매김하고 있다.

 

기업의 STT 구축 및 활용

 

  • AICC(AI컨택센터)와 같은 기업의 활용 측면에서 STT는 단순한 음성 명령을 뛰어넘어 화자의 감정이나 상담원과 대화과정에 발생하는 맥락인지를 포함해야하며, 산업별 전문 용어 등을 인지하기 위해 언어 뿐 아니라 음성 신호를 활용하여 감정과 뉘앙스를 해석해야 하며 구체적으로 다음과 같이 학습한다.
1) 언어 가중치 : 기본 어휘에 있는 용어를 벗어나 자주 발화되는 단어에 가중치 부여
2) 화자 분리 : 다수의 참여자가 나누는 대화에서 각 화자의 발화를 인용 또는 태깅
3) 음향 훈련 : 음향과 화자의 스타일(음역대 및 속도 등)에 적응하도록 훈련

 

  • STT는 위와 같은 특징으로 인해 스마트폰이나 네이버 클로바 노트 같은 일반 제품의 기능이 상당히 발전하고 있음에도 불구하고 대다수 기업에서 도입 시 자사 데이터를 활용하여 추가 학습이 필요한 분야이다.  

728x90