음성 인식 기술 - STT(Speech To Text, 음성의 텍스트 전환)

쉽게 쓴 데이터·AI 지식/AI

음성 인식 기술 - STT(Speech To Text, 음성의 텍스트 전환)

정데만 2023. 6. 13. 12:35

음성인식의 발전 과정

음성인식은 Speech Recognition 또는 STT(Speech To Text)으로 불리며, 인간의 육성을 인지하여 문자로 전환(기록)하는 기술을 말한다.
음성을 텍스트로 전환해주는 기술은 1950년대부터 숫자를 인지하는 것부터 시작하여 단어와 문장을 구분하는 형태로 발전하였으나 정체기에 있다가 AI를 활용한 예측기술이 도입되고 2010년 구글에서 Voice Speech를 발표하면서 각광받기 시작하였다.
구글과 애플은 기본적으로 음성입력장치가 부착되어있고 상시적으로 네트워크가 연결된 스마트폰을 통해 사용자들의 막대한 데이터를 수집하였으며 개인별로 다른 억양과 말투, 습관 등을 학습할 수 있었다.
STT를 기반으로 한 음성 명령 체계는 TTS(Text to speech, 음성합성)기술과 함께 음성으로 지시하고 피드백하는 인터페이스를 구축하였으며 현재는 스마트폰과 AI스피커를 필두로 IoT를 구현하기 위한 각종 장치에 부착되어 AI음성비서로써 자리매김하고 있다.

기업의 STT 구축 및 활용

AICC(AI컨택센터)와 같은 기업의 활용 측면에서 STT는 단순한 음성 명령을 뛰어넘어 화자의 감정이나 상담원과 대화과정에 발생하는 맥락인지를 포함해야하며, 산업별 전문 용어 등을 인지하기 위해 언어 뿐 아니라 음성 신호를 활용하여 감정과 뉘앙스를 해석해야 하며 구체적으로 다음과 같이 학습한다.

1) 언어 가중치 : 기본 어휘에 있는 용어를 벗어나 자주 발화되는 단어에 가중치 부여
2) 화자 분리 : 다수의 참여자가 나누는 대화에서 각 화자의 발화를 인용 또는 태깅
3) 음향 훈련 : 음향과 화자의 스타일(음역대 및 속도 등)에 적응하도록 훈련

STT는 위와 같은 특징으로 인해 스마트폰이나 네이버 클로바 노트 같은 일반 제품의 기능이 상당히 발전하고 있음에도 불구하고 대다수 기업에서 도입 시 자사 데이터를 활용하여 추가 학습이 필요한 분야이다.

'쉽게 쓴 데이터·AI 지식 > AI' 카테고리의 다른 글

AI 추가 학습의 종류와 리소스(Fine-Tuning, Prefix tuning, LoRa) (30)	2023.06.21
음성 합성 기술 - TTS(Text To Speech, 텍스트의 음성 전환) (64)	2023.06.20
AI학습의 장애물, 암묵적 지식에 대한 정의와 해결 방법 (13)	2023.06.11
언어모델에 프롬프트 엔지니어링이 필요한 이유 (18)	2023.06.10
언어모델의 환각(Hallucination) 현상과 해결 방법 (0)	2023.06.02

현재글음성 인식 기술 - STT(Speech To Text, 음성의 텍스트 전환)

정데만(Honest Data Only)

음성 인식 기술 - STT(Speech To Text, 음성의 텍스트 전환)

음성인식의 발전 과정

기업의 STT 구축 및 활용

'쉽게 쓴 데이터·AI 지식 > AI' 카테고리의 다른 글

'쉽게 쓴 데이터·AI 지식/AI'의 다른글

티스토리툴바

음성 인식 기술 - STT(Speech To Text, 음성의 텍스트 전환)

음성인식의 발전 과정

기업의 STT 구축 및 활용

'쉽게 쓴 데이터·AI 지식 > AI' 카테고리의 다른 글

'쉽게 쓴 데이터·AI 지식/AI'의 다른글

관련글

티스토리툴바