음성 합성 기술 - TTS(Text To Speech, 텍스트의 음성 전환)

쉽게 쓴 데이터·AI 지식/AI

정데만 2023. 6. 20. 09:32

음성 합성(Speech synthesis 또는 Text To Speech) 기술이란 인간의 말소리를 합성하는 기술로서 텍스트를 입력하면 음성의 발음, 속도, 호흡, 운율 등을 추정하여 녹음해둔 음성을 조합하거나 생성하는 기술이다.
1930년대 텍스트를 입력하면 이에 맞춰 피아노를 동작시키는 아이디어에서 시작하여 80년대부터 본격적으로 상용화되었으며 90년대에 이르러서는 음성 인식(STT, Speech To Text)과 더불어 활용도가 넓어지기 시작하였다.
초기에는 시각장애인을 위한 기술 위주로 시작하였으나 상용화되면서 안내 음성, ARS 등 기계음의 영역에서 이용되었으며, 현재는 AI를 기반으로 자연스러운 음성을 만들어짐에 따라 오디오북, 게임, AI앵커 등과 같은 성우의 역할까지 대신하고 있다.
TTS는 경량화와 함께 발현속도가 빨라짐에 따라서 STT, 언어모델과 연동하여 AI 스피커, 스마트폰 음성비서, AI 컨택센터와 같은 음성 대화 인터페이스를 구성하고 있다.

STT(Speech To Text)에 의한 음성입력 → LM(Language Model)에 의한 언어생성 → TTS(Text To Speech)에 의한 음성 (대화) 인터페이스 구현

이미지 3장으로 알아보는 AI학습(가중치와 편향) (65)	2023.06.28
AI 추가 학습의 종류와 리소스(Fine-Tuning, Prefix tuning, LoRa) (30)	2023.06.21
음성 인식 기술 - STT(Speech To Text, 음성의 텍스트 전환) (20)	2023.06.13
AI학습의 장애물, 암묵적 지식에 대한 정의와 해결 방법 (13)	2023.06.11
언어모델에 프롬프트 엔지니어링이 필요한 이유 (18)	2023.06.10

정데만(Honest Data Only)