728x90
TTS의 정의와 적용 현황
- 음성 합성(Speech synthesis 또는 Text To Speech) 기술이란 인간의 말소리를 합성하는 기술로서 텍스트를 입력하면 음성의 발음, 속도, 호흡, 운율 등을 추정하여 녹음해둔 음성을 조합하거나 생성하는 기술이다.
- 1930년대 텍스트를 입력하면 이에 맞춰 피아노를 동작시키는 아이디어에서 시작하여 80년대부터 본격적으로 상용화되었으며 90년대에 이르러서는 음성 인식(STT, Speech To Text)과 더불어 활용도가 넓어지기 시작하였다.
- 초기에는 시각장애인을 위한 기술 위주로 시작하였으나 상용화되면서 안내 음성, ARS 등 기계음의 영역에서 이용되었으며, 현재는 AI를 기반으로 자연스러운 음성을 만들어짐에 따라 오디오북, 게임, AI앵커 등과 같은 성우의 역할까지 대신하고 있다.
- TTS는 경량화와 함께 발현속도가 빨라짐에 따라서 STT, 언어모델과 연동하여 AI 스피커, 스마트폰 음성비서, AI 컨택센터와 같은 음성 대화 인터페이스를 구성하고 있다.
STT(Speech To Text)에 의한 음성입력 → LM(Language Model)에 의한 언어생성 → TTS(Text To Speech)에 의한 음성 (대화) 인터페이스 구현
최신 알고리즘과 개발 업체
- TTS 기술은 ① 텍스트를 발음으로 변환(Text Analysis), ② 발음을 음향으로 전환(Acoustic model), ③ 음향을 소리로 출력(Vocoder)의 조합을 기본으로 구성되거나 이를 한꺼번에 처리하는 Fully End-to-End TTS모델로 구성되어 있다.
- 최근 사용되는 TTS 알고리즘은 다음과 같다.
- Tacotron 2: 구글 DeepMind에서 만든 음성 합성 알고리즘
- FastSpeech 2: Transformer 기반 TTS 기술
- Parallel WaveGAN: GAN(생성적 적대 신경망)을 사용한 음성 합성 알고리즘
- TTS는 완성형 서비스이기 때문에 일반 기업에서는 서비스 구축 시 데이터를 추가로 수집하거나 학습 시킬 필요는 없으며, 성우에 의해 녹음까지 끝마친 임대형 서비스를 이용하거나, TTS 솔루션을 도입한 후 별도 계약 또는 내부 인력을 활용해 음성을 녹음하여 구축할 수 있다.
- 국내 TTS 제공 및 개발 업체는 다음과 같다.
- 클로바더빙(네이버) : https://clovadubbing.naver.com
- 셀바스 AI : https://www.selvasai.com
- AISTUDIOS(딥브레인AI) : https://www.deepbrain.io
- 타입캐스트(네오사피엔스) : https://typecast.ai
- 코난보이스(코난테크놀로지) : https://konanvoice.konantech.com
- 온에어스튜디오(라이언로켓) : https://onairstudio.ai
- 리드스피커코리아(구 보이스웨어) : http://www.readspeaker.co.kr
728x90
'쉽게 쓴 데이터·AI 지식 > AI' 카테고리의 다른 글
이미지 3장으로 알아보는 AI학습(가중치와 편향) (65) | 2023.06.28 |
---|---|
AI 추가 학습의 종류와 리소스(Fine-Tuning, Prefix tuning, LoRa) (30) | 2023.06.21 |
음성 인식 기술 - STT(Speech To Text, 음성의 텍스트 전환) (20) | 2023.06.13 |
AI학습의 장애물, 암묵적 지식에 대한 정의와 해결 방법 (13) | 2023.06.11 |
언어모델에 프롬프트 엔지니어링이 필요한 이유 (18) | 2023.06.10 |