음성인식 2

AI음성인식 기반 자동 자막 생성 프로그램 - VREW

AI음성인식 기술은 기술과 라이브러리가 공개되어 있고 데이터도 공개되어 있는 편이라 비교적 쉽게 만들 수 있는 AI에 속한다. 그래서 관련 스타트업도 많고 시중에 이런 저런 앱들도 출시되어 있지만, 앞서 포스트(관련 글 바로가기)에서도 언급하였듯이 말의 늬앙스와 소음 등에 영향을 받기 때문에 좋은 성능을 가진 AI를 만들기는 쉽지 않다. 인간이 그렇듯이 AI도 어떠한 교재와 데이터로 학습하는 지에 따라 전문성이 달라지며, 대기업제품(구글, 애플, 네이버 등)이 만든 모든 분야에서 좋은 성능을 내야 하는 AI들은 특정분야에서 오히려 성능이 떨어지기도 한다. 오늘 소개하려고하는 AI도 대기업제품 못지 않은 성능을 가졌다는 이야기를 듣고 응원하는 마음에 테스트도 해볼 겸 포스팅을 작성해본다. Vrew 이용방법..

유용한 TIP 2023.06.19

음성 인식 기술 - STT(Speech To Text, 음성의 텍스트 전환)

음성인식의 발전 과정 음성인식은 Speech Recognition 또는 STT(Speech To Text)으로 불리며, 인간의 육성을 인지하여 문자로 전환(기록)하는 기술을 말한다. 음성을 텍스트로 전환해주는 기술은 1950년대부터 숫자를 인지하는 것부터 시작하여 단어와 문장을 구분하는 형태로 발전하였으나 정체기에 있다가 AI를 활용한 예측기술이 도입되고 2010년 구글에서 Voice Speech를 발표하면서 각광받기 시작하였다. 구글과 애플은 기본적으로 음성입력장치가 부착되어있고 상시적으로 네트워크가 연결된 스마트폰을 통해 사용자들의 막대한 데이터를 수집하였으며 개인별로 다른 억양과 말투, 습관 등을 학습할 수 있었다. STT를 기반으로 한 음성 명령 체계는 TTS(Text to speech, 음성합성..

반응형