BLOG
사람의 자연적인 음성에는 정상적으로 말하는 중에 스피커에서 숨을 들이쉬거나 내쉬는 것과 같은 호흡 소리가 포함되어 있는 경우가 많이 있습니다. 예를 들어, 우리가 말할 때, 우리는 일반적으로 중요한 포인트에 숨을 내쉬게 되어있습니다.
TTS (text-to-speech)엔진에 의해 생성된 숨쉬는 소리가 없는 나레이션은 종종 인간 내레이터이가 주는 자연스러움이 부족합니다. 대부분의 TTS시스템은 음성 출력에 호흡 소리를 포함하지 않고 단지 단어나 구문 사이에 잠시 멈춥니다. 이러한 침묵의 단절이 연설의 짧은 부분을 생성할 때는 충분할 수 있지만, 특히 긴 형태의 내레이션의 경우에는 숨소리를 삽입하는 것이 더 자연스런 음성을 가져올 것입니다.
Amazon Polly 는 인간의 목소리와 같은 소리를 합성하기 위해 발전된 딥 러닝 기술을 사용하는 텍스트 음성 변환 서비스입니다. 오늘날, Amazon Polly는 사람이 말하는 것처럼, 말을 더 자연스럽게 하기 위해, 적당한 멈춤을 삽입할 수 있는 새로운 Speech Synthesis Markup Language (SSML) Breath 기능을 공개합니다.
<amazon:breath> 및 <amazon:auto-breaths> 태그 또는 이 두 가지의 조합을 사용하여 음성 출력에 호흡 소리를 넣을 수 있습니다.
* Manual mode(수동 모드): <amazon:breath/>태그를 사용해서 수동으로 호흡 소리를 설정합니다. 숨소리를 삽입하려는 곳에 태그를 입력 텍스트에 배치하기만 하면 됩니다. 지속 시간 및 볼륨 특성을 사용하여 태그를 커스터마이징할 수 있습니다.
* Automated mode(자동 모드):Amazon Polly에게 적절한 간격으로 호흡음을 자동으로 만들어 내도록 지시하려면 <amazon:auto-breath>태그를 사용합니다. 이러한 간격의 빈도와 해당 볼륨 및 지속 시간을 필요에 맞게 설정할 수 있습니다. 태그를 적용할 텍스트의 시작 부분에 배치하고 텍스트의 끝에 있는 태그를 닫습니다.
* Mixed Mode(믹스 모드): 호흡 태그를 만들 때 최대한 유연하게 하기 위해 자동 모드 호흡 태그를 수동 호흡 태그와 결합할 수 있습니다. 이렇게 하면 특정 위치에서 숨소리를 내면서도 전체 텍스트에 걸쳐 자동 호흡 패턴을 가질 수 있습니다.
다음의 믹스 모드 오디오 샘플을 들어보세요. (오디오 파일은 원문 URL을 참고하세요.)
Voiced by Amazon Polly
<speak>
<amazon:auto-breaths frequency=”low” volume=”soft” duration=”x-short”>Amazon Polly is a service that turns text into lifelike speech, for creating applications that talk, and building entirely new categories of speech-enabled products. Amazon Polly is a Text-to-Speech service, that uses advanced deep learning technologies to synthesize speech that sounds like a human. With dozens of lifelike voices, variety of languages, you can select the ideal voice and build speech-enabled applications that work in many different countries.</amazon:auto-breaths>
</speak>
또한, 호흡 소리의 음향 특성과 호흡 사이의 지속 시간이 크게 다를 수 있습니다. 청취자들은 종종 그들이 듣는 말을 어떻게 처리할지에 대해 무의식적인 표현으로 숨소리를 냅니다. 예를 들어, 빠른 호흡은 연설에 더 많은 긴급함을 나타내는 반면, 더 느리고 긴 호흡은 판단력이 부족함을 나타내는 것일 수 있습니다. 숨소리를 삽입하는 것은 문구들 사이의 틈에 대한 전달을 좀 더 정확하게 도와 줄 수 있습니다.
Amazon Polly는 스피치의 볼륨, 속도, 톤을 조절할 수 있게 해 주는 prosody와 같은 표준 SSML태그를 지원합니다. 다음 예에서는 수동 <amazon:breath>및 <prosody>태그를 함께 사용해 말로 감정적 또는 극적인 톤을 전달할 수 있는 방법을 시연합니다.
Scared Matthew: (오디오 파일은 원문 URL을 참고하세요.)
Voiced by Amazon Polly
<speak>
<amazon:breath duration=’medium’ volume=’x-loud’/><prosody rate=’115%’> <prosody volume=’x-loud’> Salli? <break time=’300ms’/> </prosody> Is that you?</prosody>
</speak>
Uncertain Matthew: (오디오 파일은 원문 URL을 참고하세요.)
Voiced by Amazon Polly
<speak>
<prosody rate=’50%’> I am not sure <amazon:breath duration=’x-long’ volume=’soft’/> <break time=’200ms’/> I think I need to think about it. </prosody>
</speak>
Breathless Salli: (오디오 파일은 원문 URL을 참고하세요.)
Voiced by Amazon Polly
<speak>
<amazon:breath duration=’long’ volume=’x-loud’/><prosody rate=’120%’> <prosody volume=’loud’> Wow! <amazon:breath duration=’long’ volume=’loud’/> </prosody> That was quite fast <amazon:breath duration=’medium’ volume=’x-loud’/> I almost beat my personal best time on this track. </prosody>
</speak>
이 예시들을 복사해서 Amazon Polly 콘솔에 붙여서 한번 실행해 보세요! 호흡 소리를 텍스트의 음성 출력에 통합함으로써, Amazon Polly 는 특히 길이가 긴 텍스트 내레이션을 위해 좀 더 자연스럽게 소리를 낼 수 있습니다.
Amazon Polly 콘솔에 로그인한 후 SSML Breath 기능을 사용해 보고 SSML태그에 대한 자세한 내용을 보려면 Amazon Polly documentation 을 참고하세요.
원문 URL: https://aws.amazon.com/ko/blogs/machine-learning/amazon-polly-releases-new-ssml-breath-feature/
** 메가존 TechBlog는 AWS BLOG 영문 게재글중에서 한국 사용자들에게 유용한 정보 및 콘텐츠를 우선적으로 번역하여 내부 엔지니어 검수를 받아서, 정기적으로 게재하고 있습니다. 추가로 번역및 게재를 희망하는 글에 대해서 관리자에게 메일 또는 SNS페이지에 댓글을 남겨주시면, 우선적으로 번역해서 전달해드리도록 하겠습니다.