BLOG
AWS re:Invent 2017에서는 개인용 미리 보기에서 Amazon Transcribe를 런칭했습니다. 오늘날 우리는 Amazon Transcribe을 모든 개발자들이 일반적으로 이용할 수 있게 된 것에 신이 나 있습니다. Amazon Transcribe는 개발자가 그들의 어플리케이션에 스피치를 텍스트 기능에 추가하는 것을 쉽게 해 주는 ASR(자동 음성 인식 서비스)입니다. 우리는 Amazon Transcribe의 많은 향상된 기능을 만들기 위해 미리 보기에 있는 고객의 피드백을 반복해서 검토했습니다.
새로운 Amazon Transcribe 기능을 GA에 혼합
시작하기 위해서는 SampleRate 매개 변수를 선택 사항으로 지정했습니다. 즉, 미디어의 파일 유형과 입력 언어를 알기만 하면 됩니다. 우리는 두 가지 새로운 특징을 추가했는데, 하나는 오디오에서 여러 명의 스피커를 구분하여 좀 더 알기 쉽게 기록을 제공하는 능력(누가 언제 말했는지)이며, 다른 하나는 제품 이름, 특정 용어의 스피치를 인식하는 정확성을 개선하는 맞춤형 어휘입니다. Amazon Transcribe이 어떻게 작용하는지에 대한 우리의 기억을 되살려 내려면, 간단한 예를 들어 봅시다. 이 오디오를 S3 버켓에 변환해 보겠습니다.
import boto3
transcribe = boto3.client(“transcribe”)
transcribe.start_transcription_job(
TranscriptionJobName=”TranscribeDemo”,
LanguageCode=”en-US”,
MediaFormat=”mp3″,
Media={“MediaFileUri”: “https://s3.amazonaws.com/randhunt-transcribe-demo-us-east-1/out.mp3”}
)
이렇게 하면 다음과 같이 개별 스피커를 확인할 수 있는 JSON에 유사한 결과물이 출력됩니다. (대부분의 응답을 제거했습니다.)
{
“jobName”: “reinvent”,
“accountId”: “1234”,
“results”: {
“transcripts”: [
{
“transcript”: “Hi, everybody, i’m randall …”
}
],
“speaker_labels”: {
“speakers”: 2,
“segments”: [
{
“start_time”: “0.000000”,
“speaker_label”: “spk_0”,
“end_time”: “0.010”,
“items”: []
},
{
“start_time”: “0.010000”,
“speaker_label”: “spk_1”,
“end_time”: “4.990”,
“items”: [
{
“start_time”: “1.000”,
“speaker_label”: “spk_1”,
“end_time”: “1.190”
},
{
“start_time”: “1.190”,
“speaker_label”: “spk_1”,
“end_time”: “1.700”
}
]
}
]
},
“items”: [
{
“start_time”: “1.000”,
“end_time”: “1.190”,
“alternatives”: [
{
“confidence”: “0.9971”,
“content”: “Hi”
}
],
“type”: “pronunciation”
},
{
“alternatives”: [
{
“content”: “,”
}
],
“type”: “punctuation”
},
{
“start_time”: “1.190”,
“end_time”: “1.700”,
“alternatives”: [
{
“confidence”: “1.0000”,
“content”: “everybody”
}
],
“type”: “pronunciation”
}
]
},
“status”: “COMPLETED”
}
사용자 지정 어휘
만약 제가 동료와 더 복잡한 기술적 논의를 할 필요가 있다면, 저는 맞춤형 단어를 만들 수 있습니다. 사용자 정의 어휘는 CreateVocabulary API에 전달된 문자열 배열로 지정되며, StartTranscriptionJob의 Settings의 일부로 이름을 입력하여 사용자 정의 어휘를 기록 작업에 포함시킬 수 있습니다. 개별 단어는 최대 50KB가 될 수 있으며 각 단어는 256자 미만이어야 합니다(공백에 하이픈 사용). 사용자 정의 어휘에 대한 자세한 내용은 설명서를 참조하십시오. 만약 고등 학교 AP 생물학 수업의 녹음파일을 기록하고 싶다면, 다음과 같은 파이썬으로 사용자 정의 단어를 만들 수 있습니다.
import boto3
transcribe = boto3.client(“transcribe”)
transcribe.create_vocabulary(
LanguageCode=”en-US”,
VocabularyName=”APBiology”,
Phrases=[
“endoplasmic-reticulum”,
“organelle”,
“cisternae”,
“eukaryotic”,
“ribosomes”,
“hepatocyes”,
“cell-membrane”
]
)
APBiology라는 이름의 이 단어를 사용해서 음성 API를 합성할 수도 있고, 기록에서 발견될 수 있는 어떤 오류에 기초해서 어휘 프로그래밍을 업데이트할 수도 있습니다.
지금 사용 가능합니다
Amazon Transcribe는 현재 미국 동부(북 버지니아)와 미국 서부(오리건), 미국 동부(오하이오)와 유럽 연합(아일랜드)에서 이용 가능합니다. Transcribe의 무료 샘플을 사용하면 처음 12개월 동안 매월 60분 동안 무료로 데이터를 기록할 수 있습니다. 그 후에는 최소 15초 동안 기록할 수 있는 오디오의 초당 0.0004달러의 종량제 모델을 적용합니다.
다른 툴과 서비스와 함께 사용할 경우, 제 생각에 Transcribe가 애플리케이션 개발을 위한 새로운 기회를 열어 줄 것 같습니다. 이 새로운 서비스로 개발자들이 어떤 기술을 개발할지 기대됩니다.
원문 URL: https://aws.amazon.com/ko/blogs/aws/amazon-transcribe-now-generally-available/
** 메가존 TechBlog는 AWS BLOG 영문 게재글중에서 한국 사용자들에게 유용한 정보 및 콘텐츠를 우선적으로 번역하여 내부 엔지니어 검수를 받아서, 정기적으로 게재하고 있습니다. 추가로 번역및 게재를 희망하는 글에 대해서 관리자에게 메일 또는 SNS페이지에 댓글을 남겨주시면, 우선적으로 번역해서 전달해드리도록 하겠습니다.