Amazon Polly 기능
사용이 간편한 API
Amazon Polly는 음성 합성을 애플리케이션에 신속하게 통합할 수 있도록 API를 제공합니다. 음성으로 변환하려는 텍스트를 Amazon Polly API로 전송하기만 하면 Amazon Polly가 오디오 스트림을 애플리케이션으로 즉시 반환하므로 애플리케이션이 직접 이를 스트리밍하거나 MP3와 같은 표준 오디오 파일 형식으로 저장할 수 있습니다.
샘플링 비율 | 샘플 코드 |
"Hi. My name is Joanna." | from boto3 import client polly = client("polly", region_name="us-east-1") response = polly.synthesize_speech( Text="안녕하세요. My name is Joanna.", OutputFormat="mp3", VoiceId="Joanna") |
다양한 목소리 및 언어 선택
Amazon Polly에는 수십 개의 생생한 음성과 다양한 언어에 대한 지원이 포함되어 있으므로 많은 국가/지역에서 적합한 목소리를 선택하여 음성 지원 애플리케이션을 배포할 수 있습니다. Amazon Polly는 이제 표준 및 신경망 텍스트 음성 변환(NTTS) 음성 외에도 음성 품질을 개선하여 더욱 자연스럽고 사람과 비슷한 음성을 제공하는 긴 형식 및 생성형 음성을 제공합니다.
Danielle, Gregory, Ruth는 미국식 영어 음성으로 긴 형태와 신경망 변형으로 사용할 수 있습니다. Ruth, Matthew, Amy는 생성형 버전으로도 제공됩니다.
향상된 시각적 경험을 위해 음성 동기화
Amazon Polly에서는 특정 문장, 단어 또는 소리가 발음되는 시점에 대한 정보를 제공하는 메타데이터의 추가 스트림을 손쉽게 요청할 수 있습니다. 합성된 음성 오디오 스트림과 함께 이러한 메타데이터 스트림을 사용하면 이제 음성이 동기화된 얼굴 애니메이션 또는 노래방 형태의 자막 강조 표시와 같은 향상된 시각적 경험이 적용된 애플리케이션을 구축할 수 있습니다.
인용 부호 기능을 사용하는 방법을 자세히 알아보려면 설명서를 참조하십시오.
스트리밍 오디오 최적화
Amazon Polly에서는 애플리케이션을 통해 사용자에게로 모든 종류의 정보를 거의 실시간으로 스트리밍할 수 있습니다. 또한, 다양한 샘플링 비율을 선택하여 애플리케이션의 대역폭과 오디오 품질을 최적화할 수 있습니다. Amazon Polly는 MP3, Vorbis 및 원시 PCM 오디오 스트림 형식을 지원합니다.
샘플링 비율 | MP3 크기 | OGG 크기 |
PCM 크기 |
24.00kHz 듣기 | 19.31kB | 18.11kB | 해당 사항 없음 |
22.05kHz 듣기 |
19.33kB | 17.62kB | 해당 사항 없음 |
16.05kHz 듣기 | 16.22kB | 15.48kB | 100.68kB |
8.00kHz 듣기 | 13.26kB | 9.72kB | 50.34kB |
스피킹 스타일, 음성 속도, 피치 및 음량 조정
Amazon Polly에서는 음성 합성 애플리케이션을 위한 Speech Synthesis Markup Language(SSML), W3C 표준, XML 기반 마크업 언어를 지원하고 표현, 강조 및 억양을 위한 일반 SSML 태그를 지원합니다. 사용자 지정 Amazon SSML 태그는 특정 음성을 뉴스 진행자 스피킹 스타일로 말할 수 있는 기능과 같은 고유한 옵션을 제공합니다. 이러한 유연성은 청중의 관심을 끌 수 있는 생생한 음성을 생성하는 데 도움이 됩니다.
자세한 내용은 SSML 태그에 대한 Amazon Polly 설명서를 참조하세요.
샘플 | SSML |
This is how I speak normally. | (없음) |
I can also speak in a Newscaster style, as if I were reading a news article or delivering a flash briefing. | <speak><amazon:domain name="news">I can also speak in a Newscaster style, as if I were reading a news article or delivering a flash briefing.</amazon:domain></speak> |
I can speak in a higher pitched voice, or I can speak in a lower pitched voice. | <speak>I can speak in a <prosody pitch="high">higher pitched voice</prosody>, or I can speak <prosody pitch="low">in a lower pitched voice</prosody></speak> |
I can speak really slowly, or I can speak really fast. | <speak>I can speak <prosody rate="x-slow">really slowly</prosody>, or I can speak <prosody rate="x-fast">really fast</prosody></speak> |
I can also speak very loudly, or I can speak very quietly. | <speak>I can also speak <prosody volume="x-loud">very loudly</prosody>, or I can speak <prosody volume="x-soft">very quietly</prosody>. </speak> |
I can whisper. | <speak>I have a secret to tell you, I will whisper it to you.<amazon:effect name="whispered">'<prosody rate="x-slow"> <prosody volume="loud">I am not human.</prosody></prosody></amazon:effect>Can you believe it?</speak> |
뉴스 진행자 스피킹 스타일
Amazon Polly는 TV 또는 라디오 뉴스 진행자가 말한 것처럼 음성을 합성하는 데 사용할 수 있습니다. 이것은 뉴스 기사를 읽거나 빠른 브리핑 업데이트를 제공하는 좋은 방법이 될 수 있습니다. 뉴스 진행자 스타일은 현재 신경망 텍스트 음성 변환을 사용하여 미국식 영어(en-US)를 구사하는 Matthew와 Joanna 목소리, 영국식 영어(en-GB)를 구사하는 Amy, 그리고 미국식 스페인어(es-US)를 구사하는 Lupe 목소리에 사용할 수 있습니다. 미국 영어, 영국 영어 또는 미국 스페인어로 오디오 샘플을 들어보세요.
스피치 최대 기간 조정
Amazon Polly를 사용하면 시간 기반의 prosody라는 기능으로 정의된 최대 할당 시간을 기준으로 스피치 속도를 자동으로 조정할 수 있습니다. 이는 특히 현지화를 포함한 많은 경우에 유용합니다.
예를 들어 교육 비디오에 미국 영어 스피치가 포함되어 있고 이 비디오를 독일어로 현지화하려고 한다고 가정해 보겠습니다. Amazon Translate를 사용하여 텍스트를 번역하고 Polly를 사용하여 음성으로 변환합니다. 현지화된 독일어 음성은 해당 비디오 프레임에 스트리밍되어야 하므로 독일어 스피치는 미국 영어 스피치보다 길 수 없습니다. 이 기능을 사용하여 더빙 프로세스를 더 쉽게 진행할 수 있습니다.
플랫폼 및 프로그래밍 언어 지원
Amazon Polly는 AWS SDK(Java, Node.js, .NET, PHP, Python, Ruby, Go 및 C++)와 AWS Mobile SDK(iOS/Android)를 비롯하여 모든 프로그래밍 언어를 지원합니다. 또한, Polly는 HTTP API를 지원하므로 고객은 자체 액세스 계층을 구현할 수 있습니다.
API, 콘솔 또는 명령줄을 통한 음성 합성
Amazon Polly는 Polly API(그리고 다양한 언어별 SDK), AWS Management Console 및 AWS 명령줄 인터페이스(CLI)를 통해 액세스할 수 있습니다. 콘솔, API 또는 CLI 중 어느 것을 통해 서비스를 사용하든 Amazon Polly의 모든 기능을 완벽히 제어할 수 있습니다.
사용자 지정 어휘
Amazon Polly의 사용자 지정 어휘 또는 용어의 경우 회사 이름, 두문자어, 외래어, 신조어 등 특정 단어의 발음을 수정할 수 있습니다(예: 프랑스인이 아닌 사람이 말할 때 “C’est la vie”, “ROTFL”). 이러한 발음을 사용자 지정하려면 어휘 항목이 포함된 XML 파일을 업로드하면 됩니다. 예를 들어 이 XML을 통해 음소를 제공하여 Nguyen의 발음을 사용자 지정할 수 있습니다.
<lexeme>
<grapheme>Nguyen</grapheme>
<grapheme>nguyen</grapheme>
<grapheme>NGUYEN</grapheme>
<phoneme>"nu.jEn'</phoneme>
</lexeme>
Brand Voice
Brand Voice는 조직에서만 사용할 수 있는 NTTS(신경망 텍스트 음성 변환) 음성을 구축하기 위해 Amazon Polly 팀과 협력할 수 있는 맞춤형 참여 방식입니다. Brand Voice를 통해 Amazon Connect 및 Alexa Skills 통합을 포함하여 다양한 사용 사례에서 독특한 음성 ID를 통해 제품과 애플리케이션을 차별화할 수 있습니다. AWS는 페르소나를 식별하고, 배우를 식별한 후 음성을 녹음하며, 궁극적으로 음성을 생성할 모델을 구축하고 학습하는 전체 프로세스를 여러분과 함께 진행합니다. 그러면 음성은 여러분의 AWS 계정 ID에서 사용할 수 있습니다.
National Australia Bank Brand Voice 듣기 »
Bank of New Zealand Brand Voice 듣기 »
Polly를 사용하는 Brand Voice 구축에 관심이 있다면 담당 AWS 계정 관리자에게 문의하거나 자세한 내용은 AWS에 문의하세요.
고객 센터 통합
Amazon Polly는 고객 센터를 설정 및 관리하고 신뢰할 수 있는 고객 참여를 대규모로 제공하기 위해 사용하는 AWS의 클라우드 기반 고객 센터 솔루션인 Amazon Connect와 기본적으로 통합됩니다. 대화형 음성 응답 시스템에 텍스트 음성 변환 프롬프트를 추가하는 방법에 대해 자세히 알아보려면 Amazon Connect 내에서 Polly 음성 사용 방법을 참조하세요.
Genesys Cloud CX는 전화, 문자, 채팅 등 다양한 채널에서 고객과 상담원 경험을 통합하는 클라우드 고객 센터 솔루션입니다. 기존 Polly 음성을 사용하여 음성 봇을 배포할 수 있습니다. 자세한 내용은 Genesys Cloud 설명서를 참조하세요.
Amazon Chime SDK는 개발자가 웹, 모바일 또는 전화 통신 애플리케이션에 음성 통화, 화상 통화 및 화면 공유 기능을 간단히 추가할 수 있는 실시간 커뮤니케이션 구성 요소 세트입니다. Amazon Chime SDK는 Amazon Polly와의 네이티브 통합을 지원하므로, 빌더가 텍스트 및 숫자 데이터를 생생한 음성으로 변환하고 그 결과를 전화를 건 사람에게 자동으로 재생하는 애플리케이션을 쉽게 생성할 수 있습니다.
Amazon Polly는 다수의 AWS CCI 파트너가 사용하므로 셀프 서비스 고객 서비스 가상 상담원, 정보 제공 봇 또는 애플리케이션 봇을 원활하게 생성할 수 있습니다. Amazon Polly 파트너에는 Genesys, Vonage 및 Accenture가 있습니다. 파트너에 대해 자세히 알아보려면 AWS CCI 및 AWS CCI 파트너 페이지를 참조하세요.