사용이 간편한 API

Amazon Polly는 음성 합성을 애플리케이션에 신속하게 통합할 수 있도록 API를 제공합니다. 음성으로 변환하려는 텍스트를 Amazon Polly API로 전송하기만 하면 Amazon Polly가 오디오 스트림을 애플리케이션으로 즉시 반환하므로 애플리케이션이 직접 이를 스트리밍하거나 MP3와 같은 표준 오디오 파일 형식으로 저장할 수 있습니다.

샘플링 비율 샘플 코드
"Hi. My name is Joanna." from boto3 import client
polly = client("polly", region_name="us-east-1")
response = polly.synthesize_speech(
        Text="안녕하세요. My name is Joanna.",
        OutputFormat="mp3",
        VoiceId="Joanna")

다양한 목소리 및 언어 선택

Amazon Polly에는 수십 개의 생생한 음성과 다양한 언어에 대한 지원이 포함되어 있으므로 많은 국가/지역에서 적합한 목소리를 선택하여 음성 지원 애플리케이션을 배포할 수 있습니다. Amazon Polly는 이제 표준 및 신경망 텍스트 음성 변환(NTTS) 음성 외에도 음성 품질을 개선하여 더욱 자연스럽고 사람과 비슷한 음성을 제공하는 긴 형식 및 생성형 음성을 제공합니다.

Danielle, Gregory, Ruth, Patryk, Alva, Raúl은 긴 형식 음성으로 제공됩니다.

Ruth, Matthew, Amy, Joanna, Danielle, Stephen, Olivia, Ayanda, Lucia, Lupe, Léa, Mía, Vicki는 생성형 버전으로 제공됩니다.

언어 또는 언어 변형

여성

남성

     

아랍어-MSA

Zeina

 

아랍어 - 걸프

Hala(신경망)

Zayd(신경망)

광동어

Hiujin(신경망)

 

카탈로니아어

Arlet(신경망)

 

덴마크어

Sofie(신경망)

Mads

 

Naja

 

네덜란드어

Laura(신경망)

Ruben

 

Lotte

 

네덜란드어(플란데런) - 벨기에

Lisa(신경망)

 

영어(인도)

Kajal(신경망)

 
 

Raveena

 
 

Aditi

 

영어(아일랜드)

Niamh(신경망)

 

영어 - 뉴질랜드

Aria(신경망)

 

영어 - 남아프리카공화국

Ayanda(생성형)

 
 

Ayanda

 

영어 - 영국

Amy(생성형)

Brian(신경망)

 

Amy(신경망)

Brian(표준)

 

Amy(표준)

Arthur(신경망)

 

Emma(신경망)

 
 

Emma(표준)

 

영어 - 미국

Ruth(생성형)

Patrick(긴 형식)

 

Ruth(긴 형식)

Gregory(긴 형식)

 

Ruth(신경망)

Gregory(신경망)

 

Danielle(생성형)

Stephen(생성형)

 

Danielle(긴 형식)

Stephen(신경망)

 

Joanna(생성형)

Matthew(생성형)

 

Joanna(신경망)

Matthew(신경망)

 

Joanna(표준)

Matthew(표준)

 

Salli(신경망)

Justin(신경망)

 

Salli(표준)

Justin(표준)

 

Kendra(신경망)

Joey(신경망)

 

Kendra(표준)

Joey(표준)

 

Kimberly(신경망)

 
 

Kimberly(표준)

 
 

Ivy(신경망)

 
 

Ivy(표준)

 

영어 - 웨일스

   

영어 - 호주

Olivia(생성형)

Geraint

 
 

Olivia(신경망)

Russell

 

Nicole

 

핀란드어

Suvi(신경망)

 

프랑스어 - 벨기에

Isabelle(신경망)

 

프랑스어 - 캐나다

Gabrielle(신경망)

 
 

Chantal

Liam(신경망)

프랑스어 - 프랑스

Léa(생성형)

 
 

Léa(신경망)

Mathieu

 

Léa(표준)

Rémi

 

Céline

 

독일어 - 오스트리아

Hannah(신경망)

 

독일어 - 독일

Vicki(생성형)

 
 

Vicki(신경망)

 
 

Vicki(표준)

Daniel(신경망)

 

Marlene

Hans

힌디어 - 인도

Kajal(신경망)

 
 

Aditi

 

아이슬란드어

Dóra

 

이탈리아어

Bianca(신경망)

Karl

 

Bianca(표준)

Adriano

 

Carla

Giorgio

일본어

Kazuha(신경망)

 
 

Tomoko(신경망)

Takumi(신경망)

 

Mizuki

Takumi(표준)

한국어

서연(신경망)

 
 

서연(표준)

 

표준 중국어

Zhiyu(신경망)

 
 

Zhiyu(표준)

 

노르웨이어

Ida(신경망)

 
 

Liv

 

폴란드어

Ola(신경망)

 
 

Ewa

Jacek

 

Maja

Jan

포르투갈어 - 브라질

Vitória(신경망)

 
 

Vitória(표준)

Ricardo

 

Camila(신경망)

Thiago

 

Camila(표준)

 

포르투갈어 - 포르투갈

Inês(신경망)

 
 

Inês(표준)

Cristiano

루마니아어

Carmen

 

러시아어

Tatyana

 

스페인어 - 멕시코

Mia(생성형)

Maxim

 

Mia(신경망)

Andrés

 

Mia(표준)

 

스페인어 - 스페인

Alva(긴 형식)

Raúl(긴 형식)

 

Lucia(생성형)

Sergio

 

Lucia(신경망)

Enrique

 

Lucia(표준)

 

스페인어 - 미국

Conchita

 
 

Lupe(생성형)

Pedro(신경망)

 

Lupe(신경망)

Miguel

 

Lupe(표준)

 

스웨덴어

Penélope

 
 

Astrid

 

터키어

Elin(신경망)

 
 

Filiz

 

웨일스어

Burcu(신경망)

 
 

Gwyneth

 
     

 

 

 

 

향상된 시각적 경험을 위해 음성 동기화

Amazon Polly에서는 특정 문장, 단어 또는 소리가 발음되는 시점에 대한 정보를 제공하는 메타데이터의 추가 스트림을 손쉽게 요청할 수 있습니다. 합성된 음성 오디오 스트림과 함께 이러한 메타데이터 스트림을 사용하면 이제 음성이 동기화된 얼굴 애니메이션 또는 노래방 형태의 자막 강조 표시와 같은 향상된 시각적 경험이 적용된 애플리케이션을 구축할 수 있습니다.

인용 부호 기능을 사용하는 방법을 자세히 알아보려면 설명서를 참조하십시오. 

스트리밍 오디오 최적화

Amazon Polly에서는 애플리케이션을 통해 사용자에게로 모든 종류의 정보를 거의 실시간으로 스트리밍할 수 있습니다. 또한, 다양한 샘플링 비율을 선택하여 애플리케이션의 대역폭과 오디오 품질을 최적화할 수 있습니다. Amazon Polly는 MP3, Vorbis 및 원시 PCM 오디오 스트림 형식을 지원합니다.

샘플링 비율 MP3 크기   OGG 크기
PCM 크기
24.00kHz 듣기 19.31kB 18.11kB 해당 사항 없음
22.05kHz 듣기
19.33kB 17.62kB 해당 사항 없음
16.05kHz 듣기 16.22kB 15.48kB

100.68kB

8.00kHz 듣기 13.26kB 9.72kB 50.34kB

스피킹 스타일, 음성 속도, 피치 및 음량 조정

Amazon Polly에서는 음성 합성 애플리케이션을 위한 Speech Synthesis Markup Language(SSML), W3C 표준, XML 기반 마크업 언어를 지원하고 표현, 강조 및 억양을 위한 일반 SSML 태그를 지원합니다. 사용자 지정 Amazon SSML 태그는 특정 음성을 뉴스 진행자 스피킹 스타일로 말할 수 있는 기능과 같은 고유한 옵션을 제공합니다. 이러한 유연성은 청중의 관심을 끌 수 있는 생생한 음성을 생성하는 데 도움이 됩니다.

자세한 내용은 SSML 태그에 대한 Amazon Polly 설명서를 참조하세요.

샘플 SSML
This is how I speak normally. (없음)
I can also speak in a Newscaster style, as if I were reading a news article or delivering a flash briefing. <speak><amazon:domain name="news">I can also speak in a Newscaster style, as if I were reading a news article or delivering a flash briefing.</amazon:domain></speak>
I can speak in a higher pitched voice, or I can speak in a lower pitched voice. <speak>I can speak in a <prosody pitch="high">higher pitched voice</prosody>, or I can speak <prosody pitch="low">in a lower pitched voice</prosody></speak>
I can speak really slowly, or I can speak really fast. <speak>I can speak <prosody rate="x-slow">really slowly</prosody>, or  I can speak <prosody rate="x-fast">really fast</prosody></speak>
I can also speak very loudly, or I can speak very quietly. <speak>I can also speak <prosody volume="x-loud">very loudly</prosody>, or I can speak <prosody volume="x-soft">very quietly</prosody>. </speak>
I can whisper. <speak>I have a secret to tell you, I will whisper it to you.<amazon:effect name="whispered">'<prosody rate="x-slow"> <prosody volume="loud">I am not human.</prosody></prosody></amazon:effect>Can you believe it?</speak>

뉴스 진행자 스피킹 스타일

Amazon Polly는 TV 또는 라디오 뉴스 진행자가 말한 것처럼 음성을 합성하는 데 사용할 수 있습니다. 이것은 뉴스 기사를 읽거나 빠른 브리핑 업데이트를 제공하는 좋은 방법이 될 수 있습니다. 뉴스 진행자 스타일은 현재 신경망 텍스트 음성 변환을 사용하여 미국식 영어(en-US)를 구사하는 Matthew와 Joanna 목소리, 영국식 영어(en-GB)를 구사하는 Amy, 그리고 미국식 스페인어(es-US)를 구사하는 Lupe 목소리에 사용할 수 있습니다. 미국 영어, 영국 영어 또는 미국 스페인어로 오디오 샘플을 들어보세요.

스피치 최대 기간 조정

Amazon Polly를 사용하면 시간 기반의 prosody라는 기능으로 정의된 최대 할당 시간을 기준으로 스피치 속도를 자동으로 조정할 수 있습니다. 이는 특히 현지화를 포함한 많은 경우에 유용합니다.

예를 들어 교육 비디오에 미국 영어 스피치가 포함되어 있고 이 비디오를 독일어로 현지화하려고 한다고 가정해 보겠습니다. Amazon Translate를 사용하여 텍스트를 번역하고 Polly를 사용하여 음성으로 변환합니다. 현지화된 독일어 음성은 해당 비디오 프레임에 스트리밍되어야 하므로 독일어 스피치는 미국 영어 스피치보다 길 수 없습니다. 이 기능을 사용하여 더빙 프로세스를 더 쉽게 진행할 수 있습니다.

플랫폼 및 프로그래밍 언어 지원

Amazon Polly는 AWS SDK(Java, Node.js, .NET, PHP, Python, Ruby, Go 및 C++)와 AWS Mobile SDK(iOS/Android)를 비롯하여 모든 프로그래밍 언어를 지원합니다. 또한, Polly는 HTTP API를 지원하므로 고객은 자체 액세스 계층을 구현할 수 있습니다.

API, 콘솔 또는 명령줄을 통한 음성 합성

Amazon Polly는 Polly API(그리고 다양한 언어별 SDK), AWS Management Console 및 AWS 명령줄 인터페이스(CLI)를 통해 액세스할 수 있습니다. 콘솔, API 또는 CLI 중 어느 것을 통해 서비스를 사용하든 Amazon Polly의 모든 기능을 완벽히 제어할 수 있습니다.

사용자 지정 어휘

Amazon Polly의 사용자 지정 어휘 또는 용어의 경우 회사 이름, 두문자어, 외래어, 신조어 등 특정 단어의 발음을 수정할 수 있습니다(예: 프랑스인이 아닌 사람이 말할 때 “C’est la vie”, “ROTFL”). 이러한 발음을 사용자 지정하려면 어휘 항목이 포함된 XML 파일을 업로드하면 됩니다. 예를 들어 이 XML을 통해 음소를 제공하여 Nguyen의 발음을 사용자 지정할 수 있습니다.

<lexeme>
            <grapheme>Nguyen</grapheme>
            <grapheme>nguyen</grapheme>
            <grapheme>NGUYEN</grapheme>
            <phoneme>"nu.jEn'</phoneme>
</lexeme>

Brand Voice

Brand Voice는 조직에서만 사용할 수 있는 NTTS(신경망 텍스트 음성 변환) 음성을 구축하기 위해 Amazon Polly 팀과 협력할 수 있는 맞춤형 참여 방식입니다. Brand Voice를 통해 Amazon Connect 및 Alexa Skills 통합을 포함하여 다양한 사용 사례에서 독특한 음성 ID를 통해 제품과 애플리케이션을 차별화할 수 있습니다. AWS는 페르소나를 식별하고, 배우를 식별한 후 음성을 녹음하며, 궁극적으로 음성을 생성할 모델을 구축하고 학습하는 전체 프로세스를 여러분과 함께 진행합니다. 그러면 음성은 여러분의 AWS 계정 ID에서 사용할 수 있습니다.

National Australia Bank Brand Voice 듣기 »

Bank of New Zealand Brand Voice 듣기 »

Polly를 사용하는 Brand Voice 구축에 관심이 있다면 담당 AWS 계정 관리자에게 문의하거나 자세한 내용은 AWS에 문의하세요.

고객 센터 통합

Amazon Connect

Amazon Polly는 고객 센터를 설정 및 관리하고 신뢰할 수 있는 고객 참여를 대규모로 제공하기 위해 사용하는 AWS의 클라우드 기반 고객 센터 솔루션인 Amazon Connect와 기본적으로 통합됩니다. 대화형 음성 응답 시스템에 텍스트 음성 변환 프롬프트를 추가하는 방법에 대해 자세히 알아보려면 Amazon Connect 내에서 Polly 음성 사용 방법을 참조하세요.

Genesys Cloud CX

Genesys Cloud CX는 전화, 문자, 채팅 등 다양한 채널에서 고객과 상담원 경험을 통합하는 클라우드 고객 센터 솔루션입니다. 기존 Polly 음성을 사용하여 음성 봇을 배포할 수 있습니다. 자세한 내용은 Genesys Cloud 설명서를 참조하세요.

Amazon Chime SDK

Amazon Chime SDK는 개발자가 웹, 모바일 또는 전화 통신 애플리케이션에 음성 통화, 화상 통화 및 화면 공유 기능을 간단히 추가할 수 있는 실시간 커뮤니케이션 구성 요소 세트입니다. Amazon Chime SDK는 Amazon Polly와의 네이티브 통합을 지원하므로, 빌더가 텍스트 및 숫자 데이터를 생생한 음성으로 변환하고 그 결과를 전화를 건 사람에게 자동으로 재생하는 애플리케이션을 쉽게 생성할 수 있습니다.

AWS Contact Center Intelligence(CCI)

Amazon Polly는 다수의 AWS CCI 파트너가 사용하므로 셀프 서비스 고객 서비스 가상 상담원, 정보 제공 봇 또는 애플리케이션 봇을 원활하게 생성할 수 있습니다. Amazon Polly 파트너에는 Genesys, Vonage 및 Accenture가 있습니다. 파트너에 대해 자세히 알아보려면 AWS CCIAWS CCI 파트너 페이지를 참조하세요.