全般

Q: Amazon Transcribe とは何ですか?

Amazon Transcribe は AWS の人工知能 (AI) サービスで、音声を簡単にテキストに変換することができます。自動音声認識 (ASR) テクノロジーを利用し、カスタマーサービスの音声通話の文字起こし、音声/動画コンテンツに対する字幕生成、音声/動画コンテンツの内容分析 (テキストベース) など、Amazon Transcribe を様々なビジネスアプリケーションに利用できます。  

Q: Amazon Transcribe を他の AWS 製品とどのように組み合わせて使用できますか? 

Amazon Transcribe で音声入力をテキストに変換すると、音声入力をさまざまなテキスト分析アプリケーションで処理できるようになります。例えば、Amazon Transcribe で変換したテキストデータを Amazon Comprehend で処理することにより、感情分析や話者およびキーフレーズの抽出を行えます。同様に、Amazon Translate や Amazon Polly と統合すると、特定の言語による音声入力を別の言語に翻訳して音声出力できるため、複数の言語による会話を効果的に実現できます。また、Amazon Transcribe を Amazon Kendra や Amazon OpenSearch と統合することにより、音声ライブラリや動画ライブラリに対してインデックスを作成し、テキストベースの検索を実行することもできます。詳しくは、ライブコール分析およびエージェントアシストポストコール分析MediaSearch、またはコンテンツ分析ソリューションをご確認ください。

Q: Amazon Transcribe を使用する前に、他に知っておくべきことはありますか?

Amazon Transcribe は、音量、ピッチ、発声速度の変化など、音声および音響の幅広い特性を処理するように設計されています。オーディオ信号の品質とコンテンツ (バックグラウンドノイズ、重複話者、アクセントのあるスピーチ、または単一のオーディオファイル内の言語の切り替えなどを含みますが、これらに限定されません) は、サービス出力の精度に影響します。追加の音響変化やコンテンツタイプへの対応能力を向上させるために、私たちは常にサービスを更新しています。

Amazon Transcribe の使用

Q: デベロッパーが Amazon Transcribe を使用するにはどうすればよいですか?

使い始める最も簡単な方法は、コンソールを使って、文字起こしをする音声ファイルを送信することです。また、AWS コマンドラインインターフェイスから直接サービスを呼び出すことも、任意のサポートされた SDK を使用してアプリケーションと統合することもできます。どちらの方法でも、Amazon Transcribe を使ってほんの数行のコードを書くだけで、音声ファイルの自動的文字起こしができます。

Q: Amazon Transcribe はリアルタイムの文字起こしに対応していますか?

はい。Amazon Transcribe を使用すると、ユーザーは HTTP/2 の双方向ストリームを開くことができます。音声ストリームをサービスに渡すと、テキストストリームをリアルタイムで受け取ることができます。詳細については、ドキュメントページを参照してください。

Q: リアルタイムの文字起こしは、どのようなエンコーディングに対応していますか?

サポートされているメディアタイプは、バッチ転写とストリーミング転写で異なりますが、どちらもロスレス形式が推奨されています。詳細については、ドキュメントページを参照してください。

Q: Amazon Transcribe は、どの言語に対応していますか?

言語のサポートについては、ドキュメントページでご確認いただけます。

Q: Amazon Transcribe はどのようなデバイスで動作しますか? 

Amazon Transcribe の機能の大部分はデバイスに依存しません。通常、携帯電話、PC、タブレット端末、IoT デバイス (例: カーオーディオシステム) など、マイクを搭載するあらゆるデバイスで動作します。Amazon Transcribe API では、デバイスに入力されている音声ストリームの品質 (8KHz または 16KHz) が検知され、音声をテキストに変換するうえで適切な音響モデルが選択されます。さらに、開発者は、Amazon Transcribe API をアプリケーションで呼び出して音声のテキスト変換機能を利用することができます。

Q: Amazon Transcribe で処理できる音声コンテンツにサイズ制限はありますか?

Amazon Transcribe のサービス呼び出しは、バッチサービスの API コール 1 回につき 4 時間 (あるいは 2 GB) に制限されます。ストリーミングサービスは、最長 4 時間のオープンな接続に対応できます。

Q: Amazon Transcribe でサポートされているプログラム言語はどのようなものですか?

Amazon Transcribe バッチサービスは、.NET、Go、Java、JavaScript、PHP、Python、Ruby をサポートしています。 Amazon Transcribe リアルタイムサービスは、Java SDK、Ruby SDK、および C++ SDK をサポートします。今後も SDK のサポートは拡充されます。詳細については、リソースドキュメントのページを参照してください。

Q: カスタム語彙が認識されません。どうすればよいですか?

音声認識の出力は、カスタム語彙エントリに加えていくつかの要因に依存するため、用語がカスタム語彙に含まれていても、正しく認識されるという保証はありません。ただし、よくある理由の1つは、単語の発音が書かれているものと大きく異なることです。

このような場合は、発音のバリエーションに備えて、同じ単語のカスタムボキャブラリーファイルに複数のフレーズエントリを作成することをお勧めします。これらのフレーズエントリの目的の出力には、displayAs 列を使用できます。詳細については、カスタム語彙のドキュメントを参照してください。

Q: 出力にカスタム単語が多すぎるのはなぜですか?

カスタム語彙は、ターゲットを絞った単語の少数のリストに対して最適化されています。より大きな語彙は、特にそれらが同じように発音されている単語を含んでいるとき、カスタム単語の過剰な生成につながることがあります。リストが大きいなら、稀な単語と音声ファイルで実際に出現すると予想される単語に減らすことを試みてください。複数のユースケースをカバーする大きな語彙がある場合は、ユースケースごとに別々のリストに分割してください。短くて音が他の多くの単語と似ている単語は、過剰な生成 (出力に表示されるカスタム単語が多すぎる) につながる可能性があります。こうした単語は、周囲の単語と組み合わせて、ハイフンで区切ったフレーズとしてリストすることをお勧めします。例えば、カスタム単語「A.D.」は「A.D.-converter」などのフレーズの一部として含めるなどです。

Q: DisplayAs フォームを使用する場合、文字起こしされている元の言語とは無関係の文字セットを表示できますか(例、「Street」を「街道」と出力)?

はい。フレーズでは特定の言語に対して制限された文字セットしか使用できませんが、DisplayAs 列では \t (TAB) 以外の UTF-8 文字を使用できます。

Q: 自動コンテンツリダクションや個人を特定できる情報 (PII) リダクションは、Transcribe のバッチ API とストリーミング API の両方で使用できますか?

はい、Amazon Transcribe は、バッチおよびストリーミング API の両方で、自動コンテンツリダクションまたは PII リダクションをサポートしています。

Q: 自動コンテンツリダクション/PII の識別とリダクションではどの言語がサポートされていますか?

自動コンテンツリダクション/PII リダクションの利用可能な言語については、Amazon Transcribe のドキュメントを参照してください。

Q: 自動コンテンツリダクションは、ソースオーディオの個人識別情報もリダクションしますか?

いいえ、この機能はソースオーディオから個人識別情報を削除しません。しかし、Amazon Transcribe Call Analytics は、文字起こしとソースオーディオの両方から機密の個人情報を削除します。通話分析がどのように音声を編集するかについての詳細は、このリンクをご覧ください。また、識別された個人識別情報から各インスタンスのリダクション済み文字起こしで提供される開始タイムスタンプと終了タイムスタンプを使用して、ご自分でソースオーディオから個人情報をリダクションできます。標準的な Transcribe API の音声再編集ソリューションについては、こちらをご参照ください。

しかし、特別な Amazon Transcribe Call Analytics API は、文字起こしとソースオーディオの両方から機密の個人情報を削除します。詳細については、Call Analytics 音声編集のドキュメントをご覧ください。

Q: 自動コンテンツリダクションを使用して、既存のテキスト文字起こしから個人情報をリダクションできますか?

いいえ、自動コンテンツリダクションはオーディオでのみ入力として機能します。

Q: 自動コンテンツリダクションを使用する前に、他に知っておくべきことはありますか?

自動コンテンツリダクションは、個人を特定できる情報 (PII) を識別して削除するように設計されていますが、機械学習の予測性質により、サービスによって生成された文字起こしで個人識別情報のすべてのインスタンスを識別して削除できない場合があります。自動コンテンツリダクションが提供する出力を確認して、ニーズを満たしているか確認する必要があります。

Q: ストリーミング API とバッチ API の自動コンテンツリダクションに違いはありますか?

はい、バッチ API ではサポートされていない、ストリーミング API の自動コンテンツリダクションでサポートされている 2 つの追加機能があります。ストリーミング API でコンテンツリダクションを使用する場合、PII を特定するだけでリダクションを行わないように決定することができます。また、ストリーミング API では、特定の PII タイプを識別したり、リダクションしたりすることができます。例えば、社会保障番号やクレジットカード情報だけをリダクションし、名前や電子メールアドレスなど他の PII は残すことができます。

Q: 自動コンテンツリダクションや PII リダクションは、どの AWS リージョンで利用できますか?

AWS リージョンにおけるバッチおよびストリーミング API の自動コンテンツリダクション/PII リダクションの利用可能性については、Amazon Transcribe のドキュメントを参照してください。

Q: 自動言語識別はどの API でサポートされていますか?

自動言語識別は現在、バッチおよびストリーミング API でサポートされています。

Q: Amazon Transcribe はどの言語を自動識別できますか?

Amazon Transcribe は、バッチおよびストリーミング API でサポートされているすべての言語を識別できます。対応言語と言語固有の機能の詳細については、こちらをご覧ください。

Q: Amazon Transcribe は同じ音声ファイル内の複数の言語を識別しますか?

Amazon Transcribe は、バッチ用の多言語 ID をサポートしています。詳しくは、このリンクをご覧ください。

Q: 自動言語識別で選択できる言語のリストを制限する方法はありますか?

はい。メディアライブラリに表示される言語のリストを指定できます。言語のリストを指定すると、識別される言語はそのリストから選択されます。言語が指定されていない場合、音声ファイルは Amazon Transcribe でサポートされているすべての言語で処理され、最も可能性の高い言語が選択されます。選択する言語のリストを指定すると、言語の識別精度が向上します。詳しくは、このリンクをご覧ください。

料金と利用可能なリージョン

Q: 費用はどれくらいですか?

詳細は Amazon Transcribe の料金ページをご覧ください。

Q: Amazon Transcribe は、どの AWS リージョンで利用可能ですか?

AWS グローバルインフラストラクチャのリージョン表をご覧ください。Amazon Transcribe のエンドポイントおよびクォータについての追加の詳細はこちらをご覧ください。

データプライバシー

Q:Amazon Transcribe で処理された音声入力は保存されますか? また、AWS でどのように使用されますか?

では、サービスの提供と保守、ならびに Amazon Transcribe やその他の Amazon 機械学習/人工知能技術の開発と品質向上のためにのみ、サービスで処理された音声入力を保存して使用することがあります。お客様のコンテンツを使用することは、関連テクノロジーの開発やトレーニングなど、Amazon Transcribe の顧客満足度を継続的に改善するために重要です。当社は、お客様のコンテンツに含まれる個人情報を使用して、お客様やお客様のエンドユーザーを製品、サービス、またはマーケティングのターゲットにすることはありません。AWS の最優先事項は、お客様からの信頼、プライバシー、およびお客様のコンテンツのセキュリティです。また、AWS では、転送中や保管時の暗号化など、お客様のコンテンツへの不正アクセスやお客様のコンテンツの公開を防ぐように設計された、高度で信頼できる技術的および物理的な規制を行っています。さらに、AWS がデータを使用する場合はお客様との契約を確実に遵守します。詳細については、https://aws.amazon.com/compliance/data-privacy-faq/ をご参照ください。AWS Organizations オプトアウトポリシーを使うことで、Amazon Transcribe や他の Amazon 機械学習/人工知能技術の品質の向上を目的として、お客様のコンテンツが保存されないようにオプトアウトすることができます。オプトアウトする方法の詳細については、「AI サービスのオプトアウトポリシー」をご参照ください。

Q: Amazon Transcribe で保存された文字起こしジョブに関連するデータとアーティファクトを削除できますか?

はい。利用可能な Delete APIs を使用して、文字起こしジョブに関連するデータやその他のアーティファクトを削除できます。問題が発生する場合は、AWS サポートにお問い合わせください。

Q: Amazon Transcribe で処理および保存されたコンテンツには誰がアクセスできますか?

Amazon Transcribe で処理されたコンテンツにアクセスできるのは承認された従業員のみです。AWS の最優先事項は、お客様からの信頼、プライバシー、およびお客様のコンテンツのセキュリティです。また、AWS では、転送中や保管時の暗号化など、お客様のコンテンツへの不正アクセスやお客様のコンテンツの公開を防ぐように設計された、高度で信頼できる技術的および物理的な規制を行っています。さらに、AWS がデータを使用する場合はお客様との契約を確実に遵守します。詳細については、https://aws.amazon.com/compliance/data-privacy-faq/ をご参照ください。

Q: Amazon Transcribe で処理および保存されたコンテンツの所有権は誰が保持しますか?

お客様は常に自分のコンテンツの所有権を保持します。AWS では、お客様のコンテンツをお客様の同意なく使用することはありません。

Q:カスタム言語モデルのトレーニングに使用されたデータはどうなりますか? まだ所有していますか?

専用モデルのトレーニングに使用されるテキストデータを送信する場合、元のテキストデータと生成されたカスタムモデルの所有権を持つことになります。テキストデータは保存されず、一般的な音声認識エンジンを改善する際にも使用されません。CLM を使用して作成されたモデルは自己完結型であり、お客様のみがアクセスできます。

Q:サービスがトレーニングデータを保持しないことが原因で、文字起こしの品質や全体的なサービス体験に現れた欠点や低下がありますか?

弊社のサービスがトレーニングデータを保存しないのが原因で文字起こし品質の低下が生じることはありません。トレーニングデータを使用して実際にカスタム言語モデルを作成すると、モデルが自由に使用できるようになります。アップロードした元のトレーニングセットは、システムから消去されます。唯一の欠点は、技術サポートが必要な場合です。元のトレーニングデータは保持されないため、サポートチームがサービスの潜在的問題を調査する必要がある場合、これらの資産または関連する中間成果物に簡単にアクセスすることはできません。サポートは引き続きご利用いただけますが、追加情報の提供を求める場合があるため、ご不便をおかけすることになります。

Q:今後のモデルの更新や改善のためにデータを再利用するにはどうすればよいですか?

トレーニングデータは保存されないため、新しいモデルをトレーニングするには、同じデータセットと追加データを再度アップロードする必要があります。Amazon Transcribe によって提供される基本モデルが更新されると、通知が届きます。最新の基本モデルを利用するには、データを送信して新しいモデルをトレーニングする必要があります。これで、以前に生成した元のカスタムモデルと、使用する新しいバージョンのカスタムモデルの両方が得られます。

Q:モデルを削除するにはどうすればよいですか?

お客様が生成した顧客の言語モデルは、お客様の判断で削除することができます。

Q: Amazon Transcribe で処理されたコンテンツが、Amazon Transcribe を使用している AWS リージョンの外に移動されることはありますか?

Amazon Transcribe で処理されたすべてのコンテンツは、お客様が Amazon Transcribe を使用している AWS リージョン内で暗号化され、保存されます。Amazon Transcribe で処理されたコンテンツの一部は、Amazon Transcribe の顧客満足度やその他の Amazon 機械学習/人工知能技術を継続的に改善、開発することに関連する場合に限って、別の AWS リージョンに保存されることがあります。Amazon Transcribe や他の Amazon 機械学習/人工知能技術の品質の向上を目的として、お客様のコンテンツが保存されないようにオプトアウトする場合は、AWS サポートまでお問い合わせください。他の AWS リージョンにお客様のコンテンツが保存されることはありません。お客様のアカウントに関連付けられた音声入力の削除リクエストについては、AWS サポートにお問い合わせください。AWS の最優先事項は、お客様からの信頼、プライバシー、およびお客様のコンテンツのセキュリティです。また、AWS では、転送中や保管時の暗号化など、お客様のコンテンツへの不正アクセスやお客様のコンテンツの公開を防ぐように設計された、高度で信頼できる技術的および物理的な規制を行っています。さらに、AWS がデータを使用する場合はお客様との契約を確実に遵守します。詳細については、https://aws.amazon.com/compliance/data-privacy-faq/ をご参照ください。

Q: 13 歳未満の子どもを対象としていて、児童オンラインプライバシー保護法 (COPPA) を遵守する必要があるウェブサイト、プログラム、その他のアプリケーションに関連して、Amazon Transcribe を使用することはできますか?

はい。必要な通知の実施および COPPA に基づく証明可能な親の同意の取得の義務を含む Amazon Transcribe サービス条件の遵守を前提として、全体または一部が 13 歳未満の子どもを対象とするウェブサイト、プログラム、その他のアプリケーションに関連して、Amazon Transcribe を使用できます。

Q: 自分のウェブサイト、プログラム、またはアプリケーションが COPPA の対象かどうかを知るにはどうすればよいですか?

COPPA の要件についての情報、およびお客様のウェブサイト、プログラム、その他のアプリケーションが COPPA の対象かどうかを確認するためのガイダンスについては、米連邦取引委員会が提供および管理するリソースを直接参照してください。このサイトには、サービスの全体または一部が 13 歳未満の子どもを対象としているかどうかを確認する方法についても記載されています。

Amazon Transcribe Call Analytics

Q:Amazon Transcribe Call Analytics とは?

Amazon Transcribe Call Analytics は、リッチなコールトランスクリプトと実用的な会話のインサイトを提供する AI 搭載の API で、コールアプリケーションに追加することで、カスタマーエクスペリエンスとエージェントの生産性を向上させることができます。これは、カスタマーケアやアウトバウンドセールスコールを理解するために特別にトレーニングされた、強力な音声テキスト処理モデルとカスタム自然言語処理 (NLP) モデルを組み合わせたものです。AWS Contact Center Intelligence (CCI) ソリューションの一部であるこの API は、コンタクトセンターに依存せず、お客様や ISV がコール分析機能をアプリケーションにより簡単に追加できるようにします。

Q: Amazon Transcribe Call Analytics ではどのようなことができますか?

Amazon Transcribe Call Analytics は、リアルタイムコール分析とポストコール分析の両方を行うことができます。Call Analytics を使用すると、デベロッパーは、顧客とエージェントのセンチメントスコア、通話ドライバー、通話カテゴリ、通話の要約などの貴重なインテリジェンスを、API 出力として、インバウンドまたはアウトバウンドの通話アプリケーションに迅速に追加することができます。一般的なユースケースとしては、エージェントアシスト、要約、スーパーバイザーアラート、およびコール分析があります。Transcribe Call Analytics をベースとしたオープンソースのサンプルソリューションを 2 つご紹介します。エージェントアシストを使用したリアルタイムコール分析ポストコール分析です。

Q: Amazon Transcribe Call Analytics の使用を開始するにはどうすればよいですか?

Transcribe Call Analytics は、API や AWS マネジメントコンソール を通じて利用することができます。分析ジョブは、API またはコンソールを通じて作成、モニタリングすることができます。コンソールでは、分析ジョブのリストと、入力パラメータと JSON 出力のプレビューがあるジョブ詳細ページが表示されます。これに加えて、連絡先の自動分類機能のために、API やコンソールを通じてカテゴリーの作成および編集ができるようになります。

Q: Amazon Transcribe Call Analytics は、どの言語に対応していますか?

Amazon Transcribe Call Analytics の利用可能な言語については、Amazon Transcribe のドキュメントを参照してください。

Q: Amazon Transcribe Call Analytics は、どの AWS リージョンで利用できますか?

Amazon Transcribe Call Analytics の AWS リージョンカバレッジについては、AWS リージョン別サービスのドキュメントを参照してください。Amazon Transcribe Call Analytics で生成された通話の要約は、米国東部 (バージニア北部) と米国西部 (オレゴン) でのみプレビュー機能として利用できます。

Q:生成された通話の要約は、ポストコールおよびリアルタイムの Transcribe Call Analytics API の両方で利用できますか?

現在、生成された通話の要約は、ポストコール分析用の Transcribe Call Analytics API でのみ使用できます。

Q:Amazon Transcribe Call Analytics の料金設定はどうなっていますか?

Amazon Transcribe Call Analytics API は、標準の Amazon Transcribe API とは別料金が設定されます。詳細については、Amazon Transcribe 料金表ページをご覧ください。

Amazon Transcribe Medical

Q:Amazon Transcribe Medical とは何ですか?

Amazon Transcribe Medical は、開発者が医療音声の文字起こし機能をアプリケーションに簡単に追加できるようにする、自動音声認識 (ASR) サービスです。Amazon Transcribe Medical では、医師のメモを記録することや、ダウンストリームのテキスト分析処理により役に立つインサイトを抽出するといった、さまざまな目的のために、医療分野における口述や会話の音声を正確かつすばやくテキストに変換できます。

Q:Amazon Transcribe Medical ではどのようなことができますか?

Amazon Transcribe Medical では、高度な機械学習モデルを使用して、医療音声を正確にテキストに変換できます。Transcribe Medical で書き起こしたテキストを使用して、さまざまなユースケースをサポートできます。これには、臨床ドキュメントワークフローや医薬品安全性監視 (ファーマコビジランス) の他、ヘルスケアとライフサイエンス分野における、遠隔医療やコンタクトセンター分析のための文字起こしなども含まれます。

Q:自動音声認識 (ASR) のエキスパートでなくても、Amazon Transcribe Medical を使用できますか?

はい。Amazon Transcribe Medical は、ASR や機械学習の専門知識が無くても使用できます。Transcribe Medical の API を呼び出すだけで、必要な機械学習がサービスによってバックエンドで処理され、医療音声がテキストに変換されます。

Q:Amazon Transcribe Medical の使用を開始するにはどうすればよいですか?

AWS マネジメントコンソールまたは SDK を使用して Amazon Transcribe Medical を開始することができます。詳細については、こちらの技術ドキュメントのページを参照してください。

Amazon Transcribe Medical では、サービスをお試しいただける無料利用枠を提供しています。詳細については、こちらの料金ページを参照してください。

Q:Amazon Transcribe Medical は、どの言語に対応していますか?

Amazon Transcribe Medical は、現在、英語 (米国) での医療文書の文字起こしに対応しています。

Q:Amazon Transcribe Medical は、どの医療分野に対応していますか?

Amazon Transcribe Medical は、拡大するプライマリケアとスペシャリティケアの専門分野の文字起こしをサポートしています。サポートされている医療分野の完全なリストについては、ドキュメントをご覧ください。

Q:Amazon Transcribe Medical は、どの AWS リージョンで利用できますか?

Amazon Transcribe Medical の AWS リージョンカバレッジについては、AWS リージョン別サービスのドキュメントを参照してください。

Q.Amazon Transcribe Medical の料金はいくらですか?

料金詳細についてはAmazon Transcribe Medical の料金ページ参照してください

Q:Amazon Transcribe Medical は、HIPAA に対応していますか?

はい。

Q:Amazon Transcribe Medical により処理されたコンテンツは、サービスを提供する目的以外にも使用されますか?

Amazon Transcribe Medical では、サービスによって処理されたコンテンツを、サービスの提供と維持以外の目的で使用することはありせん。Amazon Transcribe Medical、またはその他の Amazon 機械学習/人工知能テクノロジーの開発や品質改善に、サービスによって処理されるコンテンツが使用されることはありません。

Q.Amazon Transcribe Medical では時間経過とともに学習がなされますか?

はい。Amazon Transcribe Medical では、機械学習を使用して、お客様のユースケースを向上させるための継続的なトレーニングを行っています。Amazon Transcribe Medical では、サービスに使用したお客様のデータをモデルのトレーニングのために使用したり、保存したりすることはありません。

Q:Amazon Transcribe Medical サービスを使用する前に知っておくべきことは他にありますか?

Amazon Transcribe Medical は、専門家による医療の助言や診断、治療などに代わるものではありません。お客様とエンドユーザーは、Amazon Transcribe Medical が提供するあらゆる情報の正確性、完全性、適時性、適切性などを、ご自身の裁量、経験、判断で決定する責任を負います。お客様とエンドユーザーは、Amazon Transcribe Medical の使用に基づくあらゆる決定、助言、措置および/または非措置に関して、完全に責任を負うものとします。 

Amazon Transcribe Medical は、すべての状況で保護されるべき医療情報を正確に特定できない場合があり、HIPAA において保護されるべき医療情報の匿名化の要件を満たしていません。お客様は、Amazon Transcribe Medical から提供されたものがニーズを満たすかどうかを確認する責任を負います。

カスタム言語モデル

Q: カスタム言語モデルは現在どのような機能を提供していますか?

カスタム言語モデル (CLM) を使用して、ドメインに特化した言語モデルをトレーニング、開発することができます。CLM は現在、バッチの文字起こしでは英語 (オーストラリア)、英語 (英国)、ヒンディー語、英語 (米国)、スペイン語 (米国) を、ストリーミングの文字起こしでは英語 (米国) をサポートしています。CLM は、バッチの文字起こしで、カスタム語彙の同時使用をサポートしています。

Q: トレーニングデータはどのくらいの量を必要としますか? データを取得するにはどうすればよいですか? データには特定の形式が必要ですか?

テキストデータは、カスタムモデルを使用して書き起こされる音声に関連しているものである必要があります。ドメイン固有の単語、フレーズ、および単語の組み合わせができるだけ多く含まれていることが求められます。実行するテキストは 10 万単語以上、1000 万単語以下を使用することをお勧めします。テキストデータリソースは、社内または公共のソースから取得できます (例: 顧客のウェブサイトから得たテキストを使用)。各プレーンテキストファイルは 200,000 単語以上、ただし全体のファイルサイズが 1 GB を超えないことをお勧めします。テキストは UTF-8 で、1 行に 1 つの文章を使用している必要があります。各文章には句読点を必ず含めてください。ユーザーは、綴りのチェック、書式設定文字の削除、およびエンコーディングの検証を行います。

Q: カスタム言語モデル (CLM) を使用するにはどうすればよいですか?

Amazon S3 バケットでテキストデータを提供するだけで、カスタム言語モデルをトレーニングできます。ユーザーは、Amazon Transcribe サービスコンソールを使用してデータを読み込んで処理し、カスタム言語モデルをトレーニングできます。トレーニングは完全に自動化されており、ユーザーが行うべき操作は最小限に抑えられています。最終的なカスタムモデルの準備が整ったら、顧客の AWS アカウントでドメイン固有のオーディオファイルを文字起こしできるようになります。さらに、顧客は複数のカスタムモデルをトレーニングして、さまざまなユースケースで使用できます。

Q: 改善は保証されますか? テキストデータを収集するために手間をかける価値はありますか?

改善は保証されません。パフォーマンスの変化は、テキストデータがオーディオにどれだけ近いかと、提供されるデータの量によって異なります。一般的には、データが多いほど良いですが、文字起こしするオーディオファイルに含まれていると予想される単語や連続する単語がデータに含まれていることが最も重要です。文字起こし精度の向上は、トレーニングデータの品質とユースケースによって異なります。一部のシナリオでは、一般的なベンチマークにより、相対的な精度が 10% から 15% に上がると示されています。

Q: モデルのトレーニングにはどのくらい時間がかかりますか? いつ使用できますか?

モデルのトレーニングには通常 6〜10 時間かかります。トレーニング時間の長さは、データセットのサイズによって異なります。カスタムモデルは、トレーニングが完了した直後に利用可能になります。

Q: モデルをどのように使用できますか? Amazon Transcribe が提供する一般的なモデルよりうまく機能するかどうかを判断するにはどうすればよいですか?

アカウントからトレーニングプロセスの前に、お客様が割り当てたモデル ID でモデルを使用できるようにします。モデルを使用するには、モデル ID のフラグを文字起こしリクエストに追加する必要があります。お客様はオーディオファイルでモデルをテストし、汎用エンジンから取得した結果と出力を比較する必要があります。

Q: カスタム言語モデルはいくつトレーニングできますか? アカウントで複数のモデルを同時に有効にできますか?

AWS アカウントごとに、最大 5 つの異なるモデルを同時にトレーニングできます。アカウントごとに、デフォルトで最大 10 個のモデルを保存できます。さらに必要な場合は、ここからサービス制限を引き上げることができます。

Q: カスタム音響モデルはサポートされていますか?

いいえ。カスタム音響モデルはサポートされていません。カスタム言語モデルは、ユースケースまたはドメインに関連するテキストデータから構築されます。

Amazon Transcribe 料金の詳細

料金表のページを見る
始める準備はできましたか?
Amazon Transcribe コンソールをお試しください
ご不明な点がありますか?
お問い合わせ