全般

Q: Amazon Rekognition とは何ですか?

Amazon Rekognition は、強力な画像分析をアプリケーションに簡単に追加できるようにするサービスです。Rekognition Image を使用すると、数百万の画像を検索、検証、整理するための強力なアプリケーションを簡単に構築できます。Rekognition Video を使用すると、保存された動画やライブストリーム動画からモーションベースのコンテキストを抽出し、分析できます。

Rekognition Image は、物体、シーン、活動、ランドマーク、顔、主要な色、画質を検出する画像認識サービスです。また、Rekognition Image は、テキストの抽出、有名人の認識、画像内の不適切なコンテンツの識別を行います。また、顔を検索して比較することもできます。

Rekognition Video は、アクティビティの検出や、フレーム内の人物の動きの理解を行うビデオ認識サービスです。また、Amazon S3 に保存されているビデオや ライブビデオストリームから、オブジェクト、有名人、不適切なコンテンツの認識を行います。Rekognition Video では、ビデオから人物を検出し、その追跡を行います。顔が見えない場合や、人物の全身がシーンから出たり入ったりする場合にも対応します。例えば、誰かがあなたのドアに荷物を配達したときにリアルタイム通知を送信するアプリケーションでこれを使用することができます。Rekognition Video では、オブジェクト、アクティビティ、シーン、ランドマーク、有名人、顔などのメタデータのインデックスを作成し、ビデオ検索を容易にすることもできます。

Q: 深層学習とは何ですか?

深層学習は機械学習の一分野です。また、人工知能の重要な分野でもあります。複数の線形変換および非線形変換で構成される複数の処理レイヤーがある深層グラフを使用して、生のデータから高度な抽象化を行うことが目的です。深層学習は、おおまかにいうと脳内の情報処理と通信のモデルに基づいています。深層学習では、人間が作成した特徴を、非常に大量の注釈付きデータから学習した特徴に置き換えます。深層グラフ内の数十万のパラメータを効果的なアルゴリズムで反復的に計算することで学習を行います。

深層畳み込みニューラルネットワーク (CNN) やリカレントニューラルネットワークなどのいくつかの深層学習アーキテクチャが、コンピュータビジョン、音声認識、自然言語処理、およびオーディオ認識に適用され、さまざまなタスクで最先端の成果が実現しています。

Amazon Rekognition は、Amazon AI の一連のサービスの一部です。Amazon AI の各サービスは深層学習を利用して、画像の認識、テキストからリアルな音声への変換、直感的な会話型テキストおよび音声インターフェイスの作成を行います。

Q: Amazon Rekognition を使用するには深層学習の専門知識が必要ですか?

いいえ。Amazon Rekognition では、深層学習のパイプラインを構築、保守、アップグレードする必要はありません。

コンピュータビジョンの複雑なタスク (物体とシーンの検出、顔分析、顔認識など) で正確な結果を出すために、深層学習システムは、適切にチューニングを行い、膨大な量のラベル付きの正解データでトレーニングを行う必要があります。データを正しく調達、整理、ラベル付けするには時間とコストがかかります。さらに、深層ニューラルネットワークのトレーニングは計算コストが高く、多くの場合、グラフィック処理ユニット (GPU) を使用して構築されたカスタムハードウェアが必要になります。

Amazon Rekognition はフルマネージド型で、画像およびビデオ認識タスクが事前にトレーニング済みであるため、深層学習のパイプライン作成に時間とリソースを投資する必要はありません。Amazon Rekognition では、最新の研究に基づいて構築し、新しいトレーニングデータを調達することで、モデルの正確性を継続的に向上させます。これにより、お客様は価値の高いアプリケーションの設計と開発に集中できます。

Q: Amazon Rekognition の最も一般的なユースケースは何ですか?

Rekognition Image の最も一般的な使用例は次のとおりです。

  • 検索可能な画像ライブラリ
  • 顔ベースのユーザー認証
  • 感情分析
  • 顔認識
  • 画像の節度

Rekognition Video の最も一般的な使用例は次のとおりです。

  • ビデオアーカイブの検索インデックス
  • 明示的および暗示的なコンテンツに対するビデオのフィルタリングが簡単

Q: Amazon Rekognition を開始するにはどうすればよいですか?

Amazon Rekognition にまだサインアップしていない場合は、Amazon Rekognition ページの [今すぐ Amazon Rekognition を始める] をクリックし、サインアッププロセスを完了してください。これにはアマゾン ウェブ サービスのアカウントが必要です。まだお持ちでない場合は、サインアッププロセス中に画面の指示に従って作成してください。サインアップしたら、Amazon Rekognition マネジメントコンソールを使用して自分の画像やビデオで Amazon Rekognition を試してみるか、Amazon Rekognition SDK をダウンロードして独自のアプリケーションの作成を開始してください。詳細については、ステップバイステップの入門ガイドの手順を参照してください。

Q: Amazon Rekognition でサポートされている画像および動画の形式は何ですか?

Amazon Rekognition Image では現在 JPEG と PNG の画像形式がサポートされています。S3 オブジェクトまたはバイト配列として画像を送信できます。Amazon Rekognition Video の操作で、Amazon S3 バケットに保存されている動画を分析できます。ビデオは、H.264 コーデックを使用してエンコードする必要があります。サポートされているファイル形式は MPEG-4 と MOV です。コーデックとは、データを圧縮してより高速に配信し、受信したデータを元の形式に復元するソフトウェアまたはハードウェアです。H.264 コーデックは、ビデオコンテンツの録画、圧縮、および配信によく使用されます。ビデオファイル形式には、1 つ以上のコーデックが含まれている場合があります。MOV または MPEG-4 形式のビデオファイルが Rekognition Video で動作しない場合は、ビデオをエンコードするために使用されたコーデックが H.264 であることを確認してください。

Q: Amazon Rekognition で使用できるファイルのサイズはどのくらいですか?

Amazon Rekognition Image では、S3 オブジェクトとして送信する場合は最大 15 MB、画像のバイト配列として送信する場合は最大 5 MB の画像ファイルがサポートされます。Amazon Rekognition Video は、S3 ファイルとして渡されると、最大 10 GB のファイルと最大 6 時間の動画をサポートします。

Q: 画像の解像度は Rekognition Image API の結果の品質にどのような影響を与えますか?

Amazon Rekognition はさまざまな画像解像度に対応しています。最適な結果を得るために、VGA (640x480) 以上の解像度を使用することを推奨します。Amazon Rekognition は縦横両方のサイズが 80 ピクセル以上の画像に対応していますが、QVGA (320x240) より解像度が低い場合は顔や物体、不適切なコンテンツを認識しない可能性が高くなります。

Q: Amazon Rekognition Image で検出および分析できる物体の最小サイズはどのくらいですか?

通常は、画像内に表示されている最小の物体または顔が、画像の短い辺のサイズ (ピクセル) の 5% 以上になるようにしてください。たとえば、1600x900 の画像の場合、最小の顔または物体は、縦横両方のサイズが最低 45 ピクセル必要です。

Q: Amazon Rekognition の予測を人間がレビューするにはどうすればよいですか?

A: Amazon Rekognition は Amazon Augmented AI (Amazon A2I) と直接統合されているため、信頼性の低い予測は Amazon Rekognition Image からレビュー担当者に簡単にルーティングできます。コンテンツモデレーションに Amazon Rekognition API または Amazon A2I コンソールを使用して、Amazon A2I が予測をレビュー担当者にルーティングする条件を指定できます。これは、信頼しきい値またはランダムサンプリングパーセンテージのいずれかです。信頼しきい値を指定すると、Amazon A2I によって人によるレビューのしきい値を下回る予測のみがルーティングされます。これらのしきい値はいつでも調整して、精度と費用対効果の適切なバランスを実現できます。一方、サンプリングパーセンテージを指定した場合は、人によるレビューのために予測のランダムなサンプルが Amazon A2I によってルーティングされます。これで、監査を実装し、予測の精度を定期的にモニタリングできるようになります。Amazon A2I には、レビュー担当者がレビュータスクを完了するために必要なすべての指示とツールを含むウェブインターフェイスも装備されています。Amazon Rekognition を使用した人によるレビューの実施に関する詳細は、Amazon A2I ウェブページを参照してください。

Q: 動画解像度は、Rekognition Video API 結果の品質にどのように影響しますか?

このシステムは、(短い辺の寸法で) 32 ピクセルよりも大きい顔を認識するように訓練されています。つまり、認識する顔の最小サイズは、QVGA 解像度では画面の短い辺の約 1/7、HD 1080p 解像度では 1/30 などさまざまです。たとえば、VGA 解像度の場合、画面の短辺の 1/10 より小さい顔では、パフォーマンスが低下することが予想されます。

Q: Rekognition Video API の品質に影響するものは他に何かありますか?

動画解像度の他には、強いぼかし、速く動く人、照明条件、ポーズが API の品質に影響することがあります。

Q: Rekognition Video API に適した推奨ユーザー動画コンテンツは何ですか?

この API は、通常の色と照明の条件で正面視野で撮影された消費者向けビデオやプロフェッショナル向けビデオに最適です。この API は、白黒、IR または極端な照明の状態でテストされていません。誤警報に敏感なアプリケーションでは、選択した (アプリケーション固有の) 信頼水準を下回る信頼水準の出力を破棄することをお勧めします。

Q: Amazon Rekognition はどの AWS リージョンで利用できますか?

Amazon Rekognition をご利用いただける全リージョンのリストについては、AWS リージョン表を参照してください。

ラベル検出

Q: ラベルとは何ですか?

ラベルは、コンテンツに基づいて画像内で検出された物体、シーン、または概念を表します。たとえば、南国のビーチで複数の人が写っている写真の場合、「人」、「水」、「砂」、「ヤシの木」、「水着」 (物体)、「ビーチ」 (シーン)、「アウトドア」 (概念) などのラベルが含まれる場合があります。 

Q: 信頼スコアとは何ですか? どのように使用できますか?

信頼スコアは 0 から 100 までの数字で、特定の予測がどの程度正確であるかを示します。南国のビーチの例では、物体とシーンの検出プロセスが、「水」のラベルに信頼スコア 99、「ヤシの木」のラベルに 35 を返した場合、画像には水は含まれるもののヤシの木は含まれない可能性が高いということになります。

検出エラー (誤検出) の影響が大きいアプリケーションでは、信頼スコアが特定のしきい値を下回る結果を破棄する必要があります。最適なしきい値は、アプリケーションによって異なります。多くの場合、信頼スコアの最小値をデフォルト値より大きい値に設定することで、適切なユーザーエクスペリエンスを得ることができます。

Q: 物体とシーンの検出とは何ですか?

物体とシーンの検出は、画像またはビデオを分析して、視覚的な内容に基づいてラベルを割り当てるプロセスです。Amazon Rekognition Image では DetectLabels API でこのプロセスを実行します。 この API では、数千の物体、シーン、および概念を自動的に特定して、各ラベルに対して信頼スコアを返します。DetectLabels では信頼スコアのデフォルトのしきい値は 50 です。物体とシーンの検出は、大規模な画像ライブラリを検索および整理したいお客様に最適です。ユーザーが生成したコンテンツに依存するコンシューマーアプリケーションやライフスタイルアプリケーション、ターゲティングのアルゴリズムを向上させたい広告会社などが含まれます。

Q: Amazon Rekognition はオブジェクトのロケーションを検出し、境界ボックスを返すことができますか?

はい、Amazon Rekognition は「人」、「銃」、「犬」などの一般的なオブジェクトの多くのロケーションを画像や動画の双方で検出できます。検出されたオブジェクトの各インスタンスに対してバウンディング矩形の座標や信頼性スコアも得られます。オブジェクトの境界ボックス用 API レスポンス構造についての詳細は、ドキュメントを参照してください。

Q: Amazon Rekognition は検出されたラベル間の関係についての情報を提供しますか?

はい、見つかったラベルすべてに対して Amazon Rekognition は存在している親、エイリアス、カテゴリを返します。親は、「親」フィールドに階層的に返されます。最初の親ラベルは直接の親であり、次のラベルは親の親です。たとえば、「車」が同定される場合、Amazon Rekognition は「車両」(親)と「輸送機関」(親の親) という二つの親ラベルを返します。エイリアスは、主ラベルと同じ意味を持つラベルであり、「エイリアス」フィールドに返されます。例えば、「セルフォン」は「携帯電話」の別名なので、Amazon Rekognition は「携帯電話」ラベルの「エイリアス」フィールドに「セルフォン」を返します。カテゴリは、共通のテーマに基づいてラベルをグループ化し、「カテゴリ」フィールドに返されます。例えば、「犬」は「動物とペット」カテゴリのラベルなので、Amazon Rekognition は「犬」ラベルの「カテゴリ」フィールドに「動物とペット」を返します。サポートされているラベルの完全なリストとその分類法の詳細については、Amazon Rekognition ラベル検出ドキュメント を参照してください。

Q: Amazon Rekognition でサポートされるラベルの種類にはどのようなものがありますか?

Rekognition では、一般的なカテゴリに属する数千のラベルがサポートされます。カテゴリには次のようなものがありますが、これらに限定されるものではありません。

  • 人とイベント: 「結婚式」、「花嫁」、「赤ちゃん」、「バースデーケーキ」、「ギタリスト」など。
  • 食べ物と飲み物: 「りんご」、「サンドイッチ」、「ワイン」、「ケーキ」、「ピザ」など。
  • 自然とアウトドア: 「ビーチ」、「山」、「湖」、「夕焼け」、「虹」など。
  • 動物とペット: 「犬」、「猫」、「馬」、「虎」、「亀」など。
  • 家と庭: 「ベッド」、「テーブル」、「裏庭」、「シャンデリア」、「寝室」など。
  • スポーツと娯楽: 「ゴルフ」、「バスケットボール」、「ホッケー」、「テニス」、「ハイキング」など。
  • 植物と花: 「バラ」、「チューリップ」、「ヤシの木」、「森」、「竹」など。
  • アートとエンターテインメント: 「彫刻」、「絵」、「ギター」、「バレエ」、「モザイク」など。
  • 交通機関と乗り物: 「飛行機」、「自動車」、「自転車」、「オートバイ」、「トラック」など。
  • 電化製品: 「コンピュータ」、「携帯電話」、「ビデオカメラ」、「テレビ」、「ヘッドフォン」など。
  • ランドマーク:「ブルックリン橋」、「コロッセウム」、「エッフェル塔」、「マチュピチュ」、「タージマハル」 など。

Q: 物体とシーンの検出は、ビデオ分析でどのように異なりますか?

Rekognition Video では、車やペットなどの何千ものオブジェクトや、お祝いやダンスなどのアクティビティを自動的に識別し、各ラベルのタイムスタンプと信頼スコアを提供します。また、「キャンドルを吹く」や「消火する」など、複雑なアクティビティを正確に識別するために、動画内の動きや時間の状況にも依存しています。

Q: 必要なラベルが見つかりません。新しいラベルをリクエストするにはどうすればよいですか?

Amazon Rekognition コンソールの [Search all labels] (すべてのラベルを検索) セクションの入力フィールドにラベル名を入力し、[Request Rekognition to detect] (Rekognition に (要求するラベルの) 検出をリクエスト) をクリックして、ラベルリクエストをお送りください。Amazon Rekognition では、お客様からのフィードバックに基づいて継続的にラベルのカタログを拡大していきます。

Q: Image Properties とは何ですか?

Image Properties は、Amazon Rekognition Image の機能で、主要な色と画像の品質を検出するためのものです。Image Properties は、画像全体、画像の前景、画像の背景、および局所的な境界ボックスを持つオブジェクトの主要な色を検出します。また、Image Properties は、明るさ、シャープネス、およびコントラストのスコアを通じて、画像の品質を測定します。Image Properties は、DetectLabels API を通じて、IMAGE_PROPERTIES を入力パラメータとして使用し、ラベル検出用の GENERAL_LABEL 入力パラメータを使用、または使用せずに呼び出すことができます。詳しくは、Amazon Rekognition ラベル検出ドキュメントをご覧ください。

Q: 主要な色はどのように決定されるのですか?

Image Properties は、4 つのフォーマットで主要な色を返します。RGB、HexCode、CSS カラー、および簡略化されたカラーです。Amazon Rekognition は、まず、ピクセルパーセンテージで主要な色を特定し、これらの色を 140 の CSS カラーパレット、RGB、Hex コード、12 の簡易色 (すなわち、「緑」、「ピンク」、「黒」、「赤」、「黄」、「シアン」、「茶」、「オレンジ」、「白」、「紫」、「青」、「グレー」) に対してマッピングします。デフォルトでは、顧客が返すべき色の数を指定しない限り、Image Properties は 10 の主要な色を返します。API が返せる主要な色の最大数は、12 です。

Q: 明るさ、シャープネス、コントラストのスコアはどのように解釈すればよいですか?

Image Properties は、各明るさ、シャープネス、コントラストスコアに 0 から 100 までの値を提供します。例えば、露出が低い画像は低い明るさスコアを返し、明るく光る画像は高い明るさスコアを返します。

Q: Amazon Rekognition がモデルを更新するかどうかを確認するにはどうすればよいですか?

Amazon Rekognition は、モデルの更新が行われたかどうか確認することができる LabelModelVersion パラメータを返します。オブジェクトおよびシーンの検出モデルは、お客さまからのフィードバックをもとに頻繁に更新されます。

Amazon Rekognition カスタムラベル

Q: 顔の分析、カスタマイズされたテキスト検出にカスタムラベルを使用できますか?

いいえ。カスタムラベルの目的は画像内の物体や画像の検出ではありません。カスタムラベルは、顔の分析、カスタマイズされたテキスト検出を行うためのものではありません。この種のタスクには、ほかの Rekognition API を使用する必要があります。顔分析、テキスト検出については、ドキュメントを参照してください。

Q: 安全でない画像コンテンツを見つけるためにカスタムラベルを使用できますか?

はい。カスタムラベルの目的は画像内の物体や画像の検出ではありません。カスタムラベルは、ユースケース固有の安全でない画像コンテンツを検出するようにトレーニングされている場合、そのような画像コンテンツを検出できます。一般的に安全でない画像コンテンツを検出するには、節度 API のドキュメントも参照してください。

Q: カスタムモデルのトレーニングには何点の画像が必要ですか?

カスタムモデルのトレーニングに必要な画像数は、モデルに予測させたいカスタムラベルの変動性とトレーニングデータの品質に左右されます。たとえば、画像に明らかに別のロゴが重なっている場合は 1 つか 2 つのトレーニング画像で検出できますが、ロゴがバリエーション (スケール、ビューポイント、デフォルメ) でもっとわかりにくい場合には、トレーニングサンプルが高品質のアノテーション付きで数十~数百点の範囲で必要になります。ラベリングされた画像を多数お持ちの場合は、できるだけ多くの画像を使ってモデルをトレーニングすることをお勧めします。トレーニングデータセットのサイズの上限については、制限に関するドキュメントを参照してください。

数百にのぼる画像には高精度のカスタムモデルのトレーニングが求められることがありますが、カスタムラベルを使用すると、まずラベルあたり数十点の画像でモデルのトレーニングを始めて、テスト結果をレビューしてうまくいかなかったケースを把握したら、次に新たにトレーニング画像を追加してトレーニングを反復し、モデルの改善を繰り返すことができます。

Q: カスタムモデルにはどれくらい推論コンピューティングリソースをプロビジョンすべきですか?

並行推論コンピューティングリソースの必要数は、ある時点で処理する必要のある画像数に左右されます。ある 1 つのリソースのスループットは、画像のサイズ、画像の複雑性 (視認可能な検出物体数)、カスタムモデルの複雑性などの要因に左右されることになります。ユーザーには、カスタムモデルをプロビジョンすべき頻度、ある時点で処理すべき画像数をモニタリングすることをお勧めします。これで、カスタムモデルのプロビジョニングの効率性が最大化できるようにスケジューリングできることになります。
定期的に画像処理する場合 (たとえば、1 日 1 回、1 週間に 1 回、1 日の決まった時刻に反復してなど) は、予定時刻にカスタムモデルのプロビジョニングを開始し、すべての画像処理が終わったら、リソースのプロビジョニングを停止する必要があります。プロビジョニングを停止しないと、画像が処理されていなくても請求対象となります。

Q: トレーニングが失敗しました。それでも請求されますか?

いいえ。トレーニングが失敗したら、コンピューティングリソースに対する料金の請求はありません。

コンテンツの節度

Q: コンテンツの節度について教えてください。

Amazon Rekognition のコンテンツの節度用 API では、明示的もしくは示唆的なアダルトコンテンツ、暴力的なコンテンツ、武器、不快感を誘う画像のコンテンツ、ドラッグ、アルコール類、煙草、ヘイトシンボル、ギャンブル、画像や動画の中の無礼なポーズなどを、深層学習を使用して検出します。Amazon Rekognition は、不適切もしくは不快なコンテンツが発見された画像または動画をフラグで示すだけでなく、そのコンテンツに信頼スコアとラベルを付けた上で、階層的なリストの形で出力します。これらのラベルは、検出されたコンテンツの種類を、特定のサブカテゴリにより示しています。つまり、大量のユーザー生成コンテンツ(UGC)での、ふるい分けや管理をするためのよりきめ細かな制御が、デベロッパーに対し提供されることになります。この API は、アプリケーションの節度を判定するワークフローで使用できます。対象となるアプリケーションには、ソーシャルサイトやデートサイト、写真共有プラットフォーム、ブログ、フォーラム、子供向けアプリ、e コマースサイト、エンターテインメントサービス、およびオンライン広告サービスなどがあります。

Q: Amazon Rekognition で検出される、不適切、不快、および求められていないコンテンツには、どのような種類がありますか?

Amazon Rekognition により検出される、すべてのコンテンツカテゴリーの一覧表は、こちらでご覧になれます。

Amazon Rekognitionは、階層化したラベルと、検出した各ラベルに関する信頼スコアを返します。たとえば、1 つの不適切な画像について 「明示的な裸体」というラベルが、最上位の信頼スコアとともに、Rekognition から返される場合があります。すべての種類の明示的なアダルトコンテンツがフラグ付けされた場合などに、デベロッパーは前出のメタデータを使用して、コンテンツに対し高いレベルのフラグを付与することができます。前出のような Rekognition からの応答には、第 2 レベルのきめ細かさも含めることができます。独自の信頼スコアを設定した上で、「男性の裸体のグラフィック」などの追加コンテキストを返せます。デベロッパーは、この情報を利用してより複雑なフィルタリングロジックを構築し、さまざまな地域や人口層に対応することが可能です。

コンテンツの節度用 API は、不適切あるいは不快なコンテンツを認定するものではなく、そういったコンテンツを完全に除去できると主張するものもないことに、ご注意ください。また、この API では、画像に(児童ポルノなどの)違法なコンテンツ、または、一般的でないアダルトコンテンツが含まれる場合は、そのコンテンツは検出されません。

他の種類の不適切なコンテンツを、画像から検出する必要がある場合は、このセクションで後述するフィードバックプロセスを通じて、お問い合わせください。

Q: 現在使用しているモデルのバージョンはどうすればわかりますか?

Amazon Rekognition では、モデルが定期的な改良を受けています。モデルのバージョンを追跡するには、API レスポンスの "ModerationModelVersion" フィールドを使用します。

Q: Amazon Rekognition が、画像または動画の節度に関するユースケースでの、精度目標を確実に満たすようにする方法を教えてください。

Amazon Rekognition のコンテンツの節度モデルでは、広範囲にわたる調整とテストが実施されています。しかしながら、パフォーマンスの評価には、ご自身のデータセットで精度を測定することをお勧めします。

API リクエストの "MinConfidence" パラメータを使用して、コンテンツの検出数(再現率)と検出の精度(適合率)の間で、バランスを取ることができます。"MinConfidence" の値を減らすと、不適切なコンテンツのほとんどが検出されますが、同時に、不適切ではないコンテンツも検出される可能性が高くなります。"MinConfidence" の値を増やすと、検出されるコンテンツは、すべて実際に不適切なものになりますが、一部の対象コンテンツが、タグ付けされずに残る場合があります。

Q: コンテンツの節度用 API を改善するためのフィードバックを、Rekognition に送るには、どうすればよいですか?

AWS カスタマーサポートからリクエストをお送りください。Amazon Rekognition では、お客様からのフィードバックに基づいて、検出される不適切なコンテンツの種類を今後も拡大していきます。違法なコンテンツ (児童ポルノなど) は、このプロセスからは受け付けられないことにご注意ください。

顔分析

Q: 顔分析とは何ですか?

顔分析は、画像内にある顔を検出し、関連する顔属性を抽出するプロセスです。Amazon Rekognition Image は、性別、サングラスの有無、顔の特徴などの属性と共に、画像内で検出された各顔の境界ボックスを返します。Rekognition Video は、タイムスタンプ付きのビデオで検出された顔に加え、検出された顔ごとに、顔の特徴と位置と境界ボックスを返します。

Q: Amazon Rekognition で取得できる顔属性は何ですか?

Amazon Rekognition では、検出された顔ごとに次の顔属性が返されます。また、境界ボックスと各属性の信頼スコアも取得します。

  • 性別
  • 笑顔
  • 感情
  • 眼鏡
  • サングラス
  • 目を開いているか
  • 口を開いているか
  • 口ひげ
  • あごひげ
  • 姿勢
  • 顔の特徴

Q: 顔ポーズとは何ですか?

顔ポーズは、ピッチ軸、ロール軸、ヨー軸における、検出された顔の回転角を表します。これらのパラメータはそれぞれ -180 度から +180 度の間の角度として返されます。顔ポーズを使用すると、顔の境界ポリゴン (長方形の境界ボックスとは対照的) の方向性を検出し、変形の測定や、顔の正確なトラッキングなどを実行できます。

Q: 顔の質とは何ですか?

顔の質は、鮮明度と明るさを示す 2 つのパラメータを使用して、検出された顔の画像の質を表します。パラメータは両方とも 0 から 1 の間の値として返されます。これらのパラメータにしきい値を適用して、顔の明るさと鮮明度でフィルタリングできます。これは、顔の比較や顔認識など、高画質の顔画像を利用するアプリケーションで便利です。

Q: 顔の特徴とは何ですか?

顔の特徴は、いくつかの特徴となるポイントを集めたもので、通常は、目、鼻、口など顔の主要な構成要素のふち、先端、中心の位置を表します。Amazon Rekognition の DetectFaces API は、顔のクロップ、ある顔から別の顔へのモーフィング、カスタムフィルタを作成するオーバーレイカスタムマスクなどに使用できる、顔の特徴セットを返します。

Q: 1 つの画像からいくつ顔を検出できますか?

Amazon Rekognition では 1 つの画像から最大 100 個の顔を検出できます。

Q: ビデオ分析における顔分析はどのように違いますか?

Rekognition Video を使えば、ビデオ内の顔の位置を特定し、笑っているか、目が開いているか、感情を表しているかといった顔属性を分析できます。Rekognition Video は、検出された顔をタイムスタンプとともに、検出された各顔について、左目、右目、鼻、口の左隅、および口の右隅などの特徴とともに位置および境界ボックスを返します。この位置および時間情報は、時間の経過とともにユーザーの感情を容易に追跡し、自動顔フレーム、ハイライトまたはクロップなどの追加機能を提供するために使用できます。ユーザー検索はビデオ分析ではサポートされていません。

Q: ビデオ解像度に加えて、Rekognition Video API の品質には他に何が影響するのですか?

ビデオの解像度に加えて、検索する顔コレクションの要素である品質と代表顔は大きな影響を与えます。ひげ、眼鏡、ポーズ (側面と正面) のようなバリエーションで、人物ごとに複数の顔のインスタンスを使用すると、パフォーマンスが大幅に向上します。通常、非常に速く動く人々については感度が低下することがあります。また、ぼやけたビデオも低品質になることがあります。

顔の比較

Q: 顔の比較とは何ですか?

顔の比較とは、ある顔を 1 つ以上の別の顔と比較して類似性を測定するプロセスです。Amazon Rekognition Image では、CompareFaces API を使用して 2 つの画像内の顔が同一人物である可能性を測定します。この API は、ソースの入力画像にある顔を、ターゲットの入力画像で検出されたそれぞれの顔と比較し、各比較について類似性のスコアを返します。また、検出されたそれぞれの顔の境界ボックスと信頼スコアも取得します。顔の比較を使用すると、ほぼリアルタイムで、ファイルにある人物の写真と比較して個人のアイデンティティを検証できます。

Q: 複数の顔が含まれるソース画像を使用できますか?

はい。ソース画像に複数の顔が含まれる場合、CompareFaces は、最も大きな顔を検出し、それを使用してターゲット画像で検出された各顔と比較します。

Q: いくつの顔と比較できますか?

ソース画像に含まれる 1 つの顔を、ターゲット画像で検出された最大 15 の顔と比較できます。

Q: 顔検索とは何ですか?

顔検索とは、入力された顔を使用して、保存されている複数の顔の中から一致する類似の顔を検索するプロセスです。顔認識を使用することで、銀行の支払いにおける多要素認証、従業員向け自動入館などのアプリケーションを簡単に構築できます。

Q: 顔コレクションとは何ですか? 顔コレクションはどのように作成できますか?

顔コレクションとは、顔を数学的に表現した顔ベクトルの検索可能なインデックスです。Rekognition はコレクションに顔の画像を保存しません。CreateCollection API を使用することで、サポートされている AWS リージョンでコレクションを容易に作成し、Amazon リソースネーム (ARN) を再度取得できます。各顔コレクションには、コレクションに関連付けられた一意の CollectionId があります。

Q: 検索用にコレクションに顔を追加する方法を教えてください。

既存の顔コレクションに顔を追加するには、IndexFaces API を使用します。この API は、S3 オブジェクトまたは画像のバイト配列の形式で画像を受け取り、検出された顔のベクトル表示を顔コレクションに追加します。また、IndexFaces は、追加された各顔の一意の FaceId と境界ボックスを返します。

CreateUser API と AssociateFaces API を使用して、同じ人物の複数の顔ベクトルを集約してユーザーベクトルを作成および保存できます。ユーザーベクトルには、照明、シャープネス、ポーズ、外観の違いなどの度合いが異なる複数の顔ベクトルが含まれているため、単一の顔のベクトルよりも堅牢な表現になります。ユーザーベクトルを使用した顔検索は、単一顔ベクトルを使用した顔検索に比べて精度が大幅に向上します。ユーザーベクトルは、関連する顔ベクトルと同じコレクションに保存されます。

Q: コレクションから顔を削除するにはどうすればいいですか?

既存の顔コレクションから顔を削除するには、DeleteFaces API を使用します。この API は、CollectionId を使用して提供された顔コレクションで動作し、FaceId のリストに対応するエントリを削除します。FaceID がユーザーベクターに関連付けられている場合は、まず DisassociateFaces API 呼び出しを使用してユーザーベクターから削除する必要があります。または、DeleteUser API を使用してコレクションからユーザーベクターを削除することもできます。

顔の追加と削除の詳細については、コレクションの管理の例を参照してください。

Q: 顔コレクション内の顔をどのように検索すればよいですか?

ユーザーと関連する FaceID を作成したら、画像 (SearchUsersByImage)、ユーザー ID (SearchUsers)、または UserID (SearchUsers) のいずれかを使用して検索できます。これらの API では、入力用の顔を取り込み、類似性のスコアが高い順に、一致する顔のセットを返します。詳細については、顔の検索の例を参照してください。

Q: フェイスコレクション内の顔を検索するにはどうすればいいですか?

インデックスが付けられた顔コレクションを作成したら、画像 (SearchFaceByImage) または FaceId (SearchFaces) を使用してコレクション内の顔を検索できます。これらの API では、入力用の顔を取り込み、類似性のスコアが高い順に、一致する顔のセットを返します。詳細については、顔検索の例を参照してください。

Q: 顔検索は動画分析とどう違うのですか?

Rekognition Video では、数千万の顔を持つコレクションに対してリアルタイムの顔検索を実行できます。まず、顔コレクションを作成します。顔コレクションでは、それぞれの顔が顔の特徴のベクトル表現として保存されます。Rekognition は顔コレクションの中で、ビデオ全体で視覚的に似ている顔を探します。ビデオ内の顔ごとに信頼スコアが出力されるため、一致する可能性の高いものをアプリケーションで表示できます。ユーザー検索はビデオ分析ではサポートされていません。

Q: ビデオの解像度に加えて、Video API の品質に他に何が影響するのでしょうか?

ビデオの解像度に加えて、検索する顔コレクションの要素である品質と代表顔は大きな影響を与えます。ひげ、眼鏡、ポーズ (側面と正面) のようなバリエーションで、人物ごとに複数の顔のインスタンスを使用すると、パフォーマンスが大幅に向上します。通常、非常に速く動く人々については感度が低下することがあります。また、ぼやけたビデオも低品質になることがあります。

有名人の認識

Q: 有名人認識とは何ですか?

Amazon Rekognition の有名人の認識は、有名な、注目に値する、またはその分野で著名な個人を検出および認識するためのディープラーニングベースの使いやすい API です。RecognizeCelebrities API は、大きな規模で運用し、政治、スポーツ、ビジネス、エンターテインメント、メディアなど、さまざまなカテゴリの有名人を認識するように構築されています。有名人認識機能は、デジタル画像ライブラリを特定の関心に基づいてインデックス付けして検索する必要のあるお客様に最適です。

Q: 有名人認識 API によって誰を識別できますか?

Amazon Rekognition は、ディープラーニングモデルが認識するようにトレーニングされた有名人のみを識別できます。RecognizeCelebrities API は、有名人の網羅的なリストに関する権威でもなく、そのようなものを目的としていないことに注意してください。この機能は、お客様のニーズとフィードバックに基づいて、できるだけ多くの有名人を含めるように設計されています。私たちは絶えず新しい名前を追加しています。しかし、有名人認識機能が、他の任意のグループまたは私たちのお客様によって著名であると思われる個人を認識しないという事実は、それらの有名人ステータスに関する私たちの見解を反映するものではありません。有名人認識機能によって識別される有名人を追加したい場合は、フィードバックを送信してください。

Q: Amazon Rekognition API リクエストによって識別される有名人は、識別機能から削除されることをリクエストできますか?

はい。有名人として識別されている本人が識別機能から削除されることを希望する場合は、AWS カスタマーサポートにメールを送信できます。私たちはその削除リクエストを処理します。

Q: 有名人に関する追加情報を提供するためにどんなソースがサポートされますか?

API は、有名人に関する追加情報を提供するために、API レスポンスの一部としてソースのオプションリストをサポートします。現在は IMDB URL を提供しています (利用可能なとき)。後日、他のソースを追加する可能性があります。

Q: 有名人認識はビデオ分析とどのように異なりますか?

Rekognition Video を使用すると、よく知られた人物がいつどこでビデオに登場するのかを検出し認識することができます。タイムコードが適用された出力には、有名人の名前と一意の ID、境界ボックスの座標、信頼スコア、有名人の関連コンテンツを指す URL (例: 有名人の IMDB リンク) が含まれます。有名人は、顔がビデオ内で遮られている場合でも検出されます。この機能を使用すると、特定のマーケティングやメディアのニーズに関連するユースケースについて、デジタルビデオライブラリをインデックス付けして検索することができます。

Q: ビデオ解像度に加えて、Rekognition Video API の品質には他に何が影響するのですか? 

非常に速く動く有名人やぼやけたビデオは、Rekognition Video の API の品質に影響を与える可能性があります。加えて、俳優/女優に共通する濃いメイクやカモフラージュも、品質に影響を与える可能性があります。

テキスト検出

Q: テキスト検出とは何ですか?

テキスト検出は、画像内にある街区名、キャプション、製品名、オーバーレイされたグラフィック、動画の字幕、自動車のナンバープレートなどのテキストを簡単に検出および認識できる Amazon Rekognition の機能です。テキスト検出は、文書画像ではなく現実の画像と動画を対象として機能するように構築されています。Amazon Rekognition の DetectText API により、画像が取り込まれ、検出された各文字列について、テキストラベルと境界ボックスが信頼スコアと共に返されます。例えば、画像共有やソーシャルメディアプリケーション内で、同じテキストラベルを含む画像のインデックスに基づくビジュアル検索を実現できます。セキュリティのアプリケーションでは、交通監視カメラで撮影された画像のナンバープレートから車両を特定できます。同様に、動画の場合、StartTextDetection API と GetTextDetection API を使用して、テキストを検出し、検出ごとに信頼スコアとタイムスタンプを取得できます。メディアやエンターテイメントのアプリケーションでは、テキストメタデータを作成し、ニュース、スポーツの得点、コマーシャル、字幕といった関連コンテンツの検索をサポートできます。また、スパマーによってオーバーレイされたメールアドレスまたは電話番号など、ポリシーまたはコンプライアンス違反について検出されたテキストを確認することもできます。

Q: Amazon Rekognition のテキスト検出ではどのような文字の種類がサポートされていますか?

テキスト検出は、文書画像ではなく現実の画像と動画を対象として機能するように構築されています。多種多様なレイアウト、フォント、スタイルで埋め込まれ、背景のオブジェクトにさまざまな向きで重ねられたバナーやポスターのほとんどのラテン文字や数字のテキストがサポートされます。テキスト検出では画像またはビデオフレームにつき最大 50 個の文字列が認識され、単語および行としてリスト化されます。テキスト検出は、水平軸から最大 -90 t〜+90 度回転したテキストをサポートします。

Q: 画像またはビデオフレーム内の特定の領域にテキスト検出を制限できますか?

はい。テキスト検出フィルタリングオプションを使用して、API リクエストで最大 10 個の関心領域 (ROI) を指定できます。Amazon Rekognition は、これらの領域内のテキストのみを返します。 

Q: 単語の信頼度または境界ボックスのサイズでテキスト検出をフィルタリングできますか?

はい。API リクエストでは、テキスト検出フィルタリングオプションを使用して、最小信頼スコアまたは最小境界ボックスのディメンションのしきい値を指定できます。

Q: テキスト認識を改善するために Rekognition に関するフィードバックを行うには、どうすればよいですか?

AWS カスタマーサポートからリクエストをお送りください。Amazon Rekognition では、お客様からのフィードバックをもとに、認識するテキストコンテンツのタイプを継続的に拡張しています。

PPE 検出

Q: Amazon Rekognition はどの個人用保護具 (PPE) を検出できますか?

Amazon Rekognition の「DetectProtectiveEquipment」は、一般的なタイプのフェイスカバー、ハンドカバー、ヘッドカバーを検出できます。詳細については、機能のドキュメントを参照してください。Amazon Rekognition カスタムラベルを使用して、視認性の高いベスト、安全ゴーグルなどの PPE やその他ビジネスに固有の PPE を検出することもできます。 カスタム PPE 検出に Amazon Rekognition カスタムラベルを使用する方法については、こちらの github リポジトリをご覧ください。

Q: Amazon Rekognition は保護具の場所を検出し、境界ボックスを返すことができますか?

はい、Amazon Rekognition の「DetectProtectiveEquipment」API は、画像内の人物のフェイスカバー、ハンドカバー、ヘッドカバーなどの保護具の位置を検出できます。検出された保護具の各アイテムの境界ボックスの長方形の座標と、信頼スコアを取得します。API レスポンスの詳細については、ドキュメントを参照してください。

Q: サービスはマスクが適切に着用されているかどうかを検出できますか?

Amazon Rekognition の「DetectProtectiveEquipment」API 出力は、保護具の検出された各アイテムのブール値の「CoversBodyPart」値 (true/false) と信頼値を示します。これは、保護具が人の対応する身体部分に当てられているかどうかに関する情報を提供します。対応する身体部分に保護具があることに関する予測は、PPE が画像に含まれているが、実際には人に当てられていない場合を除外するのに役立ちます。ただし、これは保護具によって人が適切に保護されていること、または保護具自体が適切に着用されていることを示したり暗示したりするものではありません。

Q: Amazon Rekognition PPE 検出は、検出された人物を識別できますか?

いいえ、Amazon Rekognition PPE 検出は、顔認識や顔比較を実行せず、検出された人物を識別できません。

Q: API の制限とレイテンシーに関する詳細情報はどこにありますか?

API の制限とレイテンシーの最新の詳細については、Amazon Rekognition PPE 検出ドキュメントを参照してください。 

Q: 職場のカメラから Amazon Rekognition に画像を送信するにはどうすればよいですか?

職場のカメラから画像をサンプリングするオプションはいくつかあります。詳細については、Amazon Rekognition PPE 検出ブログを参照してください。

Q: PPE 検出の料金はどのようになっていますか?

Amazon Rekognition PPE 検出の料金は、他の Amazon Rekognition Image API と同様に画像ごとに設定されています。詳細については、Amazon Rekogntion の料金ページを参照してください。 

Amazon Rekognition Streaming Video Events

Q: Amazon Rekognition Streaming Video Events とは何ですか?
Amazon Rekognition Streaming Video Events は、機械学習を利用して接続されたカメラからオブジェクトを検出し、実用的なアラートをリアルタイムで提供します。Amazon Rekognition Streaming Video Events は、新規および既存の Kinesis Video Streams と連携して、ビデオストリームを処理し (モーションイベントごとに最大 120 秒)、関心のある目的のオブジェクトが検出されるとすぐに通知します。この通知を使用して

  • 「玄関先で荷物が検出されました」などのスマートアラートをエンドユーザーに送信できます。
  • 「人が検出されたときにガレージライトをオンにする」などのホームオートメーション機能が使えます。
  • Echo デバイスなどのスマートアシスタントと統合して、オブジェクトが検出されたときに Alexa アナウンスを行えます。
  • パッケージが検出されたすべてのビデオクリップの検索などのスマート検索機能が使えます。

Q: Amazon Rekognition Streaming Video Events はどのように機能しますか?
新規または既存の Kinesis Video Streams を使用して、Amazon Rekognition Streaming Video イベントを開始できます。Amazon Rekognition のストリームプロセッサー設定を行うときに、検出する希望のラベル (人、ペット、またはパッケージ)、Rekognition がイベントごとに処理する必要のある動画の長さ (モーションイベントごとに最大 120 秒)、および/または Rekognition で処理するフレーム上の関心領域を選択できます。Rekognition Streaming Video Event API は、ビデオストリームの処理を開始するように Rekognition に通知を送信した場合にのみ、動画を処理します。

接続されたカメラでモーションが検出されると、Rekognition に通知を送信して、ビデオストリームの処理を開始できます。Rekognition は、対応する Kinesis Video Streams を処理し、モーション検出を行って、指定した目的のオブジェクトを探します。目的のオブジェクトが検出されるとすぐに、Amazon Rekognition から通知が送信されます。この通知には、検出されたオブジェクト、境界ボックス、オブジェクトの拡大画像、およびタイムスタンプが含まれます。

Q: Amazon Rekognition Streaming Video Events はどのラベルをサポートできますか?
Amazon Rekognition Streaming Video Events は、人、ペット、パッケージをサポートできます。

Q: Amazon Rekognition Streaming Video API はどのペットとパッケージタイプを検出できますか?
Amazon Rekognition Streaming Video Events API は、ペットの検出で犬と猫を扱えます。API は、中型および大型の段ボール箱を高精度で検出できます。API は、小さいボックス、保護封筒、フォルダも検出しますが、これらのオブジェクトの一部を見逃す場合があります。

Q: 検出されたラベルごとに個別に請求されますか? オプトインするラベルを選択できますか?
いいえ、ラベルごとに個別に請求されることはありません。Rekognition で処理されたストリーミングビデオの時間分が課金されます。ストリーム処理設定を行うときに、特定のラベル (pet、package) をオプトインするか、3 つのラベル (people、pet、package) すべてをオプトインするかを選択できます。

Q: 動画を Amazon Rekognition に継続的にストリーミングする必要がありますか?
いいえ、Amazon Rekognition に動画を継続的にストリーミングする必要はありません。

Q: Streaming Video Events を使用するには、新しい Kinesis Video Streams (KVS) を作成する必要がありますか?
Amazon Rekognition Streaming Video Events は、新規および既存の Kinesis Video Streams の両方で機能します。関連する KVS ストリームを Amazon Rekognition Streaming Video Events API と統合するだけで、KVS ストリームの動画分析を開始できます。

Q: Amazon Rekognition はどのタイミングで通知を送信しますか?
Amazon Rekognition は、モーション検出後、ビデオストリームの処理を開始します。このビデオストリームを処理する期間を設定できます (イベントごとに最大 120 秒)。Amazon Rekognition がビデオストリームで関心のあるオブジェクトを検出するとすぐに、Rekognition から通知が送信されます。この通知には、検出されたオブジェクトのタイプ、境界ボックス、検出されたオブジェクトの拡大画像、およびタイムスタンプが含まれます。

Q: ラベル検出にどのような解像度と fps がサポートされていますか?
コストとレイテンシーを低く抑えるために、Amazon Rekognition Streaming Video Events は 1080p 以下の解像度のビデオストリームをサポートしています。Rekognition は、ビデオストリームを 5 fps で処理します。

Q: ストリーミングビデオでサポートされているコーデックとファイル形式は何ですか?
Amazon Rekognition Video は、MPEG-4 (.mp4) または MOV 形式の H.264 ファイルをサポートしています。

Q: イベントごとに処理される動画の最大継続時間はどれくらいですか?
イベントごとに最大 120 秒の動画を処理できます。

Q: ビデオストリーム用に処理するフレームの特定の領域を選択できますか?
はい、StreamProcessor の設定の一部として、フレームで処理する関心領域を選択できます。Amazon Rekognition は、フレームのその特定の領域のみを処理します。

Q: Amazon Rekognition で処理できる同時ビデオストリームの数はいくつですか?
Amazon Rekognition Streaming Video Events は、AWS カスタマーごとに 600 の同時セッションをサポートできます。この上限を増やす必要がある場合は、アカウントマネージャーにご連絡ください。

Amazon Rekognition の保存された動画分析

Q: Amazon Rekognition Video はどんな種類の物を検出できるのですか?
Amazon Rekognition Video は、ビデオに映った物体、シーン (場面)、ランドマーク、顔、有名人、テキスト、そして不適切なコンテンツを検出できます。顔画像のリポジトリまたはコレクションを使って、ビデオに映る顔を検索することもできます。

Q: Amazon Rekognition Video がサポートしているファイル形式とコーデックの種類を教えてください。
Amazon Rekognition Video は、MPEG-4 (.mp4) または MOV 形式の H.264 ファイルをサポートしています。お使いのビデオファイルがこれとは異なるコーデックを使用している場合は、AWS Elemental MediaConvert を使って H.264 にコードを変換してください。

Q: Amazon Rekognition Video の非同期 API はどのように機能するのですか?
Amazon Rekognition Video は、Amazon S3 バケットに保存されているビデオを処理することができます。非同期の操作セットを使って、Start オペレーション (物体やシーンを削除する StartLabelDetection など) を呼び出し、ビデオ分析を開始します。リクエストの完了ステータスは、Amazon Simple Notification Service (SNS) のトピックに公開されます。Amazon SNS トピックから完了ステータスを取得するときは、Amazon Simple Queue Service (SQS) のキューまたは AWS Lambda 関数を使用します。完了ステータスを取得したら、GetLabelDetection などの Get オペレーションを呼び出し、要求の結果を取得します。利用できる Amazon Rekognition Video API については、こちらのページで一覧をご覧いただけます。

Q: ビデオ内の各検出のタイムラインはどうすれば確認できますか?
Amazon Rekognition Video は、タイムスタンプまたはビデオセグメントによってラベルの結果を返します。GetLabelDetection API の AggregateBy インプットパラメータを使用することで、これらの結果をどのように整理するかを選ぶことができます。 

  • ラベルの結果がタイムスタンプで整理されている場合、Amazon Rekognition Video がビデオタイムラインでそのラベルを検出するたびに、各ラベルが返されます。例えば、2000ms と 4000ms で「犬」が検出された場合、Amazon Rekognition Video は「犬」に対して 2000ms と 4000ms の 2 つのラベルエントリを返します。 
  • ラベルの結果がビデオセグメントで整理されている場合、Amazon Rekognition Video は、複数の連続したフレームでラベルが検出された場合のビデオセグメントを返します。動画セグメントは、開始タイムスタンプ、終了タイムスタンプ、および継続時間で定義されます。例えば、2000ms と 4000ms の 2 つのフレームで「犬」が検出された場合、Amazon Rekognition Video は、開始タイムスタンプ 2000ms、終了タイムスタンプ 4000ms、継続時間 2000ms の「犬」のラベルエントリを1つ返します。 

タイムスタンプとセグメントについての詳細と API 応答のサンプルは、動画内のラベルを検出するをご覧ください。

Q: Amazon Rekognition Video ではビデオの分析ジョブを最大いくつまで同時実行できますか?
Amazon Rekognition Video は最大 20 までの同時ジョブを処理できます。制限の詳細については、「Amazon Rekognition における制限」のページを参照してください。

Q: 対応しているビデオ解像度を教えてください。
Amazon Rekognition Video は、幅広いビデオ解像度およびビデオ品質に自動的に対応します。推奨の解像度は 720p (1280×720 ピクセル) から 1080p (1920x1080 ピクセル) までです。他のアスペクト比における同等の解像度でも最適な結果が得られます。解像度が低すぎる場合 (QVGA または 240p) や低画質な動画の場合は、結果の質にマイナスの影響が出る可能性があります。

Q: 人物の動線の検出とは何ですか?
Rekognition Video では、人物の動線をビデオのタイムラインで確認することができます。Rekognition Video はカメラが動いている最中でも人物を検出し、それぞれの人物の境界ボックスと顔を、顔の属性およびタイムスタンプ付きで返します。小売業向けのアプリケーションの場合、ショッピングモール内での顧客の動線やレジでの待ち時間など、顧客に関するさまざまな洞察を得ることを可能にします。

Amazon Rekognition Video を使用したメディア分析

Q: Amazon Rekognition Video はどのようなメディア分析セグメントを検出できますか?

Amazon Rekognition Video は、メディア分析のために以下のタイプのセグメントやエンティティを検出することができます。

  • ブラックフレーム: ビデオには、広告を挿入する合図として、あるいはシーンやオープニングタイトルなどのセグメントの終了時点を区切るために、無音の黒い画面 (ブラックフレーム) が短時間挿入されることがあります。Amazon Rekognition Video は、こうしたブラックフレームのシーケンスを検出して、広告挿入を自動化したり、VOD のコンテンツをパッケージ化したり、プログラム内のセグメントやシーンを区切ったりすることができます。音声付きのブラックフレーム (フェードアウトやナレーション付きなど) はコンテンツとみなされて、検出されません。
  • クレジット: Amazon Rekognition Video は、映画やテレビ番組のオープニングクレジットおよびエンドクレジットの開始時点と終了時点のフレームを、自動で、正確に特定することができます。この情報を使って、VOD アプリケーションで「ビンジマーカー」や「次のエピソード」や「イントロをスキップ」などのインタラクティブなビューワープロンプトを生成することができます。Amazon Rekognition Video は、単純なエンドタイトルロールから、コンテンツを含んだより複雑なクレジット、シーンに沿ったクレジット、アニメコンテンツのスタイル化されたクレジットまで、幅広いスタイルのオープニングやエンドクレジットに対応できるようにトレーニングされています。
  • ショット: ショットとは、1 台のカメラで継続的に撮影された、相互に関係する連続写真の集合のことで、同じ時間および空間内で行われた連続する動きを表現したものです。Amazon Rekognition Video を使うと、各ショットの開始、終了、およびその間の流れを検出できるだけでなく、コンテンツ内のすべてのショットを把握することができます。ショットのメタデータは、抽出したショットを使ってプロモーションビデオを作成したり、ショット間の移行コンテンツを避けてプレビューのサムネイルを作成したり、視聴者の視聴体験を邪魔するような場所 (会話の最中のショットなど) を避けて広告を挿入したりするアプリケーションに使用できます。
  • カラーバー: Amazon Rekognition Video を使用すれば、SMPTE または EBU のカラーバーが表示されているセクションを検出できます。カラーバーとは、色が正確に調整されているかを放送用モニター、プログラム、カメラなどで確認するために、特定のパターンで表示される色のセットのことです。SMPTE カラーバーの詳細については、SMPTE カラーバーを参照してください。カラーバーのメタデータは、コンテンツからカラーバーのセグメントを削除するなど、VOD のアプリケーション向けにコンテンツを準備する際に便利です。あるいは、カラーバーがデフォルトの信号としてコンテンツの代わりに継続表示される場合、録画中に放送信号が紛失するといった問題を検出する際にも有用です。
  • スレート: スレートとは、通常、ビデオの冒頭にあるセクションで、エピソード、スタジオ、ビデオフォーマット、オーディオチャンネルなどに関するテキストのメタデータを含みます。Amazon Rekognition は、このようなスレートの開始と終了を識別することができるため、オペレーターは、テキストメタデータを使用したり、最終的な視聴のためにコンテンツを準備する際にスレートを単純に削除したりすることが容易になります。
  • スタジオロゴ: スタジオロゴとは、番組制作に関わる制作スタジオのロゴやエンブレムを表示するシーケンスです。Amazon Rekognition はこのようなシーケンスを識別することができるため、オペレーターはスタジオを識別するため、それらを簡単に確認することができます。
  • コンテンツ: コンテンツとは、テレビ番組や映画の中で、番組やそれに関連する要素を含む部分を指します。ブラックフレーム、クレジット、カラーバー、スレート、スタジオロゴなどはコンテンツとはみなされません。Amazon Rekognition Video では、ビデオ内の各コンテンツセグメントの開始と終了を検出することができるため、番組の実行時間を調べたり、特定の目的のために特定のセグメントを見つけたりするなど、複数の用途に使用することができます。例えば、ビデオの冒頭で前回のエピソードを簡単に振り返ることは、コンテンツの一種です。同様に、クレジットが終わった後に、ボーナスのポストクレジットコンテンツが登場することもあります。また、ビデオの最後に「テキストレス」コンテンツがある場合もあり、これはオーバーレイされたテキストを含むすべての番組コンテンツのセットですが、別の言語での国際化を可能にするためそのテキストを削除したものです。Amazon Rekognition Video ですべてのコンテンツセグメントが検出されたら、「私のビデオはいつも振り返りから始まる」といった特定のドメインナレッジを適用して、各セグメントをさらに分類したり、それらを人によるレビューに送ったりすることができます。

Amazon Rekognition Video は、検出された各エンティティの開始、終了、継続時間、タイムコードを提供し、それぞれにタイムスタンプ (ミリ秒)、SMPTE フォーマットコード、フレーム番号のオプションを提供します。

Q: どうすれば Amazon Rekognition Video を使用したメディア分析を利用できますか?

メディア分析機能は、Amazon Rekognition Video のセグメント検出 API から利用できます。これは、分析を開始する StartSegmentDetection と分析結果を取得する GetSegmentDetection の 2 つのオペレーションから成る非同期 API です。詳細については、こちらのドキュメントを参照してください。

メディア分析の結果を視覚化したい方、あるいはご自分のビデオで Amazon Transcribe など他の Amazon AI サービスを試してみたい方は、Media Insights アプリケーションをご使用ください。これは、インサイトを簡単に生成し、AWS Machine Learning および Media サービスを使ってビデオ、音声、テキスト、画像リソース用のアプリケーションを開発できる、サーバーレスのフレームワークとデモアプリケーションです。付属の AWS CloudFormation テンプレートを使用して、独自のデモアプリケーションを簡単に立ち上げることができ、独自のビデオを試したり、分析結果を視覚化することができます。

Q: フレーム精度タイムコードとは何ですか?

フレーム精度タイムコードとは、ビデオまたは物体に関連するセグメントの厳密なフレーム番号のことです。メディア会社は通常、SMPTE (映画テレビ技術者協会) 形式 (時: 分: 秒: タイムフレーム番号、例: 00:24:53:22) を使ってタイムコードを処理します。

Q: Amazon Rekognition Video のセグメント検出フレームは正確ですか?

正確です。Amazon Rekognition Video のセグメント検出 API は、フレームごとの正確な SMPTE タイムコードと、各検出の開始および終了時点のミリ秒表示のタイムスタンプを表示します。

Q: Amazon Rekognition Video セグメント検出は、どのフレームレート形式に対応していますか?

Amazon Rekognition Video セグメント検出は、15~60fps のフレームレートで整数、分数、ドロップフレームの各標準に自動で対応します。たとえば、セグメント検出は、23.976 fps、25fps、29.97 fps、30fps といった一般的なフレームレートに対応しています。フレームレートの情報は、各ケースのフレーム精度タイムコードを表示する際に使用します。

Q: どのようなフィルタリングオプションを適用できますか?

API リクエストの際に、セグメントタイプごとに信頼度の最小値を指定することができます。例えば、信頼スコアが 70% 以下のセグメントを除外することができます。また、ブラックフレームの検出では、ブラックピクセルとみなす最大ピクセルの輝度を制御することができます。例えば、0〜255 の色範囲で 40 という値を設定できます。さらに、フレームをブラックフレームに分類するために、フレーム内のピクセルのうちどれだけの割合がこの黒ピクセルの輝度基準を満たす必要があるか、制御することもできます。例えば 99% に設定できます。これらのフィルターにより、ブラックフレームを検出する際に、ビデオの品質やフォーマットの違いを考慮することができます。例えば、テープアーカイブから再生されたビデオはノイズが多く、最新のデジタルビデオとは異なるブラックレベルを持っているかもしれません。詳細については、このページを参照してください。

請求

Q: Amazon Rekognition では、処理された画像の数はどのように計算されますか?

入力として画像を受け取る API において、Amazon Rekognition では実際に分析された画像の数を処理された画像の数として計算します。DetectLabels、DetectModerationLabels、DetectFaces、IndexFaces、RecognizeCelebrities、SearchFaceByImage、および Image Properties がこのカテゴリに属します。入力として 2 つの画像が渡される CompareFaces API においては、ソース画像のみが処理される画像の単位として計算されます。

入力パラメータとして画像を必要としない API コールにおいては、Amazon Rekognition では各 API コールに対して画像が 1 つ処理されたと計算します。SearchFaces はこの分類に属しています。

その他の Amazon Rekognition API (ListFaces、DeleteFaces、CreateCollection、DeleteCollection、および ListCollections) では、処理される画像として計算されません。

Q: Amazon Rekognition では、処理されたビデオの経過時間はどのように計算されますか?

アーカイブされたビデオの場合、Amazon Rekognition は、API によって正常に処理されたビデオの経過時間 (分) をカウントし、請求対象としてそれらを計測します。ライブストリームビデオの場合、処理が正常に完了したビデオが 5 秒ごとのチャンクで課金されます。

Q: Amazon Rekognition で課金の対象となる API はどれですか?

Amazon Rekognition Image では DetectLabels、DetectModerationLabels、DetectText、DetectFaces、IndexFaces、RecognizeCelebrities、SearchFaceByImage、CompareFaces、SearchFaces、および Image Properties の各 API が課金対象です。Amazon Rekognition Video の料金は、StartLabelDetection、StartFaceDetection、StartFaceDetection、StartTextDetection、StartContentModeration、StartPersonTracking、StartCelebrityRecognition、StartFaceSearch、および StartStreamProcessor API で正常に処理された動画の長さ (分) に基づいて課金されます。

Q: Amazon Rekognition のコストはどれくらいですか?

最新の料金情報については、Amazon Rekognition の料金ページを参照してください。

Q: 顔コレクションに保存した特徴ベクトルに対して課金されますか?

はい。Amazon Rekognition では、顔ベクトル 1,000 個につき、1 か月あたり 0.01 USD 課金されます。詳細については、料金ページを参照してください。

Q: Amazon Rekognition は AWS の無料利用枠で利用できますか?

はい。AWS 無料利用枠の一環として、Amazon Rekognition を無料で使用開始できます。サインアップすると、Amazon Rekognition を初めて使用するお客様は、最初の 12 か月間、毎月最大 5,000 の画像を無料で分析できます。この無料利用枠では、Image Properties を除くすべての Amazon Rekognition API を利用できるほか、最大 1,000 の顔を無料で保存できます。さらに、Amazon Rekognition Video のお客様は、最初の 1 年間は 1 か月間に 1,000 分、ビデオを無料で分析することができます。

Q: 料金は税込み価格ですか?

税金の詳細については、アマゾン ウェブ サービス税務ヘルプを参照してください。

AWS との統合

Q: Amazon Rekognition Video は、Amazon S3 に保存された画像を処理できますか?

はい。S3 バケットに対して Amazon Rekognition API を指定するだけで、Amazon S3 に保存された画像の分析を開始できます。データを移動する必要はありません。Amazon Rekognition の API コールで S3 オブジェクトを使用する方法の詳細については、ラベル検出の演習を参照してください。

Q: 別のリージョンの Amazon S3 バケットに保存されている画像で Amazon Rekognition を使用することはできますか?

いいえ。Amazon Rekognition API エンドポイントと同じリージョンにある Amazon S3 バケットを使用してください。

Q: Amazon Rekognition を使用して複数の画像ファイルをバッチ処理するにはどうすればよいですか?

GitHub にある Amazon Rekognition のバッチ処理の例で説明されているステップに従えば、Amazon S3 画像を一括で処理することができます。

Q: どのように AWS Lambda を Amazon Rekognition と連携させて使用できますか?

Amazon Rekognition では AWS Lambda にシームレスにアクセスできます。Amazon S3 や Amazon DynamoDB など AWS データストアに対してトリガーに基づく画像分析が可能になります。Amazon Rekognition と AWS Lambda を連携させるには、こちらで説明されているステップを実行し、Amazon Rekognition の設計図を選択してください。

Q: Amazon Rekognition は AWS CloudTrail と連携していますか?

はい。Amazon Rekognition では、CreateCollection、DeleteCollection、CreateStreamProcessor、DeleteStreamProcessor、DescribeStreamProcessor、ListStreamProcessors、ListCollections のアクションをイベントとして CloudTrail ログファイルに記録できます。AWS CloudTrail と統合されている Amazon Rekognition の API コールの詳細については、AWS CloudTrail を使用した Amazon Rekonition API コールのログ記録を参照してください。

データプライバシー

Q: Amazon Rekognition で処理された画像とビデオの入力は保存されていますか? それらは AWS でどのように使用されていますか?

Amazon Rekognition は、下記のようにオプトアウトしない限り、サービスの提供と保守、Amazon Rekognition や他の Amazon 機械学習/人工知能技術の品質の向上のためにのみ、サービスによって処理された画像とビデオの入力を保存して使用することができます。関連する技術の開発やトレーニングを含め、Amazon Rekognition のお客様体験を継続的に改善するには、コンテンツの使用が重要です。AWS では、お客様のコンテンツに含まれる個人情報を使用して、お客様やお客様のエンドユーザーを製品、サービス、またはマーケティングのターゲットにすることはありません。AWS の最優先事項は、お客様からの信頼、プライバシー、およびお客様のコンテンツのセキュリティです。また、AWS では、転送中や保管時の暗号化など、お客様のコンテンツへの不正アクセスやお客様のコンテンツの公開を防ぐように設計された、高度で信頼できる技術的および物理的な規制を行っています。さらに、AWS がデータを使用する場合はお客様との契約を確実に遵守します。詳細については、https://aws.amazon.com/compliance/data-privacy-faq/ をご参照ください。AWS Organizations オプトアウトポリシーを使用して、Amazon Rekognition や他の Amazon 機械学習/人工知能技術の品質の向上を目的としてお客様の画像やビデオの入力が保存されることがないようにオプトアウトすることができます。オプトアウトする方法の詳細については、「AI サービスのオプトアウトポリシーの管理」をご参照ください。

Q: Amazon Rekognition に保存されている画像とビデオの入力を削除できますか?

はい。お客様のアカウントに関連する画像およびビデオの入力の削除リクエストについては、AWS サポートにお問い合わせください。画像とビデオの入力を削除すると、Amazon Rekognition エクスペリエンスの質が低下する可能性があります。

Q: Amazon Rekognition で処理され、保存されているコンテンツにアクセスできるのは誰ですか?

許可された従業員だけが Amazon Rekognition によって処理されるコンテンツにアクセスできます。AWS の最優先事項は、お客様からの信頼、プライバシー、およびお客様のコンテンツのセキュリティです。また、AWS では、転送中や保管時の暗号化など、お客様のコンテンツへの不正アクセスやお客様のコンテンツの公開を防ぐように設計された、高度で信頼できる技術的および物理的な規制を行っています。さらに、AWS がデータを使用する場合はお客様との契約を確実に遵守します。詳細については、https://aws.amazon.com/compliance/data-privacy-faq/ をご参照ください。

Q: Amazon Rekognition で処理され、保存されているコンテンツは、誰の所有物になりますか?

お客様は常に自分のコンテンツの所有権を保持します。当社は、お客様のコンテンツをお客様の同意なく使用することはありません。

Q: Amazon Rekognition で処理されたコンテンツは、Amazon Rekognition を使用している AWS リージョン外に移動していますか?

Amazon Rekognition で処理されたすべてのコンテンツは暗号化され、お客様が Amazon Rekognition を使用している AWS リージョンから移動されずに保管されます。下記のようにオプトアウトしない限りにおいて、Amazon Rekognition で処理されたコンテンツの一部は、Amazon Rekognition のカスタマーエクスペリエンスやその他の Amazon 機械学習/人工知能技術の継続的な改善と開発に関連する場合のみ、別の AWS リージョンに保存されることがあります。お客様のアカウントに関連する画像およびビデオの入力の削除リクエストについては、AWS サポートにお問い合わせください。AWS の最優先事項は、お客様からの信頼、プライバシー、およびお客様のコンテンツのセキュリティです。また、AWS では、転送中や保管時の暗号化など、お客様のコンテンツへの不正アクセスやお客様のコンテンツの公開を防ぐように設計された、高度で信頼できる技術的および物理的な規制を行っています。さらに、AWS がデータを使用する場合はお客様との契約を確実に遵守します。詳細については、https://aws.amazon.com/compliance/data-privacy-faq/ をご参照ください。Amazon Rekognition や他の Amazon の機械学習/人工知能技術の品質を向上および開発するためのコンテンツの使用をオプトアウトした場合、他の AWS リージョンにお客様のコンテンツが保存されることはありません。オプトアウトする方法の詳細については、「AI サービスのオプトアウトポリシーの管理」をご参照ください。

Q: 13 歳未満のお子様を対象としていて、児童オンラインプライバシー保護法 (COPPA) を遵守する必要があるウェブサイト、プログラム、その他のアプリケーションに関連して Amazon Rekognition を使用することはできますか?

はい。必要な注意喚起および COPPA に基づく証明可能な親の同意を取得する義務を含む Amazon Rekognition サービス条件の順守を前提として、13 歳未満のお子様を対象としたウェブサイト、プログラム、またはその他のアプリケーション全体または一部に関連して Amazon Rekognition を使用することができます。

Q: 自分のウェブサイト、プログラム、またはアプリケーションが COPPA の対象かどうかを知るにはどうすればよいですか?

COPPA の要件についての情報、およびお客様のウェブサイト、プログラム、その他のアプリケーションが COPPA の対象かどうかを確認するためのガイダンスについては、米連邦取引委員会が提供および管理するリソースを直接参照してください。 このサイトには、サービスの全体または一部が 13 歳未満の子どもを対象としているかどうかを確認する方法に関する情報も記載されています。

Q: Amazon Rekognition は、HIPAA 対応サービスですか?

Amazon Rekognition は HIPAA 対応サービスで、AWS Business Associate Addendum (AWS BAA) でカバーされています。お客様が AWS BAA を結んでいる場合、Amazon Rekognition では、AWS BAA の条項で許可されている場合にのみ、お客様の保護医療情報 (PHI) を使用、開示、および管理します。

アクセスコントロール

Q: Amazon Rekognition のユーザーアクセスはどのように管理すればよいですか?

Amazon Rekognition は AWS Identity and Access Management (IAM) に統合されています。 AWS IAM のポリシーを使用して、許可されたユーザーのみが Amazon Rekognition API にアクセスするようにできます。詳細については、Amazon Rekognition の認証とアクセスコントロールのページを参照してください。

不正使用の報告

Q: Amazon Rekognition の不正使用の疑いを報告するにはどうすればよいですか?

Amazon Rekognition が不正あるいは違法に、またはあなたあるいは他の人の権利を侵害して使用されている疑いがある場合は、AWS にご報告ください。当社が問題を調査します

Amazon Rekognition 料金の詳細

料金ページを見る
構築を始めましょう。
AWS Rekognition の開始方法
ご不明な点がおありですか?
お問い合わせ