Amazon Bedrock の評価

カスタムモデルやインポートされたモデルなどの基盤モデルを評価して、ニーズに合ったモデルを見つけることができます。また、Amazon Bedrock のナレッジベースで、検索またはエンドツーエンドの RAG ワークフローを評価することもできます。

概要

Amazon Bedrock には、生成 AI アプリケーションの導入を促進するための評価ツールが用意されています。モデル評価により、ユースケースの基盤モデルを評価、比較、選択できます。検索機能、または検索と生成の機能を評価して、Amazon Bedrock のナレッジベースをベースとする RAG アプリケーションを本番環境で使用できるように準備することが可能です。

UI のスクリーンショット

評価のタイプ

LLM-as-a-Judge 使用して、正確性、完全性、有害性などのメトリクスを含むカスタムプロンプトデータセットでモデル出力を評価します。

BERT Score、F1、その他の完全一致手法などの従来の自然言語アルゴリズムやメトリクスを使用して、組み込みのプロンプトデータセットか独自のデータセットでモデル出力を評価します。

自社のワークフォースとともにモデルの出力を評価するか、組み込みのメトリクスかカスタムメトリクスを使用したカスタムプロンプトデータセットに対する応答の評価を AWS に管理させます。

カスタムプロンプトやコンテキストの関連性、コンテキストカバレッジなどのメトリクスを使用して、Amazon Bedrock のナレッジベースの検索品質を評価します。

Amazon Bedrock のナレッジベースを使用して、カスタムプロンプトや信頼性、正確性、完全性などのメトリクスからエンドツーエンドの RAG ワークフローで生成されたコンテンツを評価します。

Amazon Bedrock のナレッジベースでエンドツーエンドの RAG ワークフローを評価

取得評価と生成評価を使用して、アプリケーションのエンドツーエンド検索拡張生成 (RAG) 機能を評価しましょう。生成されたコンテンツが正しく完全であり、ハルシネーションを抑えて責任ある AI の原則に従っていることを確認できます。Amazon Bedrock のナレッジベースで判断に使用するコンテンツ生成モデルと LLM を選択してカスタムプロンプトデータセットをアップロードし、評価において最も重要なメトリクスを選択するだけです。

UI のスクリーンショット

Amazon Bedrock のナレッジベースから関連する情報をすべて取得できるようにする

Amazon Bedrock のナレッジベースの評価に含まれる取得評価を使用して、Amazon Bedrock のナレッジベースのストレージと取得の設定を評価しましょう。取得したコンテンツに関連性があり、そのコンテンツがユーザークエリ全体をカバーしていることを確認できます。判断に使用するナレッジベースと LLM を選択してカスタムプロンプトデータセットをアップロードし、評価において最も重要なメトリクスを選択するだけです。

UI のスクリーンショット

FM を評価して、ユースケースに最適なものを選択

Amazon Bedrock のモデル評価では、自動評価と人間による評価を使用して、特定のユースケースに合う FM を選択できます。自動 (プログラムによる) モデル評価では、厳選されたデータセットとカスタムデータセットを使用し、精度、堅牢性、毒性などの事前定義されたメトリクスを提供します。主観的なメトリクスの場合は、Amazon Bedrock を利用して、簡単ないくつかのステップを実行するだけで、人間による評価ワークフローを設定できます。人間による評価では、独自のデータセットを持ち込んで、関連性、スタイル、ブランドボイスとの整合性などのカスタム指標を定義できます。人間による評価ワークフローでは、自社の従業員をレビュー担当者としたり、AWS によって管理されるチームをエンゲージしたりして、人間による評価を行うことができます。この場合、AWS は熟練した評価者を関与させ、お客様に代わって完全なワークフローを管理します。また、LLM-as-a-Judge を使用すると、正確性、完全性、忠実性 (ハルシネーション) などのメトリクス、さらには回答拒否や有害性などの責任ある AI のメトリクスを使用して、データセットの質の高い評価を行えます。

UI のスクリーンショット

複数の評価ジョブの結果を比較してすばやく意思決定を行う

評価で比較機能を使用することにより、プロンプト、評価中のモデル、または RAG システムのナレッジベースに加えた変更の結果を確認できます。

UI のスクリーンショット