Evaluasi Amazon Bedrock

Evaluasi model fondasi, termasuk model kustom dan impor, untuk menemukan model yang sesuai dengan kebutuhan Anda. Anda juga dapat mengevaluasi pengambilan atau alur kerja RAG menyeluruh di Basis Pengetahuan Amazon Bedrock.

Ikhtisar

Amazon Bedrock menyediakan alat evaluasi bagi Anda untuk mempercepat adaptasi aplikasi AI generatif. Evaluasi, bandingkan, dan pilih model fondasi untuk kasus penggunaan Anda dengan Evaluasi Model. Siapkan aplikasi RAG Anda yang dibangun di Basis Pengetahuan Amazon Bedrock untuk produksi dengan mengevaluasi fungsi ambil atau fungsi ambil dan hasilkan.

Tipe evaluasi

Model: LLM-as-a-Judge

Gunakan LLM as a Judge untuk mengevaluasi output model menggunakan set data prompt kustom Anda dengan metrik, seperti ketepatan, kelengkapan, dan tingkat bahaya.

Model: Terprogram

Evaluasi output model menggunakan algoritma dan metrik bahasa alami tradisional, seperti Skor BERT, F1, dan teknik pencocokan tepat lainnya, menggunakan set data prompt bawaan atau yang Anda bawa sendiri.

Model: Berbasis manusia

Evaluasi output model dengan tenaga kerja Anda sendiri atau minta AWS mengelola evaluasi Anda tentang respons terhadap set data prompt kustom Anda dengan metrik bawaan atau kustom.

Basis Pengetahuan: Pengambilan RAG

Evaluasi kualitas pengambilan Basis Pengetahuan Amazon Bedrock Anda dengan prompt dan metrik kustom Anda, seperti relevansi konteks dan cakupan konteks.

Basis Pengetahuan: RAG Ambil & Hasilkan

Evaluasi konten yang dihasilkan dari alur kerja RAG menyeluruh Anda dengan Basis Pengetahuan Amazon Bedrock dari prompt dan metrik kustom Anda, seperti kejujuran, ketepatan, dan kelengkapan.

Evaluasi alur kerja RAG menyeluruh di Basis Pengetahuan Amazon Bedrock

Gunakan fungsi evaluasi ambil dan buat untuk mengevaluasi kemampuan retrieval-augmented generation (RAG) menyeluruh di aplikasi Anda. Pastikan konten yang dihasilkan benar, lengkap, membatasi halusinasi, dan mematuhi prinsip-prinsip AI yang bertanggung jawab. Pilih model pembuat konten dan LLM untuk digunakan sebagai penilai dengan Basis Pengetahuan Amazon Bedrock, unggah set data prompt kustom Anda, dan pilih metrik yang paling penting untuk evaluasi Anda.

Pastikan pengambilan yang lengkap dan relevan dari Basis Pengetahuan Amazon Bedrock

Gunakan fungsi evaluasi ambil di evaluasi Basis Pengetahuan Amazon Bedrock untuk mengevaluasi pengaturan penyimpanan dan pengambilan Basis Pengetahuan Amazon Bedrock Anda. Pastikan konten yang diambil relevan dan mencakup seluruh permintaan pengguna. Pilih Basis Pengetahuan dan LLM untuk digunakan sebagai penilai, unggah set data prompt kustom Anda, dan pilih metrik yang paling penting untuk evaluasi Anda.

Evaluasi FM untuk memilih yang terbaik untuk kasus penggunaan Anda

Evaluasi Model Amazon Bedrock memungkinkan Anda menggunakan evaluasi otomatis dan evaluasi manusia dalam memilih FM untuk kasus penggunaan tertentu. Evaluasi model otomatis (Terprogram) menggunakan set data terkurasi dan khusus serta menyediakan metrik yang telah ditentukan sebelumnya termasuk akurasi, ketahanan, dan toksisitas. Untuk metrik subjektif, Anda dapat menggunakan Amazon Bedrock untuk menyiapkan alur kerja evaluasi manusia dalam beberapa langkah cepat. Dengan evaluasi manusia, Anda dapat membawa set data Anda sendiri dan menentukan metrik kustom, seperti relevansi, gaya, dan keselarasan dengan suara merek. Alur kerja evaluasi manusia dapat menggunakan karyawan Anda sendiri sebagai peninjau atau Anda dapat melibatkan tim yang dikelola oleh AWS untuk melakukan evaluasi manusia, tempat AWS mempekerjakan evaluator terampil dan mengelola seluruh alur kerja atas nama Anda. Anda juga dapat menggunakan metode LLM-as-a-Judge untuk memberikan evaluasi berkualitas tinggi pada set data Anda dengan metrik seperti ketepatan, kelengkapan, kejujuran (halusinasi), serta metrik AI yang bertanggung jawab seperti penolakan jawaban dan deteksi bahaya.

Bandingkan hasil di beberapa tugas evaluasi untuk membuat keputusan lebih cepat

Gunakan fitur perbandingan dalam evaluasi untuk melihat hasil dari setiap perubahan yang Anda buat pada prompt Anda, model yang dievaluasi, atau Basis Pengetahuan di sistem RAG Anda.