Evaluasi Amazon Bedrock
Evaluasi model fondasi, termasuk model kustom dan impor, untuk menemukan model yang sesuai dengan kebutuhan Anda. Anda juga dapat mengevaluasi pengambilan atau alur kerja RAG menyeluruh di Basis Pengetahuan Amazon Bedrock.Ikhtisar
Amazon Bedrock menyediakan alat evaluasi bagi Anda untuk mempercepat adaptasi aplikasi AI generatif. Evaluasi, bandingkan, dan pilih model fondasi untuk kasus penggunaan Anda dengan Evaluasi Model. Siapkan aplikasi RAG Anda yang dibangun di Basis Pengetahuan Amazon Bedrock untuk produksi dengan mengevaluasi fungsi ambil atau fungsi ambil dan hasilkan.
Tipe evaluasi
Evaluasi alur kerja RAG menyeluruh di Basis Pengetahuan Amazon Bedrock
Gunakan fungsi evaluasi ambil dan buat untuk mengevaluasi kemampuan retrieval-augmented generation (RAG) menyeluruh di aplikasi Anda. Pastikan konten yang dihasilkan benar, lengkap, membatasi halusinasi, dan mematuhi prinsip-prinsip AI yang bertanggung jawab. Pilih model pembuat konten dan LLM untuk digunakan sebagai penilai dengan Basis Pengetahuan Amazon Bedrock, unggah set data prompt kustom Anda, dan pilih metrik yang paling penting untuk evaluasi Anda.
Pastikan pengambilan yang lengkap dan relevan dari Basis Pengetahuan Amazon Bedrock
Gunakan fungsi evaluasi ambil di evaluasi Basis Pengetahuan Amazon Bedrock untuk mengevaluasi pengaturan penyimpanan dan pengambilan Basis Pengetahuan Amazon Bedrock Anda. Pastikan konten yang diambil relevan dan mencakup seluruh permintaan pengguna. Pilih Basis Pengetahuan dan LLM untuk digunakan sebagai penilai, unggah set data prompt kustom Anda, dan pilih metrik yang paling penting untuk evaluasi Anda.
Evaluasi FM untuk memilih yang terbaik untuk kasus penggunaan Anda
Evaluasi Model Amazon Bedrock memungkinkan Anda menggunakan evaluasi otomatis dan evaluasi manusia dalam memilih FM untuk kasus penggunaan tertentu. Evaluasi model otomatis (Terprogram) menggunakan set data terkurasi dan khusus serta menyediakan metrik yang telah ditentukan sebelumnya termasuk akurasi, ketahanan, dan toksisitas. Untuk metrik subjektif, Anda dapat menggunakan Amazon Bedrock untuk menyiapkan alur kerja evaluasi manusia dalam beberapa langkah cepat. Dengan evaluasi manusia, Anda dapat membawa set data Anda sendiri dan menentukan metrik kustom, seperti relevansi, gaya, dan keselarasan dengan suara merek. Alur kerja evaluasi manusia dapat menggunakan karyawan Anda sendiri sebagai peninjau atau Anda dapat melibatkan tim yang dikelola oleh AWS untuk melakukan evaluasi manusia, tempat AWS mempekerjakan evaluator terampil dan mengelola seluruh alur kerja atas nama Anda. Anda juga dapat menggunakan metode LLM-as-a-Judge untuk memberikan evaluasi berkualitas tinggi pada set data Anda dengan metrik seperti ketepatan, kelengkapan, kejujuran (halusinasi), serta metrik AI yang bertanggung jawab seperti penolakan jawaban dan deteksi bahaya.
Bandingkan hasil di beberapa tugas evaluasi untuk membuat keputusan lebih cepat
Gunakan fitur perbandingan dalam evaluasi untuk melihat hasil dari setiap perubahan yang Anda buat pada prompt Anda, model yang dievaluasi, atau Basis Pengetahuan di sistem RAG Anda.