Caching prompt Amazon Bedrock
Ikhtisar
Banyak kasus penggunaan model fondasi (FM) akan menggunakan kembali bagian tertentu dari prompt (prefiks) di seluruh panggilan API. Dengan caching prompt, model yang didukung akan memungkinkan Anda untuk meng-cache prefiks prompt berulang ini di antara permintaan. Cache ini memungkinkan model melewati komputasi ulang prefiks yang cocok. Hasilnya, caching prompt di Amazon Bedrock dapat mengurangi biaya hingga 90% dan latensi hingga 85% untuk model yang didukung.
Tingkatkan performa untuk banyak kasus penggunaan
Banyak aplikasi memerlukan atau mendapat manfaat dari prompt panjang, seperti Tanya Jawab dokumen, asisten kode, pencarian agen, atau obrolan bentuk panjang. Bahkan dengan model fondasi yang paling cerdas, Anda sering kali perlu menggunakan prompt ekstensif dengan instruksi mendetail dengan contoh berisi banyak bidikan, guna mencapai hasil yang tepat untuk kasus penggunaan Anda. Namun, prompt panjang, yang digunakan kembali di seluruh panggilan API, dapat menyebabkan peningkatan latensi rata-rata. Dengan caching prompt, status model internal tidak perlu dikomputasi ulang jika prefiks prompt sudah di-cache. Hal ini menghemat waktu pemrosesan, sehingga menghasilkan latensi respons yang lebih rendah.
Kurangi biaya yang terkait dengan prompt yang panjang dan berulang
Dengan caching prompt, Anda dapat membuat cache bagian yang relevan dari prompt Anda untuk menghemat biaya token input. Cache bersifat khusus untuk akun Anda dan terdiri dari status model internal yang mewakili prompt. Karena model dapat melewati komputasi ulang untuk prefiks cache, sumber daya komputasi yang diperlukan untuk memproses permintaan Anda akan berkurang. Akibatnya, biaya Anda berkurang.
Integrasikan secara lancar dengan fitur Amazon Bedrock lainnya
Caching prompt terintegrasi dengan fitur Amazon Bedrock seperti Agen, sehingga Anda dapat mempercepat tugas multilangkah dan bahkan memanfaatkan prompt sistem yang lebih panjang untuk membantu memperbaiki perilaku agen tanpa memperlambat respons Anda.