Amazon Bedrock 提示快取
概觀
許多基礎模型 (FM) 使用案例會在 API 呼叫中重複使用某些部分提示 (前綴)。通過提示快取,支援的模型將可讓您在請求之間快取這些重複的提示前綴。此快取可讓模型跳過對應前綴的重新計算。因此,Amazon Bedrock 中的提示快取可將成本降低高達 90%,而支援模型的延遲最多可降低 85%。
改善多種使用案例的效能
許多應用程式都需要或受益於較長的提示,例如文件問答、程式碼助理、代理搜尋或長篇聊天。即使是最具智慧的基礎模型,您也經常需要使用廣泛的提示,包括詳細說明和多個範例,以達到適合您使用案例的正確結果。但是,在 API 呼叫中重複使用長提示可能會導致平均延遲增加。使用提示快取時,如果提示前綴已快取,則不需要重新計算內部模型狀態。這可節省處理時間,進而降低回應延遲。
減少與重複使用長提示相關的成本
透過提示快取,您可以快存提示的相關部分,以節省輸入權杖成本。您的快取是專屬於您的帳戶,並包含代表提示的內部模型狀態。由於模型可以跳過快取前綴的重新計算,處理要求所需的計算資源會減少。如此就能降低您的成本。
與其他 Amazon Bedrock 功能無縫整合
提示快取與 Amazon Bedrock 功能 (例如代理程式) 整合,可讓您加速多步驟工作,甚至利用較長的系統提示,協助改善代理程式行為,而不會減慢回應速度。