Armazenamento em cache de prompts do Amazon Bedrock

Visão geral

Muitos casos de uso do modelo de base (FM) reutilizarão certas partes dos prompts (prefixos) nas chamadas de API. Com o cache de prompts, os modelos compatíveis permitem que você armazene esses prefixos de prompt repetidos entre as solicitações. Esse cache permite que o modelo ignore a recomputação dos prefixos correspondentes. Consequentemente, o armazenamento em cache de prompts no Amazon Bedrock pode reduzir os custos em até 90% e a latência em até 85% nos modelos compatíveis.

Melhore o desempenho para vários casos de uso

Muitos aplicativos exigem ou se beneficiam de prompts longos, como perguntas e respostas de documentos, assistentes de código, pesquisa de atendentes ou bate-papo de formato longo. Mesmo com os modelos de base mais inteligentes, muitas vezes você precisa usar instruções extensas com instruções detalhadas com vários exemplos para obter os resultados certos para seu caso de uso. No entanto, prompts longos, reutilizados em chamadas de API, podem levar ao aumento da latência média. Com o cache de prompts, o estado interno do modelo não precisa ser recalculado se o prefixo do prompt já estiver armazenado em cache. Isso economiza tempo de processamento, resultando em menores latências de resposta.

Captura de tela da interface do usuário

Reduza o custo associado a prompts longos e repetidos

Com o cache de prompts, você pode armazenar em cache as partes relevantes do prompt para economizar nos custos do token de entrada. Seu cache é específico para sua conta e compreende o estado interno do modelo que representa seus prompts. Como o modelo pode ignorar a recomputação de prefixos em cache, os recursos computacionais necessários para processar suas solicitações diminuem. Como resultado, seus custos são reduzidos.

Integre-se perfeitamente com outros atributos do Amazon Bedrock

O cache imediato se integra aos recursos do Amazon Bedrock, como atendentes, permitindo que você acelere tarefas de várias etapas e até mesmo aproveite as solicitações mais longas do sistema para ajudar a refinar o comportamento dos agentes sem diminuir a velocidade de suas respostas.