Mise en cache des invites Amazon Bedrock
Présentation
De nombreux cas d’utilisation du modèle de fondation (FM) réutiliseront certaines parties des invites (préfixes) entre des appels d’API. Grâce à la mise des invites, les modèles pris en charge vous permettent de mettre en cache ces préfixes d’invite répétés entre les demandes. Ce cache permet au modèle d’ignorer le recalcul des préfixes correspondants. Par conséquent, la mise en cache d’invites dans Amazon Bedrock peut réduire les coûts jusqu’à 90 % et la latence jusqu’à 85 % pour les modèles pris en charge.
Améliorez les performances pour de multiples cas d’utilisation
De nombreuses applications nécessitent ou bénéficient de longues invites, telles que les questions et réponses sur des documents, les assistants de code, la recherche agentique ou le chat détaillé. Même avec les modèles de fondation les plus intelligents, vous devez souvent utiliser des invites détaillées accompagnées d’instructions détaillées et d’exemples variés pour obtenir les résultats adaptés à votre cas d’utilisation. Cependant, de longues invites, réutilisées lors des appels d’API, peuvent entraîner une augmentation de la latence moyenne. Avec la mise en cache des invites, il n’est pas nécessaire de recalculer l’état interne du modèle si le préfixe de l’invite est déjà mis en cache. Cela permet de gagner du temps de traitement, ce qui réduit les latences de réponse.
Réduisez les coûts associés aux invites longues et répétées
Grâce à la mise en cache des invites, vous pouvez mettre en cache les parties pertinentes de votre invite afin de réduire les coûts liés aux jetons d’entrée. Votre cache est propre à votre compte et comprend l’état du modèle interne représentant vos invites. Étant donné que le modèle peut ignorer le recalcul pour les préfixes mis en cache, les ressources de calcul nécessaires au traitement de vos demandes diminuent. Par conséquent, vos coûts sont réduits.
Intégration fluide aux autres fonctionnalités d’Amazon Bedrock
La mise en cache d’invites s’intègre aux fonctionnalités d’Amazon Bedrock, comme Agents, ce qui vous permet d’accélérer les tâches en plusieurs étapes et même de tirer parti des invites système plus longues pour affiner le comportement des agents sans ralentir vos réponses.