Memorizzazione nella cache di prompt di Amazon Bedrock

Panoramica

Molti casi d'uso di modelli di fondazione (FM) riutilizzeranno alcune parti dei prompt (prefissi) nelle chiamate API. Con la memorizzazione nella cache dei prompt, i modelli supportati consentono di memorizzare nella cache questi prefissi di prompt ripetuti tra le richieste. Questa cache consente al modello di ignorare il ricalcolo dei prefissi corrispondenti. Di conseguenza, la memorizzazione dei prompt nella cache in Amazon Bedrock può ridurre i costi anche del 90% e la latenza anche dell'85% per i modelli supportati.

Migliora le prestazioni per molteplici casi d'uso

Molte applicazioni richiedono o traggono vantaggio da prompt lunghi, come domande e risposte su documenti, assistenti di codice, ricerca di agenti o chat di lunga durata. Anche con i modelli di base più intelligenti, spesso è necessario utilizzare prompt estesi con istruzioni dettagliate con esempi con più riprese per ottenere i risultati giusti per il proprio caso d'uso. Tuttavia, i prompt lunghi, riutilizzati nelle chiamate API, possono comportare un aumento della latenza media. Con la memorizzazione nella cache dei prompt, non è necessario ricalcolare lo stato del modello interno se il prefisso del prompt è già memorizzato nella cache. Ciò consente di risparmiare tempo di elaborazione, con conseguente minore latenza di risposta.

Schermata dell'interfaccia utente

Riduci i costi associati a prompt lunghi e ripetuti

Con la memorizzazione nella cache dei prompt, puoi archiviare in cache le parti rilevanti del tuo prompt per risparmiare sui costi dei token di input. La cache è specifica per il tuo account e comprende lo stato del modello interno che rappresenta i tuoi suggerimenti. Poiché il modello può ignorare il ricalcolo per i prefissi memorizzati nella cache, le risorse di calcolo necessarie per elaborare le richieste diminuiscono. Di conseguenza, i costi sono ridotti.

Integrazione perfetta con altre funzionalità di Amazon Bedrock

La memorizzazione nella cache dei prompt si integra con le funzionalità di Amazon Bedrock come gli agenti, consentendoti di accelerare le attività in più fasi e persino di sfruttare i prompt di sistema più lunghi per contribuire a perfezionare il comportamento degli agenti senza rallentare le risposte.