Amazon Bedrock 프롬프트 캐싱

개요

많은 파운데이션 모델(FM) 사용 사례에서는 API 직접 호출 전반에서 프롬프트의 특정 부분(접두사)을 재사용합니다. 지원되는 모델에서는 프롬프트 캐싱을 통해 요청 간에 반복되는 프롬프트 접두사를 캐시할 수 있습니다. 이 캐시를 사용하면 모델이 일치하는 접두사의 재계산을 건너뛸 수 있습니다. 따라서 Amazon Bedrock의 프롬프트 캐싱은 지원되는 모델의 비용을 최대 90%, 지연 시간을 최대 85% 절감할 수 있습니다.

여러 사용 사례의 성능 개선

많은 애플리케이션은 문서 Q&A, 코드 도우미, 에이전트 검색 또는 긴 형식의 채팅과 같은 긴 프롬프트를 필요로 하거나 이를 활용하여 이점을 얻습니다. 가장 지능적인 파운데이션 모델을 사용하더라도 사용 사례에 적합한 결과를 얻으려면 다양한 예가 포함된 자세한 지침이 들어 있는 광범위한 프롬프트를 사용해야 하는 경우가 많습니다. 하지만 긴 프롬프트를 API 직접 호출에서 재사용하면 평균 지연 시간이 늘어날 수 있습니다. 프롬프트 캐싱을 사용하면 프롬프트 접두사가 이미 캐시되어 있는 경우 내부 모델 상태를 다시 계산할 필요가 없습니다. 이렇게 하면 처리 시간이 절약되어 응답 지연 시간이 줄어듭니다.

UI 스크린샷

길고 반복되는 프롬프트와 관련된 비용 절감

프롬프트 캐싱을 사용하면 프롬프트의 관련 부분을 캐시하여 입력 토큰 비용을 절약할 수 있습니다. 캐시는 계정별로 다르며 프롬프트를 나타내는 내부 모델 상태로 구성됩니다. 모델이 캐시된 접두사에 대한 재계산을 건너뛸 수 있기 때문에 요청을 처리하는 데 필요한 컴퓨팅 리소스가 줄어듭니다. 따라서 비용이 절감됩니다.

다른 Amazon Bedrock 기능과 원활하게 통합

프롬프트 캐싱은 Agents와 같은 Amazon Bedrock 기능과 통합되므로 다단계 작업을 가속화하고 더 긴 시스템 프롬프트를 활용하여 응답 속도를 늦추지 않고도 에이전트 동작을 조정할 수 있습니다.