Amazon Bedrock 평가

사용자 지정 모델 및 가져온 모델을 비롯해서 파운데이션 모델을 평가하여 요구 사항에 맞는 모델을 찾을 수 있습니다. 또한 Amazon Bedrock Knowledge Bases에서 검색 또는 엔드 투 엔드 RAG 워크플로를 평가할 수 있습니다.

개요

Amazon Bedrock은 생성형 AI 애플리케이션의 도입을 가속화할 수 있는 평가 도구를 제공합니다. 모델 평가를 통해 사용 사례에 맞는 파운데이션 모델을 평가, 비교 및 선택할 수 있습니다. Amazon Bedrock Knowledge Bases에 구축된 RAG 애플리케이션을 프로덕션에 대비해 검색 또는 검색 및 생성 함수를 평가하여 준비하세요.

UI 스크린샷

평가 유형

LLM을 심사자로 사용하여 정확성, 완전성, 유해성과 같은 지표가 포함된 사용자 지정 프롬프트 데이터세트로 모델 출력을 평가할 수 있습니다.

기존의 자연어 알고리즘과 BERT Score, F1 등의 지표와 기타 정확한 매칭 기법을 사용하여 내장된 프롬프트 데이터세트를 사용하거나 직접 가져와 모델 출력을 평가합니다.

자체 인력과 함께 모델 출력을 평가하거나, 기본제공 또는 사용자 지정 지표를 사용하여 사용자 지정 프롬프트 데이터세트 관련 응답에 대한 평가를 AWS에서 관리하도록 할 수 있습니다.

컨텍스트 관련성 및 컨텍스트 범위와 같은 사용자 지정 프롬프트와 지표를 사용하여 Amazon Bedrock Knowledge Bases의 검색 품질을 평가할 수 있습니다.

충실도, 정확성, 완전성과 같은 사용자 지정 프롬프트 및 지표에서 Amazon Bedrock Knowledge Bases를 사용하여 엔드 투 엔드 RAG 워크플로의 생성된 콘텐츠를 평가할 수 있습니다.

Amazon Bedrock Knowledge Bases에서 엔드 투 엔드 RAG 워크플로 평가

검색 및 생성 평가를 사용하여 애플리케이션의 엔드 투 엔드 검색 증강 생성(RAG) 기능을 평가할 수 있습니다. 생성된 콘텐츠가 정확하고, 완전하며, 할루시네이션을 제한하고, 책임 있는 AI 원칙을 준수하는지 확인할 수 있습니다. Amazon Bedrock Knowledge Bases에서 심사자로 사용할 콘텐츠 생성 모델과 LLM을 선택하고, 사용자 지정 프롬프트 데이터세트를 업로드하고, 평가에 가장 중요한 지표를 선택하기만 하면 됩니다.

UI 스크린샷

Amazon Bedrock Knowledge Bases에서 완전하고 관련성 있는 검색 보장

Amazon Bedrock Knowledge Bases 평가에서 검색 평가를 사용하여 Amazon Bedrock Knowledge Bases의 스토리지 및 검색 설정을 평가할 수 있습니다. 검색된 콘텐츠가 관련성이 있고 전체 사용자 쿼리를 포괄하는지 확인할 수 있습니다. 심사자로 사용할 Knowledge Base과 LLM을 선택하고, 사용자 지정 프롬프트 데이터세트를 업로드한 후 평가에 가장 중요한 지표를 선택하기만 하면 됩니다.

UI 스크린샷

FM을 평가하여 사용 사례에 가장 적합한 FM 선택

Amazon Bedrock 모델 평가를 사용하면 자동 및 인적 평가를 사용하여 특정 사용 사례에 맞는 FM을 선택할 수 있습니다. 자동(프로그래밍 방식) 모델 평가는 큐레이팅 및 사용자 지정 데이터세트를 사용하며 정확성, 견고성, 유해성과 같은 사전 정의된 지표를 제공합니다. 주관적 지표의 경우 Amazon Bedrock을 사용하여 몇 가지 간단한 단계로 인적 평가 워크플로를 설정할 수 있습니다. 인적 평가를 사용할 때는 자체 데이터 세트를 가져와서 관련성, 스타일, 브랜드 표현 맞춤과 같은 사용자 지정 지표를 정의할 수 있습니다. 인적 평가 워크플로에서는 자체 직원을 검토자로 이용하거나 AWS에서 관리하는 팀을 고용하여 인적 평가를 수행할 수 있습니다. AWS에서 관리하는 팀을 고용하는 경우 AWS가 숙련된 평가자를 고용하고 사용자를 대신하여 전체 워크플로를 관리합니다. 또한 LLM-as-a-Judge를 사용하여 정확성, 완전성, 충실도(할루시네이션)와 같은 지표뿐만 아니라 답변 거부 및 유해성과 같은 책임 있는 AI 지표를 사용하여 데이터세트에 대한 고품질 평가를 제공할 수 있습니다.

UI 스크린샷

여러 평가 작업의 결과를 비교하여 더 빠르게 결정을 내릴 수 있습니다.

평가에서 비교 기능을 사용하여 프롬프트, 평가 대상 모델 또는 RAG 시스템의 기술 자료에 대한 변경 사항의 결과를 확인할 수 있습니다.

UI 스크린샷