Avaliações do Amazon Bedrock

Avalie modelos de base, incluindo modelos personalizados e importados, para encontrar modelos que atendam às suas necessidades. Você também pode avaliar seu fluxo de trabalho de recuperação ou RAG de ponta a ponta no Amazon Bedrock Knowledge Bases.

Visão geral

O Amazon Bedrock fornece ferramentas de avaliação para acelerar a adoção de aplicações de IA generativa. Avalie, compare e selecione o modelo de base para seu caso de uso com a avaliação de modelo. Prepare suas aplicações RAG criadas nas Bases de Conhecimento para Amazon Bedrock para produção avaliando as funções de recuperação ou de recuperação e geração.

Captura de tela da interface do usuário

Tipos de avaliação

Use um LLM como determinante para avaliar resultados de modelos com base nos seus conjuntos de dados de prompt personalizados, utilizando métricas como exatidão, integridade e nocividade.

Avalie as saídas do modelo usando algoritmos e métricas tradicionais de linguagem natural, como BERT Score, F1 e outras técnicas de correspondência exata, com o auxílio de conjuntos de dados de prompt integrados, ou traga seus próprios métodos.

Avalie resultados de modelos com sua própria força de trabalho ou faça com que a AWS gerencie suas avaliações nas respostas aos conjuntos de dados de prompts personalizados com métricas integradas ou personalizadas.

Avalie a qualidade da recuperação das suas Bases de Conhecimento para Amazon Bedrock com prompts e métricas personalizadas, como relevância e cobertura do contexto.

Avalie o conteúdo gerado do seu fluxo de trabalho de RAG completo com as Bases de Conhecimento para Amazon Bedrock usando prompts e métricas personalizadas, como fidelidade, exatidão e integridade.

Avalie o fluxo de trabalho de RAG completo nas Bases de Conhecimento para Amazon Bedrock

Use avaliações de recuperação e geração para avaliar a capacidade de geração aumentada via recuperação (RAG) completa da aplicação. Garanta que o conteúdo gerado esteja correto e completo e que limite as alucinações e siga os princípios de IA responsável. Basta selecionar um modelo de geração de conteúdo e um LLM para usar como juiz com as Bases de Conhecimento para Amazon Bedrock, fazer o upload do conjunto de dados de prompt personalizado e escolher as métricas mais importantes para a avaliação.

Captura de tela da interface do usuário

Garanta a recuperação completa e relevante das Bases de Conhecimento para Amazon Bedrock

Use avaliações de recuperação nas avaliações das Bases de Conhecimento para Amazon Bedrock e avalie as configurações de armazenamento e recuperação das Bases de Conhecimento para Amazon Bedrock. Certifique-se de que o conteúdo recuperado seja relevante e abranja toda a consulta do usuário. Basta selecionar uma Base de Conhecimento e um LLM para usar como juiz, carregar seu conjunto de dados de prompt personalizado e selecionar as métricas mais importantes para a avaliação.

Captura de tela da interface do usuário

Avalie FMs para selecionar o melhor para o seu caso de uso

A avaliação de modelo do Amazon Bedrock permite usar avaliações automáticas e humanas ao selecionar FMs para um caso de uso específico. A avaliação de modelo automática (programática) usa conjuntos de dados selecionados e personalizados, além de fornecer métricas predefinidas, incluindo precisão, robustez e toxicidade. Para métricas subjetivas, você pode usar o Amazon Bedrock para configurar um fluxo de trabalho de avaliação humana com algumas etapas rápidas. Com avaliações humanas, você pode trazer seus próprios conjuntos de dados e definir métricas personalizadas, como relevância, estilo e alinhamento com a voz da marca. Os fluxos de trabalho de avaliação humana podem usar seus próprios funcionários como revisores ou você pode contratar uma equipe gerenciada pela AWS para realizar a avaliação humana, em que a AWS designa avaliadores qualificados e gerencia o fluxo de trabalho completo por você. Você também pode usar um LLM como o determinante para fornecer avaliações de alta qualidade em seu conjunto de dados com métricas como correção, integridade, fidelidade (alucinação), bem como métricas de IA responsável, como recusa de resposta e nocividade.

Captura de tela da interface do usuário

Compare os resultados em vários trabalhos de avaliação para tomar decisões com mais rapidez

Use o recurso de comparação nas avaliações para ver os resultados de quaisquer alterações feitas em prompts, nos modelos que estão sendo avaliados ou nas Bases de Conhecimento do sistema RAG.

Captura de tela da interface do usuário