Avaliações do Amazon Bedrock
Avalie modelos de base, incluindo modelos personalizados e importados, para encontrar modelos que atendam às suas necessidades. Você também pode avaliar seu fluxo de trabalho de recuperação ou RAG de ponta a ponta no Amazon Bedrock Knowledge Bases.Visão geral
O Amazon Bedrock fornece ferramentas de avaliação para acelerar a adoção de aplicações de IA generativa. Avalie, compare e selecione o modelo de base para seu caso de uso com a avaliação de modelo. Prepare suas aplicações RAG criadas nas Bases de Conhecimento para Amazon Bedrock para produção avaliando as funções de recuperação ou de recuperação e geração.
Tipos de avaliação
Avalie o fluxo de trabalho de RAG completo nas Bases de Conhecimento para Amazon Bedrock
Use avaliações de recuperação e geração para avaliar a capacidade de geração aumentada via recuperação (RAG) completa da aplicação. Garanta que o conteúdo gerado esteja correto e completo e que limite as alucinações e siga os princípios de IA responsável. Basta selecionar um modelo de geração de conteúdo e um LLM para usar como juiz com as Bases de Conhecimento para Amazon Bedrock, fazer o upload do conjunto de dados de prompt personalizado e escolher as métricas mais importantes para a avaliação.
Garanta a recuperação completa e relevante das Bases de Conhecimento para Amazon Bedrock
Use avaliações de recuperação nas avaliações das Bases de Conhecimento para Amazon Bedrock e avalie as configurações de armazenamento e recuperação das Bases de Conhecimento para Amazon Bedrock. Certifique-se de que o conteúdo recuperado seja relevante e abranja toda a consulta do usuário. Basta selecionar uma Base de Conhecimento e um LLM para usar como juiz, carregar seu conjunto de dados de prompt personalizado e selecionar as métricas mais importantes para a avaliação.
Avalie FMs para selecionar o melhor para o seu caso de uso
A avaliação de modelo do Amazon Bedrock permite usar avaliações automáticas e humanas ao selecionar FMs para um caso de uso específico. A avaliação de modelo automática (programática) usa conjuntos de dados selecionados e personalizados, além de fornecer métricas predefinidas, incluindo precisão, robustez e toxicidade. Para métricas subjetivas, você pode usar o Amazon Bedrock para configurar um fluxo de trabalho de avaliação humana com algumas etapas rápidas. Com avaliações humanas, você pode trazer seus próprios conjuntos de dados e definir métricas personalizadas, como relevância, estilo e alinhamento com a voz da marca. Os fluxos de trabalho de avaliação humana podem usar seus próprios funcionários como revisores ou você pode contratar uma equipe gerenciada pela AWS para realizar a avaliação humana, em que a AWS designa avaliadores qualificados e gerencia o fluxo de trabalho completo por você. Você também pode usar um LLM como o determinante para fornecer avaliações de alta qualidade em seu conjunto de dados com métricas como correção, integridade, fidelidade (alucinação), bem como métricas de IA responsável, como recusa de resposta e nocividade.
Compare os resultados em vários trabalhos de avaliação para tomar decisões com mais rapidez
Use o recurso de comparação nas avaliações para ver os resultados de quaisquer alterações feitas em prompts, nos modelos que estão sendo avaliados ou nas Bases de Conhecimento do sistema RAG.