Évaluations d’Amazon Bedrock

Évaluez les modèles de fondation, y compris les modèles personnalisés et importés, afin de trouver ceux qui répondent à vos besoins. Vous pouvez également évaluer votre processus de récupération ou votre flux de travail RAG de bout en bout dans les bases de connaissances Amazon Bedrock.

Présentation

Amazon Bedrock fournit des outils d’évaluation qui vous permettent d’accélérer l’adoption d’applications d’IA générative. Évaluez, comparez et sélectionnez le modèle de base pour votre cas d’utilisation grâce à l’évaluation des modèles. Préparez vos applications RAG basées sur les bases de connaissances Amazon Bedrock pour la production en évaluant les fonctions de récupération ou de récupération et de génération.

Capture d’écran de l’IU

Types d’évaluation

Utilisez un LLM en tant que juge pour évaluer les résultats des modèles à l’aide de vos jeux de données d’invites personnalisés, avec des métriques telles que la justesse, l’exhaustivité et la nocivité.

Évaluez les résultats des modèles à l’aide d’algorithmes et de métriques traditionnels en langage naturel tels que BERT Score, F1 et d’autres techniques de correspondance exacte, en utilisant des jeux de données d’invites intégrés ou en apportant les vôtres.

Évaluez les résultats des modèles avec votre propre personnel ou demandez à AWS de gérer vos évaluations sur les réponses à vos jeux de données d’invites personnalisés à l’aide de métriques intégrées ou personnalisées.

Évaluez la qualité de récupération de vos bases de connaissances Amazon Bedrock à l’aide de vos invites et mesures personnalisées, telles que la pertinence et la prise en compte du contexte.

Évaluez le contenu généré dans votre flux de travail RAG de bout en bout avec les bases de connaissances Amazon Bedrock à partir de vos invites et mesures personnalisées telles que la justesse, l’exactitude et l’exhaustivité.

Évaluez votre flux de travail RAG de bout en bout dans les bases de connaissances Amazon Bedrock

Utilisez la fonction de récupération et de génération d’évaluations pour évaluer la capacité de génération augmentée (RAG) de bout en bout de votre application. Assurez-vous que le contenu généré est correct et complet, qu’il limite les hallucinations et qu’il respecte les principes de l’IA responsable. Il vous suffit de sélectionner un modèle de génération de contenu et un LLM à utiliser en tant que juge dans vos bases de connaissances Amazon Bedrock, de charger votre jeu de données d’invites personnalisées et de sélectionner les indicateurs les plus importants pour votre évaluation.

Capture d’écran de l’IU

Garantissez une extraction complète et pertinente depuis les bases de connaissances Amazon Bedrock

Utilisez les évaluations de récupération dans les évaluations des bases de connaissances Amazon Bedrock pour évaluer les paramètres de stockage et de récupération de vos bases de connaissances Amazon Bedrock. Assurez-vous que le contenu récupéré est pertinent et couvre l’ensemble de la requête de l’utilisateur. Il vous suffit de sélectionner une base de connaissances et un LLM à utiliser en tant que juge, de charger votre jeu de données d’invites personnalisées et de sélectionner les indicateurs les plus importants pour votre évaluation.

Capture d’écran de l’IU

Évaluez les FM pour sélectionner celui qui convient le mieux à votre cas d'utilisation

L’évaluation des modèles Amazon Bedrock vous permet d’utiliser des évaluations automatiques et humaines pour sélectionner des FM adaptés à un cas d’utilisation spécifique. L’évaluation automatique (programmée) des modèles utilise des jeux de données sélectionnés et personnalisés, et fournit des métriques prédéfinies telles que la précision, la robustesse et la toxicité. Pour les métriques subjectives, vous pouvez utiliser Amazon Bedrock pour configurer un flux de travail d'évaluation humaine en quelques étapes simples. Grâce aux évaluations humaines, vous pouvez apporter vos propres jeux de données et définir des métriques personnalisées, telles que la pertinence, le style et l'alignement avec la voix de la marque. Les flux de travail d’évaluation humaine peuvent tirer parti de vos propres employés en tant que réviseurs, ou vous pouvez engager une équipe gérée par AWS pour effectuer l’évaluation humaine, dans le cadre de laquelle AWS recrute des évaluateurs qualifiés et gère le flux de travail complet en votre nom. Vous pouvez également utiliser un LLM-as-a-Judge pour fournir des évaluations de haute qualité sur votre jeu de données avec des indicateurs tels que l’exactitude, l’exhaustivité, la fidélité (hallucination), ainsi que des indicateurs d’IA responsables tels que le refus de réponse et la nocivité.

Capture d’écran de l’IU

Comparez les résultats de plusieurs tâches d’évaluation pour prendre des décisions plus rapidement

Utilisez la fonctionnalité de comparaison dans les évaluations pour voir les résultats des modifications que vous avez apportées à vos invites, aux modèles en cours d’évaluation ou aux bases de connaissances de votre système RAG.

Capture d’écran de l’IU