Évaluations d’Amazon Bedrock
Évaluez les modèles de fondation, y compris les modèles personnalisés et importés, afin de trouver ceux qui répondent à vos besoins. Vous pouvez également évaluer votre processus de récupération ou votre flux de travail RAG de bout en bout dans les bases de connaissances Amazon Bedrock.Présentation
Amazon Bedrock fournit des outils d’évaluation qui vous permettent d’accélérer l’adoption d’applications d’IA générative. Évaluez, comparez et sélectionnez le modèle de base pour votre cas d’utilisation grâce à l’évaluation des modèles. Préparez vos applications RAG basées sur les bases de connaissances Amazon Bedrock pour la production en évaluant les fonctions de récupération ou de récupération et de génération.
Types d’évaluation
Évaluez votre flux de travail RAG de bout en bout dans les bases de connaissances Amazon Bedrock
Utilisez la fonction de récupération et de génération d’évaluations pour évaluer la capacité de génération augmentée (RAG) de bout en bout de votre application. Assurez-vous que le contenu généré est correct et complet, qu’il limite les hallucinations et qu’il respecte les principes de l’IA responsable. Il vous suffit de sélectionner un modèle de génération de contenu et un LLM à utiliser en tant que juge dans vos bases de connaissances Amazon Bedrock, de charger votre jeu de données d’invites personnalisées et de sélectionner les indicateurs les plus importants pour votre évaluation.
Garantissez une extraction complète et pertinente depuis les bases de connaissances Amazon Bedrock
Utilisez les évaluations de récupération dans les évaluations des bases de connaissances Amazon Bedrock pour évaluer les paramètres de stockage et de récupération de vos bases de connaissances Amazon Bedrock. Assurez-vous que le contenu récupéré est pertinent et couvre l’ensemble de la requête de l’utilisateur. Il vous suffit de sélectionner une base de connaissances et un LLM à utiliser en tant que juge, de charger votre jeu de données d’invites personnalisées et de sélectionner les indicateurs les plus importants pour votre évaluation.
Évaluez les FM pour sélectionner celui qui convient le mieux à votre cas d'utilisation
L’évaluation des modèles Amazon Bedrock vous permet d’utiliser des évaluations automatiques et humaines pour sélectionner des FM adaptés à un cas d’utilisation spécifique. L’évaluation automatique (programmée) des modèles utilise des jeux de données sélectionnés et personnalisés, et fournit des métriques prédéfinies telles que la précision, la robustesse et la toxicité. Pour les métriques subjectives, vous pouvez utiliser Amazon Bedrock pour configurer un flux de travail d'évaluation humaine en quelques étapes simples. Grâce aux évaluations humaines, vous pouvez apporter vos propres jeux de données et définir des métriques personnalisées, telles que la pertinence, le style et l'alignement avec la voix de la marque. Les flux de travail d’évaluation humaine peuvent tirer parti de vos propres employés en tant que réviseurs, ou vous pouvez engager une équipe gérée par AWS pour effectuer l’évaluation humaine, dans le cadre de laquelle AWS recrute des évaluateurs qualifiés et gère le flux de travail complet en votre nom. Vous pouvez également utiliser un LLM-as-a-Judge pour fournir des évaluations de haute qualité sur votre jeu de données avec des indicateurs tels que l’exactitude, l’exhaustivité, la fidélité (hallucination), ainsi que des indicateurs d’IA responsables tels que le refus de réponse et la nocivité.
Comparez les résultats de plusieurs tâches d’évaluation pour prendre des décisions plus rapidement
Utilisez la fonctionnalité de comparaison dans les évaluations pour voir les résultats des modifications que vous avez apportées à vos invites, aux modèles en cours d’évaluation ou aux bases de connaissances de votre système RAG.