Évaluations d’Amazon Bedrock

Évaluez les modèles de fondation, y compris les modèles personnalisés et importés, afin de trouver ceux qui répondent à vos besoins. Vous pouvez également évaluer votre processus de récupération ou votre flux de travail RAG de bout en bout dans les bases de connaissances Amazon Bedrock.

Présentation

Amazon Bedrock fournit des outils d’évaluation qui vous permettent d’accélérer l’adoption d’applications d’IA générative. Évaluez, comparez et sélectionnez le modèle de base pour votre cas d’utilisation grâce à l’évaluation des modèles. Préparez vos applications RAG basées sur les bases de connaissances Amazon Bedrock pour la production en évaluant les fonctions de récupération ou de récupération et de génération.

Types d’évaluation

Modèles : LLM en tant que juge

Utilisez un LLM en tant que juge pour évaluer les résultats des modèles à l’aide de vos jeux de données d’invites personnalisés, avec des métriques telles que la justesse, l’exhaustivité et la nocivité.

Modèles : programmatique

Évaluez les résultats des modèles à l’aide d’algorithmes et de métriques traditionnels en langage naturel tels que BERT Score, F1 et d’autres techniques de correspondance exacte, en utilisant des jeux de données d’invites intégrés ou en apportant les vôtres.

Modèles : basés sur l’homme

Évaluez les résultats des modèles avec votre propre personnel ou demandez à AWS de gérer vos évaluations sur les réponses à vos jeux de données d’invites personnalisés à l’aide de métriques intégrées ou personnalisées.

Bases de connaissances : récupération RAG

Évaluez la qualité de récupération de vos bases de connaissances Amazon Bedrock à l’aide de vos invites et mesures personnalisées, telles que la pertinence et la prise en compte du contexte.

Bases de connaissances : récupération et génération RAG

Évaluez le contenu généré dans votre flux de travail RAG de bout en bout avec les bases de connaissances Amazon Bedrock à partir de vos invites et mesures personnalisées telles que la justesse, l’exactitude et l’exhaustivité.

Évaluez votre flux de travail RAG de bout en bout dans les bases de connaissances Amazon Bedrock

Utilisez la fonction de récupération et de génération d’évaluations pour évaluer la capacité de génération augmentée (RAG) de bout en bout de votre application. Assurez-vous que le contenu généré est correct et complet, qu’il limite les hallucinations et qu’il respecte les principes de l’IA responsable. Il vous suffit de sélectionner un modèle de génération de contenu et un LLM à utiliser en tant que juge dans vos bases de connaissances Amazon Bedrock, de charger votre jeu de données d’invites personnalisées et de sélectionner les indicateurs les plus importants pour votre évaluation.

Garantissez une extraction complète et pertinente depuis les bases de connaissances Amazon Bedrock

Utilisez les évaluations de récupération dans les évaluations des bases de connaissances Amazon Bedrock pour évaluer les paramètres de stockage et de récupération de vos bases de connaissances Amazon Bedrock. Assurez-vous que le contenu récupéré est pertinent et couvre l’ensemble de la requête de l’utilisateur. Il vous suffit de sélectionner une base de connaissances et un LLM à utiliser en tant que juge, de charger votre jeu de données d’invites personnalisées et de sélectionner les indicateurs les plus importants pour votre évaluation.

Évaluez les FM pour sélectionner celui qui convient le mieux à votre cas d'utilisation

L’évaluation des modèles Amazon Bedrock vous permet d’utiliser des évaluations automatiques et humaines pour sélectionner des FM adaptés à un cas d’utilisation spécifique. L’évaluation automatique (programmée) des modèles utilise des jeux de données sélectionnés et personnalisés, et fournit des métriques prédéfinies telles que la précision, la robustesse et la toxicité. Pour les métriques subjectives, vous pouvez utiliser Amazon Bedrock pour configurer un flux de travail d'évaluation humaine en quelques étapes simples. Grâce aux évaluations humaines, vous pouvez apporter vos propres jeux de données et définir des métriques personnalisées, telles que la pertinence, le style et l'alignement avec la voix de la marque. Les flux de travail d’évaluation humaine peuvent tirer parti de vos propres employés en tant que réviseurs, ou vous pouvez engager une équipe gérée par AWS pour effectuer l’évaluation humaine, dans le cadre de laquelle AWS recrute des évaluateurs qualifiés et gère le flux de travail complet en votre nom. Vous pouvez également utiliser un LLM-as-a-Judge pour fournir des évaluations de haute qualité sur votre jeu de données avec des indicateurs tels que l’exactitude, l’exhaustivité, la fidélité (hallucination), ainsi que des indicateurs d’IA responsables tels que le refus de réponse et la nocivité.

Comparez les résultats de plusieurs tâches d’évaluation pour prendre des décisions plus rapidement

Utilisez la fonctionnalité de comparaison dans les évaluations pour voir les résultats des modifications que vous avez apportées à vos invites, aux modèles en cours d’évaluation ou aux bases de connaissances de votre système RAG.

Comment débuter

Blog

Les bases de connaissances Amazon Bedrock prennent désormais en charge l’évaluation RAG (version préliminaire)

Lire le blog

Blog

L’évaluation des modèles Amazon Bedrock inclut désormais le LLM en tant que juge (version préliminaire)

Lire le blog

Blog

Découvrez comment évaluer des modèles adaptés à votre cas d'utilisation

Lire le blog

Évaluations d’Amazon Bedrock

Évaluez les modèles de fondation, y compris les modèles personnalisés et importés, afin de trouver ceux qui répondent à vos besoins. Vous pouvez également évaluer votre processus de récupération ou votre flux de travail RAG de bout en bout dans les bases de connaissances Amazon Bedrock.

Présentation

Types d’évaluation

Modèles : LLM en tant que juge

Modèles : programmatique

Modèles : basés sur l’homme

Bases de connaissances : récupération RAG

Bases de connaissances : récupération et génération RAG

Évaluez votre flux de travail RAG de bout en bout dans les bases de connaissances Amazon Bedrock

Garantissez une extraction complète et pertinente depuis les bases de connaissances Amazon Bedrock

Évaluez les FM pour sélectionner celui qui convient le mieux à votre cas d'utilisation

Comparez les résultats de plusieurs tâches d’évaluation pour prendre des décisions plus rapidement

Comment débuter

Les bases de connaissances Amazon Bedrock prennent désormais en charge l’évaluation RAG (version préliminaire)

L’évaluation des modèles Amazon Bedrock inclut désormais le LLM en tant que juge (version préliminaire)

Découvrez comment évaluer des modèles adaptés à votre cas d'utilisation

Fin de la prise en charge d'Internet Explorer