- Machine Learning›
- Amazon Textract›
- Questions fréquentes (FAQ)
FAQ Amazon Textract
Questions d’ordre général
Qu'est-ce qu'Amazon Textract ?
Amazon Textract est un service d'analyse de documents qui détecte et extrait le texte imprimé, l'écriture manuscrite, les données structurées (telles que les champs d'intérêt et leurs valeurs) et les tableaux à partir d'images et de numérisations de documents. Les modèles de machine learning d'Amazon Textract ont été entraînés sur des millions de documents afin que tous les types de documents, ou presque, que vous importez soient automatiquement reconnus et traités pour l'extraction de texte. Lorsque des informations sont extraites des documents, le service renvoie une note de confiance pour chaque élément qu'il identifie afin que vous puissiez prendre des décisions éclairées sur la manière dont vous souhaitez utiliser les résultats. Par exemple, si vous extrayez des informations de documents fiscaux, vous pouvez définir des règles personnalisées pour signaler toute information extraite avec un score de confiance inférieur à 95 %. De plus, toutes les données extraites sont renvoyées avec les coordonnées de leur cadre de délimitation, un rectangle qui englobe entièrement chaque élément de données identifié pour vous permettre de retrouver rapidement l'endroit où un mot ou un nombre apparaît sur un document. Vous pouvez accéder à ces fonctionnalités avec l'API Amazon Textract, dans la Console de gestion AWS ou à l'aide de l'interface de la ligne de commande (CLI) AWS.
Quels sont les cas d'utilisation les plus courants d'Amazon Textract ?
Amazon Textract est majoritairement utilisé dans les scénarios suivants :
- Importation de documents et de formulaires dans des applications métier
- Création d'index de recherche intelligents
- Création de flux de travail de traitement de documents automatisés
- Maintien de la conformité dans les archives de documents
- Extraction de texte pour le traitement du langage naturel (NLP)
- Extraction de texte pour la classification de documents
Quel type de texte Amazon Textract peut-il détecter et extraire ?
Amazon Textract peut détecter le texte imprimé et l'écriture manuscrite à partir de l'alphabet anglais standard et des symboles ASCII. Amazon Textract peut extraire du texte imprimé, des formulaires et des tableaux en anglais, en allemand, en français, en espagnol, en italien et en portugais. Amazon Textract extrait également des données étiquetées explicitement, des données implicites et des lignes à partir d'une liste détaillée de biens ou de services dans la quasi-totalité des factures ou reçus en anglais, sans aucun modèle ni configuration. Amazon Textract peut également extraire des données spécifiques ou implicites telles que des noms et des adresses à partir de documents d'identité en anglais (par exemple, les passeports et permis de conduire américains) sans avoir besoin de modèles ou de configuration. Enfin, Amazon Textract peut extraire des données spécifiques de documents sans se soucier de la structure des données ou des variations de présentation dans le document à l'aide de requêtes en anglais.
Quels formats de document sont pris en charge par Amazon Textract ?
Amazon Textract prend actuellement en charge les formats PNG, JPEG, TIFF et PDF. Pour les API synchrones, vous pouvez soumettre des images en tant qu'objets S3 ou en tant que tableau d'octets. Pour les API asynchrones, vous pouvez envoyer des objets S3. Si votre document est déjà dans l'un des formats de fichier pris en charge par Amazon Textract (PDF, TIFF, JPG, PNG), ne le convertissez pas et ne le sous-échantillonnez pas avant de l'importer dans Amazon Textract.
Comment démarrer avec Amazon Textract ?
Pour démarrer avec Amazon Textract, vous pouvez cliquer sur le bouton « Démarrer avec Amazon Textract » sur la page Amazon Textract. Vous devez disposer d'un compte Amazon Web Services. Si vous n'en avez pas, vous serez invité à en créer un dans le cadre de la procédure. Une fois que vous êtes connecté à votre compte AWS, essayez Amazon Textract avec vos propres images ou documents PDF en utilisant la Console de gestion Amazon Textract. Vous pouvez également télécharger les SDK Amazon Textract pour commencer à créer vos propres applications. Consultez notre guide de démarrage par étapes pour obtenir davantage d'informations.
Quelles API sont proposées par Amazon Textract ?
Amazon Textract effectue l'OCR à l'aide de l'API Detect Document Text, mais va plus loin dans le processus d'analyse des documents : le service détecte en effet les paires clé-valeur afin que les extractions de texte restent organisées dans leur structure d'origine. L'API Analyze Document peut détecter le texte imprimé, l'écriture manuscrite, les champs, les valeurs, leurs relations, les tableaux et d'autres entités figurant dans un document, ainsi que les scores de confiance associés. Avec l'API Analyze Document, les développeurs peuvent capturer automatiquement des données structurées à partir d'une grande variété de documents, comme les formulaires fiscaux, les rapports financiers, les dossiers médicaux et les demandes de prêt. L'API Analyze Document offre également aux développeurs la possibilité de spécifier les données dont ils ont besoin pour extraire des documents à l'aide de requêtes sans se préoccuper de la structure des données ou des variations dans l'agencement des données selon les versions des documents. À l'aide de requêtes personnalisées, la fonctionnalité Requêtes peut être personnalisée pour améliorer la précision d'extraction dans les documents spécifiques à l'entreprise. L'API Analyze Expense peut retrouver le nom du fournisseur sur un reçu même s'il n'est indiqué que dans un logo sur la page, sans une étiquette « fournisseur » explicite. Elle peut également rechercher et extraire des articles, des quantités et des prix sur des lignes dépourvues d'en-têtes de colonne. Avec l'API Analyze Expense, les développeurs peuvent utiliser des noms de clé et des en-têtes de colonne normalisés lors de l'extraction des données de factures et de reçus, afin que les applications en aval puissent facilement comparer la sortie de nombreux documents. L'API Analyze ID comprend le contexte des documents d'identité tels que les passeports et les permis de conduire américains, sans avoir besoin de modèles ou de configuration. Grâce à Analyze ID, les sociétés fournissant des services de vérification d'identité et les entreprises des secteurs de la finance, de la santé et de l'assurance peuvent facilement automatiser la création de compte, la planification de rendez-vous, la gestion des candidatures, et plus encore, en proposant à leurs clients et interlocuteurs de soumettre une photo ou une numérisation de leur pièce d'identité. Pour en savoir plus, consultez la référence API d'Amazon Textract.
Quelles sont les fonctionnalités de l'API Analyze Document ?
L'API Analyze Document possède les fonctionnalités suivantes : formulaires, tables, requêtes, requêtes personnalisées, signatures et mise en page. Vous pouvez utiliser ces fonctionnalités de façon indépendante ou les combiner librement. Utilisez Formulaires pour extraire des données telles que des paires clé-valeur (« Prénom » et la valeur associée : « Jane Smith »). Utilisez Tableaux pour extraire les données tabulaires organisées en colonnes et en lignes. Utilisez Requêtes pour spécifier les informations que vous voulez extraire d'un document sous la forme de questions en langage naturel (par exemple, « Quel est le nom du client ? ») et recevoir la réponse (par exemple, « Jane Doe ») dans le résultat. Utilisez les requêtes personnalisées pour personnaliser les fonctionnalités des requêtes sur les documents spécifiques à l'entreprise. Vous pouvez utiliser les signatures pour détecter les signatures sur les documents et utiliser la mise en page pour identifier les éléments de mise en page d'un document.
Comment les clients doivent-ils construire/créer/formuler les requêtes ?
Nous avons publié des conseils détaillés sur les bonnes pratiques relatives à la création de requêtes dans le cadre de notre Documentation API sur la page Ressources textuelles. En général, les clients doivent essayer de poser une question en langage naturel en utilisant des termes du document.
Y a-t-il des limites au nombre de requêtes que je peux faire par document ?
Les requêtes sont traitées page par page et les informations peuvent être extraites à l'aide de requêtes via des opérations synchrones ou asynchrones. Pour les opérations synchrones, un maximum de 15 requêtes par page est pris en charge. Pour les opérations asynchrones, un maximum de 30 requêtes par page est pris en charge.
Comment faire pour obtenir des résultats optimaux d'Amazon Textract ?
Amazon Textract utilise le machine learning pour lire tout type de document, ou presque, afin d'extraire du texte imprimé, de l'écriture manuscrite et des informations structurées. Gardez les conseils suivants à l'esprit afin d'obtenir les meilleurs résultats :
- Assurez-vous que votre document utilise une langue prise en charge par Amazon Textract (actuellement l'anglais, l'espagnol, l'italien, le portugais, le français et l'allemand ; l'écriture manuscrite, les factures et reçus, les documents d'identité et le traitement des requêtes sont en anglais uniquement).
- Fournissez une image de la plus haute qualité possible, idéalement au moins 150 dpi.
- Si votre document est déjà dans l'un des formats de fichier pris en charge par Amazon Textract (PDF, JPG, PNG), ne le convertissez pas et ne le sous-échantillonnez pas avant de l'importer dans Amazon Textract.
- La fonctionnalité Tableau d'Amazon Textract fonctionne mieux lorsque les tableaux de votre document sont visuellement séparés des éléments environnants sur la page (quand ils ne sont pas superposés à une image ou un motif complexe, par exemple), et que le texte dans le tableau est droit (qu'il n'est pas pivoté par rapport à un autre texte sur la page).
Vous pouvez commencer à analyser vos propres documents avec Amazon Textract en quelques clics seulement dans la Console de gestion Amazon Textract. Si vous avez des difficultés à obtenir un haut niveau de précision avec les reçus, les pièces d'identité ou les dessins industriels, contactez-nous à l'adresse [email protected] pour obtenir de l'aide.
Comment utiliser le score de confiance fourni par Amazon Textract ?
Un score de confiance est un chiffre compris entre 0 et 100 qui indique la probabilité d'exactitude d'une prévision donnée. Avec Amazon Textract, tous les éléments de textes imprimés, d'écriture manuscrite et de données structurées extraits sont renvoyés avec les coordonnées de leur cadre de délimitation, un rectangle qui englobe entièrement chaque élément identifié. Vous avez ainsi connaissance du score de chaque entité extraite et vous pouvez prendre des décisions éclairées sur la manière dont vous souhaitez utiliser les résultats.
Dans quelles régions AWS Amazon Textract est-il disponible ?
Amazon Textract est actuellement disponible dans les régions AWS suivantes : USA Est (Virginie du Nord), USA Est (Ohio), USA Ouest (Oregon), USA Ouest (Californie du Nord), AWS GovCloud (US, côte ouest), AWS GovCloud (US, côte est), Canada (Centre), UE (Irlande), UE (Londres), UE (Francfort), UE (Paris), Asie-Pacifique (Singapour), Asie-Pacifique (Sydney), Asie-Pacifique (Séoul) et Asie-Pacifique (Mumbai).
Est-ce qu'Amazon Textract fonctionne avec AWS CloudTrail ?
Oui. Amazon Textract prend en charge la journalisation des actions suivantes sous la forme d'événements CloudTrail : DetectDocumentText, AnalyzeDocument, StartDocumentTextDetection, StartDocumentAnalysis, GetDocumentTextDetection et GetDocumentAnalysis. Pour plus d'informations, consultez Journalisation des appels d’API Amazon Textract avec AWS CloudTrail.
Comment puis-je demander une augmentation de la limite de service pour Amazon Textract ?
Vous pouvez consulter et gérer vos quotas de service Amazon Textract (anciennement appelés limites de service) dans la console AWS Service Quotas. Vous pouvez également estimer les quotas requis pour votre cas d'utilisation à l'aide du calculateur de quotas de service Textract. Pour créer une demande d'augmentation du quota de service :
1. Connectez-vous à la console AWS, accédez à la console AWS Service Quotas et sélectionnez « Textract » dans les services AWS.
2. Sélectionnez le quota souhaité et cliquez sur « Demander une augmentation du quota » sur la page suivante.
3. Entrez la valeur de quota souhaitée et cliquez sur « Demander ».
Quelles sont les meilleures pratiques pour limiter la régulation lors de l'utilisation d'Amazon Textract ?
Nous recommandons l'approche suivante pour atténuer l'étranglement :
1. Implémentez la logique des nouvelles tentatives. Suivez les directives de gestion des erreurs pour configurer les nouvelles tentatives afin de limiter les erreurs.
2. Configurez le backoff et la gigue exponentiels. La configuration d'un retard et d'une instabilité exponentiels lors de la configuration des nouvelles tentatives vous permet d'améliorer le débit réalisable. Consultez la section Réessais en cas d'erreur et backoff exponentiel dans AWS.
3. Facilitez la fluidité de votre trafic. Les pics de trafic affectent le débit. Pour obtenir un débit maximal pour les transactions allouées par seconde (TPS), utilisez une architecture sans serveur de mise en file d'attente ou un autre mécanisme pour « fluidifier » le trafic afin qu'il soit plus cohérent.
4. Commencez par des exemples qui appliquent les meilleures pratiques. Essayez d'utiliser nos exemples de CDK IDPà l'aide de constructions CDK.
5. Utilisez le calculateur de quotas de service Textract pour estimer les quotas requis pour votre cas d'utilisation et soumettez une demande d'augmentation de quota depuis la console AWS Service Quotas.
Facturation
Comment Amazon Textract compte le nombre de pages traitées ?
Une image (PNG, TIFF ou JPEG) compte pour une seule page. Dans le cas des PDF, chaque page du document est comptée comme une page traitée.
Quelles API me sont facturées avec Amazon Textract ?
Pour plus d'informations sur les tarifs, reportez-vous à la page de tarification d'Amazon Textract.
Combien coûte Amazon Textract ?
Amazon Textract vous facture en fonction du nombre de pages et d'images traitées. Pour plus d'informations, consultez la page de tarification.
Amazon Textract fait-il partie de l'offre gratuite d'AWS ?
Oui. Dans le cadre de l'offre gratuite d'AWS, vous pouvez démarrer avec Amazon Textract gratuitement. L’offre gratuite dure trois mois et les nouveaux clients AWS peuvent analyser jusqu’à :
API Detect Document Text : 1 000 pages par mois
API Analyze Document :
- 1 000 pages par mois en utilisant uniquement des signatures
- 100 pages par mois lors de l'utilisation des formulaires, des tableaux et des fonctionnalités de mise en page
- 100 pages par mois chacune pour les requêtes, les formulaires + requêtes, les tables + requêtes, les formulaires + tables et les requêtes
- Il n'existe pas de niveau gratuit pour les requêtes personnalisées
API Analyze Expense : 100 pages par mois
API Analyze ID : 100 pages par mois
Analyze Lending API 2 000 pages par mois
Vos prix sont-ils toutes taxes comprises ?
Pour obtenir plus d'informations sur les taxes, consultez la page d'aide sur les taxes d'Amazon Web Services.
Confidentialité des données
Les entrées de documents et d'images traitées par Amazon Textract sont-elles stockées ? Comment sont-elles utilisées par AWS ?
Amazon Textract peut stocker et utiliser les documents et images traités par le service uniquement pour fournir et assurer le service, afin d'améliorer et de développer la qualité d'Amazon Textract et d'autres technologies de machine learning et d'intelligence artificielle d'Amazon. L'utilisation de votre contenu est nécessaire pour assurer l'amélioration continue de l'expérience client du service Amazon Textract, notamment le développement et la formation de technologies associées. Nous n'utilisons pas les informations personnellement identifiables qui peuvent être présentes dans votre contenu pour proposer à vos utilisateurs finaux ou à vous-même des produits, des services ou du marketing ciblés. Votre confiance, ainsi que la confidentialité et la sécurité de votre contenu, sont notre priorité absolue. Nous mettons en œuvre des contrôles techniques et physiques appropriés et sophistiqués, notamment le chiffrement au repos et en transit, afin d'éviter l'accès non autorisé à votre contenu ou sa divulgation. Nous nous assurons également que notre utilisation respecte nos engagements à votre égard. Pour en savoir plus, consultez la page https://aws.amazon.com/compliance/data-privacy-faq/. Vous pouvez utiliser une stratégie d'exclusion d'AWS Organizations pour refuser l'utilisation de vos documents et images pour améliorer ou développer la qualité d'Amazon Textract et d'autres technologies de machine learning et d'intelligence artificielle d'Amazon. Pour en savoir plus sur la désinscription, consultez Gestion de la politique de désinscription des services d'IA.
Le contenu traité par Amazon Textract est-il transféré en dehors de la région AWS où j'utilise le service ?
Tout contenu traité par Amazon Textract est chiffré et stocké au repos dans la région AWS où vous utilisez le service. À moins que vous ne refusiez, comme indiqué ci-dessous, certaines parties du contenu traité par Amazon Textract peuvent être stockées dans une autre région AWS uniquement en lien avec l'effort d'amélioration et de développement continus de votre expérience client Amazon Textract et d'autres technologies de machine-learning et d'intelligence artificielle d'Amazon. Vous pouvez demander la suppression des entrées image et vidéo associées à votre compte en contactant AWS Support. Votre confiance, ainsi que la confidentialité et la sécurité de votre contenu, sont notre priorité absolue. Nous mettons en œuvre des contrôles techniques et physiques appropriés et sophistiqués, notamment le chiffrement au repos et en transit, afin d'éviter l'accès non autorisé à votre contenu ou sa divulgation. Nous nous assurons également que notre utilisation respecte nos engagements à votre égard. Pour en savoir plus, consultez la page https://aws.amazon.com/compliance/data-privacy-faq/. Votre contenu ne sera pas stocké dans une autre région AWS si vous refusez l'utilisation de votre contenu dans le but d'améliorer et de développer la qualité d'Amazon Textract et d'autres technologies de machine learning et d'intelligence artificielle d'Amazon. Pour en savoir plus sur la désinscription, consultez Gestion de la politique de désinscription des services d'IA.
Puis-je supprimer des images et des documents stockés par Amazon Textract ?
Oui. Vous pouvez demander la suppression des documents et images associés à votre compte en contactant AWS Support. La suppression des entrées d'images et de documents peut dégrader votre expérience Amazon Textract.
Suis-je toujours propriétaire du contenu traité et stocké par Amazon Textract ?
Oui. Vous restez en permanence propriétaire de votre contenu et nous n'utiliserons ce dernier qu'avec votre consentement.
Comment Amazon Textract gère-t-il le contenu utilisé pour la génération d'adaptateurs dans les requêtes personnalisées ?
Tout le contenu utilisé pour générer des adaptateurs est traité en interne dans Amazon Textract pendant toute la durée de la formation. Le contenu est crypté au repos et en transit. Le contenu est stocké et traité dans la région AWS où vous entraînez l'adaptateur, et il est supprimé une fois la formation terminée. Pour plus d'informations, rendez-vous sur https://docs.aws.amazon.com/textract/latest/dg/data-protection.html.
Amazon Textract est-il éligible HIPAA ?
Oui, AWS a étendu son programme de conformité HIPAA et comprend désormais Amazon Textract comme service éligible HIPAA. Si vous avez signé un accord de partenariat (BAA) avec AWS, vous pouvez utiliser Amazon Textract pour extraire du texte, y compris des informations de santé protégées (PHI), à partir d'images.
Quels programmes de conformité sont concernés par Amazon Textract ?
Textract est éligible HIPAA et conforme aux normes PCI, ISO et SOC. Pour plus d'informations, consultez AWS Artifact dans la Console de gestion AWS, ou rendez-vous sur https://aws.amazon.com/compliance/services-in-scope/. Textract prend également en charge les points de terminaison Amazon Virtual Private Cloud (Amazon VPC) via AWS PrivateLink, ce qui permet aux clients de lancer en toute sécurité des appels d’API vers Amazon Textract depuis leur VPC et d'éviter d'utiliser l'Internet public.