FAQ Amazon Textract

Questions d’ordre général

Amazon Textract est un service d'analyse de documents qui détecte et extrait le texte imprimé, l'écriture manuscrite, les données structurées (telles que les champs d'intérêt et leurs valeurs) et les tableaux à partir d'images et de numérisations de documents. Les modèles de machine learning d'Amazon Textract ont été entraînés sur des millions de documents afin que tous les types de documents, ou presque, que vous importez soient automatiquement reconnus et traités pour l'extraction de texte. Lorsque des informations sont extraites des documents, le service renvoie une note de confiance pour chaque élément qu'il identifie afin que vous puissiez prendre des décisions éclairées sur la manière dont vous souhaitez utiliser les résultats. Par exemple, si vous extrayez des informations de documents fiscaux, vous pouvez définir des règles personnalisées pour signaler toute information extraite avec un score de confiance inférieur à 95 %. De plus, toutes les données extraites sont renvoyées avec les coordonnées de leur cadre de délimitation, un rectangle qui englobe entièrement chaque élément de données identifié pour vous permettre de retrouver rapidement l'endroit où un mot ou un nombre apparaît sur un document. Vous pouvez accéder à ces fonctionnalités avec l'API Amazon Textract, dans la Console de gestion AWS ou à l'aide de l'interface de la ligne de commande (CLI) AWS.

Amazon Textract est majoritairement utilisé dans les scénarios suivants :

  • Importation de documents et de formulaires dans des applications métier
  • Création d'index de recherche intelligents 
  • Création de flux de travail de traitement de documents automatisés
  • Maintien de la conformité dans les archives de documents
  • Extraction de texte pour le traitement du langage naturel (NLP)
  • Extraction de texte pour la classification de documents

Amazon Textract peut détecter le texte imprimé et l'écriture manuscrite à partir de l'alphabet anglais standard et des symboles ASCII. Amazon Textract peut extraire du texte imprimé, des formulaires et des tableaux en anglais, en allemand, en français, en espagnol, en italien et en portugais. Amazon Textract extrait également des données étiquetées explicitement, des données implicites et des lignes à partir d'une liste détaillée de biens ou de services dans la quasi-totalité des factures ou reçus en anglais, sans aucun modèle ni configuration. Amazon Textract peut également extraire des données spécifiques ou implicites telles que des noms et des adresses à partir de documents d'identité en anglais (par exemple, les passeports et permis de conduire américains) sans avoir besoin de modèles ou de configuration. Enfin, Amazon Textract peut extraire des données spécifiques de documents sans se soucier de la structure des données ou des variations de présentation dans le document à l'aide de requêtes en anglais.

Amazon Textract prend actuellement en charge les formats PNG, JPEG, TIFF et PDF. Pour les API synchrones, vous pouvez soumettre des images en tant qu'objets S3 ou en tant que tableau d'octets. Pour les API asynchrones, vous pouvez envoyer des objets S3. Si votre document est déjà dans l'un des formats de fichier pris en charge par Amazon Textract (PDF, TIFF, JPG, PNG), ne le convertissez pas et ne le sous-échantillonnez pas avant de l'importer dans Amazon Textract.

Pour démarrer avec Amazon Textract, vous pouvez cliquer sur le bouton « Démarrer avec Amazon Textract » sur la page Amazon Textract. Vous devez disposer d'un compte Amazon Web Services. Si vous n'en avez pas, vous serez invité à en créer un dans le cadre de la procédure. Une fois que vous êtes connecté à votre compte AWS, essayez Amazon Textract avec vos propres images ou documents PDF en utilisant la Console de gestion Amazon Textract. Vous pouvez également télécharger les SDK Amazon Textract pour commencer à créer vos propres applications. Consultez notre guide de démarrage par étapes pour obtenir davantage d'informations.

Amazon Textract effectue l'OCR à l'aide de l'API Detect Document Text, mais va plus loin dans le processus d'analyse des documents : le service détecte en effet les paires clé-valeur afin que les extractions de texte restent organisées dans leur structure d'origine. L'API Analyze Document peut détecter le texte imprimé, l'écriture manuscrite, les champs, les valeurs, leurs relations, les tableaux et d'autres entités figurant dans un document, ainsi que les scores de confiance associés. Avec l'API Analyze Document, les développeurs peuvent capturer automatiquement des données structurées à partir d'une grande variété de documents, comme les formulaires fiscaux, les rapports financiers, les dossiers médicaux et les demandes de prêt. L'API Analyze Document offre également aux développeurs la possibilité de spécifier les données dont ils ont besoin pour extraire des documents à l'aide de requêtes sans se préoccuper de la structure des données ou des variations dans l'agencement des données selon les versions des documents. À l'aide de requêtes personnalisées, la fonctionnalité Requêtes peut être personnalisée pour améliorer la précision d'extraction dans les documents spécifiques à l'entreprise. L'API Analyze Expense peut retrouver le nom du fournisseur sur un reçu même s'il n'est indiqué que dans un logo sur la page, sans une étiquette « fournisseur » explicite. Elle peut également rechercher et extraire des articles, des quantités et des prix sur des lignes dépourvues d'en-têtes de colonne. Avec l'API Analyze Expense, les développeurs peuvent utiliser des noms de clé et des en-têtes de colonne normalisés lors de l'extraction des données de factures et de reçus, afin que les applications en aval puissent facilement comparer la sortie de nombreux documents. L'API Analyze ID comprend le contexte des documents d'identité tels que les passeports et les permis de conduire américains, sans avoir besoin de modèles ou de configuration. Grâce à Analyze ID, les sociétés fournissant des services de vérification d'identité et les entreprises des secteurs de la finance, de la santé et de l'assurance peuvent facilement automatiser la création de compte, la planification de rendez-vous, la gestion des candidatures, et plus encore, en proposant à leurs clients et interlocuteurs de soumettre une photo ou une numérisation de leur pièce d'identité. Pour en savoir plus, consultez la référence API d'Amazon Textract.

L'API Analyze Document possède les fonctionnalités suivantes : formulaires, tables, requêtes, requêtes personnalisées, signatures et mise en page. Vous pouvez utiliser ces fonctionnalités de façon indépendante ou les combiner librement. Utilisez Formulaires pour extraire des données telles que des paires clé-valeur (« Prénom » et la valeur associée : « Jane Smith »). Utilisez Tableaux pour extraire les données tabulaires organisées en colonnes et en lignes. Utilisez Requêtes pour spécifier les informations que vous voulez extraire d'un document sous la forme de questions en langage naturel (par exemple, « Quel est le nom du client ? ») et recevoir la réponse (par exemple, « Jane Doe ») dans le résultat. Utilisez les requêtes personnalisées pour personnaliser les fonctionnalités des requêtes sur les documents spécifiques à l'entreprise. Vous pouvez utiliser les signatures pour détecter les signatures sur les documents et utiliser la mise en page pour identifier les éléments de mise en page d'un document.

Nous avons publié des conseils détaillés sur les bonnes pratiques relatives à la création de requêtes dans le cadre de notre Documentation API sur la page Ressources textuelles. En général, les clients doivent essayer de poser une question en langage naturel en utilisant des termes du document.

Les requêtes sont traitées page par page et les informations peuvent être extraites à l'aide de requêtes via des opérations synchrones ou asynchrones. Pour les opérations synchrones, un maximum de 15 requêtes par page est pris en charge. Pour les opérations asynchrones, un maximum de 30 requêtes par page est pris en charge.

Amazon Textract utilise le machine learning pour lire tout type de document, ou presque, afin d'extraire du texte imprimé, de l'écriture manuscrite et des informations structurées. Gardez les conseils suivants à l'esprit afin d'obtenir les meilleurs résultats :

  • Assurez-vous que votre document utilise une langue prise en charge par Amazon Textract (actuellement l'anglais, l'espagnol, l'italien, le portugais, le français et l'allemand ; l'écriture manuscrite, les factures et reçus, les documents d'identité et le traitement des requêtes sont en anglais uniquement).
  • Fournissez une image de la plus haute qualité possible, idéalement au moins 150 dpi.
  • Si votre document est déjà dans l'un des formats de fichier pris en charge par Amazon Textract (PDF, JPG, PNG), ne le convertissez pas et ne le sous-échantillonnez pas avant de l'importer dans Amazon Textract.
  • La fonctionnalité Tableau d'Amazon Textract fonctionne mieux lorsque les tableaux de votre document sont visuellement séparés des éléments environnants sur la page (quand ils ne sont pas superposés à une image ou un motif complexe, par exemple), et que le texte dans le tableau est droit (qu'il n'est pas pivoté par rapport à un autre texte sur la page).

Vous pouvez commencer à analyser vos propres documents avec Amazon Textract en quelques clics seulement dans la Console de gestion Amazon Textract. Si vous avez des difficultés à obtenir un haut niveau de précision avec les reçus, les pièces d'identité ou les dessins industriels, contactez-nous à l'adresse [email protected] pour obtenir de l'aide.

Un score de confiance est un chiffre compris entre 0 et 100 qui indique la probabilité d'exactitude d'une prévision donnée. Avec Amazon Textract, tous les éléments de textes imprimés, d'écriture manuscrite et de données structurées extraits sont renvoyés avec les coordonnées de leur cadre de délimitation, un rectangle qui englobe entièrement chaque élément identifié. Vous avez ainsi connaissance du score de chaque entité extraite et vous pouvez prendre des décisions éclairées sur la manière dont vous souhaitez utiliser les résultats.

Amazon Textract est actuellement disponible dans les régions AWS suivantes : USA Est (Virginie du Nord), USA Est (Ohio), USA Ouest (Oregon), USA Ouest (Californie du Nord), AWS GovCloud (US, côte ouest), AWS GovCloud (US, côte est), Canada (Centre), UE (Irlande), UE (Londres), UE (Francfort), UE (Paris), Asie-Pacifique (Singapour), Asie-Pacifique (Sydney), Asie-Pacifique (Séoul) et Asie-Pacifique (Mumbai).

Oui. Amazon Textract prend en charge la journalisation des actions suivantes sous la forme d'événements CloudTrail : DetectDocumentText, AnalyzeDocument, StartDocumentTextDetection, StartDocumentAnalysis, GetDocumentTextDetection et GetDocumentAnalysis. Pour plus d'informations, consultez Journalisation des appels d’API Amazon Textract avec AWS CloudTrail.

Vous pouvez consulter et gérer vos quotas de service Amazon Textract (anciennement appelés limites de service) dans la console AWS Service Quotas. Vous pouvez également estimer les quotas requis pour votre cas d'utilisation à l'aide du calculateur de quotas de service Textract. Pour créer une demande d'augmentation du quota de service :

1. Connectez-vous à la console AWS, accédez à la console AWS Service Quotas et sélectionnez « Textract » dans les services AWS.
2. Sélectionnez le quota souhaité et cliquez sur « Demander une augmentation du quota » sur la page suivante.
3. Entrez la valeur de quota souhaitée et cliquez sur « Demander ».

Nous recommandons l'approche suivante pour atténuer l'étranglement :

1. Implémentez la logique des nouvelles tentatives. Suivez les directives de gestion des erreurs pour configurer les nouvelles tentatives afin de limiter les erreurs.
2. Configurez le backoff et la gigue exponentiels. La configuration d'un retard et d'une instabilité exponentiels lors de la configuration des nouvelles tentatives vous permet d'améliorer le débit réalisable. Consultez la section Réessais en cas d'erreur et backoff exponentiel dans AWS.
3. Facilitez la fluidité de votre trafic. Les pics de trafic affectent le débit. Pour obtenir un débit maximal pour les transactions allouées par seconde (TPS), utilisez une architecture sans serveur de mise en file d'attente ou un autre mécanisme pour « fluidifier » le trafic afin qu'il soit plus cohérent.
4. Commencez par des exemples qui appliquent les meilleures pratiques.  Essayez d'utiliser nos exemples de CDK IDPà l'aide de constructions CDK.
5. Utilisez le calculateur de quotas de service Textract pour estimer les quotas requis pour votre cas d'utilisation et soumettez une demande d'augmentation de quota depuis la console AWS Service Quotas.

Facturation

Une image (PNG, TIFF ou JPEG) compte pour une seule page. Dans le cas des PDF, chaque page du document est comptée comme une page traitée.

Pour plus d'informations sur les tarifs, reportez-vous à la page de tarification d'Amazon Textract.

Amazon Textract vous facture en fonction du nombre de pages et d'images traitées. Pour plus d'informations, consultez la page de tarification.

Oui. Dans le cadre de l'offre gratuite d'AWS, vous pouvez démarrer avec Amazon Textract gratuitement. L’offre gratuite dure trois mois et les nouveaux clients AWS peuvent analyser jusqu’à :

API Detect Document Text : 1 000 pages par mois
API Analyze Document :

  • 1 000 pages par mois en utilisant uniquement des signatures
  • 100 pages par mois lors de l'utilisation des formulaires, des tableaux et des fonctionnalités de mise en page
  • 100 pages par mois chacune pour les requêtes, les formulaires + requêtes, les tables + requêtes, les formulaires + tables et les requêtes
  • Il n'existe pas de niveau gratuit pour les requêtes personnalisées

API Analyze Expense : 100 pages par mois
API Analyze ID  : 100 pages par mois
Analyze Lending API 2 000 pages par mois

Pour obtenir plus d'informations sur les taxes, consultez la page d'aide sur les taxes d'Amazon Web Services.

Confidentialité des données

Amazon Textract peut stocker et utiliser les documents et images traités par le service uniquement pour fournir et assurer le service, afin d'améliorer et de développer la qualité d'Amazon Textract et d'autres technologies de machine learning et d'intelligence artificielle d'Amazon. L'utilisation de votre contenu est nécessaire pour assurer l'amélioration continue de l'expérience client du service Amazon Textract, notamment le développement et la formation de technologies associées. Nous n'utilisons pas les informations personnellement identifiables qui peuvent être présentes dans votre contenu pour proposer à vos utilisateurs finaux ou à vous-même des produits, des services ou du marketing ciblés. Votre confiance, ainsi que la confidentialité et la sécurité de votre contenu, sont notre priorité absolue. Nous mettons en œuvre des contrôles techniques et physiques appropriés et sophistiqués, notamment le chiffrement au repos et en transit, afin d'éviter l'accès non autorisé à votre contenu ou sa divulgation. Nous nous assurons également que notre utilisation respecte nos engagements à votre égard. Pour en savoir plus, consultez la page https://aws.amazon.com/compliance/data-privacy-faq/. Vous pouvez utiliser une stratégie d'exclusion d'AWS Organizations pour refuser l'utilisation de vos documents et images pour améliorer ou développer la qualité d'Amazon Textract et d'autres technologies de machine learning et d'intelligence artificielle d'Amazon. Pour en savoir plus sur la désinscription, consultez Gestion de la politique de désinscription des services d'IA.

Tout contenu traité par Amazon Textract est chiffré et stocké au repos dans la région AWS où vous utilisez le service. À moins que vous ne refusiez, comme indiqué ci-dessous, certaines parties du contenu traité par Amazon Textract peuvent être stockées dans une autre région AWS uniquement en lien avec l'effort d'amélioration et de développement continus de votre expérience client Amazon Textract et d'autres technologies de machine-learning et d'intelligence artificielle d'Amazon. Vous pouvez demander la suppression des entrées image et vidéo associées à votre compte en contactant AWS Support. Votre confiance, ainsi que la confidentialité et la sécurité de votre contenu, sont notre priorité absolue. Nous mettons en œuvre des contrôles techniques et physiques appropriés et sophistiqués, notamment le chiffrement au repos et en transit, afin d'éviter l'accès non autorisé à votre contenu ou sa divulgation. Nous nous assurons également que notre utilisation respecte nos engagements à votre égard. Pour en savoir plus, consultez la page https://aws.amazon.com/compliance/data-privacy-faq/. Votre contenu ne sera pas stocké dans une autre région AWS si vous refusez l'utilisation de votre contenu dans le but d'améliorer et de développer la qualité d'Amazon Textract et d'autres technologies de machine learning et d'intelligence artificielle d'Amazon. Pour en savoir plus sur la désinscription, consultez Gestion de la politique de désinscription des services d'IA.

Oui. Vous pouvez demander la suppression des documents et images associés à votre compte en contactant AWS Support. La suppression des entrées d'images et de documents peut dégrader votre expérience Amazon Textract.

Oui. Vous restez en permanence propriétaire de votre contenu et nous n'utiliserons ce dernier qu'avec votre consentement.

Tout le contenu utilisé pour générer des adaptateurs est traité en interne dans Amazon Textract pendant toute la durée de la formation. Le contenu est crypté au repos et en transit. Le contenu est stocké et traité dans la région AWS où vous entraînez l'adaptateur, et il est supprimé une fois la formation terminée. Pour plus d'informations, rendez-vous sur https://docs.aws.amazon.com/textract/latest/dg/data-protection.html.

Oui, AWS a étendu son programme de conformité HIPAA et comprend désormais Amazon Textract comme service éligible HIPAA. Si vous avez signé un accord de partenariat (BAA) avec AWS, vous pouvez utiliser Amazon Textract pour extraire du texte, y compris des informations de santé protégées (PHI), à partir d'images.

En savoir plus sur la conformité HIPAA

Textract est éligible HIPAA et conforme aux normes PCI, ISO et SOC. Pour plus d'informations, consultez AWS Artifact dans la Console de gestion AWS, ou rendez-vous sur https://aws.amazon.com/compliance/services-in-scope/. Textract prend également en charge les points de terminaison Amazon Virtual Private Cloud (Amazon VPC) via AWS PrivateLink, ce qui permet aux clients de lancer en toute sécurité des appels d’API vers Amazon Textract depuis leur VPC et d'éviter d'utiliser l'Internet public.