Tarification d’Amazon SageMaker Lakehouse

Amazon SageMaker Lakehouse unifie toutes vos données dans les lacs de données Amazon Simple Storage Service (Amazon S3) et les entrepôts de données Amazon Redshift, vous aidant ainsi à créer de puissantes applications d’analytique et d’IA/ML sur une seule copie des données. SageMaker Lakehouse vous offre la flexibilité nécessaire pour accéder à vos données et les interroger à l’aide de tous les outils et moteurs compatibles avec Apache Iceberg. Il sécurise vos données dans le lakehouse en définissant des autorisations précises, qui sont appliquées de manière cohérente à tous les outils et moteurs d’analytique et de machine learning (ML). Outre ces avantages, accédez à vos données à partir de bases de données et d’applications opérationnelles grâce à des intégrations zéro ETL et à des données provenant de sources tierces grâce à des fonctionnalités de requêtes fédérées dans le Lakehouse.

SageMaker Lakehouse est directement accessible depuis Amazon SageMaker Unified Studio (version préliminaire). Les données provenant de différentes sources sont organisées dans des conteneurs logiques appelés catalogues dans SageMaker Lakehouse. Chaque catalogue représente des données provenant de sources de données existantes telles que des entrepôts de données et des bases de données tierces ou créées directement dans le Lakehouse pour stocker des données dans Amazon S3 ou Amazon Redshift Managed Storage (RMS). Les moteurs de requêtes peuvent se connecter à ces catalogues et accéder aux données sur place grâce aux API Apache Iceberg. Vous pouvez utiliser n’importe quel moteur compatible avec Apache Iceberg, tel qu’Apache Spark, Trino, Amazon Athena ou Amazon EMR pour accéder aux données sous forme de tables Apache Iceberg et les interroger à partir de leurs moteurs de requête internes et tiers. De même, les catalogues sont montés dans des moteurs de requête de première partie tels que les clusters et les groupes de travail Amazon Redshift en tant que bases de données. Connectez-vous aux bases de données à partir d’outils d’interrogation via Java Database Connectivity (JDBC) ou Amazon Redshift Query Editor V2 pour effectuer des requêtes à l’aide de SQL.

Tarification de SageMaker Lakehouse

SageMaker Lakehouse possède les composants sous-jacents ci-dessous. Vous payez les composants que vous utilisez sur Lakehouse.

Métadonnées de SageMaker Lakehouse : les définitions de données sont organisées selon une hiérarchie logique de catalogues, de bases de données et de tables à l’aide du catalogue de données AWS Glue.

  • Catalogue : un conteneur logique qui contient des objets provenant d’un magasin de données tels que des schémas, des tables, des vues ou des vues matérialisées d’Amazon Redshift. Vous pouvez imbriquer des catalogues sous un catalogue pour faire correspondre les niveaux de hiérarchies de la source de données que vous apportez au Lakehouse.
  • Base de données : les bases de données peuvent être utilisées pour organiser les objets de données tels que les tables et les vues du Lakehouse.
  • Tables et vues : les tables et les vues sont des objets de données d’une base de données qui décrivent comment accéder aux données sous-jacentes telles que le schéma, les partitions, l’emplacement de stockage, le format de stockage et les requêtes SQL pour accéder aux données.

Les métadonnées de SageMaker Lakehouse sont accessibles depuis les API AWS Glue. Pour le stockage des métadonnées et les demandes d’API, la tarification des métadonnées du catalogue de données AWS Glue s’applique, y compris l’offre gratuite AWS. Pour plus d’informations, consultez la page de tarification d’AWS Glue.

Stockage et accès aux données : à l’aide de SageMaker Lakehouse, vous pouvez lire et écrire des données dans Amazon S3 ou RMS. Selon le type de stockage que vous choisissez pour stocker les données dans le Lakehouse, vous devrez supporter des coûts de stockage et de calcul supplémentaires pour accéder au stockage sous-jacent. Consultez la page de tarification d’AWS Glue pour en savoir plus sur la tarification du stockage et du calcul pour les types de stockage.

Statistiques et maintenance des tables Apache Iceberg : dans SageMaker Lakehouse, vous pouvez automatiser la collecte de statistiques sur les tables des lacs de données dans Amazon S3 pour accélérer l’exécution des requêtes et la maintenance des tables Apache Iceberg, comme le compactage, afin d’optimiser la disposition de stockage de vos tables Apache Iceberg. Des frais supplémentaires vous seront facturés lorsque vous activerez ces fonctionnalités. Pour plus d’informations, consultez la page de tarification d’AWS Glue.

Autorisations : les autorisations précises dans SageMaker Lakehouse sont à technologie AWS Lake Formation. Les autorisations sur SageMaker Lakehouse sont gratuites. Pour plus de détails, consultez la page de tarification de Lake Formation.

Coûts d’intégration zéro ETL

SageMaker dispose d’intégrations zéro ETL avec des applications, ce qui élimine le besoin de créer et de gérer des pipelines d’extraction, transformation et chargement (ETL). Les applications prises en charge incluent notamment Salesforce, ServiceNow et Zendesk.

Ces intégrations vous offrent de la flexibilité. Vous pouvez donc choisir des tables de données spécifiques dans une application à répliquer automatiquement sur Amazon Redshift. Cette flexibilité vous permet d’exécuter des fonctionnalités d’analytique unifiées sur plusieurs applications et sources de données. AWS ne facture aucuns frais supplémentaires pour l'intégration zéro ETL. Vous payez pour les ressources existantes utilisées pour créer et traiter les données de modification créées dans le cadre d’une intégration zéro ETL. Cela inclut le stockage Amazon Redshift supplémentaire pour le stockage des données répliquées, les ressources de calcul pour le traitement de la réplication des données (ou les RPU sur Amazon Redshift sans serveur) et les coûts de transfert de données entre plusieurs AZ pour le transfert de données de la source vers la cible. Le traitement continu des modifications de données par intégration zéro ETL est proposé sans frais supplémentaires. Pour plus d’informations, consultez les pages Tarification d’Amazon Aurora, Tarification d’Amazon Relational Database (Amazon RDS) pour MySQL, Tarification d’Amazon DynamoDB et Tarification d’AWS Glue.