Amazon SageMaker Lakehouse 定價

Amazon SageMaker 資料湖倉會在 Amazon Simple Storage Service (Amazon S3) 資料湖和 Amazon Redshift 資料倉儲中整合所有資料,協助您在單一資料複本上建置強大的分析和 AI/ML 應用程式。SageMaker 資料湖倉提供彈性,可讓您使用與所有 Apache Iceberg 相容的工具和引擎來存取和查詢資料。它透過定義精細的權限 (這些權限會於所有分析和機器學習 (ML) 工具和引擎中一致地套用) 來保護湖倉儲中的資料。除了這些優勢之外,您還可以透過零 ETL 整合存取運作中資料庫和應用程式中的資料,並透過資料湖倉中的聯合查詢功能存取第三方來源的資料。

您可以從 Amazon SageMaker Unified Studio (預覽版) 直接存取 SageMaker 資料湖倉。不同來源的資料會在 SageMaker 資料湖倉中稱為型錄的邏輯容器內進行組織。每個型錄代表來自資料倉儲和第三方資料庫等現有資料來源的資料,或直接在資料湖倉中建立的資料,以將資料儲存在 Amazon S3 或 Amazon Redshift Managed Storage (RMS) 中。查詢引擎可以連線至這些型錄,並使用 Apache Iceberg API 就地存取資料。您可以使用任何與 Apache Iceberg 相容的引擎 (例如 Apache Spark、Trino、Amazon Athena 或 Amazon EMR) 以 Apache Iceberg 資料表的形式存取資料,並從其第一方和第三方查詢引擎查詢資料。同樣的,型錄作為資料庫掛載在第一方查詢引擎 (例如 Amazon Redshift 叢集和工作小群組) 中。透過 Java 資料庫連線 (JDBC) 或 Amazon Redshift 查詢編輯器 V2 從查詢工具連線至資料庫,以使用 SQL 進行查詢。

SageMaker 資料湖倉的定價

SageMaker 資料湖倉包含以下底層元件。您需要為資料湖倉上使用的元件付費。

SageMaker 資料湖倉中繼資料:資料定義使用 AWS Glue Data Catalog 以型錄、資料庫和資料表的邏輯層次結構進行組織。

  • 型錄:一種邏輯容器,用於儲存資料存放區中的物件,例如來自 Amazon Redshift 的結構描述、資料表、檢視或具體化視觀表。您可以在型錄下方嵌套型錄,以使其與資料來源的層次結構相對應。
  • 資料庫:資料庫可用於組織資料湖倉中的資料物件 (例如資料表和檢視)。
  • 資料表與檢視:資料表和檢視是資料庫中的資料物件,描述如何存取底層資料,例如結構描述、分割區、儲存位置、儲存格式以及存取資料的 SQL 查詢。

SageMaker 資料湖倉的中繼資料可以使用 AWS Glue API 存取。對於中繼資料儲存和 API 請求,適用 AWS Glue Data Catalog 中繼資料定價,包括 AWS 免費方案。如需詳細資訊,請參閱 AWS Glue 定價。

資料儲存與存取:您可以使用 SageMaker 資料湖倉,在 Amazon S3 或 RMS 中讀取和寫入資料。根據您選擇在資料湖倉中儲存資料的儲存類型,存取底層儲存將產生額外的儲存和運算費用。如需進一步了解各儲存類型的儲存和運算定價,請參閱 AWS Glue 定價。

統計和 Apache Iceberg 資料表維護:在 SageMaker 資料湖倉中,您可以自動收集 Amazon S3 中資料湖資料表的統計資訊,以加快查詢執行和 Apache Iceberg 資料表維護 (例如壓縮) 速度,以最佳化 Apache Iceberg 資料表的儲存配置。啟用這些功能將產生額外費用。如需詳細資訊,請參閱 AWS Glue 定價。

許可:SageMaker 資料湖倉中的精細許可由 AWS Lake Formation 提供。SageMaker 資料湖倉的許可是免費的。如需詳細資訊,請參閱 Lake Formation 定價。

零 ETL 整合費用

SageMaker 與應用程式實現零 ETL 整合,讓您無需建置和管理擷取、轉換和載入 (ETL) 管道。支援的應用程式包括 Salesforce、ServiceNow、Zendesk 等。

這些整合可為您提供靈活性,讓您可以選擇應用程式中的特定資料表,以自動複製到 Amazon Redshift。這種靈活性可讓您跨多個應用程式和資料來源執行統一分析。AWS 不會對零 ETL 整合收取額外費用。您需要為使用資源,建立和處理做為零 ETL 整合一部分而建立的變更資料付費。這包括用於存放覆寫資料的額外 Amazon Redshift 儲存體、處理資料複寫的運算資源 (或 RPUs on Amazon Redshift Serverless),以及將資料從來源移至目標的跨可用區域資料傳送成本。透過零 ETL 整合持續處理資料變更,而無需額外費用。如需詳細資訊,請參閱 Amazon Aurora 定價Amazon Relational Database (Amazon RDS) for MySQL 定價Amazon DynamoDB 定價AWS Glue 定價