Amazon SageMaker Lakehouse 常見問答集

一般問題

Amazon SageMaker Lakehouse 會在 Amazon Simple Storage Service (Amazon S3) 資料湖和 Amazon Redshift 資料倉儲中整合所有資料,協助您在單一資料複本上建置強大的分析和 AI/ML 應用程式。SageMaker Lakehouse 提供彈性,可讓您使用與所有 Apache Iceberg 相容的工具和引擎來存取和查詢資料。透過定義許可來保護 Lakehouse 中的資料,這些許可在所有分析和機器學習 (ML) 工具與引擎中強制執行。透過零 ETL 整合,將來自營運資料庫和應用程式的資料近乎即時地匯入您的資料湖。此外,透過第三方資料來源之間的聯合查詢功能就地存取和查詢資料。

SageMaker Lakehouse:

a) 透過在 Amazon S3 資料湖和 Amazon Redshift 資料倉儲中提供對資料的統一存取來減少資料孤島。營運資料庫和應用程式中的資料可以近乎即時擷取到您的 Lakehouse 中,以便使用無程式碼或低程式碼擷取、轉換和載入 (ETL) 管道進行分析和 ML。您也可以使用數百個連接器和 13 個聯合查詢功能存取來自 AWS 和 AWS 以外來源的資料。

b) 讓您可以靈活地從與 Apache Iceberg 相容的各種 AWS 服務以及開放原始碼和第三方工具和引擎中就地存取和查詢所有資料。您可以使用自己選擇的分析工具和引擎,例如 SQL、Apache Spark、商業智慧 (BI) 和 AI/ML 工具,並與儲存在 Amazon S3 或 Amazon Redshift 中的單一資料副本進行協作。

c) 透過內建的存取控制機制來改善企業安全性,該機制可在從整合的 AWS 服務 (例如 Amazon Redshift、Amazon Athena 或 Amazon EMR) 或第三方 Apache Iceberg 相容引擎存取時保護您的資料。

您可以從 Amazon SageMaker Unified Studio (預覽版) 直接存取 SageMaker Lakehouse。不同來源的資料會在 SageMaker Lakehouse 中稱為型錄的邏輯容器內進行組織。每個型錄都代表來自現有資料來源 (例如 Amazon Redshift 資料倉儲、資料湖或資料庫) 的資料。您可以直接在資料湖中建立新型錄,以將資料儲存在 Amazon S3 或 Amazon Redshift Managed Storage (RMS) 中。可以從與 Apache Iceberg 相容的引擎 (例如 Apache Spark、Athena 或 Amazon EMR) 存取 SageMaker Lakehouse 中的資料。此外,這些型錄可以作為 Amazon Redshift 資料倉儲中的資料庫被發現,從而可讓您使用 SQL 工具並分析資料湖資料。

功能

SageMaker Lakehouse 使用兩種功能統一資料存取控制:1) SageMaker Lakehouse 可讓您定義精細的許可。這些許可由 Amazon EMR、Athena 和 Amazon Redshift 等查詢引擎強制執行。2) SageMaker Lakehouse 可讓您就地存取資料,從而無需建立資料副本。您可以維護單一資料副本和一組存取控制政策,從而受益於 SageMaker Lakehouse 中的統一精細存取控制。

SageMaker Lakehouse 以 AWS Glue Data Catalog、Lake Formation 和 Amazon Redshift 中的多個技術型錄為基礎建置,以提供跨資料湖和資料倉儲的統一資料存取。SageMaker Lakehouse 使用 AWS Glue Data Catalog 和 Lake Formation 來儲存資料表定義和許可。Lake Formation 精細許可適用於 SageMaker Lakehouse 中定義的資料表。您可以在 AWS Glue Data Catalog 中管理資料表定義,並定義精細的許可,例如資料表層級、欄層級和儲存格層級許可,以此保護您的資料。此外,使用跨帳戶資料共用功能,您可以啟用零副本資料共用,讓資料可供安全協作使用。

是。需要使用開放原始碼的 Apache Iceberg 用戶端程式庫來存取 SageMaker Lakehouse。使用第三方或自我管理的開放原始碼引擎 (例如 Apache Spark 或 Trino) 的客戶需要在查詢引擎中包含 Apache Iceberg 用戶端程式庫,才能存取 SageMaker Lakehouse。

是,您可以使用 Apache Iceberg 用戶端程式庫,從 AWS 服務 (例如 Amazon EMR、AWS Glue、Athena 和 Amazon SageMaker 或第三方 Apache Spark) 上的 Apache Spark 引擎讀取和寫入資料至現有的 Amazon Redshift。但是,您必須具備資料表的適當寫入許可,才能將資料寫入這些資料表。

是,您可以使用選擇的引擎 (例如 Apache Spark),將 Amazon S3 上的資料湖表與跨多個資料庫的 Amazon Redshift 資料倉儲中的資料表聯結。

遷移

否,您無需移轉資料即可使用 SageMaker Lakehouse。SageMaker Lakehouse 可讓您使用 Apache Iceberg 的開放標準就地存取和查詢資料。您可以直接存取 Amazon S3 資料湖和 Amazon Redshift 資料倉儲中的資料。透過可用的零 ETL 整合,可以將來自營運資料庫和應用程式的資料近乎即時地傳輸到 Lakehouse,而無需維護基礎設施或複雜的管道。您也可以使用聯合查詢功能來存取就地資料。除此之外,您還可以使用數百個 AWS Glue 連接器與現有的資料來源整合。

如果您已經是 Amazon Redshift 使用者,僅需幾個簡單的步驟即可向 SageMaker Lakehouse 註冊您的 Amazon Redshift 資料倉儲,並且無需移轉資料。請按照開發人員指南中的步驟操作。

如果您已使用 AWS Glue Data Catalog 設定 Amazon S3 資料湖,則無需進行任何變更。

零 ETL 整合

SageMaker Lakehouse 支援與 Amazon DynamoDB、Amazon Aurora 和 Amazon RDS for MySQL 以及八種應用程式的零 ETL 整合:Zoho CRM、Salesforce、Salesforce Pardot、ServiceNow、Facebook 廣告、Instagram 廣告、Zendesk 和 SAP。

您可以使用 AWS Glue 在 Amazon SageMaker 資料處理中透過 AWS Glue 主控台來設定和監控零 ETL 整合。一旦擷取資料,您就可以從 Apache Iceberg 相容的查詢引擎存取和查詢資料。如需詳細資訊,請造訪零 ETL 整合

若要進一步了解定價,請造訪 SageMaker LakehouseAWS Glue 定價頁面。

定價

如需詳細資訊,請造訪 SageMaker Lakehouse 定價

可用性

SageMaker Lakehouse 在美國東部 (維吉尼亞北部)、美國東部 (俄亥俄)、美國西部 (奧勒岡)、亞太區域 (香港)、亞太區域 (首爾)、亞太區域 (新加坡)、亞太區域 (雪梨)、亞太區域 (東京)、加拿大 (中部)、歐洲 (法蘭克福)、歐洲 (愛爾蘭)、歐洲 (倫敦)、歐洲 (斯德哥爾摩) 和南美洲 (聖保羅) 區域提供。

是。SageMaker Lakehouse 會將中繼資料儲存在 AWS Glue Data Catalog 中,並提供與 Amazon Glue 相同的 SLA。

入門

若要開始使用,您可以使用 SageMaker Unified Studio 上的公司 (例如 Okta) 憑證登入自己的 SageMaker 網域。藉助 SageMaker Unified Studio 中的幾個簡短步驟,管理員可以透過選擇特定專案設定檔來建立專案。然後,您可以選擇一個專案以與 Sage Maker Lakehouse 結合使用。選取專案後,您可以在一個位置統一檢視資料、查詢引擎和開發人員工具。然後,資料工程師和資料分析師等使用者可以使用自己選擇的工具查詢資料。例如,當資料工程師使用筆記本並發出 Spark 命令來列出資料表時,他們可探索有權存取的所有資料倉儲和資料湖資料表。接下來,他們可以執行命令,讀取資料並將其寫入實際儲存在 Amazon S3 資料湖或 Amazon Redshift 資料倉儲中的資料表。同樣,當資料分析師從 SQL 編輯器執行 Amazon Redshift SQL 命令時,他們會取得相同的統一資料檢視,並可以讀取資料和將其寫入這些資料表。您可以使用偏好的工具 (SQL 編輯器或筆記本) 在 Amazon S3 或 Amazon Redshift 中建立新資料表。查詢 Amazon Redshift 具體化視觀表,以加快提升資料湖資料表的效能。除 SageMaker Unified Studio 外,您還可以從 AWS 管理主控台、AWS Glue API、AWS Command Line Interface (AWS CLI)AWS SDK 存取 SageMaker Lakehouse。如需詳細資訊,請造訪「文件」頁面。