Amazon SageMaker 資料處理

針對任何規模的分析和 AI 分析、準備和整合資料

為什麼選擇 SageMaker 資料處理?

使用來自 Amazon Athena、Amazon EMR、AWS Glue 和 Amazon Managed Workflows for Apache Airflow (Amazon MWAA) 的資料處理功能準備、整合和協調您的資料。處理和整合您的資料,無論其位於何處,都能夠快速輕鬆地連線至數百個資料來源。

使用開放原始碼資料處理架構,例如 Apache Spark、Trino 和 Apache Flink。使用 Trino 大規模分析資料而無需管理基礎設施,以及使用 Apache Flink 和 Apache Spark 無縫建置即時分析。

通過與 Amazon SageMaker Lakehouse 的原生整合,自動化資料品質、敏感資料識別、歷程追蹤和強制執行精細存取控制,確保您的資料準確且安全。

優勢

Amazon SageMaker 資料處理提供對資料和串流處理架構、開放原始碼分散式 SQL 查詢引擎以及最流行工具 (如筆記本、查詢編輯器和視覺化擷取、轉換和載入 (ETL)) 的全面存取。

您可以存取最受歡迎的架構,例如 Apache Spark,以準備和整合任何規模的資料。藉助 Apache Flink 和 Apache Spark Streaming 進行串流處理來回應即時業務需求,以及藉助 Trino 等領先的開放原始碼 SQL 架構分析資料。藉助與適用於 Amazon MWAA 的原生整合,簡化工作流程協同運作且無需管理基礎設施。

SageMaker 資料處理與 SageMaker Lakehouse 原生整合,讓您可以使用一份資料副本來處理和整合所有使用案例,包括分析、臨機查詢、機器學習 (ML) 和生成式 AI。

SageMaker Lakehouse 會統一 Amazon Simple Storage Service (Amazon S3) 資料湖和 Amazon Redshift 資料倉儲之間的資料,為您的資料提供統一存取。您可以藉助數百個連接器、零 ETL 整合和聯合資料來源探索與分析資料湖中統一的資料,從而全面掌握業務狀況。SageMaker Lakehouse 可與現有的資料架構立即搭配即用,而不會受特定儲存格式或查詢引擎選擇限制。

透過 Apache Iceberg 資料表的快速查詢效能來提高效率。透過高效能且與開放原始碼 API 相容的 Apache Spark、Apache Airflow、Apache Flink、Trino 等版本,可以按照比傳統開放原始碼系統快 2 倍的速度取得洞見。

SageMaker 資料處理可讓您專注於轉換和分析資料,而無需管理運算容量或開放原始碼應用程式,從而節省時間並降低成本。您可以針對 Amazon Elastic Compute Cloud (Amazon EC2) 上的 Amazon EMR 或 Amazon Elastic Kubernetes Service (Amazon EKS) 上的 Amazon EMR 自動佈建容量。擴展規則可管理運算需求的變更,以最佳化效能和執行時間。

透過與 Amazon SageMaker Catalog 整合,利用自動化資料品質報告、敏感資料偵測以及資料和 AI 模型的歷史追蹤取得信任和透明度。透過自動測量、監控和資料品質規則建議,增加使用者對資料品質的信心。

透過遵守和強制執行 SageMaker Lakehouse 中資料集上定義的精細存取控制來安全地處理和分析您的資料,讓您能夠定義一次許可,即可使整個組織中的授權使用者均可存取您的資料。

AWS 服務

簡化資料整合

AWS Glue 提供無伺服器資料整合,簡化來自多個來源的資料探索、準備和整合。連線至不同的資料來源,在集中式資料型錄中管理您的資料,以及直觀地建立、執行和監控 ETL 管道以將資料載入您的資料湖。AWS Glue 可根據需要自動擴展,因此您可以專注於從資料中取得洞見,而無需管理基礎設施。

執行和擴展 Apache Spark、Apache Hive、Trino 和其他工作負載

藉助 Amazon EMR,可以更加輕鬆、經濟高效地執行 Apache Spark、Apache Airflow、Apache Flink、Trino 等資料處理工作負載。建置和執行資料處理管道,並以比內部部署解決方案更快的速度自動擴展。

追蹤成本

Athena 提供簡化且靈活的方式來分析任何規模的資料。Athena 是一項互動式查詢服務,可使用標準 SQL 簡化 Amazon S3 中的資料分析。Athena 是無伺服器服務,因此無需設定或管理基礎設施,並且您可以選擇根據執行的查詢或查詢所需的運算資源付費。使用 Athena 處理日誌、執行資料分析及執行互動式查詢。Athena 會自動擴展 (平行完成查詢),因此可以很快取得結果,即使是大型資料集和複雜查詢也是一樣。

適用於 Apache Airflow 的專注安全且高度可用的受管工作流程協同運作

Amazon MWAA 是 Apache Airflow 的一項受管服務,可讓您使用目前熟悉的 Apache Airflow 平台來協調工作流程。您可以獲得改善的可擴展性、可用性和安全性,而不會有管理底層基礎設施的營運負擔。AAmazon MWAA 使用以 Python 編寫的有向無環圖 (DAG) 來協調您的工作流程。您可以為 Amazon MWAA 提供 S3 儲存貯體,其中包含您的 DAG、外掛程式和 Python 要求。大規模地部署 Apache Airflow,無需承擔管理底層基礎設施的營運負擔。

使用案例

快速識別並存取 AWS、內部部署和其他雲端的資料,然後立即提供查詢和轉換。

使用 Apache Spark、Apache Flink 和 Trino 等架構以及各種工作負載 (包括批次、微批次和串流) 處理資料。

使用統計演算法和預測模型執行大規模資料處理和假設分析,以發現隱藏的模式、相關性、市場趨勢和客戶偏好。