Amazon SageMaker 資料處理常見問答集

一般問題

SageMaker Data Processing 使用來自 Amazon Athena、Amazon EMR、AWS Glue 和 Amazon Managed Workflows for Apache Airflow (Amazon MWAA) 的處理功能分析、準備、整合和協調您的資料。您可以利用開放原始碼資料處理架構 (例如 Apache Spark),使用 Trino 大規模分析資料,以及使用 Apache Flink 和 Apache Spark 無縫建置即時分析。

SageMaker Data Processing 結合了 Amazon EMRAthenaAWS GlueAmazon MWAA

SageMaker Data Processing 可協助您探索資料,建置資料轉換任務,協調和大規模部署資料管道。透過經濟高效且與開放原始碼 API 相容的 Apache Spark、Apache Airflow、Apache Flink、Trino 等版本,該服務可提升效能,同時比傳統開放原始碼系統更快地取得洞見。SageMaker Data Processing 可透過零 ETL 整合、聯合查詢功能和連接器來存取 Amazon SageMaker Lakehouse 中的資料來源。

遷移和存取

不,您不需要遷移到 SageMaker。您可以像今天一樣繼續使用 Amazon EMR、Athena、AWS Glue 和 Amazon MWAA。然而,我們建議您開始使用 Amazon SageMaker,以利用統一的工具、內建的資料控管,以及簡化的 Amazon SageMaker Lakehouse 架構。

對於您在 Amazon EMR、Athena 或 AWS Glue 建立和使用的目前程式碼、查詢、任務和其他資源,不會產生任何影響。如果您願意,可以繼續利用這些服務來處理新工作負載。在這些服務中建立的資源 (例如 Amazon Elastic Compute Cloud (Amazon EC2) 叢集上的 Amazon EMR) 可在 SageMaker 中顯示,以簡化分析和 AI 應用程式的開發。除 SageMaker 中的新開發體驗之外,Amazon EMR、AWS Glue 和 Athena 中內建的現有開發體驗仍將繼續存在。

SageMaker 中提供最新版本的 AWS Glue,即 AWS Glue 5.0。AWS Glue 5.0 加速資料處理工作負載,並提供最新的效能最佳化 Apache Spark 3.5.2 執行時期,讓您可以開發、執行和擴展以更快取得洞見。若要進一步了解,請造訪 AWS Glue

定價

您透過 SageMaker 使用的每項 AWS 服務均須遵守其個別定價。如需詳細資訊,請參閱 AthenaAmazon EMRAWS GlueAmazon MWAA 的 AWS 定價頁面。