為什麼選擇 SageMaker 資料處理?
使用來自 Amazon Athena、Amazon EMR、AWS Glue 和 Amazon Managed Workflows for Apache Airflow (Amazon MWAA) 的資料處理功能準備、整合和協調您的資料。處理和整合您的資料,無論其位於何處,都能夠快速輕鬆地連線至數百個資料來源。
使用開放原始碼資料處理架構,例如 Apache Spark、Trino 和 Apache Flink。使用 Trino 大規模分析資料而無需管理基礎設施,以及使用 Apache Flink 和 Apache Spark 無縫建置即時分析。
通過與 Amazon SageMaker Lakehouse 的原生整合,自動化資料品質、敏感資料識別、歷程追蹤和強制執行精細存取控制,確保您的資料準確且安全。
優勢
AWS 服務
簡化資料整合
AWS Glue 提供無伺服器資料整合,簡化來自多個來源的資料探索、準備和整合。連線至不同的資料來源,在集中式資料型錄中管理您的資料,以及直觀地建立、執行和監控 ETL 管道以將資料載入您的資料湖。AWS Glue 可根據需要自動擴展,因此您可以專注於從資料中取得洞見,而無需管理基礎設施。
執行和擴展 Apache Spark、Apache Hive、Trino 和其他工作負載
藉助 Amazon EMR,可以更加輕鬆、經濟高效地執行 Apache Spark、Apache Airflow、Apache Flink、Trino 等資料處理工作負載。建置和執行資料處理管道,並以比內部部署解決方案更快的速度自動擴展。
追蹤成本
Athena 提供簡化且靈活的方式來分析任何規模的資料。Athena 是一項互動式查詢服務,可使用標準 SQL 簡化 Amazon S3 中的資料分析。Athena 是無伺服器服務,因此無需設定或管理基礎設施,並且您可以選擇根據執行的查詢或查詢所需的運算資源付費。使用 Athena 處理日誌、執行資料分析及執行互動式查詢。Athena 會自動擴展 (平行完成查詢),因此可以很快取得結果,即使是大型資料集和複雜查詢也是一樣。
適用於 Apache Airflow 的專注安全且高度可用的受管工作流程協同運作
Amazon MWAA 是 Apache Airflow 的一項受管服務,可讓您使用目前熟悉的 Apache Airflow 平台來協調工作流程。您可以獲得改善的可擴展性、可用性和安全性,而不會有管理底層基礎設施的營運負擔。AAmazon MWAA 使用以 Python 編寫的有向無環圖 (DAG) 來協調您的工作流程。您可以為 Amazon MWAA 提供 S3 儲存貯體,其中包含您的 DAG、外掛程式和 Python 要求。大規模地部署 Apache Airflow,無需承擔管理底層基礎設施的營運負擔。