為什麼選擇 Glue?

使用 AWS Glue 需支付網路編目程式 (探索資料) 和擷取、轉換和載入 (ETL) 任務 (處理和載入資料) 的費用,以每小時費率按秒計費。對於 AWS Glue Data Catalog,您只需支付存放和存取中繼資料的月費。存放的前一百萬個物件免費,前一百萬次存取也免費。如果要以互動方式開發 ETL 程式碼而佈建一個開發端點,則您的費用是以每小時費率按秒計費。對於 AWS Glue DataBrew,互動式工作階段按工作階段計費,而 DataBrew 任務按分鐘計費。使用 AWS Glue 結構描述登錄檔無須額外費用。

注意:定價會視 AWS 區域而異。

  • ETL 任務和互動式工作階段
  • 定價範例

    ETL 任務:考慮一個執行 15 分鐘並使用 6 個 DPU 的 AWS Glue Apache Spark 任務。1 個 DPU 小時的價格是 0.44 USD。由於您的任務執行了 1/4 小時並使用了 6 個 DPU,AWS 將向您收取 6 個 DPU * 1/4 小時 * 0.44 USD,即 0.66 USD。

    AWS Glue Studio Job Notebooks 和互動式工作階段:假設您使用 AWS Glue Studio 中的一個筆記本以互動方式開發 ETL 程式碼。依預設,一個互動式工作階段具有 5 個 DPU。如果工作階段持續執行 24 分鐘 (2/5 小時),我們將依照每 DPU 小時 0.44 USD 的費率,向您收取 5 個 DPU * 2/5 小時 (0.88 USD) 的費用。

    ML 轉換:與 AWS Glue 任務執行類似,在資料上執行 ML 轉換 (包括 FindMatches) 的費用依資料大小、資料內容及使用的節點數目和類型而異。在下列的範例中,我們使用 FindMatches 整合多個資料來源的興趣點資訊。若資料集大小為約 11,000,000 列 (1.6GB),在 16 個 G.2x 類型的執行個體上執行約 8,000 列 (641 KB) 的標籤資料大小 (確實比對相符或比對不相符的範例) 時,將會產生 34 分鐘的標籤集產生執行期、費用為 8.23 USD,指標預計執行階段為 11 分鐘、費用為 2.66 USD,FindingMatches 任務執行期為 32 分鐘、費用 7.75 USD。

  • 資料型錄
  • 定價範例

    AWS Glue Data Catalog 免費方案:假設您在某個月於 Data Catalog 存放一百萬個表格,而請求存取這些表格一百萬次。因為用量未超出 AWS Glue Data Catalog 免費方案的範圍,所以需要支付的費用是 0 USD。每月所存放的前一百萬個物件和前一百萬次請求是免費的。

    AWS Glue Data Catalog:現在假設您的儲存用量仍是每月一百萬個表格,但請求倍增至每月兩百萬次。假設您另外使用爬蟲程式尋找新表格,其執行時間為 30 分鐘,使用 2 個 DPU。

    您的儲存費用仍是 0 USD,因為前一百萬個表格的儲存免費。前一百萬次請求也是免費的。您必須支付超出免費方案的一百萬次請求的費用,金額為 1 USD。爬蟲程式是以每 DPU 小時 0.44 USD 的費率計費,因此,我們將依照每 DPU 小時 0.44 USD 的費率,向您收取 2 個 DPU * 1/2 小時 (0.44 USD) 的費用。

    如果您對 Glue 資料表產生統計資料,而且統計資料執行需要 10 分鐘並消耗 1 個 DPU,則將按 1 個 DPU * 1/6 小時 * 0.44 USD/DPU 小時計費,相當於 0.07 USD。

    如果您壓縮 Apache Iceberg 資料表,並且壓縮執行 30 分鐘並消耗 2 個 DPU,則將按 2 個 DPU * 1/2 小時 * 0.44 USD/DPU 小時計費,相當於 0.44 USD。

  • 爬蟲程式
  • DataBrew 互動式工作階段
  • 定價範例

    AWS Glue DataBrew:每 30 分鐘互動式工作階段的價格為 1.00 USD。如果您在上午 9 點開始工作階段,立即離開主控台,然後在上午 9 點 20 分到 9 點 30 分返回,這將使用 1 個工作階段,總計 1.00 USD。

    如果您在上午 9 點開始工作階段並在上午 9 點 50 分之前與 DataBrew 主控台互動,退出 DataBrew 專案空間,然後在上午 10 點 15 分返回進行最後的互動,這將使用 3 個工作階段,每個工作階段 1.00 USD,總計 3.00 USD。

  • DataBrew 任務
  • 定價範例

    AWS Glue DataBrew:如果一項 DataBrew 任務執行 10 分鐘並使用 5 個 DataBrew 節點,則價格為 0.40 USD。任務執行時間為 1/6 小時,使用 5 個節點,因此,我們將依照每節點小時 0.48 USD 的費率,向您收取 5 個節點 * 1/6 小時 * 每節點小時 0.48 USD,總計為 0.40 USD。

  • 資料品質
  • AWS Glue Data Quality 可協助您實現高資料品質,藉此來建立您對資料的信心。它會自動測量、監控和管理資料湖和管道中的資料品質,從而更輕鬆地識別遺失、陳舊或不良資料。

    您可以從 Data Catalog 和 AWS Glue Studio,以及透過 AWS Glue API 存取資料品質功能。

    管理 Data Catalog 中編目的資料集資料品質的定價:

    您可以從 Data Catalog 中選擇資料集並產生建議。此動作會建立一個推薦任務,您將為其佈建資料處理單元 (DPU)。取得建議後,您可以修改或新增新規則並對其排程。這些任務稱為 Data Quality 任務,您將為其佈建 DPU。您需要至少 2 個 DPU,最低帳單持續時間為 1 分鐘。

    管理 AWS Glue ETL 處理的資料集資料品質的定價:

    您還可以將資料品質檢查新增至 ETL 任務中,以防止不良資料進入資料湖。這些資料品質規則將駐留在 ETL 任務中,從而導致執行時期增加或 DPU 取用增加。或者,您也可以針對非 SLA 敏感性工作負載使用彈性執行。

    偵測 AWS Glue ETL 中異常狀況的定價:

    異常偵測︰
    除了 ETL 任務 DPU 以外,偵測異常所需時間內,每項統計都會產生 1 個 DPU。平均需要 10-20 秒會偵測 1 項統計的異常。假設您設定兩項規則 (規則 1:資料磁碟區必須大於 1000 筆記錄,規則 2:資料欄計數必須大於 10) 和一個分析器 (分析器 1:監控資料欄的完整性)。此組態會產生三項統計資料:資料列計數、資料欄計數和資料欄的完整性百分比。偵測異常所需時間內,您將需要支付 3 個額外 DPU 的費用,最低計費時間為 1 秒。請參閱範例 – 4 獲取更多詳細資訊。

    重新訓練:
    您可能想要排除異常任務執行或統計資料,以便異常偵測演算法準確預測後續異常狀況。為此,AWS Glue 可讓您排除或包含統計資料。在重新訓練所需時間內,您將需要 1 個 DPU 來重新訓練模型。 每項統計平均需要 10 秒至 20 分鐘進行重新訓練。如需詳細資訊,請參閱範例 5。

    統計資料儲存:
    存放收集的統計資料不收取任何費用。每個帳戶的統計資料限制為 100K,並將存放 2 年。

    其他費用︰
    AWS Glue 可直接處理來自 Amazon Simple Storage Service (Amazon S3) 的資料。使用 AWS Glue 讀取資料不需另付儲存費用。您只需針對儲存、請求和資料傳輸支付標準 Amazon S3 費率。根據您的組態,暫時檔案、資料品質結果和隨機顯示檔案會存放在您選擇的 S3 儲存貯體中,並依標準 S3 費率計費。


    如果您使用 Data Catalog,則會依標準 Data Catalog 費率計費。如需詳細資訊,請選擇 Data Catalog 儲存和請求標籤。

    定價範例

    範例 1 – 取得有關 Data Catalog 中資料表的建議

    例如,考慮一項具有 5 個 DPU 且在 10 分鐘內完成的推薦任務。須支付 5 個 DPU * 1/6 小時 * 0.44 USD,即 0.37 USD。

    範例 2 – 評估 Data Catalog 中資料表的資料品質

    檢閱建議後,您可以根據需要對其進行編輯,然後佈建 DPU 來排程資料品質任務。例如,考慮一項具有 5 個 DPU 且在 20 分鐘內完成的資料品質評估。
    須支付 5 個 DPU * 1/3 小時 * 0.44 USD,即 0.73 USD。

    範例 3 – 評估 AWS Glue ETL 任務中的資料品質

    您還可以將這些資料品質檢查新增至 AWS Glue ETL 任務中,以防止不良資料進入資料湖。您可以在 AWS Glue Studio 上新增 Data Quality 轉換,或在 AWS Glue Studio 筆記本編寫的程式碼中使用 AWS Glue API 來實現這一點。考慮一項 AWS Glue 任務,在管道內設定資料品質規則之處執行該任務,並使用 6 個 DPU 執行 20 分鐘(1/3 小時)。須支付 6 DPU * 1/3 小時 * 0.44 USD,即 0.88 USD。或者,您可以使用 Flex,須為此支付 6 DPU * 1/3 小時 * 0.29 USD,即 0.58 USD。

    範例 4 – 使用異常偵測來評估 AWS Glue ETL 任務中的資料品質

    假設一項 AWS Glue 任務,在載入 Amazon Redshift 之前從 Amazon S3 讀取資料、轉換資料並執行資料品質檢查。假設該管道有 10 項規則和 10 個分析器,從而收集 20 項統計資料。另外,假設擷取、轉換程序、載入、統計資料收集、資料品質評估將需要 20 分鐘。若未啟用異常偵測,客戶將支付 6 個 DPU * 1/3 小時 (20 分鐘) * 0.44 USD,相當於 0.88 USD (A)。開啟異常偵測後,我們將為每項統計資料新增 1 個 DPU,並且平均需要 15 秒來偵測異常狀況。在此範例中,客戶將產生 20 項統計資料 * 1 個 DPU * 15/3600 (0.0041 小時/統計) * 0.44 USD (每個 DPU/小時的成本) = 0.037 USD (B) 的費用。其任務總成本將為 0.88 USD (A) + 0.037 USD (B) = 0.917 USD。

    範例 5 – 重新訓練

    假設您的 Glue 任務偵測到異常狀況。您決定從模型中排除異常,以便異常偵測演算法準確預測未來的異常狀況。為此,您可以排除此異常統計資料來重新訓練模型。在重新訓練模型所需時間內,每項統計資料將產生 1 個 DPU。平均可能需要 15 秒。在此範例中,假設您排除 1 個資料點,您將產生 1 項統計資料 * 1 個 DPU * 15/3600 (0.0041 小時/統計) * 0.44 USD = 0.00185 USD。

注意:定價會視區域而異。

請檢視全球區域表以進一步了解 AWS Glue 可用性