AWS Glue Data Quality

跨資料湖和管道提供高品質資料

為什麼選擇 Glue Data Quality?

如果沒有適當的監督,資料湖可能會變成資料沼澤。設定資料品質檢查不僅耗時、繁瑣,而且容易出錯。您必須手動建立資料品質規則和編寫程式碼,以監控資料管道,並在資料品質下降時提醒資料使用者。AWS Glue Data Quality 將手動品質控管時間從幾天縮短到幾小時。它會自動運算統計資料,建議品質規則,監控,還會在偵測到問題時提醒您。針對隱藏且難以找到的問題,Glue Data Quality 會使用 ML 演算法。以規則為基礎和 ML 方法相結合的強大功能,加上無伺服器、可擴充和開放式解決方案,讓您能夠提供高品質的資料,以做出自信的業務決策。 

AWS Glue Data Quality 的特點

AWS Glue 為無伺服器,所以可以在無須管理基礎設施的情況下擴展。其會為任何資料大小進行擴展,並且具有依用量計費的特點,可提升靈活性並降低成本。AWS Glue Data Quality 使用了 Deequ,其為一種由 Amazon 建置的開放原始碼架構,用來管理 PB 級資料的資料集。由於是使用開放原始碼架構建置而成的,AWS Glue Data Quality 在不須鎖定的情形下,提供了靈活性和可攜性。
AWS Glue Data Quality 會自動為資料集運算統計資料。其使用這些統計資料來推薦一組品質規則,這些規則會檢查新舊程度、準確性、完整性,甚或難以找出的問題。您可以視需要調整建議規則、捨棄規則或新增規則。如果偵測到品質問題,AWS Glue Data Quality 也會提醒您,您就可以對其採取行動。
AWS Glue Data Quality 是智慧型工具。它使用 ML 演算法學習在一段時間內收集到的資料統計資料的模式。它會偵測異常、不尋常的資料模式,並提醒使用者。此外也會自動建立規則來監控這些特定模式,讓您能夠逐步建置資料品質規則。
您的資料位於不同的儲存庫中,並且會從一個儲存庫移動到另一個儲存庫。在資料到達後和資料傳輸時監測資料品質是非常重要的事。AWS Glue Data Quality 規則可套用到資料集和資料湖中的靜態資料,還能套用到傳輸資料中的整個資料管道。您可以在多個資料集中套用規則。對於建置於 AWS Glue Studio 上的資料管道,您可以用較低的成本套用轉換以評估整個管道的品質,因為資料已存在於記憶體中。您也可以定義規則,在品質惡化時停止管道,避免惡意資料登陸資料湖。
使用超過 25 種現成的 AWS Glue Data Quality 規則來驗證您的資料,並識別造成問題的特定資料。使用現成規則執行資料品質檢查,在數分鐘內比較不同資料來源中的不同資料集。您可以使用 Glue ETL 輕鬆修復這些問題,並將高品質的資料擷取至資料儲存庫中。