Amazon S3 Tables

隨著資料湖的擴展最佳化查詢效能和成本

在 S3 中大規模儲存表格式資料

Amazon S3 Tables 可提供首個具有內建 Apache Iceberg 支援的雲端物件存放區,並且簡化大規模儲存表格式資料。持續資料表最佳化會在背景自動掃描和重寫資料表資料,與未受管 Iceberg 資料表相比,查詢效能可提高 3 倍。並且這種效能最佳化將隨時間不斷改進。此外,與儲存在通用 S3 儲存貯體中的 Iceberg 資料表相比,包含針對 Iceberg 工作負載最佳化的 S3 資料表的每秒交易處理量可提高 10 倍。如需有關 S3 資料表查詢效能改進的詳細資訊,請參閱此部落格

藉助適用於 Apache Iceberg 標準的 S3 Tables 支援,您可以透過熱門的 AWS 和第三方查詢引擎 (包括 Amazon Athena、Redshift、EMR 和 Apache Spark) 輕鬆查詢自己的表格式資料。使用 S3 Tables 將表格式資料 (例如每日購買交易、串流感測器資料或廣告曝光) 作為 S3 中的 Iceberg 資料表儲存,並使用自動資料表維護隨著資料的發展最佳化效能和成本。閱讀部落格以進一步了解

優勢

簡化任何規模的資料湖,無論您是剛起步還是正在管理 Iceberg 環境中的數千個資料表。

透過持續資料表最佳化,與未受管的 Iceberg 資料表相比,將查詢效能提高 3 倍;與儲存在一般用途 S3 儲存貯體中的 Iceberg 資料表相比,將資料表的每秒交易量提高 10 倍。

執行持續的資料表維護任務,例如壓縮、快照管理和未參考檔案刪除,以隨著時間的推移自動最佳化查詢效率和成本。

透過 S3 Tables 預覽版與 AWS Glue Data Catalog 的整合,存取進階 Iceberg 分析功能並使用熟悉的 AWS 服務 (如 Amazon Athena、Redshift 和 EMR) 查詢資料。S3 Tables 與熱門的開放原始碼工具相容。

建立資料表作為一流的 AWS 資源並套用許可以輕鬆管理對這些資源的存取。

運作方式

S3 Tables 提供專用 S3 儲存,用於以 Apache Parquet 格式儲存結構化資料。在資料表儲存貯體中,您可以直接在 S3 中建立資料表作為一級資源。這些資料表可以使用以身分或資源為基礎的政策中定義的資料表層級許可來進行保護,並且可以透過支援 Apache Iceberg 標準的應用程式或工具來存取。當您在資料表儲存貯體中建立資料表時,S3 中的基礎資料會儲存為 Parquet 資料。然後,S3 會維護所需的中繼資料,以便您的應用程式可查詢該 Parquet 資料。資料表儲存貯體包括用戶端資料庫,而查詢引擎會使用該資料庫來導覽和更新資料表儲存貯體中資料表的 Iceberg 中繼資料。此程式庫與用於資料表操作的更新的 S3 API 結合,可讓多個用戶端安全地讀取和寫入資料表。隨著時間的推移,S3 會透過重寫或「壓縮」物件來自動最佳化基礎 Parquet 資料。壓縮可最佳化 S3 上的資料,以提高查詢效能並最大程度地降低成本。 如需進一步了解,請閱讀使用者戶指南

Amazon S3 Tables 示範影片

客戶

  • Genesys

    Genesys 是 AI 支援體驗協同運作方面的全球雲端領導者。透過進階的 AI、數位化和員工參與管理功能,Genesys 協助 100 多個國家/地區的 8,000 多個組織提供個人化、富有同理心的客戶和員工體驗,同時可從提高的業務敏捷性和成果中受益。

    Amazon S3 Tables 將為我們的資料架構帶來變革性的新增功能,尤其是憑藉其受管 Iceberg 支援,此支援可以有效地為各種資料分析需求建立具體化視觀表層。該產品有可能協助 Genesys 透過消除額外的資料表管理層來簡化複雜的資料工作流程,其中 S3 會自動處理壓縮、快照管理和未參考檔案清理等關鍵維護任務。直接從 S3 讀取和寫入 Iceberg 資料表的能力將有助於我們提高效能並創造新的可能性,以便在我們的分析生態系統中無縫整合資料。這種互通性結合效能增強功能,使 S3 Tables 成為我們未來戰略的重要組成部分,其可提供快速、靈活且可靠的資料洞見。

    Genesys 技術長 Glenn Nethercutt
  • SnapLogic

    SnapLogic 是 AI 主導整合的先驅。SnapLogic 生成式整合平台加速了整個企業的數位轉型,以設計、部署和管理 AI 代理程式與整合,從而自動執行任務、做出即時決策並輕鬆整合到現有工作流程中。

    Amazon S3 Tables 具備內建 Apache Iceberg 支援和 AWS Analytics 服務整合,可協助公司最佳化資料分析成本,同時轉變公司使用商業資料進行分析、合規性和 AI 計劃的方式。透過自動化複雜的資料管理任務並提供資料變更的完整稽核記錄,團隊可以立即分析歷史資料、維持法規遵循性,加速取得業務洞見,同時顯著降低技術成本。

    SnapLogic 企業架構師 Dominic Wellington
  • Zus Health

    Zus 是一個共用健康資料平台,旨在透過 API、內嵌式元件和直接 EHR 整合提供易於使用的患者資料,從而加速醫療保健資料互通性。

    作為一家處理大量頻繁變化的患者資料的醫療保健公司,我們決定投資 Apache Iceberg,因為它解決了 Apache Hive 在分割和自動化方面的許多痛點,並具有更廣泛互通性的額外優勢。我們在使用 Iceberg 時面臨的最嚴峻挑戰之一是理解和管理資料表最佳化。因此,我們對 S3 Tables 和受管最佳化功能的推出感到興奮不已。能夠減輕開發人員的資料表維護開銷,這將使我們能夠更加專注于為客戶提供高品質的資料和有價值的洞見。

    Zus Health 諮詢軟體工程師 Sonya Huang