Amazon S3 Tables

데이터 레이크 확장에 따라 쿼리 성능 및 비용 최적화

S3에 대규모 테이블 형식 데이터 저장

Amazon S3 Tables는 Apache Iceberg 지원이 기본 제공되는 최초의 클라우드 객체 저장소를 제공하며 대규모 테이블 형식 데이터를 간단하게 저장할 수 있습니다. 지속적인 테이블 최적화는 백그라운드에서 테이블 데이터를 자동으로 스캔하고 재작성하여 관리되지 않는 Iceberg 테이블에 비해 최대 3배 빠른 쿼리 성능을 달성합니다. 이러한 성능 최적화는 시간이 지남에 따라 계속 개선될 것입니다. 또한, S3 테이블에는 범용 S3 버킷에 저장된 Iceberg 테이블에 비해 초당 최대 10배 더 높은 트랜잭션을 제공하는 Iceberg 워크로드에 특화된 최적화 기능이 포함되어 있습니다. S3 테이블의 쿼리 성능 개선에 대한 자세한 내용은 블로그를 참조하세요.

S3 Tables는 Apache Iceberg 표준을 지원하므로, Amazon Athena, Redshift, EMR, Apache Spark와 같은 인기 있는 AWS 및 서드 파티 쿼리 엔진으로 테이블 형식 데이터를 손쉽게 쿼리할 수 있습니다. S3 Tables를 사용하여 일일 구매 트랜잭션, 스트리밍 센서 데이터 또는 광고 노출과 같은 테이블 형식 데이터를 S3에 Iceberg 테이블로 저장하고, 자동 테이블 유지 관리를 사용하여 데이터 진화에 따라 성능 및 비용을 최적화할 수 있습니다. 자세한 내용은 블로그를 참조하세요.

이점

이제 막 시작했든 Iceberg 환경에서 수천 개의 테이블을 관리하든 관계없이 모든 규모의 데이터 레이크를 단순화합니다.

관리되지 않는 Iceberg 테이블에 비해 지속적인 테이블 최적화를 통해 최대 3배 빠른 쿼리 성능을, 범용 S3 버킷에 저장된 Iceberg 테이블에 비해 초당 최대 10배 더 많은 트랜잭션을 처리할 수 있습니다.

압축, 스냅샷 관리, 참조되지 않은 파일 제거와 같은 지속적인 테이블 유지 관리 작업을 수행하여 시간이 지나면서 쿼리 효율성과 비용을 자동으로 최적화합니다.

AWS Glue Data Catalog와 S3 Tables 평가판 통합을 통해 Amazon Athena, Redshift, EMR과 같은 친숙한 AWS 서비스를 사용하여 고급 Iceberg 분석 기능에 액세스하고 데이터를 쿼리할 수 있습니다. S3 Tables는 인기 있는 오픈 소스 도구와 호환됩니다.

테이블을 최고 등급의 AWS 리소스로 생성하고 권한을 적용하여 테이블에 대한 액세스를 쉽게 관리할 수 있습니다.

사용 방법

S3 Tables는 정형 데이터를 Apache Parquet 형식으로 저장하기 위한 목적별 S3 스토리지를 제공합니다. 테이블 버킷 내에서 S3에 직접 최고 수준의 리소스로 테이블을 생성할 수 있습니다. 이러한 테이블은 ID 또는 리소스 기반 정책에 정의된 테이블 수준 권한으로 보호할 수 있으며, Apache Iceberg 표준을 지원하는 애플리케이션 또는 도구에서 액세스할 수 있습니다. 테이블 버킷에 테이블을 생성하면 S3의 기본 데이터가 Parquet 데이터로 저장됩니다. 그런 다음 S3는 Parquet 데이터를 애플리케이션에서 쿼리 가능하게 만드는 데 필요한 메타데이터를 유지 관리합니다. 테이블 버킷에는 쿼리 엔진이 테이블 버킷에 있는 테이블의 Iceberg 메타데이터를 탐색하고 업데이트하는 데 사용하는 클라이언트 라이브러리가 포함되어 있습니다. 이 라이브러리를 테이블 작업을 위한 업데이트된 S3 API와 함께 사용하면 여러 클라이언트가 테이블에서 데이터를 안전하게 읽고 쓸 수 있습니다. 시간이 지남에 따라 S3는 객체를 다시 쓰거나 ‘압축’하여 기본 Parquet 데이터를 자동으로 최적화합니다. 압축은 S3의 데이터를 최적화하여 쿼리 성능을 개선하고 비용을 최소화합니다. 자세한 내용은 사용 설명서를 참조하세요.

Amazon S3 Tables 데모 동영상

고객

  • Genesys

    Genesys는 AI 기반 경험 오케스트레이션 분야의 글로벌 클라우드 리더입니다. 고급 AI, 디지털 및 인력 참여 관리 기능을 통해 Genesys는 100여 개국의 8,000개 이상의 조직이 향상된 비즈니스 민첩성 및 성과를 통해 개인화되고 공감적인 고객 및 직원 경험을 제공할 수 있도록 지원합니다.

    Amazon S3 Tables는 특히 다양한 데이터 분석 요구에 맞는 구체화된 뷰 계층을 효과적으로 생성하는 관리형 Iceberg 지원을 통해 데이터 아키텍처에 혁신적인 추가 기능을 제공할 것입니다. 이 제품은 S3가 압축, 스냅샷 관리, 참조되지 않은 파일 정리와 같은 주요 유지 관리 작업을 자동으로 처리함으로써 테이블 관리의 추가 계층을 배제하여 Genesys가 복잡한 데이터 워크플로를 간소화하는 데 도움이 될 수 있습니다. S3에서 직접 Iceberg 테이블을 읽고 쓸 수 있으면 성능을 향상하고 분석 에코시스템 전반에서 데이터를 원활하게 통합할 수 있는 새로운 가능성을 창출하는 데 도움이 될 것입니다. 이러한 상호 운용성과 성능 향상이 결합되어 S3 Tables는 신속하고 유연하며 신뢰할 수 있는 데이터 인사이트를 제공하기 위한 당사 미래 전략의 중추적인 부분으로 자리매김하고 있습니다.

    Glenn Nethercutt, Genesys Chief Technology Officer
  • SnapLogic

    SnapLogic은 AI 기반 통합의 선구자입니다. 생성형 통합을 위한 SnapLogic 플랫폼은 작업을 자동화하고, 실시간 의사 결정을 내리고, 기존 워크플로에 손쉽게 통합되는 AI 에이전트 및 통합을 설계, 배포, 관리할 수 있도록 기업 전반의 디지털 트랜스포메이션을 가속화합니다.

    Amazon S3 Tables는 Apache Iceberg 지원 및 AWS 분석 서비스 통합 기능이 내장되어 있어 기업이 데이터 분석 비용을 최적화하는 동시에 분석, 규정 준수 및 AI 이니셔티브에 비즈니스 데이터를 사용하는 방식을 혁신할 수 있도록 지원합니다. 복잡한 데이터 관리 작업을 자동화하고 데이터 변경에 대한 완전한 감사 추적을 제공함으로써 팀은 과거 데이터를 즉시 분석하고 규정 준수를 유지하며 비즈니스 인사이트를 가속화하는 동시에 기술 비용을 크게 절감할 수 있습니다.

    Dominic Wellington, SnapLogic Enterprise Architect
  • Zus Health

    Zus는 API, 임베디드 구성 요소, 직접 EHR 통합을 통해 사용하기 쉬운 환자 데이터를 제공하여 의료 데이터 상호 운용성을 가속화하도록 설계된 공유 의료 데이터 플랫폼입니다.

    자주 변경되는 환자 데이터를 대량으로 처리하는 의료 기업으로서 당사는 Apache Iceberg에 투자하기로 결정했습니다. Apache Iceberg는 Apache Hive의 파티셔닝 및 자동화와 관련된 많은 문제점을 해결하고 광범위한 상호 운용성이라는 이점을 제공하기 때문입니다. Iceberg에서 가장 큰 과제 중 하나는 테이블 최적화를 이해하고 관리하는 것이었습니다. 이것이 바로 당사가 S3 Tables와 관리형 최적화 기능에 열광하는 이유입니다. 개발자의 테이블 유지 관리 부담을 덜어줄 수 있게 되면 고객에게 고품질 데이터와 귀중한 인사이트를 제공하는 데 더 집중할 수 있기 때문입니다.

    Sonya Huang, Zus Health Consulting Software Engineer