Amazon S3 Tables

Otimize a performance das consultas e reduza custos conforme seu data lake se escala

Armazenamento de dados em formato tabular em grande escala no S3

O Amazon S3 Tables fornece o primeiro armazenamento de objetos na nuvem com suporte integrado ao Apache Iceberg e simplifica o armazenamento de dados em formato tabular em grande escala. A otimização contínua de tabelas digitaliza e reescreve automaticamente os dados das tabelas em segundo plano, alcançando um desempenho de consulta até 3 vezes mais rápido em comparação com tabelas do Iceberg não gerenciadas. Essas otimizações de desempenho continuarão melhorando com o tempo. Além disso, as tabelas do S3 incluem otimizações específicas para workloads do Iceberg que oferecem transações até 10 vezes maiores por segundo em comparação com as tabelas do Iceberg armazenadas em buckets do S3 de uso geral. Para obter mais detalhes sobre as melhorias no desempenho de consultas de tabelas do S3, confira o blog.

Com o suporte do S3 Tables ao padrão do Apache Iceberg, os dados em formato tabular podem ser consultados com facilidade ao usar mecanismos de consulta populares da AWS e de entidades externas, como o Amazon Athena, o Redshift, o EMR e o Apache Spark. Use o S3 Tables para armazenar dados em formato tabular, como transações diárias de compras, dados de sensores em transmissão ou impressões de anúncios, como uma tabela do Iceberg no S3. Além disso, use essa solução para otimizar a performance e os custos à medida que seus dados evoluem com a manutenção automática de tabelas. Leia o blog para saber mais.

Benefícios

Simplifique os data lakes em qualquer escala, esteja você apenas começando a usar a solução ou gerenciando milhares de tabelas em seu ambiente do Iceberg.

Obtenha um desempenho de consulta até três vezes mais rápido por meio da otimização contínua de tabelas em comparação com tabelas Iceberg não gerenciadas e transações até 10 vezes maiores por segundo em comparação com tabelas Iceberg armazenadas em buckets do S3 de uso geral.

Execute tarefas contínuas de manutenção das tabelas, como compactação, gerenciamento de snapshots e remoção de arquivos não referenciados, para otimizar automaticamente a eficiência das consultas e os custos ao longo do tempo.

Acesse funcionalidades avançadas de analytics do Iceberg e consulte dados usando serviços conhecidos da AWS, como o Amazon Athena, o Redshift e o EMR, por meio da integração prévia do S3 Tables com o Catálogo de Dados do AWS Glue. O S3 Tables é compatível com ferramentas conhecidas de código aberto.

Crie tabelas como recursos de alto nível da AWS e aplique permissões para governar o acesso a elas com facilidade.

Como ele funciona

O S3 Tables fornece um armazenamento do S3 desenvolvido com propósito específico para armazenar dados estruturados no formato Apache Parquet. Em um bucket de tabelas, é possível criar tabelas como recursos primários diretamente no S3. Essas tabelas podem ser protegidas com permissões a nível de tabela definidas em políticas baseadas em identidade ou em recursos e são acessíveis por aplicações ou ferramentas compatíveis o padrão do Apache Iceberg. Ao criar uma tabela no bucket de tabelas, os dados subjacentes no S3 são armazenados como dados no formato Parquet. Em seguida, o S3 mantém os metadados necessários para tornar esses dados no formato Parquet acessíveis para consulta pelas suas aplicações. Os buckets de tabelas incluem uma biblioteca de cliente que é usada por mecanismos de consulta para navegar e atualizar os metadados do Iceberg das tabelas no bucket de tabelas. Essa biblioteca, em conjunto com as APIs do S3 atualizadas para operações de tabelas, permite que vários clientes realizem a leitura e a gravação de dados com segurança em suas tabelas. Ao longo do tempo, o S3 realiza a otimização automática dos dados no formato Parquet subjacentes ao reescrever ou “compactar” os objetos. A compactação otimiza os dados armazenados no S3 para aprimorar a performance das consultas e para reduzir os custos. Leia o guia do usuário para saber mais informações

Vídeo de demonstração do Amazon S3 Tables

Clientes

  • Genesys

    A Genesys é líder global na nuvem em orquestração de experiências com base em inteligência artificial. Por meio de funcionalidades avançadas de IA, gerenciamento de engajamento digital e da força de trabalho, a Genesys auxilia mais de 8 mil organizações em mais de cem países a proporcionar experiências personalizadas e empáticas a clientes e colaboradores, enquanto conquistam maior agilidade nos negócios e resultados aprimorados.

    O Amazon S3 Tables representará uma adição transformadora à nossa arquitetura de dados, especialmente com seu suporte gerenciado ao Iceberg, que efetivamente cria uma camada de visão materializada para atender às diversas necessidades de análise de dados. Esta oferta tem o potencial de ajudar a Genesys a simplificar fluxos de trabalho de dados complexos ao eliminar as camadas adicionais de gerenciamento de tabelas, com o S3 assumindo automaticamente as tarefas principais de manutenção, como a compactação, o gerenciamento de snapshots e a limpeza de arquivos não referenciados. A capacidade de realizar a leitura e a gravação de tabelas do Iceberg diretamente do S3 nos ajudará a aumentar a performance e criar novas possibilidades para integrar dados de forma contínua em nosso ecossistema de analytics. Essa interoperabilidade, juntamente com os aprimoramentos de performance, posiciona o S3 Tables como um componente fundamental de nossa estratégia futura para fornecer insights de dados rápidos, flexíveis e confiáveis.

    Glenn Nethercutt, diretor de tecnologia, Genesys
  • SnapLogic

    A SnapLogic é uma pioneira em integração liderada por IA. A plataforma para integração generativa da SnapLogic acelera a transformação digital em toda a empresa, permitindo o projeto, a implantação e o gerenciamento de agentes de IA e integrações que automatizam tarefas, tomam decisões em tempo real e se integram aos fluxos de trabalho existentes com facilidade.

    O Amazon S3 Tables, com suporte incorporado ao Apache Iceberg e integração com os serviços de analytics da AWS, ajudam as empresas a otimizar os custos de data analytics, ao mesmo tempo em que transformam a maneira como elas usam os dados empresariais para iniciativas de analytics, conformidade e projetos de IA. Ao automatizar tarefas complexas de gerenciamento de dados e fornecer trilhas de auditoria completas das alterações de dados, as equipes podem analisar instantaneamente dados históricos, manter a conformidade regulatória e acelerar os insights de negócios, ao mesmo tempo em que reduzem significativamente os custos tecnológicos.

    Dominic Wellington, arquiteto empresarial, SnapLogic
  • Zus Health

    A Zus é uma plataforma de dados de saúde compartilhados projetada para acelerar a interoperabilidade de dados de saúde ao fornecer dados de pacientes de fácil acesso por meio de API, componentes incorporados e integrações diretas com sistemas de EHR.

    Como uma empresa de saúde que lida com volumes massivos de dados de pacientes que são frequentemente atualizados, decidimos investir no Apache Iceberg, pois ele resolve vários problemas do Apache Hive relacionados ao particionamento e à automação, com o benefício adicional de uma interoperabilidade mais ampla. Um dos principais desafios que enfrentamos com o Iceberg tem sido a compreensão e o gerenciamento da otimização das tabelas. Esse é o motivo pelo qual estamos entusiasmados com o S3 Tables e com as funcionalidades de otimização gerenciada. A capacidade de transferir a sobrecarga do desenvolvedor na manutenção de tabelas permitirá que nos concentremos mais em fornecer dados de alta qualidade e insights valiosos para nossos clientes.

    Sonya Huang, engenheira de software de consultoria, Zus Health