Tablas de Amazon S3

Optimizar el rendimiento y el costo de las consultas a medida que su lago de datos se amplía

Almacenamiento de datos tabulares a escala en S3

Las tablas de Amazon S3 ofrecen el primer almacén de objetos en la nube con compatibilidad integrada con Apache Iceberg y agilizan el almacenamiento de datos tabulares a escala. La optimización continua de las tablas escanea y reescribe automáticamente los datos de las tablas en segundo plano, logrando un rendimiento de consulta hasta 3 veces más rápido en comparación con las tablas Iceberg no administradas. Estas optimizaciones de rendimiento seguirán mejorando con el tiempo. Además, S3 Tables incluye optimizaciones específicas para cargas de trabajo de Iceberg que ofrecen hasta 10 veces más transacciones por segundo en comparación con las tablas de Iceberg almacenadas en buckets de S3 de uso general. Para obtener más información sobre las mejoras en el rendimiento de las consultas de S3 Tables, consulte el blog.

Gracias a la compatibilidad de las tablas de S3 con el estándar de Apache Iceberg, sus datos tabulares se pueden consultar fácilmente con motores de consulta populares de AWS y de terceros, como Amazon Athena, Redshift, EMR y Apache Spark. Utilice las tablas de S3 para almacenar datos tabulares, como las transacciones de compra diarias, los datos de los sensores de streaming o las impresiones de anuncios, como una tabla de Iceberg en S3, y optimice el rendimiento y el costo a medida que sus datos evolucionan mediante el mantenimiento automático de tablas. Lea el blog para obtener más información.

Beneficios

Simplifique los lagos de datos a cualquier escala, tanto si acaba de empezar como si está administrando miles de tablas en su entorno de Iceberg.

Obtenga un rendimiento de consulta hasta 3 veces más rápido gracias a la optimización continua de tablas en comparación con tablas de Iceberg no administradas, y hasta 10 veces más transacciones por segundo en comparación con tablas de Iceberg almacenadas en buckets de S3 de uso general.

Realice tareas continuas de mantenimiento en las tablas, como la compactación, la administración de instantáneas y la eliminación de archivos sin referencia para optimizar de manera automática la eficiencia y los costos de las consultas a lo largo del tiempo.

Acceda a las capacidades avanzadas de análisis de Iceberg y consulte datos mediante servicios de AWS como Amazon Athena, Redshift y EMR mediante la integración de la vista previa de las tablas de S3 con el catálogo de datos de AWS Glue. Las tablas de S3 son compatibles con las herramientas populares de código abierto.

Cree tablas como recursos de AWS de primera clase y aplique permisos para controlar fácilmente el acceso a ellas.

Funcionamiento

Las tablas de S3 proporcionan almacenamiento en S3 diseñado específicamente para almacenar datos estructurados en el formato Apache Parquet. Dentro de un bucket de tablas, puede crear tablas como recursos de primera clase directamente en S3. Estas tablas se pueden proteger con permisos a nivel de tabla definidos en políticas basadas en la identidad o en los recursos, y se puede acceder a ellas mediante aplicaciones o herramientas compatibles con el estándar de Apache Iceberg. Al crear una tabla en el bucket de tablas, los datos subyacentes en S3 se almacenan como datos de Parquet. A continuación, S3 mantiene los metadatos necesarios para que sus aplicaciones puedan consultar los datos de Parquet. Los buckets de tablas incluyen una biblioteca de clientes que utilizan los motores de consulta para navegar y actualizar los metadatos de Iceberg de las tablas de su bucket de tablas. Esta biblioteca, junto con las API de S3 actualizadas para las operaciones de tablas, permite que varios clientes lean y escriban datos en sus tablas de forma segura. Con el tiempo, S3 optimiza automáticamente los datos subyacentes de Parquet al reescribir o “compactar” sus objetos. La compactación optimiza los datos en S3 para mejorar el rendimiento de las consultas y reducir los costos. Para obtener más información, lea la guía del usuario.

Video de demostración de las tablas de Amazon S3

Clientes

  • Genesys

    Genesys es líder mundial en la nube en orquestación de experiencias impulsada por inteligencia artificial. A través de capacidades avanzadas de IA, digitales y de administración del personal, Genesys ayuda a más de 8000 organizaciones en más de 100 países a ofrecer experiencias personalizadas y empáticas a los clientes y los empleados, mientras logran una mayor agilidad y mejores resultados empresariales.

    Las tablas de Amazon S3 serán una incorporación transformadora para nuestra arquitectura de datos, especialmente con su compatibilidad administrada de Iceberg, que crea de forma eficaz una capa de vista materializada para diversas necesidades de análisis de datos. Esta oferta tiene el potencial de ayudar a Genesys a simplificar los flujos de trabajo de datos complejos mediante la eliminación de capas adicionales de administración de tablas, ya que S3 se encarga de las tareas de mantenimiento clave, como la compactación, la administración de instantáneas y la limpieza de archivos sin referencia de forma automática. La capacidad de leer y escribir tablas de Iceberg directamente desde S3 nos ayudará a aumentar el rendimiento y crear nuevas posibilidades para integrar los datos sin problemas en nuestro ecosistema de análisis. Esta interoperabilidad, combinada con las mejoras de rendimiento, posiciona a las tablas de S3 como parte fundamental de nuestra estrategia futura para ofrecer información de datos rápida, flexible y fiable.

    Glenn Nethercutt, Chief Technology Officer de Genesys
  • SnapLogic

    SnapLogic es pionera en la integración impulsada por IA. La plataforma SnapLogic para integración generativa acelera la transformación digital en toda la empresa para diseñar, implementar y administrar agentes de IA y una integración que automatizan las tareas, toman decisiones en tiempo real y se integran sin esfuerzo en los flujos de trabajo existentes.

    Las tablas de Amazon S3, con compatibilidad integrada de Apache Iceberg e integración de los servicios de análisis de AWS, ayudan a las empresas a optimizar sus costos de análisis de datos y, al mismo tiempo, a transformar la forma en que utilizan los datos empresariales para las iniciativas de análisis, cumplimiento e inteligencia artificial. Cuando se automatizan las complejas tareas de administración de datos y se brindan pistas de auditoría completas de los cambios en los datos, los equipos pueden analizar instantáneamente los datos históricos, mantener el cumplimiento normativo, acelerar el conocimiento empresarial y, al mismo tiempo, reducir significativamente los costos de tecnología.

    Dominic Wellington, Enterprise Architect de SnapLogic
  • Zus Health

    Zus es una plataforma de datos sanitarios compartidos diseñada para acelerar la interoperabilidad de los datos sanitarios al proporcionar datos de pacientes fáciles de utilizar a través de la API, componentes integrados e integraciones de EHR directas.

    Como empresa del sector de la sanidad que procesa cantidades masivas de datos de pacientes que cambian con frecuencia, decidimos invertir en Apache Iceberg, ya que resuelve muchos problemas con Apache Hive relacionados con la partición y la automatización, con el beneficio adicional de una mayor interoperabilidad. Uno de nuestros mayores desafíos con Iceberg ha sido comprender y administrar la optimización de tablas. Por lo tanto, estamos entusiasmados con las tablas de S3 y las capacidades de optimización administrada. Poder liberar a los desarrolladores de la sobrecarga que supone el mantenimiento de tablas nos permitirá centrarnos más en ofrecer datos de alta calidad e información valiosa a nuestros clientes.

    Sonya Huang, Consulting Software Engineer de Zus Health