Preguntas frecuentes sobre Amazon SageMaker Lakehouse

Aspectos generales

Amazon SageMaker Lakehouse unifica todos los datos en los lagos de datos de Amazon Simple Storage Service (Amazon S3) y los almacenes de datos de Amazon Redshift, lo que ayuda a crear potentes aplicaciones de análisis e IA/ML en una sola copia de los datos. SageMaker Lakehouse brinda la flexibilidad de acceder a los datos y consultarlos con todas las herramientas y motores compatibles con Apache Iceberg. Proteja sus datos en lakehouse definiendo los permisos, que se aplican en todas las herramientas y motores de análisis y machine learning (ML). Lleve los datos de las bases de datos y aplicaciones operativas a lakehouse casi en tiempo real mediante integraciones sin ETL. Además, acceda y consulte los datos en el lugar con capacidades de consulta federadas en orígenes de datos de terceros.

SageMaker Lakehouse:

a) Reduce los silos de datos, ya que proporciona un acceso unificado a los datos en los lagos de datos de Amazon S3 y los almacenes de datos de Amazon Redshift. Los datos de las bases de datos y aplicaciones operativas se pueden incorporar a su lakehouse casi en tiempo real para el análisis y ML con canalizaciones de extracción, transformación y carga (ETL) sin código o con poco código. También puede usar cientos de conectores y 13 capacidades de consulta federadas para acceder a los datos de AWS y de orígenes ajenos a AWS.

b) Brinda la flexibilidad de acceder a todos sus datos y consultarlos en el lugar, desde una amplia gama de servicios de AWS y herramientas y motores de código abierto y de terceros, compatibles con Apache Iceberg. Puede utilizar las herramientas y motores de análisis que prefiera, como SQL, Apache Spark, inteligencia empresarial (BI) y herramientas de IA/ML y colaborar con una única copia de los datos almacenados en Amazon S3 o Amazon Redshift.

c) Mejora la seguridad empresarial con un mecanismo de control de acceso integrado que protege los datos cuando se accede a ellos desde servicios de AWS integrados, como Amazon Redshift, Amazon Athena o Amazon EMR o motores de terceros compatibles con Apache Iceberg.

Se puede acceder directamente a SageMaker Lakehouse desde Amazon SageMaker Unified Studio (vista previa). Los datos de diferentes orígenes se organizan en contenedores lógicos denominados catálogos en SageMaker Lakehouse. Cada catálogo representa datos de orígenes de datos existentes, como almacenes de datos, lagos de datos o bases de datos de Amazon Redshift. Los nuevos catálogos se pueden crear directamente en lakehouse para almacenar datos en Amazon S3 o Amazon Redshift Managed Storage (RMS). Se puede acceder a los datos de SageMaker Lakehouse desde un motor compatible con Apache Iceberg, como Apache Spark, Athena o Amazon EMR. Además, estos catálogos se pueden descubrir como bases de datos en los almacenes de datos de Amazon Redshift, lo que permite utilizar sus herramientas de SQL y analizar los datos de lakehouse.

Capacidades

SageMaker Lakehouse unifica el control de acceso a sus datos con dos funciones: 1) SageMaker Lakehouse permite definir permisos detallados. A estos permisos los aplican motores de consulta como Amazon EMR, Athena y Amazon Redshift. 2) SageMaker Lakehouse permite acceder a sus datos en el lugar, lo que elimina la necesidad de hacer copias de los datos. Puede mantener una única copia de los datos y un único conjunto de políticas de control de acceso para beneficiarse de un control de acceso detallado y unificado en SageMaker Lakehouse.

SageMaker Lakehouse se basa en varios catálogos técnicos del catálogo de datos de AWS Glue, de Lake Formation y Amazon Redshift para proporcionar un acceso unificado a los datos en todos los lagos de datos y almacenes de datos. SageMaker Lakehouse usa el catálogo de datos de AWS Glue y Lake Formation para almacenar las definiciones y los permisos de las tablas. Los permisos detallados de Lake Formation están disponibles para las tablas definidas en SageMaker Lakehouse. Puede administrar las definiciones de tablas en el catálogo de datos de AWS Glue y definir permisos detallados, como permisos a nivel de tabla, de columna y de celda, para proteger sus datos. Además, si utiliza las funciones de intercambio de datos entre cuentas, puede habilitar el uso compartido de datos sin copias para que los datos estén disponibles para una colaboración segura.

Sí. Se requiere la biblioteca de cliente de Apache Iceberg de código abierto para acceder a SageMaker Lakehouse. Los clientes que utilizan motores de código abierto de administración automática o de terceros, como Apache Spark o Trino, deben incluir la biblioteca de cliente de Apache Iceberg en sus motores de consulta para acceder a SageMaker Lakehouse.

Sí, con una biblioteca de cliente de Apache Iceberg, puede leer y escribir datos en su Amazon Redshift existente desde los motores Apache Spark de los servicios de AWS como Amazon EMR, AWS Glue,  Athena y Amazon SageMaker o Apache Spark de terceros. Sin embargo, debe tener los permisos de escritura adecuados en las tablas para escribir datos en ellas.

Sí, puede unir las tablas de su lago de datos en Amazon S3 con las tablas de su almacén de datos de Amazon Redshift en varias bases de datos mediante el motor que elija, como Apache Spark.

Migración

No, no tiene que migrar los datos para usar SageMaker Lakehouse. SageMaker Lakehouse permite acceder a sus datos y consultarlos en el lugar, con el estándar abierto de Apache Iceberg. Puede acceder directamente a sus datos en los lagos de datos de Amazon S3 y en los almacenes de datos de Amazon Redshift. Los datos de las bases de datos y aplicaciones operativas se pueden transferir a Lakehouse casi en tiempo real a través de las integraciones sin ETL disponibles, sin necesidad de mantener la infraestructura ni las canalizaciones complejas. También puede usar las capacidades de consulta federada para acceder a los datos en el lugar. Además de estos, puede usar cientos de conectores de AWS Glue para integrarlos con sus orígenes de datos existentes.

Si ya es usuario de Amazon Redshift, puede registrar su almacén de datos de Amazon Redshift en SageMaker Lakehouse siguiendo unos sencillos pasos, sin necesidad de migrar los datos. Siga los pasos de la guía para desarrolladores.

Si ha configurado su lago de datos de Amazon S3 con el catálogo de datos de AWS Glue, no necesita realizar ningún cambio.

Integraciones sin ETL

SageMaker Lakehouse admite integraciones sin ETL con Amazon DynamoDB, Amazon Aurora y Amazon RDS para MySQL, y ocho aplicaciones: Zoho CRM, Salesforce, Salesforce Pardot, ServiceNow, Facebook Ads, Instagram Ads, Zendesk y SAP.

Puede configurar y supervisar sus integraciones sin ETL a través de la consola de AWS Glue en procesamiento de datos de Amazon SageMaker con AWS Glue. Una vez ingeridos los datos, puede acceder a estos y consultarlos desde motores de consulta compatibles con Apache Iceberg. Para obtener más información, visite integraciones sin ETL.

Para obtener más información sobre los precios, visite las páginas de precios de SageMaker Lakehouse y AWS Glue.

Precios

Visite la página de precios de SageMaker Lakehouse para obtener más información.

Disponibilidad

SageMaker Lakehouse se encuentra disponible en las regiones: Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Oregón), Asia-Pacífico (Hong Kong), Asia-Pacífico (Seúl), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Tokio), Canadá (centro), Europa (Fráncfort), Europa (Irlanda), Europa (Londres), Europa (Estocolmo) y América del Sur (São Paulo).

Sí. SageMaker Lakehouse almacena los metadatos en el catálogo de datos de AWS Glue y ofrece el mismo SLA que Amazon Glue.

Introducción

Para empezar, puede iniciar sesión en su dominio de SageMaker con sus credenciales corporativas (por ejemplo, Okta) en SageMaker Unified Studio. En unos pocos pasos en SageMaker Unified Studio, los administradores pueden crear proyectos seleccionando un perfil de proyecto específico. A continuación, puede elegir un proyecto para trabajar con SageMaker Lakehouse. Una vez que se selecciona un proyecto, obtiene una vista unificada de los datos, los motores de consulta y las herramientas de desarrollo en un solo lugar. Los usuarios, como los ingenieros de datos y los analistas de datos, pueden consultar los datos mediante una herramienta de su elección. Por ejemplo, cuando un ingeniero de datos usa una libreta y emite un comando Spark para enumerar las tablas, descubre todas las tablas de almacenes de datos y lagos de datos a las que tiene acceso. A continuación, pueden ejecutar comandos para leer y escribir datos en las tablas que están almacenadas físicamente en los lagos de datos de Amazon S3 o en los almacenes de datos de Amazon Redshift. Del mismo modo, cuando un analista de datos ejecuta los comandos SQL de Amazon Redshift desde un editor de SQL, obtiene la misma vista unificada de los datos y puede leer y escribir datos en estas tablas. Puede crear tablas nuevas en Amazon S3 o Amazon Redshift desde sus herramientas preferidas (editor de SQL o bloc de notas). Consulte las vistas materializadas de Amazon Redshift para acelerar el rendimiento de las tablas de su lago de datos. Además de SageMaker Unified Studio, también se puede acceder a SageMaker Lakehouse desde la consola de administración de AWS, las API de AWS Glue, la interfaz de la línea de comandos de AWS (AWS CLI) o los SDK de AWS. Para obtener más detalles, consulte nuestra página de documentación.