- Amazon SageMaker›
- Amazon SageMaker Lakehouse›
- Preguntas frecuentes
Preguntas frecuentes sobre Amazon SageMaker Lakehouse
Aspectos generales
¿Qué es Amazon SageMaker Lakehouse?
Amazon SageMaker Lakehouse unifica todos los datos en los lagos de datos de Amazon Simple Storage Service (Amazon S3) y los almacenes de datos de Amazon Redshift, lo que ayuda a crear potentes aplicaciones de análisis e IA/ML en una sola copia de los datos. SageMaker Lakehouse brinda la flexibilidad de acceder a los datos y consultarlos con todas las herramientas y motores compatibles con Apache Iceberg. Proteja sus datos en lakehouse definiendo los permisos, que se aplican en todas las herramientas y motores de análisis y machine learning (ML). Lleve los datos de las bases de datos y aplicaciones operativas a lakehouse casi en tiempo real mediante integraciones sin ETL. Además, acceda y consulte los datos en el lugar con capacidades de consulta federadas en orígenes de datos de terceros.
¿Cuáles son los beneficios de SageMaker Lakehouse?
SageMaker Lakehouse:
a) Reduce los silos de datos, ya que proporciona un acceso unificado a los datos en los lagos de datos de Amazon S3 y los almacenes de datos de Amazon Redshift. Los datos de las bases de datos y aplicaciones operativas se pueden incorporar a su lakehouse casi en tiempo real para el análisis y ML con canalizaciones de extracción, transformación y carga (ETL) sin código o con poco código. También puede usar cientos de conectores y 13 capacidades de consulta federadas para acceder a los datos de AWS y de orígenes ajenos a AWS.
b) Brinda la flexibilidad de acceder a todos sus datos y consultarlos en el lugar, desde una amplia gama de servicios de AWS y herramientas y motores de código abierto y de terceros, compatibles con Apache Iceberg. Puede utilizar las herramientas y motores de análisis que prefiera, como SQL, Apache Spark, inteligencia empresarial (BI) y herramientas de IA/ML y colaborar con una única copia de los datos almacenados en Amazon S3 o Amazon Redshift.
c) Mejora la seguridad empresarial con un mecanismo de control de acceso integrado que protege los datos cuando se accede a ellos desde servicios de AWS integrados, como Amazon Redshift, Amazon Athena o Amazon EMR o motores de terceros compatibles con Apache Iceberg.
¿Cómo funciona SageMaker Lakehouse?
Se puede acceder directamente a SageMaker Lakehouse desde Amazon SageMaker Unified Studio (vista previa). Los datos de diferentes orígenes se organizan en contenedores lógicos denominados catálogos en SageMaker Lakehouse. Cada catálogo representa datos de orígenes de datos existentes, como almacenes de datos, lagos de datos o bases de datos de Amazon Redshift. Los nuevos catálogos se pueden crear directamente en lakehouse para almacenar datos en Amazon S3 o Amazon Redshift Managed Storage (RMS). Se puede acceder a los datos de SageMaker Lakehouse desde un motor compatible con Apache Iceberg, como Apache Spark, Athena o Amazon EMR. Además, estos catálogos se pueden descubrir como bases de datos en los almacenes de datos de Amazon Redshift, lo que permite utilizar sus herramientas de SQL y analizar los datos de lakehouse.
Capacidades
¿Cómo ofrece SageMaker Lakehouse un control de acceso unificado a los datos?
SageMaker Lakehouse unifica el control de acceso a sus datos con dos funciones: 1) SageMaker Lakehouse permite definir permisos detallados. A estos permisos los aplican motores de consulta como Amazon EMR, Athena y Amazon Redshift. 2) SageMaker Lakehouse permite acceder a sus datos en el lugar, lo que elimina la necesidad de hacer copias de los datos. Puede mantener una única copia de los datos y un único conjunto de políticas de control de acceso para beneficiarse de un control de acceso detallado y unificado en SageMaker Lakehouse.
¿Cómo funciona SageMaker Lakehouse con los servicios de AWS existentes, como el catálogo de datos de AWS Glue, AWS Lake Formation y Amazon Redshift?
SageMaker Lakehouse se basa en varios catálogos técnicos del catálogo de datos de AWS Glue, de Lake Formation y Amazon Redshift para proporcionar un acceso unificado a los datos en todos los lagos de datos y almacenes de datos. SageMaker Lakehouse usa el catálogo de datos de AWS Glue y Lake Formation para almacenar las definiciones y los permisos de las tablas. Los permisos detallados de Lake Formation están disponibles para las tablas definidas en SageMaker Lakehouse. Puede administrar las definiciones de tablas en el catálogo de datos de AWS Glue y definir permisos detallados, como permisos a nivel de tabla, de columna y de celda, para proteger sus datos. Además, si utiliza las funciones de intercambio de datos entre cuentas, puede habilitar el uso compartido de datos sin copias para que los datos estén disponibles para una colaboración segura.
¿Necesito algún software cliente para acceder a las API de Apache Iceberg que proporciona SageMaker Lakehouse?
Sí. Se requiere la biblioteca de cliente de Apache Iceberg de código abierto para acceder a SageMaker Lakehouse. Los clientes que utilizan motores de código abierto de administración automática o de terceros, como Apache Spark o Trino, deben incluir la biblioteca de cliente de Apache Iceberg en sus motores de consulta para acceder a SageMaker Lakehouse.
¿Puedo usar SageMaker Lakehouse para escribir datos en mi almacén de datos de Amazon Redshift con Apache Spark?
Sí, con una biblioteca de cliente de Apache Iceberg, puede leer y escribir datos en su Amazon Redshift existente desde los motores Apache Spark de los servicios de AWS como Amazon EMR, AWS Glue, Athena y Amazon SageMaker o Apache Spark de terceros. Sin embargo, debe tener los permisos de escritura adecuados en las tablas para escribir datos en ellas.
¿Puedo unir las tablas de mi lago de datos y del almacén de datos de Amazon Redshift en SageMaker Lakehouse?
Sí, puede unir las tablas de su lago de datos en Amazon S3 con las tablas de su almacén de datos de Amazon Redshift en varias bases de datos mediante el motor que elija, como Apache Spark.
Migración
¿Necesito migrar mis datos para usar SageMaker Lakehouse?
No, no tiene que migrar los datos para usar SageMaker Lakehouse. SageMaker Lakehouse permite acceder a sus datos y consultarlos en el lugar, con el estándar abierto de Apache Iceberg. Puede acceder directamente a sus datos en los lagos de datos de Amazon S3 y en los almacenes de datos de Amazon Redshift. Los datos de las bases de datos y aplicaciones operativas se pueden transferir a Lakehouse casi en tiempo real a través de las integraciones sin ETL disponibles, sin necesidad de mantener la infraestructura ni las canalizaciones complejas. También puede usar las capacidades de consulta federada para acceder a los datos en el lugar. Además de estos, puede usar cientos de conectores de AWS Glue para integrarlos con sus orígenes de datos existentes.
En la actualidad utilizo Amazon Redshift. ¿Cómo puedo llevar mi almacén de datos de Amazon Redshift a SageMaker Lakehouse?
Si ya es usuario de Amazon Redshift, puede registrar su almacén de datos de Amazon Redshift en SageMaker Lakehouse siguiendo unos sencillos pasos, sin necesidad de migrar los datos. Siga los pasos de la guía para desarrolladores.
En la actualidad utilizo un lago de datos de Amazon S3. ¿Cómo puedo trasladar mi lago de datos a SageMaker Lakehouse?
Si ha configurado su lago de datos de Amazon S3 con el catálogo de datos de AWS Glue, no necesita realizar ningún cambio.
Integraciones sin ETL
¿Cuáles son las diferentes integraciones sin ETL disponibles con SageMaker Lakehouse?
SageMaker Lakehouse admite integraciones sin ETL con Amazon DynamoDB, Amazon Aurora y Amazon RDS para MySQL, y ocho aplicaciones: Zoho CRM, Salesforce, Salesforce Pardot, ServiceNow, Facebook Ads, Instagram Ads, Zendesk y SAP.
¿Cómo accedo a las integraciones sin ETL con SageMaker Lakehouse?
Puede configurar y supervisar sus integraciones sin ETL a través de la consola de AWS Glue en procesamiento de datos de Amazon SageMaker con AWS Glue. Una vez ingeridos los datos, puede acceder a estos y consultarlos desde motores de consulta compatibles con Apache Iceberg. Para obtener más información, visite integraciones sin ETL.
¿Cuál es el modelo de precios para sin ETL?
Para obtener más información sobre los precios, visite las páginas de precios de SageMaker Lakehouse y AWS Glue.
Precios
¿Cuál es el precio de SageMaker Lakehouse?
Visite la página de precios de SageMaker Lakehouse para obtener más información.
Disponibilidad
¿En qué regiones de AWS se encuentra disponible SageMaker Lakehouse?
SageMaker Lakehouse se encuentra disponible en las regiones: Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Oregón), Asia-Pacífico (Hong Kong), Asia-Pacífico (Seúl), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Tokio), Canadá (centro), Europa (Fráncfort), Europa (Irlanda), Europa (Londres), Europa (Estocolmo) y América del Sur (São Paulo).
¿SageMaker Lakehouse ofrece un SLA?
Sí. SageMaker Lakehouse almacena los metadatos en el catálogo de datos de AWS Glue y ofrece el mismo SLA que Amazon Glue.
Introducción
¿Cómo puedo empezar a usar SageMaker Lakehouse?
Para empezar, puede iniciar sesión en su dominio de SageMaker con sus credenciales corporativas (por ejemplo, Okta) en SageMaker Unified Studio. En unos pocos pasos en SageMaker Unified Studio, los administradores pueden crear proyectos seleccionando un perfil de proyecto específico. A continuación, puede elegir un proyecto para trabajar con SageMaker Lakehouse. Una vez que se selecciona un proyecto, obtiene una vista unificada de los datos, los motores de consulta y las herramientas de desarrollo en un solo lugar. Los usuarios, como los ingenieros de datos y los analistas de datos, pueden consultar los datos mediante una herramienta de su elección. Por ejemplo, cuando un ingeniero de datos usa una libreta y emite un comando Spark para enumerar las tablas, descubre todas las tablas de almacenes de datos y lagos de datos a las que tiene acceso. A continuación, pueden ejecutar comandos para leer y escribir datos en las tablas que están almacenadas físicamente en los lagos de datos de Amazon S3 o en los almacenes de datos de Amazon Redshift. Del mismo modo, cuando un analista de datos ejecuta los comandos SQL de Amazon Redshift desde un editor de SQL, obtiene la misma vista unificada de los datos y puede leer y escribir datos en estas tablas. Puede crear tablas nuevas en Amazon S3 o Amazon Redshift desde sus herramientas preferidas (editor de SQL o bloc de notas). Consulte las vistas materializadas de Amazon Redshift para acelerar el rendimiento de las tablas de su lago de datos. Además de SageMaker Unified Studio, también se puede acceder a SageMaker Lakehouse desde la consola de administración de AWS, las API de AWS Glue, la interfaz de la línea de comandos de AWS (AWS CLI) o los SDK de AWS. Para obtener más detalles, consulte nuestra página de documentación.