Procesamiento de datos de Amazon SageMaker

Analizar, preparar e integrar datos para el análisis y la IA a cualquier escala

¿Por qué elegir el procesamiento de datos de SageMaker?

Prepare, integre y organice sus datos con las capacidades de procesamiento de datos de Amazon Athena, Amazon EMR, AWS Glue y Amazon Managed Workflows para Apache Airflow (Amazon MWAA). Procese e integre sus datos, dondequiera que se encuentren, con una conectividad rápida y sencilla a cientos de orígenes de datos.

Utilice marcos de procesamiento de datos de código abierto, como Apache Spark, Trino y Apache Flink. Analice datos a escala sin administrar la infraestructura y cree análisis en tiempo real sin problemas con Apache Flink y Apache Spark.

Confíe en que sus datos sean precisos y seguros mediante la automatización de la calidad de los datos, la identificación de datos confidenciales, el seguimiento del linaje y la aplicación de controles de acceso detallados mediante la integración nativa en Amazon SageMaker Lakehouse.

Beneficios

El procesamiento de datos de Amazon SageMaker proporciona acceso completo a marcos de procesamiento de datos y transmisiones, a motores de consulta de SQL distribuidos de código abierto y a las herramientas más populares, como cuadernos, editores de consultas y extracción, transformación y carga (ETL) visuales.

Puede acceder a los marcos más populares, como Apache Spark para preparar e integrar sus datos a cualquier escala. Responda a las necesidades empresariales en tiempo real con el procesamiento de transmisiones con Apache Flink y Apache Spark Streaming y analice los datos con los principales marcos SQL de código abierto, como Trino. Simplifique la orquestación del flujo de trabajo sin tener que administrar la infraestructura mediante la integración nativa de Amazon MWAA.

El procesamiento de datos de SageMaker se integra de forma nativa en SageMaker Lakehouse, lo que permite el procesamiento y la integración de todos sus casos de uso, incluidos los análisis, las consultas ad hoc, el machine learning (ML) y la IA generativa, con una copia de los datos.

SageMaker Lakehouse unifica los datos en los lagos de datos de Amazon Simple Storage Service (Amazon S3) y los almacenes de datos de Amazon Redshift, lo que proporciona un acceso unificado a sus datos. Puede descubrir y analizar datos unificados en el lakehouse con cientos de conectores, integraciones sin ETL y orígenes de datos federados, lo que le brinda una visión completa de su negocio. SageMaker Lakehouse funciona de forma inmediata con su arquitectura de datos existente, sin estar limitado por opciones específicas de formato de almacenamiento o motor de consulta.

Mejore la eficiencia con un rendimiento de consultas rápido en las tablas de Apache Iceberg. Obtenga información hasta 2 veces más rápido que los sistemas de código abierto tradicionales con versiones de Apache Spark, Apache Airflow, Apache Flink, Trino y más, de alto rendimiento y compatibles con API de código abierto.

El procesamiento de datos de SageMaker permite centrarse en transformar y analizar los datos sin administrar la capacidad de procesamiento o las aplicaciones de código abierto, lo que permite ahorrar tiempo y reducir los costos. Puede aprovisionar la capacidad de forma automática en Amazon EMR en Amazon Elastic Compute Cloud (Amazon EC2) o en Amazon EMR en Amazon Elastic Kubernetes Service (Amazon EKS). Las reglas de escalado administran los cambios en la demanda de computación para optimizar el rendimiento y las versiones ejecutables.

Adquiera fiabilidad y transparencia con informes automatizados sobre la calidad de los datos, detección de datos confidenciales y seguimiento del linaje de los datos y los modelos de IA mediante la integración del catálogo de Amazon SageMaker. Aumente la confianza en la calidad de sus datos con medidas, supervisión y recomendaciones automáticas para las reglas de calidad de los datos.

Procese y analice los datos de forma segura mediante el cumplimiento y la aplicación de los controles de acceso detallados definidos en los conjuntos de datos de SageMaker Lakehouse, lo que le permite definir los permisos una vez y permitir el acceso a sus datos a los usuarios autorizados de su organización.

servicios de AWS

Integración de datos simplificada

AWS Glue ofrece integración de datos sin servidor, lo que simplifica la exploración, preparación e integración de datos de varias fuentes. Puede conectarse a orígenes de datos distintos, administrar los datos en un catálogo de datos centralizado, además de visualizar, crear, ejecutar y monitorear las canalizaciones de ETL para cargar los datos en su lakehouse. AWS Glue escala automáticamente bajo demanda, por lo que puede centrarse en obtener información de sus datos sin administrar la infraestructura.

Ejecute y escale Apache Spark, Apache Hive, Trino y otras cargas de trabajo

Amazon EMR hace que sea más fácil y rentable ejecutar cargas de trabajo de procesamiento de datos como Apache Spark, Apache Airflow, Apache Flink, Trino y más. Cree y ejecute canalizaciones de procesamiento de datos y escale automáticamente más rápido que las soluciones locales.

Controle los costos

Athena ofrece una forma simplificada y flexible de analizar los datos a cualquier escala. Athena es un servicio de consultas interactivo que simplifica el análisis de datos en Amazon S3 mediante SQL estándar. Athena funciona sin servidor, por lo que no hay que configurar ni administrar ninguna infraestructura y puede elegir pagar en función de las consultas que ejecute o de los recursos de computación que requieran sus consultas. Puede utilizar Athena para procesar registros, analizar datos y ejecutar consultas interactivas. Athena se escala automáticamente, ejecuta las consultas en paralelo, por lo que los resultados son rápidos, incluso con conjuntos de datos de gran tamaño y consultas complejas.

Orquestación de flujos de trabajo altamente disponibles y enfocados en la seguridad para Apache Airflow

Amazon MWAA es un servicio administrado para Apache Airflow que le permite usar su plataforma Apache Airflow actual y familiar para organizar sus flujos de trabajo. Obtiene escalabilidad, disponibilidad y seguridad mejoradas sin la carga operativa de administrar la infraestructura subyacente. Amazon MWAA organiza los flujos de trabajo mediante gráficos acíclicos dirigidos (DAG) escritos en Python. Le brinda a Amazon MWAA un bucket de S3 donde permanecen sus DAG, complementos y requisitos de Python. Despliegue Apache Airflow a escala sin la carga operativa de la administración de la infraestructura subyacente.

Casos de uso

Identifique y acceda rápidamente los datos en AWS, en las instalaciones y en otras nubes y, a continuación, pónganlos disponibles al instante para consultarlos y transformarlos.

Procesamiento de los datos mediante marcos como Apache Spark, Apache Flink y Trino, y diversas cargas de trabajo, como lotes, microlotes y streaming.

Ejecute procesamientos de datos a gran escala y análisis hipotéticos utilizando algoritmos estadísticos y modelos predictivos para descubrir patrones ocultos, correlaciones, tendencias del mercado y preferencias de los clientes.