Procesamiento de datos de Amazon SageMaker
Analizar, preparar e integrar datos para el análisis y la IA a cualquier escala¿Por qué elegir el procesamiento de datos de SageMaker?
Prepare, integre y organice sus datos con las capacidades de procesamiento de datos de Amazon Athena, Amazon EMR, AWS Glue y Amazon Managed Workflows para Apache Airflow (Amazon MWAA). Procese e integre sus datos, dondequiera que se encuentren, con una conectividad rápida y sencilla a cientos de orígenes de datos.
Utilice marcos de procesamiento de datos de código abierto, como Apache Spark, Trino y Apache Flink. Analice datos a escala sin administrar la infraestructura y cree análisis en tiempo real sin problemas con Apache Flink y Apache Spark.
Confíe en que sus datos sean precisos y seguros mediante la automatización de la calidad de los datos, la identificación de datos confidenciales, el seguimiento del linaje y la aplicación de controles de acceso detallados mediante la integración nativa en Amazon SageMaker Lakehouse.
Beneficios
servicios de AWS
Integración de datos simplificada
AWS Glue ofrece integración de datos sin servidor, lo que simplifica la exploración, preparación e integración de datos de varias fuentes. Puede conectarse a orígenes de datos distintos, administrar los datos en un catálogo de datos centralizado, además de visualizar, crear, ejecutar y monitorear las canalizaciones de ETL para cargar los datos en su lakehouse. AWS Glue escala automáticamente bajo demanda, por lo que puede centrarse en obtener información de sus datos sin administrar la infraestructura.
Ejecute y escale Apache Spark, Apache Hive, Trino y otras cargas de trabajo
Amazon EMR hace que sea más fácil y rentable ejecutar cargas de trabajo de procesamiento de datos como Apache Spark, Apache Airflow, Apache Flink, Trino y más. Cree y ejecute canalizaciones de procesamiento de datos y escale automáticamente más rápido que las soluciones locales.
Controle los costos
Athena ofrece una forma simplificada y flexible de analizar los datos a cualquier escala. Athena es un servicio de consultas interactivo que simplifica el análisis de datos en Amazon S3 mediante SQL estándar. Athena funciona sin servidor, por lo que no hay que configurar ni administrar ninguna infraestructura y puede elegir pagar en función de las consultas que ejecute o de los recursos de computación que requieran sus consultas. Puede utilizar Athena para procesar registros, analizar datos y ejecutar consultas interactivas. Athena se escala automáticamente, ejecuta las consultas en paralelo, por lo que los resultados son rápidos, incluso con conjuntos de datos de gran tamaño y consultas complejas.
Orquestación de flujos de trabajo altamente disponibles y enfocados en la seguridad para Apache Airflow
Amazon MWAA es un servicio administrado para Apache Airflow que le permite usar su plataforma Apache Airflow actual y familiar para organizar sus flujos de trabajo. Obtiene escalabilidad, disponibilidad y seguridad mejoradas sin la carga operativa de administrar la infraestructura subyacente. Amazon MWAA organiza los flujos de trabajo mediante gráficos acíclicos dirigidos (DAG) escritos en Python. Le brinda a Amazon MWAA un bucket de S3 donde permanecen sus DAG, complementos y requisitos de Python. Despliegue Apache Airflow a escala sin la carga operativa de la administración de la infraestructura subyacente.