¿Por qué utilizar Glue?
Con AWS Glue, paga una tarifa por hora, que se factura por segundo, para los rastreadores (detección de datos) y los trabajos de extracción, transformación y carga (ETL) (procesamiento y carga de datos). Con el Catálogo de datos de AWS Glue, paga una tarifa mensual simplificada para almacenar los metadatos y acceder a ellos. El primer millón de objetos que almacene y el primer millón de accesos son gratuitos. Si aprovisiona un punto de conexión de desarrollo para desarrollar interactivamente su código ETL, paga una tarifa por hora, que se factura por segundo. En AWS Glue DataBrew, las sesiones interactivas se facturan por sesión y los trabajos de DataBrew, por minuto. El uso del registro de esquemas de AWS Glue se ofrece sin cargos adicionales.
Nota: los precios pueden variar según la región de AWS.
-
Trabajos de ETL y sesiones interactivas
-
Catálogo de datos
-
Rastreadores
-
Sesiones interactivas de DataBrew
-
Trabajos de DataBrew
-
Calidad de los datos
-
Trabajos de ETL y sesiones interactivas
-
Ejemplos de precios
Trabajo de ETL: suponga que tiene un trabajo de Apache Spark para AWS Glue que se ejecuta durante 15 minutos y utiliza 6 DPU. El precio de 1 hora de DPU es de 0,44 USD. Dado que el trabajo se ejecutó durante 1/4 de hora y utilizó 6 DPU, AWS le facturará 6 DPU * 1/4 hora * 0,44 USD, o 0,66 USD.
Blocs de notas de trabajos de AWS Glue Studio y sesiones interactivas: suponga que utiliza un bloc de notas en AWS Glue Studio para desarrollar el código ETL de manera interactiva. Una sesión interactiva tiene 5 DPU de forma predeterminada. Si ejecuta la sesión durante 24 minutos o 2/5 partes de una hora, se facturarán 5 DPU * 2/5 de hora a 0,44 USD por hora de DPU, o 0,88 USD.
Transformaciones de ML: de manera similar a las ejecuciones de trabajos de AWS Glue, el costo de ejecutar transformaciones de ML, que incluye usar FindMatches en sus datos, variará según el tamaño y el contenido de los datos y la cantidad y los tipos de nodos que utiliza. En el siguiente ejemplo, utilizamos FindMatches para integrar información de puntos de interés de múltiples orígenes de datos. Con aproximadamente 11 000 000 filas (1,6 GB) en el conjunto de datos, un tamaño de los datos de etiquetas (ejemplos de coincidencias verdaderas o no coincidencias verdaderas) de aproximadamente 8000 filas (641 KB), que se ejecutan en 16 instancias del tipo G.2x, tendría un tiempo de ejecución para la generación de conjuntos de etiquetas de 34 minutos con un costo de 8,23 USD, un tiempo de ejecución para la estimación de métricas de 11 minutos con un costo de 2,66 USD y un tiempo de ejecución para los trabajos de FindingMatches de 32 minutos a un costo de 7,75 USD.
-
Catálogo de datos
-
Ejemplos de precios
Nivel gratuito del catálogo de datos de AWS Glue: supongamos que almacena un millón de tablas en el catálogo de datos en un mes determinado y que lleva a cabo un millón de solicitudes para obtener acceso a dichas tablas. No pagará nada por el uso porque este estará cubierto por el nivel gratuito del catálogo de datos de AWS Glue. Puede almacenar el primer millón de objetos y llevar a cabo un millón de solicitudes al mes de manera gratuita.
Catálogo de datos de AWS Glue: suponga que el uso del almacenamiento continúa siendo igual con un millón de tablas al mes, pero que las solicitudes se duplican a dos millones mensuales. Supongamos que también utiliza rastreadores para encontrar tablas nuevas y que estos se ejecutan durante 30 minutos y que consumen 2 DPU.
El costo por almacenamiento continúa siendo 0 USD, ya que el primer millón de tablas es gratuito. El primer millón de solicitudes también es gratuito. Se le cobrará el millón de solicitudes que supera la capa gratuita, cuyo costo sería 1 USD. Los rastreadores se facturan a 0,44 USD por hora de DPU, por lo que pagará 2 DPU * 1/2 hora a 0,44 USD la hora de DPU o 0,44 USD.
Si genera estadísticas en tablas de Glue y la ejecución de las estadísticas tarda 10 minutos y consume 1 DPU, se le facturará 1 DPU * 1/6 hora * 0,44 USD por hora de DPU, lo que equivale a 0,07 USD.
Si compacta las tablas Apache Iceberg, la compactación dura 30 minutos y consume 2 DPU, se le facturarán 2 DPU * 1/2 hora * 0,44 USD por hora de DPU, lo que equivale a 0,44 USD. -
Rastreadores
-
-
Sesiones interactivas de DataBrew
-
Ejemplos de precios
AWS Glue DataBrew: el precio por cada sesión interactiva de 30 minutos es de 1,00 USD. Si inicia una sesión a las 09:00 h, abandona inmediatamente la consola y regresa de 09:20 h a 09:30 h, utilizará 1 sesión por un total de 1,00 USD.
Si comienza una sesión a las 09:00 h e interactúa con la consola de DataBrew hasta las 09:50 h, sale del espacio del proyecto de DataBrew y vuelve para hacer su última interacción a las 10:15 h, esto supondrá el uso de 3 sesiones y se le facturará 1,00 USD por sesión por un total de 3,00 USD.
-
Trabajos de DataBrew
-
Ejemplos de precios
AWS Glue DataBrew: si un trabajo de DataBrew se ejecuta durante 10 minutos y consume 5 nodos de DataBrew, el precio será de 0,40 USD. Debido a que el trabajo se ejecutó durante 1/6 parte de una hora y consumió 5 nodos, se facturarán 5 nodos * 1/6 de hora * 0,48 USD por hora de nodo para un total de 0,40 USD.
-
Calidad de los datos
-
Calidad de datos de AWS Glue aumenta la confianza en sus datos ya que consigue que tengan una gran calidad. De forma automática, mide, supervisa y administra la calidad de los datos en sus lagos de datos y canalizaciones. Por ello, resulta más sencillo identificar datos inexistentes, obsoletos o erróneos.
Puede acceder a características de calidad de datos con el catálogo de datos y AWS Glue Studio y mediante las API de AWS Glue.
Precios para administrar la calidad de los conjuntos de datos catalogados en el Catálogo de datos:Puede elegir un conjunto de datos del Catálogo de datos y generar recomendaciones. Esta acción creará una tarea de recomendación, a la que aprovisionará unidades de procesamiento de datos (DPU). Tras obtener las recomendaciones, puede modificar o agregar nuevas reglas y programarlas. Estas tareas se denominan tareas de calidad de datos, a las que aprovisionará DPU. Necesitará un mínimo de 2 DPU con una duración mínima de facturación de 1 minuto.
Precios para administrar la calidad de los conjuntos de datos procesados en ETL de AWS Glue:También puede agregar comprobaciones de la calidad de datos a los trabajos de ETL para evitar que se ingresen datos erróneos en los lagos de datos. Estas reglas de calidad de datos se incluirán en los trabajos de ETL, lo que dará lugar a un mayor tiempo de ejecución o un mayor consumo de DPU. Como alternativa, puede usar la ejecución flexible para cargas de trabajo confidenciales no relacionadas al SLA.
Precios para detectar anomalías en ETL de AWS Glue ETL:
Detección de anomalías:
Incurrirá en 1 DPU por estadística, además de las DPU de trabajo de ETL, durante el tiempo necesario para detectar anomalías. En promedio, se necesitan entre 10 y 20 segundos para detectar una anomalía en una estadística. Supongamos que ha configurado dos reglas (regla 1: el volumen de datos debe ser superior a 1000 registros, regla 2: el recuento de columnas debe ser superior a 10) y un analizador (analizador 1: supervisar la integridad de una columna). Esta configuración generará tres estadísticas: recuento de filas, recuento de columnas y porcentaje de integridad de una columna. Se le cobrarán 3 DPU adicionales por el tiempo que lleve detectar anomalías con un mínimo de 1 segundo. Consulte el ejemplo 4 para obtener más información.
Reentrenamiento:
Es posible que desee excluir las ejecuciones de trabajos o las estadísticas anómalas para que el algoritmo de detección de anomalías prediga con precisión las anomalías posteriores. Para ello, AWS Glue le permite excluir o incluir estadísticas. Se necesitará 1 DPU para volver a entrenar el modelo durante el tiempo que lleve volver a entrenarlo. En promedio, el reentrenamiento demora de 10 segundos a 20 minutos por estadística. Consulte el ejemplo 5 para obtener más información.
Almacenamiento de estadísticas:
No hay ningún cargo por almacenar las estadísticas recopiladas. Hay un límite de 100 000 estadísticas por cuenta y se almacenarán durante 2 años.
Cargos adicionales:
AWS Glue procesa datos directamente de Amazon Simple Storage Service (Amazon S3). La lectura de sus datos con AWS Glue no conlleva cargos de almacenamiento adicionales. Se le cobran las tarifas estándar de Amazon S3 por almacenamiento, solicitudes y transferencia de datos. En función de su configuración, los archivos temporales, los resultados de la calidad de datos y los archivos aleatorios se almacenan en un bucket de S3 de su elección y también se facturan según las tarifas estándar de S3.
Si usa el catálogo de datos, se le cobrarán las tarifas estándar del catálogo de datos. Para más detalles, elija la pestaña Solicitudes y almacenamiento en el catálogo de datos.
Ejemplos de precios
Ejemplo 1: obtener recomendaciones para una tabla del catálogo de datosPor ejemplo, considere una tarea de recomendación con 5 DPU que se completa en 10 minutos. Pagará 5 DPU * 1/6 de hora * 0,44 USD, lo que equivale a 0,37 USD.
Ejemplo 2: evaluar la calidad de datos de una tabla del catálogo de datosTras revisar las recomendaciones, puede editarlas si fuera necesario y, a continuación, programar la tarea de calidad de datos mediante el aprovisionamiento de DPU. Por ejemplo, considere una tarea de evaluación de la calidad de datos con 5 DPU que se completa en 20 minutos.
Pagará 5 DPU * 1/3 de hora * 0,44 USD, lo que equivale a 0,73 USD.
Ejemplo 3: evaluar la calidad de datos en un trabajo de ETL de AWS GlueTambién puede agregar estas comprobaciones de la calidad de datos a los trabajos de ETL de AWS Glue para evitar que se ingresen datos erróneos en los lagos de datos. Para ello, agregue Data Quality Transform a AWS Glue Studio o use las API de AWS Glue en el código que ha creado en los blocs de notas de AWS Glue Studio. Considere que un trabajo de AWS Glue se ejecuta con reglas de calidad de datos configuradas en la canalización, y que se ejecuta durante 20 minutos (1/3 de hora) con 6 DPU. Se le cobrará 6 DPU * 1/3 de hora * 0,44 USD, lo que equivale a 0,88 USD. Como alternativa, puede usar Flex, por lo que se le cobrará 6 DPU * 1/3 de hora * 0,29 USD, lo que equivale a 0,58 USD.
Ejemplo 4: Evaluar la calidad de los datos en un trabajo de ETL de AWS Glue con Detección de anomalías
Considere un trabajo de AWS Glue que lee datos de Amazon S3, transforma datos y ejecuta comprobaciones de calidad de datos antes de cargarlos en Amazon Redshift. Suponga que esta canalización tuviera 10 reglas y 10 analizadores, con el resultado de 20 estadísticas recopiladas. Además, suponga que la extracción, el proceso de transformación, la carga, la recopilación de estadísticas y la evaluación de la calidad de los datos demorarán 20 minutos. Si la detección de anomalías no está habilitada, se le cobrarán al cliente 6 DPU * 1/3 de hora (20 minutos) * 0,44 USD, lo que equivale a 0,88 USD (A). Con la detección de anomalías activada, agregaremos 1 DPU por cada estadística y, en promedio, tardaremos 15 segundos en detectar anomalías. En este ejemplo, el cliente generará 20 estadísticas * 1 DPU * 15/3600 (0,0041 horas/estadística) * 0,44 USD (costo por DPU/hora) = 0,037 USD (B). El costo total del trabajo será de 0,88 USD (A) + 0,037 USD (B) = 0,917 USD.
Ejemplo 5: ReentrenamientoTenga en cuenta que su trabajo de Glue detectó una anomalía. Decide excluir la anomalía del modelo para que el algoritmo de detección de anomalías prediga con precisión las anomalías futuras. Para ello, puede volver a entrenar el modelo excluyendo esta estadística anómala. Incurrirá en 1 DPU por estadística durante el tiempo que lleve volver a entrenar el modelo. En promedio, esto puede demorar 15 segundos. En este ejemplo, suponiendo que excluya 1 punto de datos, incurrirá en 1 estadística * 1 DPU * 15/3600 (0,0041 hora/estadística) * 0,44 USD = 0,00185 USD.
Nota: Los precios pueden variar según la región.
Consulte la tabla de regiones globales para obtener más información sobre la disponibilidad de AWS Glue.