Por que usar o Glue?
Com o AWS Glue, você paga uma taxa por hora, cobrada por segundo, por crawlers (descoberta de dados) e trabalhos de extração, transformação e carregamento (ETL) (processamento e carregamento de dados). Para o Catálogo de Dados do AWS Glue, você paga uma taxa mensal simplificada para armazenar e acessar os metadados. O primeiro milhão de objetos armazenados e o primeiro milhão de acessos são gratuitos. Se você provisionar um endpoint de desenvolvimento para desenvolver interativamente o código de ETL, pagará uma taxa horária, cobrada por segundo. Para o AWS Glue DataBrew, as sessões interativas são cobradas por sessão e os trabalhos do DataBrew são cobradas por minuto. O uso do registro de esquema do AWS Glue é oferecido sem custo adicional.
Observação: os preços podem variar por região da AWS.
-
Trabalhos de ETL e sessões interativas
-
Catálogo de dados
-
Crawlers
-
Sessões interativas do DataBrew
-
Trabalhos do DataBrew
-
Qualidade dos dados
-
Trabalhos de ETL e sessões interativas
-
Exemplos de definição de preço
Trabalho de ETL: considere um trabalho do Apache Spark do AWS Glue executado por 15 minutos usando 6 DPUs. O preço de 1 DPU/hora é USD 0,44. Como seu trabalho foi executado por 1/4 de uma hora e usou 6 DPUs, a AWS cobrará 6 DPUs* 1/4 de hora * USD 0,44, ou USD 0,66.
AWS Glue Studio Job Notebooks e Interactive Sessions: suponha que você use um notebook no AWS Glue Studio para desenvolver seu código ETL interativamente. Uma Interactive Session tem 5 DPUs por padrão. Se a sessão for executada por 24 minutos ou 2/5 de uma hora, a cobrança será de 5 DPUs * 2/5 hora a USD 0,44 por DPU-hora ou USD 0,88.
Transformações de ML: de maneira semelhante às execuções de trabalhos do AWS Glue, o custo de executar transformações de ML, incluindo FindMatches, nos dados varia de acordo com o tamanho e o conteúdo dos dados e também com o número e os tipos de nós que você usa. No exemplo a seguir, usamos o FindMatches para integrar informações de pontos de interesse de várias fontes de dados. Com um conjunto de dados de aproximadamente 11 milhões de linhas (1,6 GB), um tamanho de dados de rótulo (exemplos de correspondências verdadeiras ou não correspondências verdadeiras) de aproximadamente 8 mil linhas (641 KB), executadas em 16 instâncias do tipo G.2x, você teria o runtime da geração do conjunto de rótulos de 34 minutos ao custo de USD 8,23, o runtime de estimativa de métricas de 11 minutos ao custo de USD 2,66 e o runtime de trabalho do FindingMatches de 32 minutos ao custo de USD 7,75.
-
Catálogo de dados
-
Exemplos de preço
Nível gratuito do Catálogo de Dados do AWS Glue: vamos considerar que você armazena um milhão de tabelas no Catálogo de Dados em um determinado mês e faz um milhão de solicitações para acessar essas tabelas. Você paga USD 0 porque o uso está dentro do nível gratuito do Catálogo de Dados do AWS Glue. Você pode armazenar o primeiro milhão de objetos e fazer um milhão de solicitações por mês gratuitamente.
Catálogo de Dados do AWS Glue: agora, considere que o uso do armazenamento permanece o mesmo em um milhão de tabelas por mês, mas as solicitações dobram para dois milhões de solicitações por mês. Vamos supor que você também use crawlers para encontrar novas tabelas e que eles são executados por 30 minutos, consumindo 2 DPUs.
O custo do armazenamento ainda é USD 0, pois o armazenamento do primeiro milhão de tabelas é gratuito. O primeiro milhão de solicitações também é gratuito. Haverá uma cobrança para um milhão de solicitações acima do nível gratuito, que corresponde a USD 1. Os crawlers são cobrados a USD 0,44 por DPU-hora. Portanto, você pagará 2 DPUs x 1/2 hora a USD 0,44 por DPU-hora ou USD 0,44.
Se você gerar estatísticas nas tabelas do Glue e a execução das estatísticas levar 10 minutos e consumir 1 DPU, você receberá uma cobrança por 1 DPU x 1/6 hora x USD 0,44/DPU-hora, o que equivale a USD 0,07.
Se você compactar tabelas Apache Iceberg e a compactação for executada por 30 minutos e consumir 2 DPUs, serão cobradas 2 DPUs x 1/2 hora x USD 0,44/DPU-hora, o que equivale a USD 0,44. -
Crawlers
-
-
Sessões interativas do DataBrew
-
Exemplos de definição de preço
AWS Glue DataBrew: o preço para cada 30 minutos de sessão interativa é USD 1,00. Se você iniciar uma sessão às 9h, sair imediatamente do console e retornar entre 9h20 e 9h30, terá utilizado uma sessão por um total de USD 1,00.
Se você iniciar uma sessão às 9h e interagir com o console do DataBrew até 9h50, sair do espaço do projeto do DataBrew e voltar para fazer sua interação final às 10h15, terá utilizado três sessões e pagará USD 1,00 por sessão, totalizando USD 3,00.
-
Trabalhos do DataBrew
-
Exemplos de preço
AWS Glue DataBrew: se um trabalho do DataBrew for executado por dez minutos e consumir cinco nós do DataBrew, o preço será USD 0,40. Uma vez que o trabalho foi executado por 1/6 de hora e consumiu cinco nós, a cobrança será 5 nós * 1/6 de hora a USD 0,48 por hora de nó, totalizando USD 0,40.
-
Qualidade dos dados
-
O AWS Glue Data Quality aumenta a confiança em seus dados, ajudando você a obter dados de alta qualidade. Ele mede, monitora e gerencia automaticamente a qualidade dos dados nos seus data lakes e pipelines, facilitando a identificação de dados ausentes, obsoletos ou inválidos.
Você pode acessar os recursos de qualidade de dados no Catálogo de Dados e no AWS Glue Studio e por meio das APIs do AWS Glue.
Preços para gerenciar a qualidade dos dados dos conjuntos de dados catalogados no Catálogo de Dados:Você pode escolher um conjunto de dados do Catálogo de Dados e gerar recomendações. Essa ação criará uma tarefa de recomendação para a qual você fornecerá unidades de processamento de dados (DPUs). Depois de obter as recomendações, você pode modificar ou adicionar novas regras e agendá-las. Essas tarefas são chamadas de tarefas de qualidade de dados para as quais você provisionará DPUs. Você precisará de no mínimo 2 DPUs com uma duração mínima de cobrança de um minuto.
Preços para gerenciar a qualidade dos dados dos conjuntos de dados processados no ETL do AWS Glue:Você também pode adicionar verificações de qualidade de dados aos seus trabalhos de ETL para evitar que dados incorretos entrem em seus data lakes. Essas regras de qualidade de dados residirão nos seus trabalhos de ETL, resultando em um runtime maior ou em um maior consumo de DPU. Como alternativa, você pode usar a execução flexível para workloads não sensíveis ao SLA.
Preços para detectar anomalias no ETL do AWS Glue:
Detecção de anomalias:
Você incorrerá em 1 DPU por estatística, além das DPUs de seu trabalho de ETL pelo tempo necessário para detectar anomalias. Em média, são necessários entre 10 e 20 segundos para detectar uma anomalia em uma estatística. Vamos supor que você tenha configurado duas regras (Regra 1: o volume de dados deve ser maior que 1.000 registros; Regra 2: a contagem de colunas deve ser maior que 10) e um analisador (Analisador 1: monitorar a integridade de uma coluna). Essa configuração gerará três estatísticas: contagem de linhas, contagem de colunas e porcentagem de completude de uma coluna. Serão cobradas 3 DPUs adicionais pelo tempo necessário para detectar anomalias com um mínimo de um segundo. Veja o exemplo 4 para obter mais detalhes.
Reciclagem:
Talvez você queira excluir execuções de trabalhos ou estatísticas anômalas para que o algoritmo de detecção de anomalias preveja com precisão as anomalias subsequentes. Para fazer isso, o AWS Glue permite que você exclua ou inclua estatísticas. Você incorrerá em 1 DPU para treinar novamente o modelo pelo tempo que for necessário. Em média, o novo treinamento leva de 10 segundos a 20 minutos por estatística. Veja o exemplo 5 para obter mais detalhes.
Armazenamento de estatísticas:
Não há cobrança para armazenar as estatísticas coletadas. Há um limite de 100 mil estatísticas por conta, e elas serão armazenadas por dois anos.
Cobranças adicionais:
O AWS Glue processa dados diretamente no Amazon Simple Storage Service (Amazon S3). Não há cobranças adicionais de armazenamento pela leitura dos seus dados com o AWS Glue. As cobranças serão feitas de acordo com as taxas padrão do Amazon S3 para armazenamento, solicitações e transferência de dados. Com base na sua configuração, os arquivos temporários, os resultados de qualidade de dados e os arquivos aleatórios são armazenados em um bucket do S3 de sua escolha e também são cobrados de acordo com as taxas padrão do S3.
Se você usar o Catálogo de Dados, haverá uma cobrança das taxas padrão dele. Para saber mais, escolha a guia de armazenamento e solicitações do Catálogo de Dados.
Exemplos de preço
Exemplo 1: obter recomendações para uma tabela no Catálogo de DadosPor exemplo, considere uma tarefa de recomendação com 5 DPUs concluída em dez minutos. Você pagará 5 DPUs * 1/6 hora * USD 0,44, o que equivale a USD 0,37.
Exemplo 2: avaliar a qualidade dos dados de uma tabela no catálogo de dadosDepois de revisar as recomendações, você pode editá-las, se necessário, e agendar a tarefa de qualidade de dados provisionando DPUs. Por exemplo, considere uma tarefa de avaliação de qualidade com 5 DPUs concluída em 20 minutos.
Você pagará 5 DPUs * 1/3 hora * USD 0,44, o que equivale a USD 0,73.
Exemplo 3: avaliar a qualidade dos dados em um trabalho ETL do AWS GlueVocê também pode adicionar essas verificações de qualidade de dados aos seus trabalhos de ETL do AWS Glue para evitar que dados incorretos entrem em seus data lakes. Você pode fazer isso adicionando o Data Quality Transform no AWS Glue Studio ou usando as APIs do AWS Glue no código que você cria nos blocos de anotações do AWS Glue Studio. Considere um trabalho do AWS Glue que é executado em que as regras de qualidade de dados são configuradas no pipeline, que executa 20 minutos (1/3 hora) com 6 DPUs. Você pagará 6 DPUs * 1/3 hora * USD 0,44, o que equivale a USD 0,88. Como alternativa, você pode usar o Flex, para o qual você pagará 6 DPUs * 1/3 de hora * USD 0,29, o que equivale a USD 0,58.
Exemplo 4: avalie a qualidade dos dados em um trabalho de ETL do AWS Glue com detecção de anomalias
Considere um trabalho do AWS Glue que leia dados do Amazon S3, transforme dados e execute verificações de qualidade de dados antes de carregá-los no Amazon Redshift. Suponha que esse pipeline tenha dez regras e dez analisadores, resultando em 20 estatísticas coletadas. Além disso, suponha que a extração, o processo de transformação, o carregamento, a coleta de estatísticas e a avaliação da qualidade dos dados levem 20 minutos. Sem a Detecção de anomalias ativada, o cliente pagará 6 DPUs * 1/3 de hora (20 minutos) * USD 0,44, o que equivale a USD 0,88 (A). Com a Detecção de anomalias ativada, adicionaremos 1 DPU para cada estatística, e levaremos 15 segundos, em média, para detectar anomalias. Neste exemplo, o cliente incorrerá em 20 estatísticas * 1 DPU * 15/3600 (0,0041 hora/estatística) * USD 0,44 (custo por DPU/hora) = USD 0,037 (B). O custo total do trabalho será de USD 0,88 (A) + USD 0,037 (B) = USD 0,917.
Exemplo 5: novo treinamentoSuponha que seu trabalho do Glue detectou uma anomalia. Você decide excluir a anomalia do modelo para que o algoritmo de detecção de anomalias preveja anomalias futuras com precisão. Para realizar essa ação, você pode treinar novamente o modelo excluindo essa estatística anômala. Você incorrerá em 1 DPU por estatística pelo tempo necessário para treinar novamente o modelo. Em média, isso pode levar 15 segundos. Neste exemplo, supondo que você esteja excluindo um ponto de dados, você incorrerá em 1 estatística * 1 DPU * 15/3600 (0,0041 hora/estatística) * USD 0,44 = USD 0,00185.
Observação: os preços podem variar por região.
Veja a tabela de regiões globais para saber mais sobre a disponibilidade do AWS Glue.