Recursos do Amazon Athena

Por que o Athena?

O Amazon Athena é um serviço de consultas interativas que simplifica a análise de dados diretamente no Amazon S3 usando SQL padrão. O Athena é uma tecnologia sem servidor, portanto, não há infraestrutura para configurar ou gerenciar, e você pode optar por pagar com base nas consultas executadas ou na computação necessária para suas consultas. Use o Athena para processar logs, executar análise de dados e executar consultas interativas. O Athena escala automaticamente, executando consultas em paralelo, por isso, os resultados são rápidos, mesmo ao trabalhar com grandes conjuntos de dados e consultas complexas.  

Principais benefícios

Como não tem servidor, o Amazon Athena não exige gerenciamento de infraestrutura. Não há preocupações com configuração, atualizações de software, falhas ou escalabilidade da infraestrutura conforme o crescimento de conjuntos de dados e número de usuários. O Athena administra automaticamente tudo sozinho, assim é possível manter o foco nos dados e não na infraestrutura.

Para começar a usar, faça login no console do Athena, defina seu esquema usando o assistente do console, ou digitando instruções DDL, e comece a consultar imediatamente usando o editor de consultas integrado. Também é possível usar o AWS Glue para fazer automaticamente o crawling de fontes de dados para descobrir dados e preencher o catálogo de dados com definições novas e modificadas de tabelas e partições. Os resultados são exibidos no console em segundos e gravados automaticamente em um local de sua escolha no S3. Também é possível fazer o download deles no desktop. Com o Athena, não há necessidade de trabalhos complexos de ETL para preparar dados para análise. Isso permite que qualquer pessoa com experiência em SQL analise conjuntos de dados em grande escala com simplicidade e rapidez.

O Amazon Athena é baseado no Trino e no Presto, mecanismos de SQL distribuídos e de código aberto otimizados para análise de dados interativa e de baixa latência. Isso significa que é possível executar consultas em grandes conjuntos de dados no Amazon S3 usando ANSI SQL, com suporte total a grandes associações, funções de janela e matrizes. O Athena é compatível com uma grande variedade de formatos de dados, como CSV, JSON, ORC, Avro ou Parquet. Com os conectores de fonte de dados federados do Athena, você pode consultar armazenamentos de dados adicionais e unir os dados aos armazenados no Amazon S3. Você pode acessar o Athena e executar consultas a partir do console do Athena, API, CLI, AWS SDK e aplicações compatíveis de business intelligence e desenvolvimento SQL por meio dos drivers JDBC e ODBC do Athena.

O Amazon Athena oferece dois modelos de preços flexíveis. Por padrão, as consultas são cobradas com base nos dados digitalizados por consulta em terabytes (TB). Isso permite que você envie consultas sem planejar a computação com antecedência. Se você preferir pagar com base na computação que suas consultas consomem ou quiser controlar a simultaneidade e priorizar as workloads, use os preços baseados na capacidade disponíveis com a capacidade provisionada. Para maior flexibilidade, você pode usar o faturamento por consulta e os preços baseados na capacidade ao mesmo tempo na mesma conta.

Com o Amazon Athena, não é necessário preocupar-se com gerenciar ou ajustar clusters para obter uma performance mais rápida. O Athena é otimizado para performance rápida com o Amazon S3. O Athena executa automaticamente consultas em paralelo para que os resultados da consulta sejam obtidos em segundos, mesmo em grandes conjuntos de dados.  

O Amazon Athena tem alta disponibilidade e executa queries usando recursos computacionais em vários locais, roteando automaticamente as queries da forma adequada caso determinada unidade não esteja acessível. O Athena usa o Amazon S3 como datastore subjacente, conferindo alta disponibilidade e durabilidade aos seus dados. O Amazon S3 proporciona infraestrutura durável para armazenar dados importantes e foi projetado para oferecer durabilidade de objetos de 99,999999999%. Seus dados são armazenados com redundância em várias instalações e diversos dispositivos em cada instalação.

O Amazon Athena permite controlar o acesso a dados usando políticas do AWS Identity and Access Management (IAM), listas de controle de acesso (ACLs) e políticas de bucket do Amazon S3. Com as políticas do IAM, você pode conceder aos usuários do IAM controle fino aos buckets do S3. Ao controlar o acesso aos dados no S3, você pode restringir quais usuários podem fazer queries usando o Athena. O Athena também permite a consulta de dados criptografados que se encontram armazenados no Amazon S3 e a gravação dos resultados criptografados de volta em seu bucket do S3. Tanto a criptografia no servidor quanto no cliente são compatíveis.

O Amazon Athena apresenta integração de fábrica ao AWS Glue. Com o Glue Data Catalog, você poderá criar um repositório de metadados unificado entre vários serviços, fazer crawling de fontes de dados para descobrir esquemas e preencher o Catalog com definições novas e modificadas de tabelas e partições, além de manter o versionamento do esquema. Você também pode usar os recursos ETL totalmente gerenciados do Glue para transformar dados ou convertê-los em formatos colunares para otimizar a performance de consultas e reduzir os custos. Saiba mais sobre o AWS Glue.

O Athena fornece conectores integrados para 30 armazenamentos de dados populares da AWS, no local e em outros armazenamentos de dados na nuvem, incluindo Amazon Redshift, Amazon DynamoDB, Google BigQuery, Google Cloud Storage, Azure Synapse, Azure Data Lake Storage, Redis, Snowflake e SAP Hana. Ao usar os conectores de fonte de dados do Athena, você pode gerar insights de várias fontes de dados usando a sintaxe do Athena SQL e sem a necessidade de mover ou transformar seus dados. Os conectores de dados são executados como funções do AWS Lambda e podem ser habilitados para acesso entre contas, para dimensionar consultas SQL para centenas de usuários finais. Para obter uma lista de fontes compatíveis, consulte Conectores de fonte de dados disponíveis. Para saber como criar um conector de fonte de dados personalizado, consulte o SDK do conector Athena.

Você pode invocar seus modelos de machine learning do SageMaker em uma consulta SQL do Athena para executar inferências. A capacidade de usar modelos de ML em consultas SQL simplifica tarefas complexas como detecção de anomalias, análise de coorte de clientes e previsões de vendas, para que sejam tão simples quanto escrever uma consulta SQL. O Athena simplifica a execução de modelos de ML implantados no Amazon SageMaker por qualquer pessoa com experiência em SQL.