Observabilidade

Encontre e corrija problemas com eficiência, melhore a integridade do aplicativo e ofereça melhores experiências ao cliente

Três sinais fundamentais de observabilidade são métricas, logs (dados semiestruturados) e rastreamentos (fluxos de solicitações do início ao fim em todas as dependências). Esses sinais são o resultado de ambientes monitorados, como contêineres, microsserviços e aplicativos. O objetivo é fornecer uma experiência integrada para que os engenheiros de DevOps e de confiabilidade do site isolem eventos essenciais e usem todos os sinais de observabilidade para isolar problemas em aplicativos e microsserviços conteinerizados executados em qualquer lugar. O Amazon OpenSearch Service combina análise de dados de log e rastreamento em uma única solução.

Operações de observabilidade

O Amazon OpenSearch Service fornece novas funcionalidades para ajudar na solução de problemas de observabilidade.

Recursos

Use interfaces abertas para coletar, rotear e transformar dados de telemetria (inclusive OpenTelemetry, Fluentd, Fluent Bit, Logstash, Data Prepper e outras). É possível pesquisar e analisar grandes volumes de dados semiestruturados com funcionalidades nativas. É possível visualizar, monitorar e alertar com detecção de anomalias os recursos de observabilidade do OpenSearch Dashboards e conduzir análise interativa e visualizações de dados com a Piped Processing Language (PPL), uma interface de consulta.

Colete

Primeiro, é preciso coletar os dados para análise. A coleta abrange a obtenção, o enriquecimento, a filtragem, a transformação e a normalização de dados de várias fontes.

Detecção

Frequentemente, os clientes não detectam problemas assim que eles surgem. Em geral, há um atraso entre o início de um problema e o momento em que você é avisado. Você quer reduzir esse retardo o máximo possível. A detecção deve ser proativa e multifacetada (como alarmes em telemetria). A detecção de anomalias é uma ferramenta essencial, bem como a capacidade de reunir alarmes relacionados para reduzir a fadiga do alarme. Um componente central da detecção também é a visualização e o monitoramento, o que o Amazon OpenSearch Service faz com um componente chamado OpenSearch Dashboards. É possível até mesmo analisar interativamente os dados com ferramentas, como o PPL.

Investigar

A investigação ocorre onde as pessoas gastam mais tempo durante um evento operacional. A investigação geralmente envolve várias pessoas. Esse é o maior contribuinte para o Tempo médio para o incidente (MTTI) e o Tempo médio para a recuperação (MTTR). Atravessar o caos e entender no que se concentrar continua a ser uma tarefa difícil. Use logs, métricas e rastreamentos para ajudá-lo a realizar rapidamente a análise da causa-raiz, enquanto faz a correlação entre métricas, logs e rastreamentos, na AWS, no local ou em outras nuvens. Colabore nas investigações e documente sua análise com os cadernos do OpenSearch Dashboard.

Corrigir

Depois da identificação da causa de uma falha, é preciso corrigi-la. Não há nada pior do que tentar consertar alguma coisa e piorar a situação. Não se esqueça de realizar uma análise pós-evento para determinar como a falha poderia ter sido evitada previamente. Documente as alterações propostas para evitar a recorrência do problema. Seu objetivo deve ser garantir que o mesmo problema jamais ocorra novamente. Porém, se ocorrer, você poderá identificá-lo e remediá-lo automaticamente.

Monitoramento de desempenho de aplicativos

Às vezes, o APM é o primeiro nível de maturidade da observabilidade. Porém, o APM, isoladamente, não é suficiente. Seu aplicativo está tendo o desempenho esperado, mesmo se o painel de monitoramento de aplicativos estiver todo verde? Seus clientes estão tendo a experiência do usuário de que necessitam? Qual o uso do seu aplicativo? Que partes do seu aplicativo estão atingindo os limites de escala? Em que região geográfica você está observando o maior crescimento? Que tendências você pode visualizar e para quais deve fazer planos? Se você pudesse reunir as métricas, poderia ter a certeza de que, ao implantar um novo código ou uma mudança na infraestrutura, poderia observar o impacto dessas mudanças. A observabilidade aprimora o APM para responder a essas perguntas adicionais.

computador exibindo monitoramento de performance

Clientes

Chase International: experiência sempre ativa do cliente e escala
Dow Jones e 3M: observabilidade com Amazon OpenSearch Service

Recursos de observabilidade

Exibindo 1 - 8 (11)

Tópicos da página

Geral

Geral

O Trace Analytics é um novo recurso do Amazon OpenSearch Service que permite aos desenvolvedores e aos operadores de TI encontrar e corrigir problemas de performance em aplicações distribuídas, resultando em tempos de resolução de problemas mais rápidos. O Trace Analytics foi desenvolvido usando o OpenTelemetry, um projeto da Cloud Native Computing Foundation (CNCF) que fornece um único conjunto de APIs, bibliotecas, atendentes e serviços de coletor para capturar rastreamentos e métricas distribuídos, o que permite aos clientes aproveitar o Trace Analytics sem precisarem reinstrumentar suas aplicações. O Trace Analytics foi desenvolvido pelo OpenSearch, que é de código aberto e está disponível gratuitamente ao público geral para download e uso.

Os desenvolvedores e Ops de TI precisam do Trace Analytics para encontrar e corrigir problemas de performance em suas aplicações distribuídas. Adicionando dados de rastreamento aos recursos de análise de log existentes do Amazon OpenSearch Service, os clientes podem usar o mesmo serviço para isolar a origem de problemas de performance e diagnosticar sua causa raiz. Além disso, com o suporte ao padrão OpenTelemetry, o Trace Analytics é compatível com a integração com os SDKs Jaeger e Zipkin, dois sistemas de rastreamento distribuídos populares de código aberto, o que permite que os desenvolvedores continuem usando esses SDKs e não precisem reinstrumentar suas aplicações.

O Trace Analytics é um recurso integrado do Amazon OpenSearch Service. O recurso está disponível para todos os clientes sem custo extra. O Trace Analytics tem uma interface de usuário baseada no OpenSearch Dashboards e no Kibana para visualizar e explorar dados de rastreamento e está integrado aos principais recursos do Amazon OpenSearch Service, como detecção de anomalias, alertas, controle de acesso detalhado e segurança empresarial. O Trace Analytics complementa o uso do Amazon OpenSearch Service por parte dos clientes para pesquisa e análise de dados de log ao resolver problemas de performance de aplicações.

No momento, o Trace Analytics oferece suporte à coleta de dados de rastreamento de bibliotecas de aplicações e SDKs compatíveis com o OpenTelemetry Collector de código aberto, incluindo os SDKs Jaeger, Zipkin e X-Ray. O Trace Analytics também se integra ao AWS Distro para OpenTelemetry, que é uma distribuição de APIs, SDKs e atendentes/coletores do OpenTelemetry. É uma distribuição segura e eficiente de componentes do OpenTelemetry que foi testada para uso em produção e tem o suporte da AWS. Os clientes podem usar o AWS Distro para OpenTelemetry para coletar rastreamentos e métricas de várias soluções de monitoramento, incluindo o Amazon OpenSearch Service e o AWS X-Ray para dados de rastreamento e o Amazon CloudWatch para métricas.

Para começar a usar o Trace Analytics, siga a documentação aqui.