문제를 효율적으로 찾고 수정하며, 애플리케이션 상태를 개선하고 더 나은 고객 경험을 제공함

세 가지 기본 관측성 신호는 지표, 로그(반구조 데이터) 및 추적(모든 종속성에 걸쳐 처음부터 끝까지의 요청 흐름)입니다. 이러한 신호는 컨테이너, 마이크로 서비스 및 애플리케이션과 같이 모니터링되는 환경의 출력입니다. 목표는 DevOps 및 사이트 신뢰성 엔지니어가 중요한 이벤트를 격리하고 모든 관측성 신호를 사용하여 어디에서나 실행되는 컨테이너형 애플리케이션 및 마이크로서비스로 문제를 격리할 수 있는 통합된 환경을 제공하는 것입니다. Amazon OpenSearch Service는 로그 및 추적 데이터 분석을 단일 솔루션으로 통합합니다.

관측성 연산

Amazon OpenSearch Service는 관측성 문제를 해결하는 데 도움이 되는 새로운 기능을 제공합니다.

기능

개방형 인터페이스를 사용하여 원격 측정 데이터(OpenTelemetry, Fluentd, Fluent Bit, Logstash, Data Prepper 등)를 수집, 라우팅 및 변환합니다. 기본 기능으로 대량의 반구조화 데이터를 검색하고 분석할 수 있습니다. OpenSearch Dashboard의 이상 탐지 관찰성 기능을 통해 시각화, 모니터링 및 경고를 수행할 수 있으며 쿼리 인터페이스인 파이프 처리 언어(PPL)를 통해 데이터에 대한 대화형 분석 및 시각화를 수행할 수 있습니다.

수집

먼저 분석을 위해 데이터를 수집해야 합니다. 수집에는 여러 소스에서 데이터를 수집, 농축, 필터링, 변환 및 정규화하는 작업이 포함됩니다.

탐지

고객은 문제를 시작되어도 바로 탐지하지 못하는 경우가 많으며, 문제가 시작되는 시점과 알림을 받는 시점 사이 지연 시간이 발생하는 경우가 많습니다. 이 지연 시간을 가능한 많이 줄이기를 원합니다. 탐지는 사전 예방적이고 다면적이어야 합니다(예, 텔레메트리의 경보). 이상 탐지는 알람 피로를 줄이기 위한 중요한 도구이자 피로를 줄일 수 있도록 관련 알람을 연결할 수 있는 기능입니다. 탐지의 핵심 구성 요소는 시각화 및 모니터링이며, Amazon OpenSearch Service는 OpenSearch 대시보드라는 구성 요소를 사용합니다. PPL과 같은 도구를 사용하여 대화식으로 데이터를 분석할 수도 있습니다.

조사

조사는 운영 이벤트 중에 사람들이 가장 많은 시간을 소비하는 곳이며, 조사에는 보통 여러 명이 필요합니다. 조사는 MTTI(평균 문제 원인 파악 시간) 및 MTTR(평균 문제 해결 시간)의 가장 큰 기여자입니다. 혼란 속에서 무엇에 집중해야 하는지 이해하는 것은 여전히 어려운 과제입니다. AWS와 온프레미스 또는 기타 클라우드에서 로그, 지표 및 추적을 활용하여 지표, 로그 및 추적 간에 상관 관계를 유지하면서 근본 원인 분석을 신속하게 수행할 수 있습니다. OpenSearch Dashboard 노트북을 사용하여 공동 조사를 수행하고 분석을 문서화할 수 있습니다.

해결

장애 원인을 파악한 후에는 이를 해결해야 합니다. 무언가를 고치려고 노력하다가 상황을 더 악화시키는 것이 최악입니다. 처음부터 실패를 방지할 수 있었던 방법을 알아내기 위해 사후 분석을 수행하는 것을 잊지 마세요. 제안된 변경사항을 문서화하여 문제가 반복되지 않도록 할 수 있습니다. 목표는 동일한 문제가 다시는 발생하지 않도록 하는 것이지만, 만약 발생하더라도 자동으로 문제를 식별하고 해결할 수 있도록 합니다.

애플리케이션 성능 모니터링

애플리케이션 성능 모니터링(APM)은 관측성의 완성도를 높이기 위한 첫 단계로 여겨집니다. 하지만 APM 하나로는 충분하지 않습니다. 애플리케이션 모니터링 대시보드가 모두 녹색인 경우에도 애플리케이션이 실제로 예상대로 작동합니까? 고객이 필요한 사용자 경험을 얻고 있습니까? 애플리케이션은 어떤 용도로 사용됩니까? 애플리케이션의 어느 부분이 확장 한계에 도달하고 있습니까? 가장 큰 성장을 경험하고 있는 리전이 어디입니까? 어떤 추세를 시각화하고 계획할 수 있습니까? 지표를 수집할 수 있다면 새 코드를 배포하거나 인프라를 변경할 때 이러한 변경사항이 미치는 영향을 확인할 수 있다는 확신을 가질 수 있습니다. 관측성은 APM이 이러한 추가 질문에 답하도록 발전시킵니다.

성능 모니터링을 표시하는 컴퓨터

고객

Chase International: 규모에 맞는 상시 고객 경험
Dow Jones 및 3M: Amazon OpenSearch Service를 통한 관측성

관측성 리소스

1 - 8 (11) 표시

페이지 주제

일반

일반

Trace Analytics는 개발자와 IT 운영자가 분산된 애플리케이션에서 성능 문제를 찾아 해결할 수 있는 Amazon OpenSearch Service의 새로운 기능으로, 이를 통해 문제 해결 시간을 단축할 수 있습니다. Trace Analytics는 API, 라이브러리, 에이전트 및 수집기 서비스의 단일 세트를 제공하여 분산된 추적과 지표를 캡처하는 Cloud Native Computing Foundation(CNCF) 프로젝트인 OpenTelemetry를 사용하도록 구축되었으므로 고객은 애플리케이션을 다시 계측하지 않고도 Trace Analytics를 활용할 수 있습니다. Trace Analytics는 오픈 소스로서 누구나 무료로 다운로드 및 사용할 수 있는 OpenSearch 프로젝트로 구동합니다.

개발자와 IT Ops 이 분산된 애플리케이션의 성능 문제를 찾아 해결하려면 Trace Analytics가 필요합니다. Amazon OpenSearch Service의 기존 로그 분석 기능에 추적 데이터를 추가함으로써 고객은 동일한 서비스를 사용해 성능 문제의 원인을 파악하고 근본 원인을 진단할 수 있습니다. 또한 OpenTelemetry 표준에 대한 지원을 통해 Trace Analytics는 두 개의 인기 있는 오픈 소스 분산 추적 시스템인 JaegerZipkin SDK와 통합할 수 있으므로 개발자는 이 SDK를 계속 사용함으로써 애플리케이션을 다시 계측할 필요가 없습니다.

Trace Analytics는 Amazon OpenSearch Service의 통합 기능입니다. 추가 비용 없이 모든 고객에게 무료로 제공됩니다. Trace Analytics는 추적 데이터를 시각화하고 탐색할 수 있는 OpenSearch 대시보드 및 Kibana 기반 사용자 인터페이스를 갖추고 있으며 이상 탐지, 알림, 세분화된 액세스 제어 및 엔터프라이즈 보안과 같은 Amazon OpenSearch Service의 주요 기능과 통합할 수 있습니다. Trace Analytics는 애플리케이션 성능 문제를 해결할 때 로그 데이터 검색 및 분석을 위한 고객의 Amazon OpenSearch Service 사용을 보완합니다.

Trace Analytics는 현재 Jaeger, ZipkinX-Ray SDK를 포함하여 오픈 소스 OpenTelemetry Collector와 호환되는 애플리케이션 라이브러리 및 SDK의 추적 데이터 수집을 지원합니다. 또한 Trace Analytics는 OpenTelemetry API, SDK 및 에이전트/수집기의 배포인 AWS Distro for OpenTelemetry와 통합됩니다. OpenTelemetry 구성 요소의 성능이 뛰어나고 안전한 배포는 프로덕션 사용을 위해 테스트를 거쳤으며 AWS에서 지원합니다. 고객은 AWS Distro for OpenTelemetry를 사용하여 Amazon OpenSearch Service, 추적 데이터용 AWS X-Ray, 지표용 Amazon CloudWatch 등 여러 모니터링 솔루션에 대한 추적과 지표를 수집할 수 있습니다.

Trace Analytics를 시작하려면 여기에서 설명서를 참조하세요.