문제를 효율적으로 찾고 수정하며, 애플리케이션 상태를 개선하고 더 나은 고객 경험을 제공함
세 가지 기본 관측성 신호는 지표, 로그(반구조 데이터) 및 추적(모든 종속성에 걸쳐 처음부터 끝까지의 요청 흐름)입니다. 이러한 신호는 컨테이너, 마이크로 서비스 및 애플리케이션과 같이 모니터링되는 환경의 출력입니다. 목표는 DevOps 및 사이트 신뢰성 엔지니어가 중요한 이벤트를 격리하고 모든 관측성 신호를 사용하여 어디에서나 실행되는 컨테이너형 애플리케이션 및 마이크로서비스로 문제를 격리할 수 있는 통합된 환경을 제공하는 것입니다. Amazon OpenSearch Service는 로그 및 추적 데이터 분석을 단일 솔루션으로 통합합니다.
관측성 연산
Amazon OpenSearch Service는 관측성 문제를 해결하는 데 도움이 되는 새로운 기능을 제공합니다.
기능
개방형 인터페이스를 사용하여 원격 측정 데이터(OpenTelemetry, Fluentd, Fluent Bit, Logstash, Data Prepper 등)를 수집, 라우팅 및 변환합니다. 기본 기능으로 대량의 반구조화 데이터를 검색하고 분석할 수 있습니다. OpenSearch Dashboard의 이상 탐지 관찰성 기능을 통해 시각화, 모니터링 및 경고를 수행할 수 있으며 쿼리 인터페이스인 파이프 처리 언어(PPL)를 통해 데이터에 대한 대화형 분석 및 시각화를 수행할 수 있습니다.
수집
먼저 분석을 위해 데이터를 수집해야 합니다. 수집에는 여러 소스에서 데이터를 수집, 농축, 필터링, 변환 및 정규화하는 작업이 포함됩니다.
탐지
고객은 문제를 시작되어도 바로 탐지하지 못하는 경우가 많으며, 문제가 시작되는 시점과 알림을 받는 시점 사이 지연 시간이 발생하는 경우가 많습니다. 이 지연 시간을 가능한 많이 줄이기를 원합니다. 탐지는 사전 예방적이고 다면적이어야 합니다(예, 텔레메트리의 경보). 이상 탐지는 알람 피로를 줄이기 위한 중요한 도구이자 피로를 줄일 수 있도록 관련 알람을 연결할 수 있는 기능입니다. 탐지의 핵심 구성 요소는 시각화 및 모니터링이며, Amazon OpenSearch Service는 OpenSearch 대시보드라는 구성 요소를 사용합니다. PPL과 같은 도구를 사용하여 대화식으로 데이터를 분석할 수도 있습니다.
조사
조사는 운영 이벤트 중에 사람들이 가장 많은 시간을 소비하는 곳이며, 조사에는 보통 여러 명이 필요합니다. 조사는 MTTI(평균 문제 원인 파악 시간) 및 MTTR(평균 문제 해결 시간)의 가장 큰 기여자입니다. 혼란 속에서 무엇에 집중해야 하는지 이해하는 것은 여전히 어려운 과제입니다. AWS와 온프레미스 또는 기타 클라우드에서 로그, 지표 및 추적을 활용하여 지표, 로그 및 추적 간에 상관 관계를 유지하면서 근본 원인 분석을 신속하게 수행할 수 있습니다. OpenSearch Dashboard 노트북을 사용하여 공동 조사를 수행하고 분석을 문서화할 수 있습니다.
해결
장애 원인을 파악한 후에는 이를 해결해야 합니다. 무언가를 고치려고 노력하다가 상황을 더 악화시키는 것이 최악입니다. 처음부터 실패를 방지할 수 있었던 방법을 알아내기 위해 사후 분석을 수행하는 것을 잊지 마세요. 제안된 변경사항을 문서화하여 문제가 반복되지 않도록 할 수 있습니다. 목표는 동일한 문제가 다시는 발생하지 않도록 하는 것이지만, 만약 발생하더라도 자동으로 문제를 식별하고 해결할 수 있도록 합니다.
애플리케이션 성능 모니터링
애플리케이션 성능 모니터링(APM)은 관측성의 완성도를 높이기 위한 첫 단계로 여겨집니다. 하지만 APM 하나로는 충분하지 않습니다. 애플리케이션 모니터링 대시보드가 모두 녹색인 경우에도 애플리케이션이 실제로 예상대로 작동합니까? 고객이 필요한 사용자 경험을 얻고 있습니까? 애플리케이션은 어떤 용도로 사용됩니까? 애플리케이션의 어느 부분이 확장 한계에 도달하고 있습니까? 가장 큰 성장을 경험하고 있는 리전이 어디입니까? 어떤 추세를 시각화하고 계획할 수 있습니까? 지표를 수집할 수 있다면 새 코드를 배포하거나 인프라를 변경할 때 이러한 변경사항이 미치는 영향을 확인할 수 있다는 확신을 가질 수 있습니다. 관측성은 APM이 이러한 추가 질문에 답하도록 발전시킵니다.