Amazon OpenSearch Ingestion

데이터를 대규모로 수집 및 변환하고 Amazon OpenSearch 도메인 및 Serverless 컬렉션으로 라우팅

Amazon OpenSearch Service 데이터 수집을 사용해야 하는 이유

Amazon OpenSearch Ingestion은 데이터를 수집, 필터링, 변환, 보강하고 Amazon OpenSearch 도메인 또는 Serverless 컬렉션으로 라우팅할 수 있는, Amazon OpenSearch Service의 기능입니다. Amazon OpenSearch Ingestion은 다양한 소스의 데이터를 수집할 수 있으며, 가장 복잡한 데이터 변환 요구 사항을 처리할 수 있는 풍부한 내장 프로세서의 에코시스템을 갖추고 있습니다. Amazon OpenSearch Ingestion은 기본적으로 서버리스 서비스이고 가장 까다로운 워크로드의 요구 사항을 충족하도록 자동으로 확장되므로, 고객이 가시성 및 보안 사용 사례의 복잡한 데이터 파이프라인을 관리하는 데 따른 번거로움 없이 비즈니스 로직에 집중할 수 있습니다.

Amazon OpenSearch Service의 이점

노이즈가 많은 데이터를 중복 제거하고 샘플링하며 저렴한 스토리지로 라우팅하여 스토리지 비용을 절감합니다.
내장 프로세서로 데이터를 변환, 필터링, 보강하는 한편, 가시성을 높이고 보안 조사 시간을 단축하는 스키마를 도입하여 데이터 품질을 보장합니다.
민감한 정보가 대상에 도달하기 전에 교정하고 난독화하여 민감한 데이터를 보호합니다.
조건부 로직을 사용하여 데이터를 라우팅함으로써 데이터 레지던시 법률을 준수합니다.

주요 기능

AWS는 많은 고객이 사용하는 OpenSearch 프로젝트의 주요 기여자입니다. 이 관리형 서비스를 통해 OpenSearch Data Prepper의 모든 새로운 혁신 기술을 활용할 수 있습니다. 커뮤니티가 주도하고 기여하는 이러한 기능 외에, Amazon OpenSearch Ingestion 서비스는 다음과 같은 기능을 제공합니다.

  • AWS 관리형 소프트웨어 설치 및 패치 적용
  • AWS는 서비스를 연중무휴로 모니터링하고 복구함
  • AWS는 버전을 업그레이드함
  • 업데이트 및 업그레이드를 위한 가동 중단 없음
  • 가용성 SLA: 99.9%
  • 수집 워크로드에 대한 Auto Scaling 기능이 포함된 서버리스 서비스

고객과 파트너

CyberArk 고객 리뷰

“클라우드 기반 멀티 테넌트 시스템인 CyberArk EPM(Endpoint Privilege Manager)에서는 AWS OpenSearch를 사용하여 수백만 개의 엔드포인트를 관리하고 트래픽이 많은 데이터 이벤트를 수집합니다. Amazon OpenSearch Ingetion을 활용하여 이전의 자체 관리형 Logstash 파이프라인을 AWS 관리형 파이프라인으로 교체했습니다. 그 결과 자체 인프라를 관리해야 하는 부담이 사라지고 데이터 모으기를 위한 확장 가능하고 비용 효율적이며 안정적이고 안전한 아키텍처를 얻을 수 있었습니다. 이 결정은 CyberArk EPM이 FedRAMP High InProcess 등급을 획득하게 되는 한편, Amazon OpenSearch Ingestion이 이미 FedRAMP 규정을 준수하므로 높은 수준의 보안을 유지할 수 있다는 추가 이점을 바탕으로 내려졌습니다.“

Ori Doolman, CyberArk EPM, Senior Software Architect

CyberArk 로고

Calyptia 고객 리뷰

“Calyptia에서는 Cloud Native Computing Foundation 프로젝트, Fluentd 및 Fluent Bit의 제작사이자 유지 관리 업체로서 12년 이상 데이터 모으기 작업을 해왔습니다. 이들 프로젝트의 최신 버전에서 Fluent 프로젝트와 OpenSearch Ingestion Service가 결합되면서 처음부터 사용자에게 더 많은 제어 권한을 부여할 수 있게 되어 기쁩니다. 이 수집 서비스를 통해 사용자는 인프라 관리 및 유지 관리에 대해 걱정할 필요 없이 에이전트와 처리 능력을 계속 확장할 수 있습니다.”

Anurag Gupta, Calyptia 공동 설립자

Calyptia 로고

Confluent 고객 리뷰

“Apache Kafka 및 Confluent와의 기본 통합을 제공하는 OpenSearch Ingestion 서비스를 구축하는 Amazon OpenSearch 팀과 협력하게 되어 매우 기쁩니다. 이번 통합 덕분에 두 회사의 공동 고객은 OpenSearch 내에서 Apache Kafka를 통해 실시간 데이터에 액세스하여 고객 경험을 혁신하고, 실시간 백엔드 운영을 구축하거나 새로운 제품과 서비스를 출시할 수 있습니다. Apache Kafka의 주요 기여자인 Confluent는 완전한 클라우드 네이티브 데이터 스트리밍 플랫폼을 구축하여 Kafka를 10배 향상시켰습니다. 이 플랫폼은 데이터를 생성 위치에서 기업이 그 데이터를 사용하여 작업을 수행할 수 있는 멀티 SaaS 환경이 구축된 곳으로 이동할 수 있습니다. 결과적으로 OpenSearch 사용자는 Confluent와 통합된 100여 개의 데이터 소스를 활용할 수 있게 됩니다. 공동 고객이 Confluent와 OpenSearch로 데이터를 활용하면서 어떤 것들을 구축해나갈지 기대됩니다.”

Paul Mac Farland, Confluent, Partner & Innovation Ecosystem 부문 VP

Confluent 로고

페이지 주제

수집 FAQ

수집 FAQ

Amazon OpenSearch Ingestion은 다운스트림 분석 및 시각화를 위해 Amazon OpenSearch 도메인과 Amazon OpenSearch Serverless 컬렉션에서 데이터를 필터링, 보강, 변환, 정규화 및 집계할 수 있는 데이터 모으기 계층입니다. Amazon OpenSearch Ingestion을 사용하면 사용자 지정 데이터 파이프라인을 생성하여 운영을 위한 애플리케이션 가시성을 개선할 수 있습니다. 서버리스 서비스인 Amazon OpenSearch Ingestion은 데이터 파이프라인을 자체적으로 관리해야 하는 번거로움을 없애고 데이터 파이프라인의 처리 기능이 워크로드 수요에 따라 자동 조정되도록 보장합니다. Amazon OpenSearch Ingestion의 이점은 다음과 같습니다.

  • 데이터 중복 제거 및 샘플링을 통해 Amazon OpenSearch에서 노이즈가 많은 데이터가 인덱싱되지 않도록 함으로써 스토리지 비용을 절감합니다.
  • 문제를 쉽게 해결할 수 있도록 Amazon OpenSearch 도메인에서 인덱싱되기 전에 데이터를 변환하고 포맷하고 보강하여 데이터 품질을 보장하고 일반적인 스키마를 도입할 수 있습니다.
  • 민감한 정보가 대상에 도달하기 전에 교정하거나 난독화하여 데이터 레지던시 법률을 준수할 수 있습니다.

Amazon OpenSearch Ingestion 파이프라인은 세 가지 주요 구성 요소로 이루어져 있습니다.

  • 소스는 파이프라인의 입력 구성 요소로, 파이프라인이 레코드를 소비하는 메커니즘을 정의합니다. 소스는 http/s를 통해 데이터를 수신하거나 외부 서드 파티 엔드포인트에서 데이터를 읽음으로써 레코드를 소비할 수 있습니다.
  • 프로세서는 레코드를 싱크에 게시하기 전에 원하는 형식으로 필터링, 변환 및 보강할 수 있는 중간 처리 장치입니다. 프로세서는 파이프라인의 선택적 구성 요소입니다. 프로세서를 정의하지 않으면 소스에 정의되어 있는 형식으로 레코드가 게시됩니다. 프로세서는 2개 이상일 수 있습니다. 프로세서는 파이프라인에서 정의한 순서대로 실행됩니다.
  • 싱크는 파이프라인의 출력 구성 요소로, 파이프라인이 레코드를 게시하는 대상을 하나 이상 정의합니다. 다른 파이프라인을 싱크로 사용하여 여러 파이프라인을 서로 연결할 수도 있습니다.

일반적으로 Amazon OpenSearch는 Amazon OpenSearch 도메인에서 인덱싱하는 모든 유형의 데이터를 수집하도록 지원합니다. 여기에는 정형, 비정형, 텍스트, 숫자 및 지리 공간 데이터가 포함되며 이에 국한되지 않습니다. 또한 OpenSearch Ingestion은 가시성 데이터의 세 가지 요소인 로그, 지표 및 트레이스를 모두 수집하도록 지원합니다. 데이터 소스, 프로세서 및 싱크로 구성된 풍부한 에코시스템에 대한 지원을 통해, Amazon OpenSearch 도메인에 데이터를 저장하기 전에 OpenSearch Ingestion을 사용하여 데이터를 변환할 수 있습니다. OpenSearch Ingestion을 사용하면 더 이상 Amazon OpenSearch 클러스터에서 인덱싱해야 하는 데이터를 수집하기 위해 사용자 지정 Lambda 함수를 작성하거나 Logstash 및 Elasticsearch 수집 노드를 자체적으로 관리하지 않아도 됩니다. Amazon OpenSearch Ingestion에서 지원하는 소스, 프로세서 및 싱크 목록을 보려면 설명서 페이지를 참조하세요.

Amazon OpenSearch Ingestion은 Amazon OpenSearch 서비스에서 데이터가 인덱싱되기 전에 데이터를 전처리하는 데이터 모으기 계층입니다. OpenSearch Ingestion은 OpenSearch 프로젝트의 구성 요소인 Data Prepper를 기반으로 하며, Data Prepper가 지원하는 모든 데이터 형식, 소스, 프로세서 및 싱크를 지원합니다.

Amazon OpenSearch Ingestion을 시작하려면 먼저 데이터 파이프라인을 정의해야 합니다. OpenSearch Ingestion 파이프라인은 비즈니스 로직의 핵심이며 소스, 단일 프로세서 또는 일련의 프로세서, 그리고 싱크로 구성됩니다. 소스, 프로세서 및 싱크의 세부 정보가 포함된 YAML 파일을 통해 파이프라인 구성을 정의합니다. 또한 OpenSearch Ingestion을 사용하면 파이프라인별로 수집을 위한 OpenSearch 컴퓨팅 유닛(OGU)의 최소 용량과 최대 용량을 설정할 수 있습니다. 마지막으로, 데이터가 OpenSearch Ingestion 파이프라인에 도달하는 방법을 선택할 수 있습니다.

  • VPC 액세스: VPC 액세스를 위해 VPC에서 Amazon OpenSearch Ingestion 파이프라인으로 연결되는 프라이빗 링크를 만들었습니다. 이 링크는 트래픽을 퍼블릭 인터넷에 노출하지 않으면서 파이프라인에 대한 프라이빗 연결을 제공합니다.
  • 퍼블릭 액세스: 이 네트워크 구성에서는 OpenSearch 파이프라인으로 전송되는 데이터가 공용 인터넷을 통해 흐릅니다.

AWS Console 또는 AWS 명령줄을 통해 데이터 파이프라인 생성을 시작할 수 있습니다.