Amazon SageMaker 데이터 처리

모든 규모에서 분석 및 AI용 데이터를 분석, 준비, 통합

SageMaker 데이터 처리를 사용해야 하는 이유는 무엇인가요?

Amazon Athena, Amazon EMR, AWS Glue 및 Amazon Managed Workflows for Apache Airflow(Amazon MWAA)의 데이터 처리 기능을 사용하여 데이터를 준비, 통합, 오케스트레이션할 수 있습니다. 수백 개의 데이터 소스에 빠르고 쉽게 연결하여 데이터가 어디에 있든 데이터를 처리하고 통합할 수 있습니다.

Apache Spark, Trino, Apache Flink와 같은 오픈 소스 데이터 처리 프레임워크를 사용할 수 있습니다. 인프라를 관리하지 않고도 Trino를 사용하여 대규모로 데이터를 분석하고 Apache Flink 및 Apache Spark를 사용하여 실시간 분석을 원활하게 구축할 수 있습니다.

Amazon SageMaker Lakehouse와의 기본 통합을 통해 데이터 품질, 민감한 데이터 식별, 계보 추적을 자동화하고 세분화된 액세스 제어를 적용함으로써 데이터가 정확하고 안전함을 신뢰할 수 있습니다.

이점

Amazon SageMaker 데이터 처리는 데이터 및 스트림 처리 프레임워크, 오픈 소스 분산 SQL 쿼리 엔진, 그리고 노트북, 쿼리 편집기, 시각적 추출, 전환, 적재(ETL)과 같은 가장 인기 있는 도구에 대한 포괄적인 액세스를 제공합니다.

Apache Spark와 같은 가장 인기 있는 프레임워크에 액세스하여 모든 규모의 데이터를 준비하고 통합할 수 있습니다. Apache Flink 및 Apache Spark Streaming을 통한 스트림 처리로 실시간 비즈니스 요구에 대응하고 Trino와 같은 선도적인 오픈 소스 SQL 프레임워크로 데이터를 분석합니다. Amazon MWAA와의 기본 통합으로 인프라를 관리할 필요가 없어 워크플로 오케스트레이션이 간소화됩니다.

SageMaker 데이터 처리는 SageMaker Lakehouse와 기본적으로 통합되므로 분석, 임시 쿼리, 기계 학습(ML), 생성형 AI를 비롯한 모든 사용 사례에서 하나의 데이터 복사본을 사용하여 처리 및 통합할 수 있습니다.

SageMaker Lakehouse는 Amazon Simple Storage Service(Amazon S3) 데이터 레이크 및 Amazon Redshift 데이터 웨어하우스 전반에서 데이터를 통합하여 데이터에 대한 통합 액세스를 제공합니다. 수백 개의 커넥터, 제로 ETL 통합, 연합 데이터 소스를 통해 레이크하우스에서 통합된 데이터를 검색하고 분석하여 비즈니스를 전체적으로 파악할 수 있습니다. SageMaker Lakehouse는 특정 스토리지 형식 또는 쿼리 엔진 선택에 따른 제약 없이 기존 데이터 아키텍처에서 바로 사용할 수 있습니다.

Apache Iceberg 테이블에 대한 빠른 쿼리 성능으로 효율성을 개선하세요. Apache Spark, Apache Airflow, Apache Flink, Trino 등의 고성능 오픈 소스 API 호환 버전을 사용하여 기존 오픈 소스 시스템보다 최대 2배 빠르게 인사이트를 얻을 수 있습니다.

SageMaker 데이터 처리를 사용하면 컴퓨팅 용량 또는 오픈 소스 애플리케이션을 관리하지 않고도 데이터를 변환하고 분석하는 데 집중할 수 있으므로 시간과 비용을 절감할 수 있습니다. Amazon Elastic Compute Cloud(Amazon EC2) 기반 Amazon EMR 또는 Amazon Elastic Kubernetes Service(Amazon EKS) 기반 Amazon EMR에서 용량을 자동으로 프로비저닝할 수 있습니다. 규모 조정 규칙은 컴퓨팅 수요의 변동을 관리하여 성능과 런타임을 최적화합니다.

Amazon SageMaker Catalog와의 통합을 통한 자동화된 데이터 품질 보고, 민감한 데이터 탐지, 데이터 및 AI 모델에 대한 계보 추적으로 신뢰와 투명성을 확보하세요. 데이터 품질 규칙에 대한 자동 측정, 모니터링 및 권장 사항을 통해 데이터 품질에 대한 신뢰도를 높일 수 있습니다.

SageMaker Lakehouse의 데이터세트에 정의된 세분화된 액세스 제어를 준수하고 적용하여 데이터를 안전하게 처리 및 분석하세요. 그러면 권한을 한 번 정의하고 조직 전체의 승인된 사용자가 데이터에 액세스할 수 있습니다.

AWS 서비스

간소화된 데이터 통합

AWS Glue는 여러 소스에서의 데이터 탐색, 준비 및 통합을 간소화하는 서버리스 데이터 통합을 제공합니다. 다양한 데이터 소스에 연결하고, 중앙 집중식 데이터 카탈로그에서 데이터를 관리하고, ETL 파이프라인을 시각적으로 생성, 실행, 모니터링하여 데이터를 레이크하우스로 로드할 수 있습니다. AWS Glue는 요청 시 자동으로 규모가 조정되므로, 인프라를 관리할 필요 없이 데이터에서 인사이트를 얻는 데 집중할 수 있습니다.

Apache Spark, Apache Hive, Trino 및 기타 워크로드 실행 및 확장

Amazon EMR을 사용하면 Apache Spark, Apache Airflow, Apache Flink, Trino 등과 같은 데이터 처리 워크로드를 더 쉽고 비용 효율적으로 실행할 수 있습니다. 데이터 처리 파이프라인을 구축 및 실행하고 온프레미스 솔루션보다 빠르게 자동으로 확장할 수 있습니다.

비용 추적

Athena는 모든 규모의 데이터를 분석할 수 있는 단순하고 유연한 방법을 제공합니다. Athena는 표준 SQL을 사용하여 Amazon S3의 데이터 분석을 간소화하는 대화형 쿼리 서비스입니다. Athena는 서버리스이므로 인프라 설정이나 관리가 불필요하며, 실행하는 쿼리 또는 쿼리에 필요한 컴퓨팅 리소스를 기준으로 요금을 지불할 수 있습니다. Athena를 사용하여 로그를 처리하고 데이터 분석을 수행하며 대화형 쿼리를 실행할 수 있습니다. Athena는 자동으로 규모가 조정되어 쿼리를 병렬로 완료하므로 데이터세트가 크고 쿼리가 복잡해도 결과를 빠르게 얻을 수 있습니다.

Apache Airflow를 위한 보안 중심의 고가용성 관리형 워크플로 오케스트레이션

Amazon MWAA는 Apache Airflow를 위한 관리형 서비스로, 이 서비스를 사용하면 현재의 익숙한 Apache Airflow 플랫폼을 사용하여 워크플로를 오케스트레이션할 수 있습니다. 기반 인프라를 관리하는 데서 오는 운영 부담 없이 확장성, 가용성 및 보안을 개선할 수 있습니다. Amazon MWAA는 Python으로 작성된 Directed Acyclic Graph(DAG)를 사용하여 워크플로를 오케스트레이션합니다. DAG, 플러그인 및 Python 요구 사항이 저장되어 있는 S3 버킷을 Amazon MWAA에 제공합니다. 기본 인프라 관리 운영에 대한 부담 없이 규모에 맞게 Apache Airflow를 배포할 수 있습니다.

사용 사례

AWS, 온프레미스 및 기타 클라우드 전반에서 통합 데이터를 신속하게 식별하고 액세스한 다음 쿼리 및 변환에 즉시 사용할 수 있도록 합니다.

Apache Spark, Apache Flink, Trino와 같은 프레임워크와 배치, 마이크로배치, 스트리밍을 비롯한 다양한 워크로드를 사용하여 데이터를 처리할 수 있습니다.

통계 알고리즘 및 예측 모델을 사용하여 대규모 데이터 처리 및 가정 분석을 실행하여 숨겨진 패턴, 상관 관계, 시장 동향 및 고객 선호도를 밝혀냅니다.