SageMaker 데이터 처리를 사용해야 하는 이유는 무엇인가요?
Amazon Athena, Amazon EMR, AWS Glue 및 Amazon Managed Workflows for Apache Airflow(Amazon MWAA)의 데이터 처리 기능을 사용하여 데이터를 준비, 통합, 오케스트레이션할 수 있습니다. 수백 개의 데이터 소스에 빠르고 쉽게 연결하여 데이터가 어디에 있든 데이터를 처리하고 통합할 수 있습니다.
Apache Spark, Trino, Apache Flink와 같은 오픈 소스 데이터 처리 프레임워크를 사용할 수 있습니다. 인프라를 관리하지 않고도 Trino를 사용하여 대규모로 데이터를 분석하고 Apache Flink 및 Apache Spark를 사용하여 실시간 분석을 원활하게 구축할 수 있습니다.
Amazon SageMaker Lakehouse와의 기본 통합을 통해 데이터 품질, 민감한 데이터 식별, 계보 추적을 자동화하고 세분화된 액세스 제어를 적용함으로써 데이터가 정확하고 안전함을 신뢰할 수 있습니다.
이점
AWS 서비스
간소화된 데이터 통합
AWS Glue는 여러 소스에서의 데이터 탐색, 준비 및 통합을 간소화하는 서버리스 데이터 통합을 제공합니다. 다양한 데이터 소스에 연결하고, 중앙 집중식 데이터 카탈로그에서 데이터를 관리하고, ETL 파이프라인을 시각적으로 생성, 실행, 모니터링하여 데이터를 레이크하우스로 로드할 수 있습니다. AWS Glue는 요청 시 자동으로 규모가 조정되므로, 인프라를 관리할 필요 없이 데이터에서 인사이트를 얻는 데 집중할 수 있습니다.
Apache Spark, Apache Hive, Trino 및 기타 워크로드 실행 및 확장
Amazon EMR을 사용하면 Apache Spark, Apache Airflow, Apache Flink, Trino 등과 같은 데이터 처리 워크로드를 더 쉽고 비용 효율적으로 실행할 수 있습니다. 데이터 처리 파이프라인을 구축 및 실행하고 온프레미스 솔루션보다 빠르게 자동으로 확장할 수 있습니다.
비용 추적
Athena는 모든 규모의 데이터를 분석할 수 있는 단순하고 유연한 방법을 제공합니다. Athena는 표준 SQL을 사용하여 Amazon S3의 데이터 분석을 간소화하는 대화형 쿼리 서비스입니다. Athena는 서버리스이므로 인프라 설정이나 관리가 불필요하며, 실행하는 쿼리 또는 쿼리에 필요한 컴퓨팅 리소스를 기준으로 요금을 지불할 수 있습니다. Athena를 사용하여 로그를 처리하고 데이터 분석을 수행하며 대화형 쿼리를 실행할 수 있습니다. Athena는 자동으로 규모가 조정되어 쿼리를 병렬로 완료하므로 데이터세트가 크고 쿼리가 복잡해도 결과를 빠르게 얻을 수 있습니다.
Apache Airflow를 위한 보안 중심의 고가용성 관리형 워크플로 오케스트레이션
Amazon MWAA는 Apache Airflow를 위한 관리형 서비스로, 이 서비스를 사용하면 현재의 익숙한 Apache Airflow 플랫폼을 사용하여 워크플로를 오케스트레이션할 수 있습니다. 기반 인프라를 관리하는 데서 오는 운영 부담 없이 확장성, 가용성 및 보안을 개선할 수 있습니다. Amazon MWAA는 Python으로 작성된 Directed Acyclic Graph(DAG)를 사용하여 워크플로를 오케스트레이션합니다. DAG, 플러그인 및 Python 요구 사항이 저장되어 있는 S3 버킷을 Amazon MWAA에 제공합니다. 기본 인프라 관리 운영에 대한 부담 없이 규모에 맞게 Apache Airflow를 배포할 수 있습니다.