Amazon SageMaker 데이터 처리 FAQ

일반

SageMaker 데이터 처리는 Amazon Athena, Amazon EMR, AWS Glue 및 Amazon Managed Workflows for Apache Airflow(Amazon MWAA)의 처리 기능을 사용하여 데이터를 분석, 준비, 통합, 오케스트레이션합니다. Apache Spark와 같은 오픈 소스 데이터 처리 프레임워크를 사용하여 Trino를 통해 대규모로 데이터를 분석하고 Apache Flink 및 Apache Spark를 사용하여 실시간 분석을 원활하게 구축할 수 있습니다.

SageMaker 데이터 처리는 Amazon EMR, Athena, AWS Glue, Amazon MWAA를 통합합니다.

SageMaker 데이터 처리를 사용하면 대규모로 데이터를 탐색하고, 데이터 변환 작업을 구축하고, 데이터 파이프라인을 오케스트레이션 및 배포할 수 있습니다. 또한 성능을 개선하여 Apache Spark, Apache Airflow, Apache Flink, Trino 등의 비용 효율적인 오픈 소스 API 호환 버전을 통해 기존 오픈 소스 시스템보다 빠르게 인사이트를 얻을 수 있습니다. SageMaker 데이터 처리는 제로 ETL 통합, 연합 쿼리 기능, 커넥터를 통해 Amazon SageMaker Lakehouse의 데이터 소스에 대한 액세스를 제공합니다.

마이그레이션 및 액세스

아니요. SageMaker로 마이그레이션할 필요는 없습니다. 지금처럼 Amazon EMR, Athena, AWS Glue, Amazon MWAA를 계속 사용할 수 있습니다. 하지만 SageMaker를 시작하여 통합 도구, 내장된 데이터 거버넌스, 간소화된 SageMaker Lakehouse 아키텍처를 사용하는 것이 좋습니다.

Amazon EMR, Athena 또는 AWS Glue에서 생성하고 사용한 현재 코드, 쿼리, 작업 및 기타 리소스에는 영향이 없습니다. 원하는 경우 이러한 서비스를 새 워크로드에 계속 사용할 수 있습니다. Amazon Elastic Compute Cloud(Amazon EC2) 기반 Amazon EMR 클러스터와 같이 이러한 서비스에서 생성된 리소스를 SageMaker에서 볼 수 있으므로 분석 및 AI 애플리케이션 개발을 간소화할 수 있습니다. SageMaker 내의 새로운 개발 경험 외에도 Amazon EMR, AWS Glue, Athena에 구축된 기존 개발 경험은 계속 유지될 것입니다.

AWS Glue의 최신 버전인 AWS Glue 5.0을 SageMaker에서 사용할 수 있습니다. AWS Glue 5.0은 데이터 처리 워크로드를 가속화하고 성능 최적화된 최신 Apache Spark 3.5.2 런타임을 제공하므로 개발, 실행, 규모 조정하여 더 빠르게 인사이트를 얻을 수 있습니다. 자세히 알아보려면 AWS Glue를 참조하세요.

요금

SageMaker를 통해 사용하는 각 AWS 서비스에는 해당 개별 요금이 적용됩니다. 자세한 내용은 Athena, Amazon EMR, AWS GlueAmazon MWAA에 대한 AWS 요금 페이지를 참조하세요.