Часто задаваемые вопросы по обработке данных Amazon SageMaker

Общие вопросы

Обработка данных Amazon SageMaker анализирует, подготавливает, интегрирует и упорядочивает ваши данные с помощью функций обработки Amazon Athena, Amazon EMR, AWS Glue и Управляемых рабочих процессов Amazon для Apache Airflow (Amazon MWAA). Можно использовать фреймворки с открытым исходным кодом для обработки данных, в том числе Apache Spark, анализировать данные при масштабировании с помощью Trino, а также легко формировать аналитику в реальном времени с помощью Apache Flink и Apache Spark.

Обработка данных Amazon SageMaker помогает анализировать данные, создавать задания по преобразованию данных, выполнять оркестрацию и развертывать конвейеры данных при масштабировании. Этот сервис повышает производительность и позволяет получать данные быстрее, чем традиционные системы. В сервисе используются версии Apache Spark, Apache Airflow, Apache Flink, Trino и т. д., которые совместимы с API, имеют открытый исходный код и являются экономичными. Обработка данных предоставляет доступ к вашим источникам данных в Amazon SageMaker Lakehouse с помощью интеграций с нулевым использованием ETL, возможностей федеративных запросов и коннекторов.

Миграция и доступ

Нет, вам не нужно выполнять миграцию на Amazon SageMaker. Вы можете продолжать использовать Amazon EMR, Amazon Athena, AWS Glue и Управляемые рабочие процессы Amazon для Apache Airflow (Amazon MWAA), как и раньше. Однако мы рекомендуем начинать использовать Amazon SageMaker, чтобы получить преимущества от унифицированного инструментария, встроенных средств управления данными и упрощенной архитектуры Amazon SageMaker Lakehouse.

Никаких последствий для имеющихся кодов, запросов, заданий и других ресурсов, которые вы создали и использовали в Amazon EMR, Amazon Athena или AWS Glue, не будет. При желании вы можете продолжать использовать эти сервисы для новых рабочих нагрузок. Ресурсы, созданные в этих сервисах (например, Amazon EMR на кластерах EC2), отображаются в Amazon SageMaker, что упрощает разработку приложений для аналитики и работы с искусственным интеллектом. Существующие интерфейсы разработки, встроенные в Amazon EMR, AWS Glue и Amazon Athena, сохранятся в дополнение к новому интерфейсу разработки в Amazon SageMaker.

В Amazon SageMaker доступна новейшая версия AWS Glue (Glue 5.0). Glue 5.0 позволяет ускорить выполнение рабочих нагрузок по обработке данных и предоставляет обновленное время выполнения Apache Spark 3.5.2, оптимизированное для повышения производительности, чтобы вы могли разрабатывать, запускать и масштабировать свои решения для ускорения процесса анализа. Чтобы узнать больше, посетите страницу AWS Glue.

Цены

Для каждого сервиса AWS, который вы используете через Amazon SageMaker, установлены отдельные цены. Чтобы получить более подробную информацию, посетите страницу с ценами AWS для Amazon Athena, Amazon EMR, AWS Glue и Управляемых рабочих процессов Amazon для Apache Airflow (Amazon MWAA).