Обработка данных Amazon SageMaker

Анализируйте, подготавливайте и интегрируйте данные для использования в аналитике и с искусственным интеллектом при любом масштабировании

Почему обработка данных с помощью SageMaker?

Проводите подготовку, интеграцию и координацию данных с помощью возможностей обработки данных Amazon Athena, Amazon EMR, AWS Glue и Управляемых рабочих процессов Amazon для Apache Airflow (Amazon MWAA). Обрабатывайте и интегрируйте данные, где бы они ни находились, с помощью быстрого и простого подключения к сотням источников данных.

Используйте платформы обработки данных с открытым исходным кодом, такие как Apache Spark, Trino и Apache Flink. Анализируйте данные в требуемом масштабе с помощью Trino без необходимости в управлении инфраструктурой и легко создавайте аналитику в режиме реального времени с помощью Apache Flink и Apache Spark.

Благодаря встроенной интеграции с Amazon SageMaker Lakehouse убедитесь в точности и безопасности данных, автоматизировав их качество, идентификацию конфиденциальных данных, отслеживание их происхождения и обеспечение точного контроля доступа.

Преимущества

Обработки данных Amazon SageMaker предоставляют полный доступ к платформам обработки данных и потоков, механизмам распределенных SQL-запросов с открытым исходным кодом и самым популярным инструментам, таким как блокноты, редакторы запросов и визуальное извлечение, преобразование и загрузка (ETL).

Вы можете использовать самые популярные фреймворки, такие как Apache Spark, для подготовки и интеграции данных в любом масштабе. Реагируйте на потребности компании в режиме реального времени с помощью потоковой обработки благодаря Apache Flink и Apache Spark и анализируйте данные с помощью ведущих SQL-платформ с открытым исходным кодом, таких как Trino. Упростите оркестрацию рабочих процессов без необходимости управлять инфраструктурой с помощью встроенной интеграции с Amazon MWAA.

Обработка данных SageMaker изначально интегрирована с SageMaker Lakehouse, что позволяет обрабатывать и интегрировать данные, используя одну копию для всех сценариев использования, включая аналитику, специальные запросы, машинное обучение и генеративный искусственный интеллект.

SageMaker Lakehouse объединяет данные в озерах данных Amazon Simple Storage Service (Amazon S3) и хранилищах данных Amazon Redshift, обеспечивая унифицированный доступ к ним. Вы можете обнаруживать и анализировать данные, объединенные в Lakehouse, с помощью сотен коннекторов, интеграций с нулевым использованием ETL и объединенных источников данных, что дает вам полное представление о своем бизнесе. Озеро данных SageMaker работает «из коробки» с существующей архитектурой данных, не ограничиваясь определенным форматом хранения или выбором движка запросов.

Повысьте эффективность за счет быстрой обработки запросов по сравнению с таблицами Apache Iceberg. Получайте аналитику вдвое быстрее по сравнению с традиционными решениями с открытым исходным кодом благодаря высокопроизводительным версиям Apache Spark, Apache Airflow, Apache Flink, Trino и другим, полностью совместимым с открытым исходным кодом.

Обработка данных SageMaker упрощает преобразование и анализ данных, избавляя от необходимости управлять вычислительными ресурсами или приложениями с открытым исходным кодом. Это помогает сократить затраты и сэкономить время. Вы можете автоматически выделять ресурсы через Amazon EMR на базе Amazon Elastic Compute Cloud (Amazon EC2) или Amazon EMR на Эластичном сервисе Amazon Kubernetes (Amazon EKS). Управление масштабированием обеспечивает адаптацию к изменяющимся нагрузкам, оптимизируя производительность и время работы.

Обеспечьте доверие и прозрачность благодаря автоматической отчетности о качестве данных, обнаружению конфиденциальных данных и отслеживанию происхождения данных и моделей ИИ благодаря интеграции с каталогом Amazon SageMaker. Повысьте уверенность в качестве данных с помощью автоматических измерений, мониторинга и рекомендаций по правилам качества данных.

Безопасно обрабатывайте и анализируйте данные, применяя детализированные средства контроля доступа, заданные для наборов данных в SageMaker Lakehouse. Это позволит вам установить разрешения один раз и предоставлять доступ к данным только авторизованным пользователям в своей организации.

Сервисы AWS

Упрощенная интеграция данных

AWS Glue обеспечивает бессерверную интеграцию данных из нескольких источников, упрощая их изучение и подготовку. Подключайтесь к различным источникам данных, управляйте ими в централизованном каталоге данных, визуально создавайте, запускайте и отслеживайте конвейеры ETL для загрузки данных в ваше озеро. AWS Glue автоматически масштабируется по требованию, поэтому вы можете сосредоточиться на извлечении ценной информации из данных без управления инфраструктурой.

Запускайте и масштабируйте Apache Spark, Apache Hive, Trino и другие рабочие нагрузки

Amazon EMR упрощает и экономично запускает рабочие нагрузки по обработке данных, такие как Apache Spark, Apache Airflow, Apache Flink, Trino и другие. Создавайте и запускайте конвейеры обработки данных и автоматически масштабируйте их быстрее, чем локальные решения.

Отслеживайте затраты

Amazon Athena предоставляет простой и гибкий способ анализа данных в любом масштабе. Athena – это интерактивный сервис запросов, который упрощает анализ данных в Amazon S3 с помощью стандартного SQL. Athena работает без серверов, поэтому нет необходимости настраивать инфраструктуру или управлять ею, и вы можете выбрать оплату в зависимости от выполняемых запросов или вычислительных ресурсов, необходимых для ваших запросов. Сервис можно использовать для обработки журналов, выполнения анализа данных и интерактивных запросов к ним. Athena масштабируется автоматически и выполняет запросы параллельно, поэтому результаты возвращаются очень быстро даже при выполнении сложных запросов на больших наборах данных.

Ориентированная на безопасность и высокодоступная управляемая оркестрация рабочих процессов для Apache Airflow

Amazon MWAA – это управляемый сервис для Apache Airflow, который позволяет использовать текущую знакомую вам платформу Apache Airflow для организации рабочих процессов. Вы получаете улучшенную масштабируемость, доступность и безопасность без эксплуатационной нагрузки, связанной с управлением базовой инфраструктурой. Управляемые рабочие процессы Amazon для Apache Airflow (Amazon MWAA) организуют рабочие процессы с помощью ориентированных ациклических графов (DAG), написанных на языке Python. Вы предоставляете Amazon MWAA корзину S3, в которой хранятся ваши DAG, плагины и требования Python. Развертывание Apache Airflow в больших масштабах без необходимости управления базовой инфраструктурой.

Примеры использования

Быстро находите данные в AWS, локальной среде или других облаках, и мгновенно делайте их доступными для опроса и преобразования.

Обрабатывайте данные с помощью таких платформ, как Apache Spark, Apache Flink и Trino, а также различных рабочих нагрузок, включая пакетную обработку, микропакетную обработку и потоковую передачу.

Обработка данных в большом масштабе и анализ «что, если» с помощью статистических алгоритмов и прогнозных моделей для обнаружения скрытых закономерностей, взаимосвязей, рыночных тенденций и предпочтений клиентов.