Часто задаваемые вопросы об Amazon SageMaker Lakehouse

Общие вопросы

Amazon SageMaker Lakehouse объединяет все ваши данные в озерах данных Amazon Simple Storage Service (Amazon S3) и хранилищах данных Amazon Redshift, помогая создавать мощные аналитические приложения и приложения искусственного интеллекта, а также машинного обучения, используя одну копию данных. SageMaker Lakehouse предоставляет гибкие возможности для доступа к данным и выполнения запросов с помощью всех инструментов и движков, совместимых с Apache Iceberg. Защитите данные в озере, определив разрешения, которые будут действовать для всех инструментов и движков для аналитики и машинного обучения (ML). Переносите данные из операционных баз данных и приложений в свое озеро практически в режиме реального времени с помощью интеграции с нулевым использованием ETL. Кроме того, вы можете получать доступ к данным и запрашивать их по месту с помощью функций объединенных запросов из сторонних источников данных.

Преимущества Amazon SageMaker Lakehouse

a) Уменьшается количество хранилищ данных за счет предоставления единого доступа к ним в озерах данных Amazon S3 и хранилищах данных Amazon Redshift. Данные из оперативных баз данных и приложений могут попадать в ваше озеро почти в режиме реального времени. Используйте их для аналитики и машинного обучения с помощью конвейеров извлечения, преобразования и загрузки (ETL) без кода или с низким его объемом. Кроме того, вы можете задействовать сотни коннекторов и 13 вариантов федеративных запросов для доступа к данным из AWS и источников за пределами AWS.

b) Решение дает вам гибкость при доступе и запросе всех ваших данных по месту, с широкого спектра сервисов AWS, инструментов и движков с открытым исходным кодом и от сторонних разработчиков, совместимых с Apache Iceberg. Вы можете использовать аналитические инструменты и движки по своему выбору, в том числе SQL, Apache Spark, средства бизнес-аналитики (BI), искусственного интеллекта и машинного обучения, а также сотрудничать с единой копией данных, хранящихся на Amazon S3 или Amazon Redshift.

c) Повышает безопасность предприятия за счет встроенного механизма контроля доступа, который защищает ваши данные при обращении к ним из интегрированных сервисов AWS, в том числе Amazon Redshift, Amazon Athena или Amazon EMR, а также сторонних движков, совместимых с Apache Iceberg.

Решение Amazon SageMaker Lakehouse можно использовать напрямую из Amazon SageMaker Unified Studio (ознакомительная версия). Данные из различных источников упорядочиваются в логические контейнеры, которые в Amazon SageMaker Lakehouse называются каталогами. Каждый каталог объединяет информацию из существующих источников данных, таких как хранилища данных Amazon Redshift, озера данных или базы данных. Новые каталоги могут создаваться непосредственно в хранилище в озере данных для храниния данных в Amazon S3 или Amazon Redshift Managed Storage (RMS). Доступ к данным в SageMaker Lakehouse можно получить из совместимых с Apache Iceberg движков, таких как Apache Spark, Athena или Amazon EMR. Кроме того, эти каталоги можно открыть как базы данных в хранилищах данных Amazon Redshift, что позволяет использовать инструменты SQL и анализировать данные в хранилищах.

Возможности

SageMaker Lakehouse обеспечивает унификацию контроля доступа к вашим данным с помощью двух возможностей. 1) SageMaker Lakehouse дает вам возможность задавать точные параметры разрешений. Эти разрешения применяются движками запросов (например, Amazon EMR, Amazon Athena и Amazon Redshift). 2) SageMaker Lakehouse дает возможность доступа к данным по месту, избавляя от необходимости делать копии данных. Вы можете хранить единую копию данных и один набор политик управления доступом, используя преимущества унифицированного точного управления доступом в SageMaker Lakehouse.

SageMaker Lakehouse создан на основе нескольких технических каталогов в Каталоге данных AWS Glue, Lake Formation и Amazon Redshift с целью обеспечения унифицированного доступа к информации в озерах и хранилищах данных. SageMaker Lakehouse использует Каталог данных AWS Glue и Lake Formation для хранения определений таблиц и разрешений. Разрешения с точной настройкой Lake Formation доступны для таблиц, заданных в SageMaker Lakehouse. Вы можете управлять определениями таблиц в Каталоге данных AWS Glue и задавать детальные настройки разрешений, в том числе на уровне таблиц, столбцов и ячеек. Все это способствует защите данных. Кроме того, при помощи возможностей совместного использования данных между аккаунтами можно организовать общий доступ к данным с нулевым копированием, чтобы предоставить информацию для безопасной работы.

Да. Для доступа к SageMaker Lakehouse требуется клиентская библиотека Apache Iceberg с открытым исходным кодом. Клиенты, которые используют сторонние или самоуправляемые движки с открытым исходным кодом (например, Apache Spark или Trino), должны подключить клиентскую библиотеку Apache Iceberg к своим движкам запросов, что позволит получить доступ к SageMaker Lakehouse.

Да, используя клиентскую библиотеку Apache Iceberg, можно читать и записывать данные в имеющийся компонент Amazon Redshift из движков Apache Spark на сервисах AWS (например, Amazon EMR, AWS Glue, Amazon Athena и Amazon SageMaker или стороннем Apache Spark). Однако для записи данных в таблицы у вас должны быть соответствующие разрешения на такие действия.

Да, с помощью выбранного вами движка (например, Apache Spark) можно объединить таблицы вашего озера данных на Amazon S3 с таблицами вашего хранилища данных Amazon Redshift в разных базах данных.

Миграция

Нет, чтобы использовать SageMaker Lakehouse, выполнять миграцию данных не нужно. Решение SageMaker Lakehouse позволяет получить доступ к данным и запрашивать их по месту, используя открытый стандарт Apache Iceberg. Доступ к данным можно напрямую получить в озерах данных Amazon S3 и хранилищах данных Amazon Redshift. С помощью доступных интеграций с нулевым использованием ETL данные из оперативных баз данных и приложений могут попадать в Lakehouse почти в режиме реального времени, при этом не требуется поддерживать инфраструктуру или сложные конвейеры. Кроме того, можно использовать возможности федеративных запросов для доступа к данным по месту. К тому же доступны сотни коннекторов AWS Glue для интеграции с существующими источниками данных.

Если вы уже являетесь пользователем Amazon Redshift, можно зарегистрировать свое хранилище данных Amazon Redshift в SageMaker Lakehouse без миграции данных, выполнив несколько простых действий. Следуйте инструкциям в руководстве для разработчиков.

Если озеро данных Amazon S3 настроено с помощью Каталога данных AWS Glue, вносить какие-либо изменения не нужно.

Интеграции с нулевым использованием ETL

SageMaker Lakehouse поддерживает интеграцию с нулевым использованием ETL для Amazon DynamoDB, Amazon Aurora и Amazon RDS для MySQL, а также восьми программ: Zoho CRM, Salesforce, Salesforce Pardot, ServiceNow, рекламы в Facebook и Instagram, Zendesk, а также SAP.

Можно настраивать и отслеживать интеграцию с нулевым использованием ETL через консоль AWS Glue в Обработке данных Amazon SageMaker с AWS Glue. Получив данные, вы можете обращаться к ним и запрашивать их через совместимые с Apache Iceberg движки запросов. Дополнительные сведения см. на странице документации по интеграции с нулевым использованием ETL.

Чтобы подробнее узнать о стоимости решений, посетите страницы с ценами на SageMaker Lakehouse и AWS Glue.

Цены

Подробную информацию см. на странице цен на SageMaker Lakehouse.

Доступность

SageMaker Lakehouse доступен в регионах Восток США (Северная Вирджиния), Восток США (Огайо), Запад США (Орегон), Азиатско-Тихоокеанский регион (Гонконг), Азиатско-Тихоокеанский регион (Сеул), Азиатско-Тихоокеанский регион (Сингапур), Азиатско-Тихоокеанский регион (Сидней), Азиатско-Тихоокеанский регион (Токио), Канада (Центральная), Европа (Франкфурт), Европа (Ирландия), Европа (Лондон), Европа (Стокгольм) и Южная Америка (Сан-Паулу).

Да. SageMaker Lakehouse хранит метаданные в Каталоге данных AWS Glue и предоставляет то же SLA, что и Amazon Glue SLA.

Начало работы

Для начала можно войти в домен SageMaker, используя корпоративные (например, Okta) мандаты в SageMaker Unified Studio (ознакомительная версия). Выполнив несколько простых действий в SageMaker Unified Studio, администраторы могут создавать проекты, выбирая для них определенный профиль. Затем можно выбрать проект для работы с Amazon SageMaker Lakehouse. Выбрав проект, откроется единое пространство для просмотра данных, движков запросов и инструментов разработчика. Пользователи (например, инженеры и аналитики данных) могут запрашивать данные с помощью выбранного ими инструмента. Например, когда инженер по работе с данными использует ноутбук и вводит команду Spark для составления списка таблиц, он открывает все таблицы хранилища данных и озера данных, к которым у него есть доступ. Затем можно ввести команды для чтения и записи данных в таблицы, которые физически хранятся либо в озерах данных Amazon S3, либо в хранилищах данных Amazon Redshift. Аналогично, когда аналитик по работе с данными выполняет SQL-команды Redshift из SQL-редактора, ему открывается такое же единое пространство для просмотра данных, и он может читать и записывать данные в эти таблицы. С помощью выбранных инструментов (SQL-редактора или блокнота) можно создавать новые таблицы в Amazon S3 или Amazon Redshift. Запросите материализованные представления Amazon Redshift, чтобы ускорить быстродействие таблиц озера данных. Помимо SageMaker Unified Studio, к решению SageMaker Lakehouse также можно получить доступ через Консоль управления AWS, AWS Glue API, Интерфейс командной строки AWS (AWS CLI) или AWS SDK. Подробнее см. на странице документации.