Amazon SageMaker Lakehouse Hakkında SSS

Genel

Amazon SageMaker Lakehouse, tüm verilerinizi Amazon Simple Storage Service (Amazon S3) veri gölleri ve Amazon Redshift veri ambarları genelinde birleştirir ve tek bir veri kopyası üzerinde güçlü analiz ve yapay zeka/makine öğrenimi uygulamaları oluşturmanıza yardımcı olur. SageMaker Lakehouse, Apache Iceberg ile uyumlu tüm araç ve altyapıları kullanarak verilerinize erişme ve verilerinizi sorgulama esnekliğini tanır. Tüm analiz ve makine öğrenimi (ML) araçları ve altyapıları genelinde uygulanan izinler tanımlayarak göl evindeki verilerinizi güvence altına alın. Sıfır ETL entegrasyonları yoluyla operasyonel veri tabanları ve uygulamalardaki verileri neredeyse gerçek zamanlı olarak göl evinize getirin. Ayrıca üçüncü taraf veri kaynakları genelinde birleştirilmiş sorgu özellikleriyle verilere yerinde erişin ve verileri sorgulayın.

SageMaker Lakehouse:

a) Amazon S3 veri gölleri ve Amazon Redshift veri ambarları genelindeki verilerinize birleşik erişim imkanı sağlayarak veri silolarını azaltır. Operasyonel veri tabanlarındaki ve uygulamalardaki veriler, kodsuz veya düşük kodlu ayıklama, dönüştürme ve yükleme (ETL) işlem hatlarıyla analiz ve makine öğrenimi için neredeyse gerçek zamanlı olarak göl evinize alınabilir. Ayrıca AWS'deki ve AWS dışında kaynaklardaki verilere erişmek için yüzlerce bağlayıcıyı ve 13 birleştirilmiş sorgu özelliğini de kullanabilirsiniz.

b) Apache Iceberg ile uyumlu çok çeşitli AWS hizmetlerindeki ve açık kaynak ve üçüncü taraf araç ve altyapılardaki tüm verilerinize yerinde erişme ve sorgulama esnekliğini sağlar. SQL, Apache Spark, iş zekası (BI) ve yapay zeka/makine öğrenimi araçları gibi dilediğiniz analiz araçlarını ve altyapılarını kullanabilir ve Amazon S3 veya Amazon Redshift'te depolanan verilerin tek bir kopyası üzerinden iş birliği yapabilirsiniz.

c) Amazon Redshift, Amazon Athena veya Amazon EMR gibi entegre AWS hizmetlerinden veya üçüncü taraf Apache Iceberg uyumlu altyapılardan erişildiğinde verilerinizi koruyan yerleşik bir erişim denetimi mekanizmasıyla kurumsal güvenliği artırır.

SageMaker Lakehouse'a doğrudan Amazon SageMaker Birleşik Stüdyosu'ndan (önizleme) erişilebilir. Farklı kaynaklardan gelen veriler, SageMaker Lakehouse'ta katalog adı verilen mantıksal container'larda düzenlenir. Her katalog; Amazon Redshift veri ambarları, veri gölleri veya veri tabanları gibi mevcut veri kaynaklarından gelen verileri temsil eder. Amazon S3 veya Amazon Redshift Yönetilen Depolama'da (RMS) veri depolamak için doğrudan göl evinde yeni kataloglar oluşturulabilir. SageMaker Lakehouse'taki verilere Apache Spark, Athena veya Amazon EMR gibi Apache Iceberg uyumlu altyapılardan erişilebilir. Ek olarak, bu kataloglar Amazon Redshift veri ambarlarında veri tabanları olarak keşfedilebilir. Bu da SQL araçlarınızı kullanmanıza ve göl evi verilerinizi analiz etmenize olanak tanır.

Özellikler

SageMaker Lakehouse, verilerinize erişim denetimini şu iki özellik yoluyla birleştirir: 1) SageMaker Lakehouse, ayrıntılı izinler tanımlamanıza olanak tanır. Bu izinler Amazon EMR, Amazon Athena ve Amazon Redshift gibi sorgu altyapıları tarafından uygulanır. 2) SageMaker Lakehouse, verilerinize yerinde erişim sağlamanıza olanak tanıyarak verilerin kopyalarını oluşturma ihtiyacını ortadan kaldırır. SageMaker Lakehouse'ta birleşik ayrıntılı erişim denetiminden yararlanmak için verilerin tek bir kopyasını ve tek bir erişim denetimi politikası kümesi tutabilirsiniz.

SageMaker Lakehouse, veri gölleri ve veri ambarları genelinde birleşik veri erişimi sağlamak için AWS Glue Veri Kataloğu, Lake Formation ve Amazon Redshift'teki birden fazla teknik katalog üzerine kurulmuştur. SageMaker Lakehouse, tablo tanımlarını ve izinlerini depolamak için AWS Glue Veri Kataloğu'nu ve Lake Formation'ı kullanır. Lake Formation ayrıntılı izinleri, SageMaker Lakehouse'ta tanımlanan tablolar için kullanılabilir. Tablo tanımlarınızı AWS Glue Veri Kataloğu'nda yönetebilir ve verilerinizi güvence altına almak için tablo düzeyinde, sütun düzeyinde ve hücre düzeyinde izinler gibi ayrıntılı izinler tanımlayabilirsiniz. Ayrıca, hesaplar arası veri paylaşımı özelliklerini kullanarak, verileri güvenli iş birliği için kullanılabilir hale getirmek üzere sıfır kopya veri paylaşımını etkinleştirebilirsiniz.

Evet. SageMaker Lakehouse'a erişmek için açık kaynak Apache Iceberg istemci kitaplığı gereklidir. Apache Spark veya Trino gibi üçüncü taraf veya kendi kendini yöneten açık kaynak altyapıları kullanan müşterilerin, SageMaker Lakehouse'a erişmek için sorgu altyapılarına Apache Iceberg istemci kitaplığını eklemeleri gerekir.

Evet, bir Apache Iceberg istemci kitaplığını kullanarak Amazon EMR, AWS Glue, Amazon Athena ve Amazon SageMaker gibi AWS hizmetlerindeki Apache Spark altyapılarından veya üçüncü taraf Apache Spark'tan mevcut Amazon Redshift veri ambarınızdaki verileri okuyabilir ve bu konuma veri yazabilirsiniz. Ancak, tablolara veri yazmak için bunlarla ilgili uygun yazma izinlerine sahip olmanız gerekir.

Evet. Apache Spark gibi dilediğiniz bir altyapıyı kullanarak Amazon S3'teki veri gölü tablolarınızı, birden çok veri tabanı genelinde Amazon Redshift veri ambarınızdaki tablolarla birleştirebilirsiniz.

Geçiş

Hayır, SageMaker Lakehouse'u kullanmak için verilerinizi taşımak zorunda değilsiniz. SageMaker Lakehouse, Apache Iceberg'in açık standardı ile verilerinize yerinde erişmenizi ve bunları sorgulamanızı sağlar. Amazon S3 veri gölleri ve Amazon Redshift veri ambarlarındaki verilerinize doğrudan erişebilirsiniz. Operasyonel veri tabanlarındaki ve uygulamalardaki veriler, altyapı bakımı veya karmaşık işlem hatları olmaksızın mevcut sıfır ETL entegrasyonları aracılığıyla neredeyse gerçek zamanlı olarak göl evine alınabilir. Verilerinize yerinde erişmek için birleştirilmiş sorgu özelliklerini de kullanabilirsiniz. Bunlara ek olarak, mevcut veri kaynaklarınızla entegrasyonu sağlamak için yüzlerce AWS Glue bağlayıcısını kullanabilirsiniz.

Zaten bir Amazon Redshift kullanıcısıysanız Amazon Redshift veri ambarınızı birkaç kolay adımda, verilerinizi geçirmeden SageMaker Lakehouse'a kaydedebilirsiniz. Geliştirici kılavuzundaki adımları izleyin.

Amazon S3 veri gölünüzü AWS Glue Veri Kataloğu'nu kullanarak yapılandırdıysanız herhangi bir değişiklik yapmanız gerekmez.

Sıfır ETL entegrasyonları

SageMaker Lakehouse; Amazon DynamoDB, Amazon Aurora ve MySQL İçin Amazon RDS ile sıfır ETL entegrasyonları ve şu sekiz uygulama için destek sağlar: Zoho CRM, Salesforce, Salesforce Pardot, ServiceNow, Facebook ads, Instagram ads, Zendesk ve SAP.

Sıfır ETL entegrasyonlarınızı, AWS Glue ile Amazon SageMaker Veri İşleme içindeki AWS Glue konsolu üzerinden yapılandırıp izleyebilirsiniz. Veriler alındıktan sonra Apache Iceberg uyumlu sorgu altyapılarından verilere erişebilir ve verileri sorgulayabilirsiniz. Daha fazla bilgi için Sıfır ETL entegrasyonu belgeleri sayfasını ziyaret edin.

Fiyatlandırma hakkında daha fazla bilgi edinmek için SageMaker Lakehouse ve AWS Glue fiyatlandırma sayfalarını ziyaret edin.

Fiyatlandırma

Ayrıntılar için SageMaker Lakehouse fiyatlandırmasını ziyaret edin.

Erişilebilirlik

SageMaker Lakehouse; ABD Doğu (K. Virginia), ABD Doğu (Ohio), ABD Batı (Oregon), Asya Pasifik (Hong Kong), Asya Pasifik (Seul), Asya Pasifik (Singapur), Asya Pasifik (Sidney), Asya Pasifik (Tokyo), Kanada (Orta), Avrupa (Frankfurt), Avrupa (İrlanda), Avrupa (Londra), Avrupa (Stokholm) ve Güney Amerika (Sao Paulo) bölgelerinde kullanılabilir.

Evet. SageMaker Lakehouse, meta verileri AWS Glue Veri Kataloğu'nda depolar ve Amazon Glue SLA'sı ile aynı SLA'yı sunar.

Kullanmaya başlama

Kullanmaya başlamak için SageMaker Birleşik Stüdyosu'nda (önizleme) kurumsal (örneğin Okta) kimlik bilgilerinizi kullanarak SageMaker etki alanınızda oturum açabilirsiniz. Yöneticiler SageMaker Birleşik Stüdyosu'nda belirli bir proje profilini seçerek birkaç kısa adımda projeler oluşturabilir. Daha sonra SageMaker Lakehouse ile birlikte çalışmak için bir proje seçebilirsiniz. Bir proje seçildikten sonra verilerin, sorgu altyapılarının ve geliştirici araçlarının tek bir yerde birleşik bir görünümünü elde edersiniz. Veri mühendisleri ve veri analistleri gibi kullanıcılar daha sonra seçtikleri bir aracı kullanarak verileri sorgulayabilir. Örneğin, bir veri mühendisi bir not defterini kullanarak tabloları listelemek için Spark komutunu verdiğinde, erişim iznine sahip olduğu tüm veri ambarı ve veri gölü tablolarını keşfeder. Daha sonra Amazon S3 veri göllerinde veya Amazon Redshift veri ambarlarında fiziksel olarak depolanan tablolarda veri okumak ve yazmak için komutlar çalıştırabilir. Benzer şekilde, bir veri analisti bir SQL düzenleyicisinden Redshift SQL komutlarını çalıştırdığında, aynı birleşik veri görünümünü elde eder ve bu tablolara veri okuyabilir ve yazabilir. Tercih ettiğiniz araçlardan (SQL düzenleyicisi veya not defteri) Amazon S3 veya Amazon Redshift'te yeni tablolar oluşturabilirsiniz. Veri gölü tablolarınızdaki performansı hızlandırmak için Amazon Redshift gerçekleştirilmiş görünümlerini sorgulayın. SageMaker Birleşik Stüdyosu'na ek olarak, SageMaker Lakehouse'a da AWS Yönetim Konsolu, AWS Glue API'leri, AWS Komut Satırı Arabirimi (AWS CLI) veya AWS SDK'lerinden erişilebilir. Daha fazla bilgi edinmek için Belgeler sayfasını ziyaret edin.