Amazon SageMaker Lakehouse Hakkında SSS
Genel
Amazon SageMaker Lakehouse nedir?
Amazon SageMaker Lakehouse, tüm verilerinizi Amazon Simple Storage Service (Amazon S3) veri gölleri ve Amazon Redshift veri ambarları genelinde birleştirir ve tek bir veri kopyası üzerinde güçlü analiz ve yapay zeka/makine öğrenimi uygulamaları oluşturmanıza yardımcı olur. SageMaker Lakehouse, Apache Iceberg ile uyumlu tüm araç ve altyapıları kullanarak verilerinize erişme ve verilerinizi sorgulama esnekliğini tanır. Tüm analiz ve makine öğrenimi (ML) araçları ve altyapıları genelinde uygulanan izinler tanımlayarak göl evindeki verilerinizi güvence altına alın. Sıfır ETL entegrasyonları yoluyla operasyonel veri tabanları ve uygulamalardaki verileri neredeyse gerçek zamanlı olarak göl evinize getirin. Ayrıca üçüncü taraf veri kaynakları genelinde birleştirilmiş sorgu özellikleriyle verilere yerinde erişin ve verileri sorgulayın.
SageMaker Lakehouse'un faydaları nelerdir?
SageMaker Lakehouse:
a) Amazon S3 veri gölleri ve Amazon Redshift veri ambarları genelindeki verilerinize birleşik erişim imkanı sağlayarak veri silolarını azaltır. Operasyonel veri tabanlarındaki ve uygulamalardaki veriler, kodsuz veya düşük kodlu ayıklama, dönüştürme ve yükleme (ETL) işlem hatlarıyla analiz ve makine öğrenimi için neredeyse gerçek zamanlı olarak göl evinize alınabilir. Ayrıca AWS'deki ve AWS dışında kaynaklardaki verilere erişmek için yüzlerce bağlayıcıyı ve 13 birleştirilmiş sorgu özelliğini de kullanabilirsiniz.
b) Apache Iceberg ile uyumlu çok çeşitli AWS hizmetlerindeki ve açık kaynak ve üçüncü taraf araç ve altyapılardaki tüm verilerinize yerinde erişme ve sorgulama esnekliğini sağlar. SQL, Apache Spark, iş zekası (BI) ve yapay zeka/makine öğrenimi araçları gibi dilediğiniz analiz araçlarını ve altyapılarını kullanabilir ve Amazon S3 veya Amazon Redshift'te depolanan verilerin tek bir kopyası üzerinden iş birliği yapabilirsiniz.
c) Amazon Redshift, Amazon Athena veya Amazon EMR gibi entegre AWS hizmetlerinden veya üçüncü taraf Apache Iceberg uyumlu altyapılardan erişildiğinde verilerinizi koruyan yerleşik bir erişim denetimi mekanizmasıyla kurumsal güvenliği artırır.
SageMaker Lakehouse nasıl çalışır?
SageMaker Lakehouse'a doğrudan Amazon SageMaker Birleşik Stüdyosu'ndan (önizleme) erişilebilir. Farklı kaynaklardan gelen veriler, SageMaker Lakehouse'ta katalog adı verilen mantıksal container'larda düzenlenir. Her katalog; Amazon Redshift veri ambarları, veri gölleri veya veri tabanları gibi mevcut veri kaynaklarından gelen verileri temsil eder. Amazon S3 veya Amazon Redshift Yönetilen Depolama'da (RMS) veri depolamak için doğrudan göl evinde yeni kataloglar oluşturulabilir. SageMaker Lakehouse'taki verilere Apache Spark, Athena veya Amazon EMR gibi Apache Iceberg uyumlu altyapılardan erişilebilir. Ek olarak, bu kataloglar Amazon Redshift veri ambarlarında veri tabanları olarak keşfedilebilir. Bu da SQL araçlarınızı kullanmanıza ve göl evi verilerinizi analiz etmenize olanak tanır.
Özellikler
SageMaker Lakehouse, verilere nasıl birleşik erişim denetimi sağlar?
SageMaker Lakehouse, verilerinize erişim denetimini şu iki özellik yoluyla birleştirir: 1) SageMaker Lakehouse, ayrıntılı izinler tanımlamanıza olanak tanır. Bu izinler Amazon EMR, Amazon Athena ve Amazon Redshift gibi sorgu altyapıları tarafından uygulanır. 2) SageMaker Lakehouse, verilerinize yerinde erişim sağlamanıza olanak tanıyarak verilerin kopyalarını oluşturma ihtiyacını ortadan kaldırır. SageMaker Lakehouse'ta birleşik ayrıntılı erişim denetiminden yararlanmak için verilerin tek bir kopyasını ve tek bir erişim denetimi politikası kümesi tutabilirsiniz.
SageMaker Lakehouse; AWS Glue Veri Kataloğu, AWS Lake Formation ve Amazon Redshift gibi mevcut AWS hizmetleriyle nasıl birlikte çalışır?
SageMaker Lakehouse, veri gölleri ve veri ambarları genelinde birleşik veri erişimi sağlamak için AWS Glue Veri Kataloğu, Lake Formation ve Amazon Redshift'teki birden fazla teknik katalog üzerine kurulmuştur. SageMaker Lakehouse, tablo tanımlarını ve izinlerini depolamak için AWS Glue Veri Kataloğu'nu ve Lake Formation'ı kullanır. Lake Formation ayrıntılı izinleri, SageMaker Lakehouse'ta tanımlanan tablolar için kullanılabilir. Tablo tanımlarınızı AWS Glue Veri Kataloğu'nda yönetebilir ve verilerinizi güvence altına almak için tablo düzeyinde, sütun düzeyinde ve hücre düzeyinde izinler gibi ayrıntılı izinler tanımlayabilirsiniz. Ayrıca, hesaplar arası veri paylaşımı özelliklerini kullanarak, verileri güvenli iş birliği için kullanılabilir hale getirmek üzere sıfır kopya veri paylaşımını etkinleştirebilirsiniz.
SageMaker Lakehouse tarafından sağlanan Apache Iceberg API'lerine erişmek için herhangi bir istemci yazılımına ihtiyacım var mı?
Evet. SageMaker Lakehouse'a erişmek için açık kaynak Apache Iceberg istemci kitaplığı gereklidir. Apache Spark veya Trino gibi üçüncü taraf veya kendi kendini yöneten açık kaynak altyapıları kullanan müşterilerin, SageMaker Lakehouse'a erişmek için sorgu altyapılarına Apache Iceberg istemci kitaplığını eklemeleri gerekir.
Apache Spark'ı kullanarak Amazon Redshift veri ambarıma veri yazmak için SageMaker Lakehouse'u kullanabilir miyim?
Evet, bir Apache Iceberg istemci kitaplığını kullanarak Amazon EMR, AWS Glue, Amazon Athena ve Amazon SageMaker gibi AWS hizmetlerindeki Apache Spark altyapılarından veya üçüncü taraf Apache Spark'tan mevcut Amazon Redshift veri ambarınızdaki verileri okuyabilir ve bu konuma veri yazabilirsiniz. Ancak, tablolara veri yazmak için bunlarla ilgili uygun yazma izinlerine sahip olmanız gerekir.
SageMaker Lakehouse'ta veri gölüm ile Amazon Redshift veri ambarı tablolarımı birleştirebilir miyim?
Evet. Apache Spark gibi dilediğiniz bir altyapıyı kullanarak Amazon S3'teki veri gölü tablolarınızı, birden çok veri tabanı genelinde Amazon Redshift veri ambarınızdaki tablolarla birleştirebilirsiniz.
Geçiş
SageMaker Lakehouse'u kullanmak için verilerimi taşımam gerekir mi?
Hayır, SageMaker Lakehouse'u kullanmak için verilerinizi taşımak zorunda değilsiniz. SageMaker Lakehouse, Apache Iceberg'in açık standardı ile verilerinize yerinde erişmenizi ve bunları sorgulamanızı sağlar. Amazon S3 veri gölleri ve Amazon Redshift veri ambarlarındaki verilerinize doğrudan erişebilirsiniz. Operasyonel veri tabanlarındaki ve uygulamalardaki veriler, altyapı bakımı veya karmaşık işlem hatları olmaksızın mevcut sıfır ETL entegrasyonları aracılığıyla neredeyse gerçek zamanlı olarak göl evine alınabilir. Verilerinize yerinde erişmek için birleştirilmiş sorgu özelliklerini de kullanabilirsiniz. Bunlara ek olarak, mevcut veri kaynaklarınızla entegrasyonu sağlamak için yüzlerce AWS Glue bağlayıcısını kullanabilirsiniz.
Halihazırda Amazon Redshift'i kullanıyorum. Amazon Redshift veri ambarımı SageMaker Lakehouse'a nasıl getirebilirim?
Zaten bir Amazon Redshift kullanıcısıysanız Amazon Redshift veri ambarınızı birkaç kolay adımda, verilerinizi geçirmeden SageMaker Lakehouse'a kaydedebilirsiniz. Geliştirici kılavuzundaki adımları izleyin.
Halihazırda bir Amazon S3 veri gölü kullanıyorum. Veri gölümü SageMaker Lakehouse'a nasıl getirebilirim?
Amazon S3 veri gölünüzü AWS Glue Veri Kataloğu'nu kullanarak yapılandırdıysanız herhangi bir değişiklik yapmanız gerekmez.
Sıfır ETL entegrasyonları
SageMaker Lakehouse ile kullanılabilen farklı sıfır ETL entegrasyonları nelerdir?
SageMaker Lakehouse; Amazon DynamoDB, Amazon Aurora ve MySQL İçin Amazon RDS ile sıfır ETL entegrasyonları ve şu sekiz uygulama için destek sağlar: Zoho CRM, Salesforce, Salesforce Pardot, ServiceNow, Facebook ads, Instagram ads, Zendesk ve SAP.
SageMaker Lakehouse ile sıfır ETL entegrasyonlarına nasıl erişebilirim?
Sıfır ETL entegrasyonlarınızı, AWS Glue ile Amazon SageMaker Veri İşleme içindeki AWS Glue konsolu üzerinden yapılandırıp izleyebilirsiniz. Veriler alındıktan sonra Apache Iceberg uyumlu sorgu altyapılarından verilere erişebilir ve verileri sorgulayabilirsiniz. Daha fazla bilgi için Sıfır ETL entegrasyonu belgeleri sayfasını ziyaret edin.
Sıfır ETL için fiyatlandırma modeli nasıl?
Fiyatlandırma hakkında daha fazla bilgi edinmek için SageMaker Lakehouse ve AWS Glue fiyatlandırma sayfalarını ziyaret edin.
Fiyatlandırma
SageMaker Lakehouse fiyatlandırması nasıl?
Ayrıntılar için SageMaker Lakehouse fiyatlandırmasını ziyaret edin.
Erişilebilirlik
SageMaker Lakehouse hangi AWS Bölgelerinde kullanılabilir?
SageMaker Lakehouse; ABD Doğu (K. Virginia), ABD Doğu (Ohio), ABD Batı (Oregon), Asya Pasifik (Hong Kong), Asya Pasifik (Seul), Asya Pasifik (Singapur), Asya Pasifik (Sidney), Asya Pasifik (Tokyo), Kanada (Orta), Avrupa (Frankfurt), Avrupa (İrlanda), Avrupa (Londra), Avrupa (Stokholm) ve Güney Amerika (Sao Paulo) bölgelerinde kullanılabilir.
SageMaker Lakehouse bir SLA sunuyor mu?
Evet. SageMaker Lakehouse, meta verileri AWS Glue Veri Kataloğu'nda depolar ve Amazon Glue SLA'sı ile aynı SLA'yı sunar.
Kullanmaya başlama
SageMaker Lakehouse'u kullanmaya nasıl başlarım?
Kullanmaya başlamak için SageMaker Birleşik Stüdyosu'nda (önizleme) kurumsal (örneğin Okta) kimlik bilgilerinizi kullanarak SageMaker etki alanınızda oturum açabilirsiniz. Yöneticiler SageMaker Birleşik Stüdyosu'nda belirli bir proje profilini seçerek birkaç kısa adımda projeler oluşturabilir. Daha sonra SageMaker Lakehouse ile birlikte çalışmak için bir proje seçebilirsiniz. Bir proje seçildikten sonra verilerin, sorgu altyapılarının ve geliştirici araçlarının tek bir yerde birleşik bir görünümünü elde edersiniz. Veri mühendisleri ve veri analistleri gibi kullanıcılar daha sonra seçtikleri bir aracı kullanarak verileri sorgulayabilir. Örneğin, bir veri mühendisi bir not defterini kullanarak tabloları listelemek için Spark komutunu verdiğinde, erişim iznine sahip olduğu tüm veri ambarı ve veri gölü tablolarını keşfeder. Daha sonra Amazon S3 veri göllerinde veya Amazon Redshift veri ambarlarında fiziksel olarak depolanan tablolarda veri okumak ve yazmak için komutlar çalıştırabilir. Benzer şekilde, bir veri analisti bir SQL düzenleyicisinden Redshift SQL komutlarını çalıştırdığında, aynı birleşik veri görünümünü elde eder ve bu tablolara veri okuyabilir ve yazabilir. Tercih ettiğiniz araçlardan (SQL düzenleyicisi veya not defteri) Amazon S3 veya Amazon Redshift'te yeni tablolar oluşturabilirsiniz. Veri gölü tablolarınızdaki performansı hızlandırmak için Amazon Redshift gerçekleştirilmiş görünümlerini sorgulayın. SageMaker Birleşik Stüdyosu'na ek olarak, SageMaker Lakehouse'a da AWS Yönetim Konsolu, AWS Glue API'leri, AWS Komut Satırı Arabirimi (AWS CLI) veya AWS SDK'lerinden erişilebilir. Daha fazla bilgi edinmek için Belgeler sayfasını ziyaret edin.