Amazon S3 Tables

Abfrageleistung und Kosten optimieren, während Ihr Data Lake skaliert

Tabellarische Daten im großen Maßstab in S3 speichern

Amazon S3 Tables bieten den ersten Cloud-Objektspeicher mit integrierter Apache-Iceberg-Unterstützung und optimieren das Speichern von Tabellendaten in großem Maßstab. Durch die kontinuierliche Tabellenoptimierung werden Tabellendaten automatisch im Hintergrund gescannt und neu geschrieben, wodurch eine bis zu dreimal schnellere Abfrageleistung im Vergleich zu nicht verwalteten Iceberg-Tabellen erzielt wird. Diese Leistungsoptimierungen werden sich im Laufe der Zeit weiter verbessern. Darüber hinaus enthalten S3-Tabellen Optimierungen speziell für Iceberg-Workloads, die im Vergleich zu Iceberg-Tabellen, die in S3-Allzweck-Buckets gespeichert sind, bis zu zehnmal höhere Transaktionen pro Sekunde liefern. Weitere Informationen zu den Verbesserungen der Abfrageleistung von S3-Tabellen finden Sie im Blog.

Da S3 Tables den Apache-Iceberg-Standard unterstützen, können Ihre Tabellendaten problemlos mit gängigen Abfrage-Engines von AWS und Drittanbietern wie Amazon Athena, Redshift, EMR und Apache Spark abgefragt werden. Verwenden Sie S3 Tables, um tabellarische Daten wie tägliche Kauftransaktionen, Streaming-Sensordaten oder Anzeigenimpressionen als Iceberg-Tabelle in S3 zu speichern und mithilfe der automatischen Tabellenpflege Leistung und Kosten zu optimieren, während sich Ihre Daten weiterentwickeln. Weitere Informationen finden Sie im Blog.

Vorteile

Vereinfachen Sie Data Lakes in jeder Größenordnung, egal ob Sie gerade erst anfangen oder Tausende von Tabellen in Ihrer Iceberg-Umgebung verwalten.

Erzielen Sie eine bis zu dreimal schnellere Abfrageleistung durch kontinuierliche Tabellenoptimierung im Vergleich zu nicht verwalteten Iceberg-Tabellen und bis zu zehnmal höhere Transaktionen pro Sekunde im Vergleich zu Iceberg-Tabellen, die in S3-Allzweck-Buckets gespeichert sind.

Führen Sie kontinuierliche Tabellenwartungsaufgaben wie Komprimierung, Snapshot-Verwaltung und Entfernung unreferenzierter Dateien durch, um die Abfrageeffizienz und die Kosten im Laufe der Zeit automatisch zu optimieren.

Greifen Sie über die Vorschauintegration von S3 Tables mit AWS-Glue-Datenkatalog auf erweiterte Analytikfunktionen von Iceberg zu und fragen Sie Daten mit vertrauten AWS-Services wie Amazon Athena, Redshift und EMR ab. S3 Tables ist mit gängigen Open-Source-Tools kompatibel.

Erstellen Sie Tabellen als erstklassige AWS-Ressourcen und wenden Sie Berechtigungen an, um den Zugriff auf sie einfach zu regeln.

Funktionsweise:

S3 Tables bieten speziell entwickelten S3-Speicher zum Speichern strukturierter Daten im Apache-Parquet-Format. Innerhalb eines Tabellen-Buckets können Sie Tabellen als erstklassige Ressourcen direkt in S3 erstellen. Diese Tabellen können mit Berechtigungen auf Tabellenebene gesichert werden, die entweder in identitäts- oder ressourcenbasierten Richtlinien definiert sind, und sind für Anwendungen oder Tools zugänglich, die den Apache-Iceberg-Standard unterstützen. Wenn Sie eine Tabelle in Ihrem Tabellen-Bucket erstellen, werden die zugrundeliegenden Daten in S3 als Parquet-Daten gespeichert. Anschließend verwaltet S3 die Metadaten, die erforderlich sind, um diese Parquet-Daten von Ihren Anwendungen abfragbar zu machen. Tabellen-Buckets enthalten eine Client-Bibliothek, die von Abfrage-Engines verwendet wird, um in den Iceberg-Metadaten der Tabellen in Ihrem Tabellen-Bucket zu navigieren und sie zu aktualisieren. Diese Bibliothek ermöglicht in Verbindung mit aktualisierten S3-APIs für Tabellenoperationen mehreren Clients das sichere Lesen und Schreiben von Daten in Ihre Tabellen. Im Laufe der Zeit optimiert S3 automatisch die zugrundeliegenden Parquet-Daten, indem Ihre Objekte neu geschrieben oder „komprimiert“ werden. Die Komprimierung optimiert Ihre Daten auf S3, um die Abfrageleistung zu verbessern und die Kosten zu minimieren. Im Benutzerhandbuch erhalten Sie weitere Informationen

Demo-Video zu Amazon S3 Tables

Kunden

  • Genesys

    Genesys ist ein weltweit führender Cloud-Anbieter für KI-gestützte Experience Orchestration. Mithilfe fortschrittlicher KI-, Digital- und Workforce-Engagement-Management-Funktionen unterstützt Genesys mehr als 8 000 Unternehmen in über 100 Ländern dabei, personalisierte, empathische Kunden- und Mitarbeitererlebnisse zu bieten und gleichzeitig von einer verbesserten Geschäftsflexibilität und besseren Ergebnissen zu profitieren.

    Amazon S3 Tables werden eine transformative Ergänzung zu unserer Datenarchitektur sein, insbesondere mit der verwalteten Iceberg-Unterstützung, die effektiv eine materialisierte Ansichtsebene für verschiedene Datenanalyseanforderungen schafft. Dieses Angebot hat das Potenzial, Genesys bei der Vereinfachung komplexer Daten-Workflows zu unterstützen, indem zusätzliche Ebenen der Tabellenverwaltung entfallen. S3 erledigt wichtige Wartungsaufgaben wie Komprimierung, Snapshot-Verwaltung und Bereinigung unreferenzierter Dateien automatisch. Die Möglichkeit, Iceberg-Tabellen direkt aus S3 zu lesen und zu schreiben, wird uns helfen, die Leistung zu steigern und neue Möglichkeiten für die nahtlose Integration von Daten in unser Analytik-Ökosystem zu schaffen. Diese Interoperabilität, kombiniert mit den Leistungsverbesserungen, macht S3 Tables zu einem zentralen Bestandteil unserer zukünftigen Strategie, schnelle, flexible und zuverlässige Dateneinblicke bereitzustellen.

    Glenn Nethercutt, Chief Technology Officer – Genesys
  • SnapLogic

    SnapLogic ist ein Pionier der KI-gestützten Integration. Die SnapLogic-Plattform für generative Integration beschleunigt die digitale Transformation im gesamten Unternehmen, um KI-Agenten und Integrationen zu entwerfen, bereitzustellen und zu verwalten, die Aufgaben automatisieren, Entscheidungen in Echtzeit treffen und sich mühelos in bestehende Workflows integrieren lassen.

    Amazon S3 Tables mit integrierter Apache-Iceberg-Unterstützung und AWS-Analytik-Services-Integration helfen Unternehmen dabei, ihre Datenanalytik-Kosten zu optimieren und gleichzeitig die Art und Weise zu verändern, wie sie Geschäftsdaten für Analytik, Compliance und KI-Initiativen verwenden. Durch die Automatisierung komplexer Datenverwaltungsaufgaben und die Bereitstellung vollständiger Audit Trails von Datenänderungen können Teams historische Daten sofort analysieren, behördliche Compliance sicherstellen und Geschäftseinblicke beschleunigen, während sie gleichzeitig ihre Technologiekosten erheblich senken.

    Dominic Wellington, Enterprise Architect – SnapLogic
  • Zus Health

    Zus ist eine gemeinsame Gesundheitsdatenplattform, die entwickelt wurde, um die Interoperabilität von Gesundheitsdaten zu beschleunigen, indem benutzerfreundliche Patientendaten über API, eingebettete Komponenten und direkte EHR-Integrationen bereitgestellt werden.

    Als Gesundheitsunternehmen, das riesige Mengen sich häufig ändernder Patientendaten verarbeitet, haben wir uns für eine Investition in Apache Iceberg entschieden, da es mit Apache Hive viele Probleme rund um Partitionierung und Automatisierung löst und den zusätzlichen Vorteil einer umfassenderen Interoperabilität bietet. Eine unserer größten Herausforderungen mit Iceberg war es, die Tabellenoptimierung zu verstehen und zu verwalten. Aus diesem Grund sind wir von S3 Tables und den verwalteten Optimierungsfunktionen begeistert. Da wir in der Lage sind, die Entwickler von der Tabellenpflege zu entlasten, können wir uns stärker darauf konzentrieren, unseren Kunden hochwertige Daten und wertvolle Erkenntnisse zu liefern.

    Sonya Huang, Consulting Software Engineer – Zus Health