Tabelle Amazon S3

Ottimizza le prestazioni e i costi delle query man mano che il tuo data lake scala

Archivia dati tabulari su larga scala in S3

Le tabelle Amazon S3 offrono il primo archivio di oggetti cloud con supporto Apache Iceberg integrato e semplificano l'archiviazione di dati tabulari su larga scala. L'ottimizzazione continua delle tabelle scansiona e riscrive automaticamente i relativi dati in background, ottenendo prestazioni delle query fino a 3 volte più veloci rispetto alle tabelle Iceberg non gestite. Queste ottimizzazioni delle prestazioni continueranno a migliorare nel tempo. Inoltre, le tabelle S3 includono ottimizzazioni specifiche per i carichi di lavoro Iceberg che forniscono transazioni al secondo fino a 10 volte superiori rispetto alle tabelle Iceberg archiviate in bucket S3 generici. Per maggiori dettagli sui miglioramenti delle prestazioni di query relative alle tabelle S3, consulta il blog.

Con il supporto delle tabelle S3 per lo standard Apache Iceberg, i dati tabulari possono essere facilmente sottoposti a query con i più diffusi motori di query di AWS e di terze parti, tra cui Amazon Athena, Redshift, EMR e Apache Spark. Usa le tabelle S3 per archiviare dati tabulari come transazioni di acquisto giornaliere, dati dei sensori di streaming o impressioni degli annunci come una tabella Iceberg in S3 e ottimizzare prestazioni e costi man mano che i dati si evolvono utilizzando la manutenzione automatica della tabella. Leggi il blog per ulteriori informazioni.

Vantaggi

Se hai appena iniziato o stai gestendo migliaia di tabelle nell'ambiente Iceberg, semplifica i data lake su qualsiasi scala.

Ottieni prestazioni delle query fino a 3 volte più veloci grazie all'ottimizzazione continua delle tabelle rispetto a tabelle Iceberg non gestite, oltre a transazioni al secondo fino a 10 volte superiori rispetto alle tabelle Iceberg archiviate in bucket S3 generici.

Esegui attività di manutenzione continua delle tabelle come la compattazione, la gestione degli snapshot e la rimozione di file senza riferimenti per ottimizzare automaticamente l'efficienza e i costi delle query nel tempo.

Accedi alle funzionalità di analisi avanzate di Iceberg e interroga i dati utilizzando servizi AWS familiari come Amazon Athena, Redshift ed EMR tramite l'integrazione dell'anteprima di S3 Tables con Catalogo dati AWS Glue. S3 Tables è compatibile con i più diffusi strumenti open source.

Crea tabelle come risorse AWS di prima classe e applica le autorizzazioni per accedervi facilmente.

Come funziona

Le tabelle S3 forniscono uno spazio S3 dedicato per l'archiviazione di dati strutturati nel formato Apache Parquet. All'interno di un bucket di tabelle, puoi creare tabelle come risorse di prima classe direttamente in S3. Queste tabelle possono essere protette con autorizzazioni a livello di tabella definite in policy basate sull'identità o sulle risorse e sono accessibili da applicazioni o strumenti che supportano lo standard Apache Iceberg. Quando crei una tabella nel tuo bucket di tabelle, i dati sottostanti in S3 vengono archiviati come dati Parquet. Quindi, S3 mantiene i metadati necessari per fare in modo che i dati Parquet possano essere sottoposti a query da parte delle tue applicazioni. I bucket di tabelle includono una libreria client utilizzata dai motori di query per navigare e aggiornare i metadati Iceberg delle tabelle nel bucket di tabelle. Questa libreria, insieme alle API S3 aggiornate per le operazioni sulle tabelle, consente a più client di leggere e scrivere dati nelle tabelle in modo sicuro. Nel tempo, S3 ottimizza automaticamente i dati Parquet sottostanti riscrivendo o “compattando” gli oggetti. La compattazione ottimizza i dati su S3 per migliorare le prestazioni delle query e ridurre al minimo i costi. Consulta la guida per l'utente per ulteriori informazioni

Video dimostrativo delle tabelle Amazon S3

Clienti

  • Genesys

    Genesys è un leader globale nel cloud nell'Experience Orchestration basata sull'intelligenza artificiale. Grazie a funzionalità avanzate di gestione dell'intelligenza artificiale, del digitale e del coinvolgimento della forza lavoro, Genesys aiuta più di 8.000 organizzazioni in oltre 100 paesi a fornire esperienze personalizzate ed empatiche a clienti e dipendenti, beneficiando al contempo di una maggiore agilità e di risultati aziendali.

    Amazon S3 Tables rappresenterà un'aggiunta trasformativa alla nostra architettura dei dati, in particolare con il supporto gestito di Iceberg, che crea efficacemente un livello di vista materializzata per diverse esigenze di analisi dei dati. Questa offerta ha il potenziale per aiutare Genesys a semplificare i flussi di lavoro di dati complessi eliminando ulteriori livelli di gestione delle tabelle, con S3 che gestisce automaticamente le principali attività di manutenzione come la compattazione, la gestione delle istantanee e la pulizia dei file senza riferimenti. La capacità di leggere e scrivere tabelle Iceberg direttamente da S3 ci aiuterà a migliorare le prestazioni e a creare nuove possibilità per integrare perfettamente i dati nel nostro ecosistema di analisi. Questa interoperabilità, combinata con i miglioramenti delle prestazioni, posiziona S3 Tables come parte fondamentale della nostra strategia futura per fornire informazioni sui dati veloci, flessibili e affidabili.

    Glenn Nethercutt, Chief Technology Officer presso Genesys
  • SnapLogic

    SnapLogic è un pioniere nell'integrazione basata sull'intelligenza artificiale. La piattaforma SnapLogic per l'integrazione generativa accelera la trasformazione digitale in tutta l'azienda per progettare, implementare e gestire agenti e integrazioni di intelligenza artificiale che automatizzano le attività, prendono decisioni in tempo reale e si integrano facilmente nei flussi di lavoro esistenti.

    Amazon S3 Tables, con supporto Apache Iceberg incorporato e integrazione dei servizi di analisi AWS, aiuta le aziende a ottimizzare i costi di analisi dei dati trasformando il modo in cui utilizzano i dati aziendali per analisi, conformità e iniziative di intelligenza artificiale. Automatizzando complesse attività di gestione dei dati e fornendo audit trail completi delle modifiche ai dati, i team possono analizzare istantaneamente i dati storici, mantenere la conformità normativa e accelerare le informazioni aziendali riducendo significativamente i costi tecnologici.

    Dominic Wellington, Enterprise Architect presso SnapLogic
  • Zus Health

    Zus è una piattaforma condivisa di dati sanitari progettata per accelerare l'interoperabilità di tali dati fornendo informazioni sui pazienti facili da usare tramite API, componenti integrati e integrazioni dirette EHR.

    In qualità di azienda sanitaria che gestisce enormi quantità di dati dei pazienti che cambiano frequentemente, abbiamo deciso di investire in Apache Iceberg perché risolve molti punti deboli di Apache Hive relativi al partizionamento e all'automazione, con l'ulteriore vantaggio di una più ampia interoperabilità. Una delle nostre maggiori sfide con Iceberg è stata la comprensione e la gestione dell'ottimizzazione delle tabelle. Ecco perché siamo entusiasti di S3 Tables e delle funzionalità di ottimizzazione gestita. La possibilità di ridurre il carico di lavoro degli sviluppatori per la manutenzione delle tabelle ci consentirà di concentrarci maggiormente sulla fornitura di dati di alta qualità e di informazioni preziose ai nostri clienti.

    Sonya Huang, Consulting Software Engineer presso Zus Health