Elaborazione dei dati di Amazon SageMaker

Analizza, prepara e integra i dati per l'analisi e l'IA su qualsiasi scala

Perché utilizzare SageMaker Data Processing?

Prepara, integra e orchestra i dati con le funzionalità di elaborazione dati di Amazon Athena, Amazon EMR, AWS Glue e Flusso di lavoro gestito da Amazon per Apache Airflow (Amazon MWAA). Elabora e integra i tuoi dati, ovunque si trovino, con una connettività semplice e veloce a centinaia di origini dati.

Utilizza i framework di elaborazione dati open-source come Apache Spark, Trino e Apache Flink. Analizza i dati su larga scala con Trino, senza gestire l'infrastruttura e crea facilmente analisi in tempo reale con Apache Flink e Apache Spark.

La certezza che i tuoi dati siano accurati e sicuri è garantita dall'automazione della qualità dei dati, dall'identificazione dei dati sensibili, dal tracciamento della derivazione e dall'applicazione di controlli di accesso granulari grazie all'integrazione nativa con Amazon SageMaker Lakehouse.

Vantaggi

Amazon SageMaker Data Processing fornisce un accesso completo ai framework di elaborazione di dati e flussi, ai motori di query SQL distribuiti open source e agli strumenti più diffusi come notebook, editor di query ed estrazione, trasformazione e caricamento (ETL) visivo.

Puoi accedere ai framework più diffusi come Apache Spark per preparare e integrare i tuoi dati su qualsiasi scala. Rispondi alle esigenze aziendali in tempo reale grazie all'elaborazione in streaming con Apache Flink e Apache Spark Streaming, e analizza i dati con i principali framework SQL open source come Trino. Semplifica l'orchestrazione dei flussi di lavoro senza dover gestire l'infrastruttura grazie all'integrazione nativa con Amazon MWAA.

SageMaker Data Processing si integra nativamente con SageMaker Lakehouse, consentendoti di effettuare elaborazioni e integrazioni utilizzando una copia dei tuoi dati per tutti i casi d'uso, tra cui analisi, query ad hoc, machine learning (ML) e IA generativa.

SageMaker Lakehouse unifica i dati tra i data lake di Amazon Simple Storage Service (Amazon S3) e i data warehouse di Amazon Redshift, fornendo un accesso unificato ai tuoi dati. Puoi scoprire e analizzare i dati unificati nel lakehouse con centinaia di connettori, integrazioni Zero-ETL e origini dati federate, offrendoti un quadro completo della tua azienda. SageMaker Lakehouse funziona immediatamente con l'architettura dei dati esistente, senza essere vincolato da formati di archiviazione specifici o scelte del motore di query.

Migliora l'efficienza con prestazioni veloci delle query sulle tabelle Apache Iceberg. Ottieni approfondimenti fino a 2 volte più velocemente rispetto ai tradizionali sistemi open source con versioni altamente performanti e compatibili con le API open source di Apache Spark, Apache Airflow, Apache Flink, Trino e altro ancora.

SageMaker Data Processing consente di concentrarsi sulla trasformazione e l'analisi dei dati senza gestire la capacità di calcolo o le applicazioni open source, risparmiando tempo e riducendo i costi. Puoi effettuare automaticamente il provisioning della tua capacità di Amazon EMR su Amazon Elastic Compute Cloud (Amazon EC2) o su Amazon Elastic Kubernetes Service (Amazon EKS). Le regole di scalabilità gestiscono le modifiche alla domanda di calcolo per ottimizzare le prestazioni e i runtime.

Instaura l'affidabilità e la trasparenza con report automatici sulla qualità dei dati, il rilevamento di dati sensibili e il monitoraggio del lineage per i dati e i modelli di IA attraverso l'integrazione con Amazon SageMaker Catalog. Aumenta la fiducia nella qualità dei tuoi dati con misurazioni, monitoraggio e suggerimenti automatici per le regole di qualità dei dati.

Elabora e analizza i tuoi dati in modo sicuro aderendo e applicando controlli di accesso granulari definiti sui set di dati in SageMaker Lakehouse, consentendo di definire le autorizzazioni una sola volta e rendere i tuoi dati accessibili agli utenti autorizzati in tutta l'organizzazione.

Servizi AWS

Integrazione dei dati semplificata

AWS Glue fornisce un'integrazione dei dati serverless, semplificando l'esplorazione, la preparazione e l'integrazione dei dati da più origini. Connettiti con diverse origini dati, gestisci i dati in un catalogo centralizzato e crea, esegui e monitora visivamente le pipeline ETL per caricare i dati nei lakehouse. AWS Glue scala automaticamente su richiesta, permettendo di concentrarsi sull'acquisizione di informazioni dai dati senza dover gestire l'infrastruttura.

Esegui e scala Apache Spark, Apache Hive, Trino e altri carichi di lavoro

Amazon EMR rende più semplice e conveniente l'esecuzione dei carichi di lavoro di elaborazione dati come Apache Spark, Apache Airflow, Apache Flink, Trino e altri. Crea ed esegui pipeline di elaborazione dei dati e scala automaticamente e più velocemente rispetto alle soluzioni on-premises.

Tieni traccia dei costi

Athena offre un modo semplificato e flessibile per analizzare i dati su qualsiasi scala. Si tratta di un servizio di query interattivo che semplifica l'analisi di dati in Amazon S3 tramite SQL standard. Athena è serverless, quindi non è necessaria alcuna infrastruttura da configurare o gestire e puoi scegliere di pagare in base alle query eseguite o all'elaborazione di risorse richieste dalle tue query. Athena può essere utilizzato per elaborare log, eseguire analisi dei dati ed eseguire query interattive. Athena scala automaticamente, eseguendo anche query in parallelo, in modo da ottenere risultati rapidi anche in caso di set di dati di grandi dimensioni e query complesse.

Orchestrazione del flusso di lavoro gestita, basata sulla sicurezza e ad alta disponibilità per Apache Airflow

Amazon MWAA è un servizio gestito per Apache Airflow che ti consente di utilizzare la tua attuale e familiare piattaforma Apache Airflow per orchestrare i tuoi flussi di lavoro. Ottieni maggiore scalabilità, disponibilità e sicurezza senza l'onere operativo della gestione dell'infrastruttura sottostante. Amazon MWAA orchestra i flussi di lavoro tramite l'utilizzo di grafi aciclici diretti (DAG) scritti in Python. Fornisci a MWAA un bucket S3 in cui si trovano i tuoi DAG, i plug-in e i requisiti Python. Distribuisci Apache Airflow su larga scala senza l'onere operativo della gestione dell'infrastruttura sottostante.

Casi d'uso

Identifica e accedi rapidamente ai dati unificati su AWS, on-premises e altri cloud, quindi rendili immediatamente disponibili per l'esecuzione di query e la trasformazione.

Elabora i dati utilizzando framework come Apache Spark, Apache Flink e Trino e vari carichi di lavoro, tra cui batch, microbatch e streaming.

Esegui elaborazioni di dati su grande scala e analisi ipotetiche utilizzando algoritmi statistici e modelli predittivi per scoprire sequenze nascoste, correlazioni, tendenze di mercato e preferenze dei clienti.