Elaborazione dei dati di Amazon SageMaker
Analizza, prepara e integra i dati per l'analisi e l'IA su qualsiasi scalaPerché utilizzare SageMaker Data Processing?
Prepara, integra e orchestra i dati con le funzionalità di elaborazione dati di Amazon Athena, Amazon EMR, AWS Glue e Flusso di lavoro gestito da Amazon per Apache Airflow (Amazon MWAA). Elabora e integra i tuoi dati, ovunque si trovino, con una connettività semplice e veloce a centinaia di origini dati.
Utilizza i framework di elaborazione dati open-source come Apache Spark, Trino e Apache Flink. Analizza i dati su larga scala con Trino, senza gestire l'infrastruttura e crea facilmente analisi in tempo reale con Apache Flink e Apache Spark.
La certezza che i tuoi dati siano accurati e sicuri è garantita dall'automazione della qualità dei dati, dall'identificazione dei dati sensibili, dal tracciamento della derivazione e dall'applicazione di controlli di accesso granulari grazie all'integrazione nativa con Amazon SageMaker Lakehouse.
Vantaggi
Servizi AWS
Integrazione dei dati semplificata
AWS Glue fornisce un'integrazione dei dati serverless, semplificando l'esplorazione, la preparazione e l'integrazione dei dati da più origini. Connettiti con diverse origini dati, gestisci i dati in un catalogo centralizzato e crea, esegui e monitora visivamente le pipeline ETL per caricare i dati nei lakehouse. AWS Glue scala automaticamente su richiesta, permettendo di concentrarsi sull'acquisizione di informazioni dai dati senza dover gestire l'infrastruttura.
Esegui e scala Apache Spark, Apache Hive, Trino e altri carichi di lavoro
Amazon EMR rende più semplice e conveniente l'esecuzione dei carichi di lavoro di elaborazione dati come Apache Spark, Apache Airflow, Apache Flink, Trino e altri. Crea ed esegui pipeline di elaborazione dei dati e scala automaticamente e più velocemente rispetto alle soluzioni on-premises.
Tieni traccia dei costi
Athena offre un modo semplificato e flessibile per analizzare i dati su qualsiasi scala. Si tratta di un servizio di query interattivo che semplifica l'analisi di dati in Amazon S3 tramite SQL standard. Athena è serverless, quindi non è necessaria alcuna infrastruttura da configurare o gestire e puoi scegliere di pagare in base alle query eseguite o all'elaborazione di risorse richieste dalle tue query. Athena può essere utilizzato per elaborare log, eseguire analisi dei dati ed eseguire query interattive. Athena scala automaticamente, eseguendo anche query in parallelo, in modo da ottenere risultati rapidi anche in caso di set di dati di grandi dimensioni e query complesse.
Orchestrazione del flusso di lavoro gestita, basata sulla sicurezza e ad alta disponibilità per Apache Airflow
Amazon MWAA è un servizio gestito per Apache Airflow che ti consente di utilizzare la tua attuale e familiare piattaforma Apache Airflow per orchestrare i tuoi flussi di lavoro. Ottieni maggiore scalabilità, disponibilità e sicurezza senza l'onere operativo della gestione dell'infrastruttura sottostante. Amazon MWAA orchestra i flussi di lavoro tramite l'utilizzo di grafi aciclici diretti (DAG) scritti in Python. Fornisci a MWAA un bucket S3 in cui si trovano i tuoi DAG, i plug-in e i requisiti Python. Distribuisci Apache Airflow su larga scala senza l'onere operativo della gestione dell'infrastruttura sottostante.