Amazon SageMaker Data Processing

Analysez, préparez et intégrez les données pour l’analytique et l’IA à toute échelle

Pourquoi choisir SageMaker Data Processing ?

Planifiez, intégrez et orchestrez vos données grâce aux capacités de traitement des données d’Amazon Athena, d’Amazon EMR, d’AWS Glue et d’Amazon Managed Workflows pour Apache Airflow (Amazon MWAA). Traitez et intégrez vos données, où qu’elles se trouvent, grâce à une connectivité rapide et facile à des centaines de sources de données.

Utilisez des cadres de traitement de données open source comme Apache Spark, Trino et Apache Flink. Analysez les données à mise à l’échelle avec Trino, sans gérer l’infrastructure, et créez facilement des analytiques en temps réel avec Apache Flink et Apache Spark.

Assurez-vous que vos données sont exactes et sécurisées en automatisant la qualité des données, l’identification des données sensibles, le suivi du lignage et en appliquant des contrôles d’accès ultraprécis grâce à une intégration native avec Amazon SageMaker Lakehouse.

Avantages

Amazon SageMaker Data Processing fournit un accès complet aux infrastructures de traitement des données et des flux, aux moteurs de requêtes SQL distribués open source et aux outils les plus populaires tels que les blocs-notes, les éditeurs de requêtes et les processus d’extraction, de transformation et de chargement (ETL) visuels.

Vous pouvez accéder aux frameworks les plus populaires tels qu’Apache Spark pour préparer et intégrer vos données à n’importe quelle échelle. Répondez aux besoins commerciaux en temps réel grâce au traitement des flux avec Apache Flink et Apache Spark Streaming et analysez vos données à l’aide des principaux cadres SQL open source tels que Trino. Simplifiez l’orchestration des flux de travail sans avoir à gérer l’infrastructure grâce à l’intégration native à l’aide d’Amazon MWAA.

SageMaker Data Processing s’intègre en mode natif à SageMaker Lakehouse, ce qui vous permet de traiter et de procéder à des intégrations à l’aide d’une copie de vos données pour tous vos cas d’utilisation, notamment l’analytique, les requêtes ad hoc, le machine learning (ML) et l’IA générative.

SageMaker Lakehouse unifie les données des lacs de données Amazon Simple Storage Service (Amazon S3) et des entrepôts de données Amazon Redshift, pour fournir un accès unifié à vos données. Vous pouvez découvrir et analyser des données unifiées dans le lakehouse grâce à des centaines de connecteurs, à des intégrations zéro ETL et à des sources de données fédérées, qui vous donneront une image complète de votre activité. SageMaker Lakehouse fonctionne immédiatement avec votre architecture de données existante, sans être limité par des choix de formats de stockage ou de moteurs de requêtes spécifiques.

Gagnez en efficacité grâce à des performances de requêtes rapides sur les tables Apache Iceberg. Obtenez des informations jusqu’à 2 fois plus rapidement que les systèmes open source traditionnels grâce à des versions hautement performantes et compatibles avec les API open source d’Apache Spark, Apache Airflow, Apache Flink, Trino, etc.

SageMaker Data Processing vous permet de vous concentrer sur la transformation et l’analyse de vos données sans gérer la capacité de calcul ni les applications open source, ce qui vous permet de gagner du temps et de réduire les coûts. Vous pouvez allouer automatiquement votre capacité avec Amazon EMR sur Amazon Elastic Compute Cloud (Amazon EC2) ou Amazon EMR sur Amazon Elastic Kubernetes Service (Amazon EKS). Les règles de mise à l’échelle gèrent les modifications apportées à votre demande de calcul afin d’optimiser les performances et les temps d’exécution.

Gagnez en confiance et en transparence grâce à des rapports automatisés sur la qualité des données, à la détection des données sensibles et au suivi du lignage des données et des modèles d’IA grâce à l’intégration à Amazon SageMaker Catalog. Renforcez la confiance dans la qualité de vos données grâce à des mesures automatiques, à une surveillance et à des recommandations concernant les règles de qualité des données.

Traitez et analysez vos données en toute sécurité en respectant et en appliquant des contrôles d’accès précis définis sur les ensembles de données dans SageMaker Lakehouse. Ceci vous permet de définir les autorisations une seule fois et de rendre vos données accessibles aux utilisateurs autorisés de votre organisation.

Services AWS

Intégration simplifiée des données

AWS Glue fournit une intégration de données sans serveur, simplifiant ainsi l’exploration, la préparation et l’intégration des données provenant de sources multiples. Connectez-vous à diverses sources de données, gérez vos données dans un catalogue de données centralisé. Créez, exécutez et surveillez visuellement les pipelines ETL pour charger les données dans votre entrepôt de données. AWS Glue évolue automatiquement à la demande, ce qui vous permet de vous concentrer sur l’exploitation de vos données sans avoir à gérer l’infrastructure.

Exécutez et mettez à l’échelle Apache Spark, Apache Hive, Trino et d’autres charges de travail

Amazon EMR facilite et rentabilise l’exécution de charges de travail de traitement de données telles qu’Apache Spark, Apache Airflow, Apache Flink, Trino, etc. Créez et exécutez des pipelines de traitement de données et mettez à l’échelle automatiquement votre système plus rapidement que les solutions sur site.

Suivre les coûts

Athena offre un moyen simplifié et flexible d’analyser vos données à n’importe quelle échelle. Athena est un service de requête interactif qui simplifie l’analyse des données dans Amazon S3 à l’aide du langage SQL normalisé. Athena fonctionne sans serveur, ce qui signifie que vous n’avez pas d’infrastructure à configurer ou à gérer, et vous pouvez choisir de payer en fonction des requêtes que vous exécutez ou des ressources de calcul nécessaires à vos requêtes. Vous pouvez utiliser Athena pour traiter des journaux, réaliser des analyses de données et exécuter des requêtes interactives. Athena se met automatiquement à l’échelle, en exécutant les requêtes en parallèle. Les résultats sont donc rapides, même avec de grands jeux de données et des requêtes complexes.

Orchestration de flux de travail gérée, axée sur la sécurité et hautement disponible pour Apache Airflow

Amazon MWAA est un service géré pour Apache Airflow qui vous permet d'utiliser votre plateforme Apache Airflow actuelle et familière pour orchestrer vos flux. Vous bénéficiez d'une capacité de mise à l'échelle, d'une disponibilité et d'une sécurité améliorées sans la charge opérationnelle de la gestion de l'infrastructure sous-jacente. Amazon MWAA organise vos flux de travail à l’aide de graphes acycliques dirigés (DAG) écrits en Python. Vous fournissez à Amazon MWAA un compartiment S3 dans lequel se trouvent vos DAG, vos plugins et vos exigences Python. Déployez Apache Airflow à grande échelle sans la charge opérationnelle de la gestion de l'infrastructure sous-jacente.

Cas d'utilisation

Identifiez rapidement et bénéficiez d’un accès unifié aux données sur AWS, sur site et dans d’autres clouds, puis rendez-les instantanément disponibles pour les interroger et les transformer.

Traitez les données à l’aide de frameworks tels qu’Apache Spark, Apache Flink et Trino, ainsi que de diverses charges de travail, notamment le batch, le microbatch et le streaming.

Exécutez un traitement de données et des analyses basées sur les hypothèses à grande échelle à l'aide d'algorithmes statistiques et de modèles prédictifs afin de découvrir des modèles cachés, des corrélations, des tendances du marché et des préférences de client.