Amazon SageMaker Data Processing
Analysez, préparez et intégrez les données pour l’analytique et l’IA à toute échellePourquoi choisir SageMaker Data Processing ?
Planifiez, intégrez et orchestrez vos données grâce aux capacités de traitement des données d’Amazon Athena, d’Amazon EMR, d’AWS Glue et d’Amazon Managed Workflows pour Apache Airflow (Amazon MWAA). Traitez et intégrez vos données, où qu’elles se trouvent, grâce à une connectivité rapide et facile à des centaines de sources de données.
Utilisez des cadres de traitement de données open source comme Apache Spark, Trino et Apache Flink. Analysez les données à mise à l’échelle avec Trino, sans gérer l’infrastructure, et créez facilement des analytiques en temps réel avec Apache Flink et Apache Spark.
Assurez-vous que vos données sont exactes et sécurisées en automatisant la qualité des données, l’identification des données sensibles, le suivi du lignage et en appliquant des contrôles d’accès ultraprécis grâce à une intégration native avec Amazon SageMaker Lakehouse.
Avantages
Services AWS
Intégration simplifiée des données
AWS Glue fournit une intégration de données sans serveur, simplifiant ainsi l’exploration, la préparation et l’intégration des données provenant de sources multiples. Connectez-vous à diverses sources de données, gérez vos données dans un catalogue de données centralisé. Créez, exécutez et surveillez visuellement les pipelines ETL pour charger les données dans votre entrepôt de données. AWS Glue évolue automatiquement à la demande, ce qui vous permet de vous concentrer sur l’exploitation de vos données sans avoir à gérer l’infrastructure.
Exécutez et mettez à l’échelle Apache Spark, Apache Hive, Trino et d’autres charges de travail
Amazon EMR facilite et rentabilise l’exécution de charges de travail de traitement de données telles qu’Apache Spark, Apache Airflow, Apache Flink, Trino, etc. Créez et exécutez des pipelines de traitement de données et mettez à l’échelle automatiquement votre système plus rapidement que les solutions sur site.
Suivre les coûts
Athena offre un moyen simplifié et flexible d’analyser vos données à n’importe quelle échelle. Athena est un service de requête interactif qui simplifie l’analyse des données dans Amazon S3 à l’aide du langage SQL normalisé. Athena fonctionne sans serveur, ce qui signifie que vous n’avez pas d’infrastructure à configurer ou à gérer, et vous pouvez choisir de payer en fonction des requêtes que vous exécutez ou des ressources de calcul nécessaires à vos requêtes. Vous pouvez utiliser Athena pour traiter des journaux, réaliser des analyses de données et exécuter des requêtes interactives. Athena se met automatiquement à l’échelle, en exécutant les requêtes en parallèle. Les résultats sont donc rapides, même avec de grands jeux de données et des requêtes complexes.
Orchestration de flux de travail gérée, axée sur la sécurité et hautement disponible pour Apache Airflow
Amazon MWAA est un service géré pour Apache Airflow qui vous permet d'utiliser votre plateforme Apache Airflow actuelle et familière pour orchestrer vos flux. Vous bénéficiez d'une capacité de mise à l'échelle, d'une disponibilité et d'une sécurité améliorées sans la charge opérationnelle de la gestion de l'infrastructure sous-jacente. Amazon MWAA organise vos flux de travail à l’aide de graphes acycliques dirigés (DAG) écrits en Python. Vous fournissez à Amazon MWAA un compartiment S3 dans lequel se trouvent vos DAG, vos plugins et vos exigences Python. Déployez Apache Airflow à grande échelle sans la charge opérationnelle de la gestion de l'infrastructure sous-jacente.