Amazon EMR Studio
Warum EMR Studio?
EMR Studio ist eine integrierte Entwicklungsumgebung (IDE), die es Datenwissenschaftlern und Dateningenieuren erleichtert, in R, Python, Scala und PySpark geschriebene Dateningenieurs- und Datenwissenschafts-Anwendungen zu entwickeln, zu visualisieren und zu debuggen.
EMR Studio bietet vollständig verwaltete Jupyter Notebooks und Tools wie Spark UI und YARN Timeline Service, um das Debugging zu vereinfachen. Datenwissenschaftler und Analysten können benutzerdefinierte Kernels und Bibliotheken installieren, mit Kollegen über Code-Repositories wie GitHub und BitBucket zusammenarbeiten oder parametrisierte Notebooks als Teil geplanter Workflows unter Verwendung von Orchestrierungsdiensten wie Apache Airflow oder Amazon Managed Workflows for Apache Airflow ausführen.
EMR-Studio-Kernels und -Anwendungen werden auf EMR-Clustern ausgeführt, sodass Sie die Vorteile der verteilten Datenverarbeitung mithilfe der leistungsoptimierten Amazon-EMR-Laufzeit für Apache Spark nutzen können. Administratoren können EMR Studio so einrichten, dass Analysten ihre Anwendungen auf bestehenden EMR-Clustern ausführen oder neue Cluster mit vordefinierten AWS CloudFormation-Vorlagen für EMR erstellen können.
Einfache Verwendung
EMR Studio vereinfacht die Interaktion mit Anwendungen auf einem EMR-Cluster. Sie können entweder über die AWS-Konsole mit AWS-IAM-Authentifizierung oder ohne Anmeldung bei der AWS-Konsole auf EMR Studio zugreifen, indem Sie den Verbundzugriff von Ihrem Identitätsanbieter (IdP) über AWS IAM Identity Center (Nachfolger von AWS SSO) aktivieren. Sie können Daten mithilfe von Notebooks interaktiv untersuchen, verarbeiten und visualisieren, Pipelines erstellen und planen und Anwendungen debuggen, ohne sich bei EMR-Clustern anmelden zu müssen.
Vollständig verwaltete Jupyter-Notebooks
Mit EMR Studio können Sie Notebooks in Sekundenschnelle starten, mit Beispielnotebooks integriert werden und Ihre Datenexploration durchführen. Sie können mit Kollegen über die integrierte Zusammenarbeit in Echtzeit zusammenarbeiten und Änderungen über Notebook-Versionen hinweg über Git-Repositories verfolgen. Sie können Ihre Umgebung auch anpassen, indem Sie benutzerdefinierte Kernels und Python-Bibliotheken aus Notebooks laden.
Einfach zu erstellende Anwendungen
EMR Studio erleichtert Ihnen den Übergang vom Prototyping zur Produktion. Sie können Pipelines aus Code-Repositorys auslösen, Notebooks einfach als Pipelines mit Orchestrierungstools wie Apache Airflow oder Amazon Managed Workflows for Apache Airflow ausführen oder Notebooks mit einem einzigen Klick an einen größeren Cluster anfügen.
Vereinfachtes Debugging
Mit EMR Studio können Sie sowohl für aktive als auch für terminierte Cluster Aufträge debuggen und auf Protokolle zugreifen, ohne sich beim Cluster anzumelden. Sie können native Anwendungsschnittstellen wie Spark UI und YARN Timeline Service direkt aus EMR Studio verwenden. Mit EMR Studio können Sie auch den zu debuggenden Cluster oder Auftrag mithilfe von Filtern wie Clusterstatus, Erstellungszeit und Cluster-ID schnell finden.
Kollaborative Notizbücher in Echtzeit
Mit EMR Studio können Datenwissenschaftler, Ingenieure und Analysten teamübergreifend in Echtzeit zusammenarbeiten. Sie können Ihre Kollegen einladen, Notizbücher anzuzeigen und zu bearbeiten. Dies ermöglicht die gemeinsame Dokumenterstellung, das Code-Debugging und die Codeüberprüfung von Jupyter-Notebooks in Echtzeit.
SQL Explorer
EMR Studio wird mit SQL Explorer geliefert, einer Funktion in Ihrem Workspace, mit der Sie den Datenkatalog durchsuchen und SQL-Abfragen auf EMR-Clustern direkt aus EMR Studio ausführen können. In SQL Explorer können Sie eine Verbindung mit Amazon EMR in EC2-Clustern mit Presto herstellen, um den Datenkatalog anzuzeigen und zu durchsuchen. SQL Explorer bietet Ihnen auch einen Editor zum Ausführen von SQL-Abfragen, zum Anzeigen derer in einer Tabelle und zum Herunterladen von Abfrageergebnissen im CSV-Format.
Mehrsprachige Notebooks
Mit EMR Studio können Sie mehrere Sprachen in einem einzigen Jupyter-Notebook verwenden. Sie können jetzt innerhalb desselben Jupyter-Notebooks zwischen Python, Scala, SparkSQL und R wechseln und Daten über temporäre Tabellen zwischen Zellen austauschen. Mit dieser Funktion können Sie Code in Sprachen schreiben, die für verschiedene Komponenten Ihres Workflows am besten geeignet sind.