Amazon EMR Studio

Warum EMR Studio?

EMR Studio ist eine integrierte Entwicklungsumgebung (IDE), die es Datenwissenschaftlern und Dateningenieuren erleichtert, in R, Python, Scala und PySpark geschriebene Dateningenieurs- und Datenwissenschafts-Anwendungen zu entwickeln, zu visualisieren und zu debuggen.

EMR Studio bietet vollständig verwaltete Jupyter Notebooks und Tools wie Spark UI und YARN Timeline Service, um das Debugging zu vereinfachen. Datenwissenschaftler und Analysten können benutzerdefinierte Kernels und Bibliotheken installieren, mit Kollegen über Code-Repositories wie GitHub und BitBucket zusammenarbeiten oder parametrisierte Notebooks als Teil geplanter Workflows unter Verwendung von Orchestrierungsdiensten wie Apache Airflow oder Amazon Managed Workflows for Apache Airflow ausführen.

EMR-Studio-Kernels und -Anwendungen werden auf EMR-Clustern ausgeführt, sodass Sie die Vorteile der verteilten Datenverarbeitung mithilfe der leistungsoptimierten Amazon-EMR-Laufzeit für Apache Spark nutzen können. Administratoren können EMR Studio so einrichten, dass Analysten ihre Anwendungen auf bestehenden EMR-Clustern ausführen oder neue Cluster mit vordefinierten AWS CloudFormation-Vorlagen für EMR erstellen können.

Einfache Verwendung

EMR Studio vereinfacht die Interaktion mit Anwendungen auf einem EMR-Cluster. Sie können entweder über die AWS-Konsole mit AWS-IAM-Authentifizierung oder ohne Anmeldung bei der AWS-Konsole auf EMR Studio zugreifen, indem Sie den Verbundzugriff von Ihrem Identitätsanbieter (IdP) über AWS IAM Identity Center (Nachfolger von AWS SSO) aktivieren. Sie können Daten mithilfe von Notebooks interaktiv untersuchen, verarbeiten und visualisieren, Pipelines erstellen und planen und Anwendungen debuggen, ohne sich bei EMR-Clustern anmelden zu müssen.

Vollständig verwaltete Jupyter-Notebooks

Vollständig verwaltete Jupyter-Notebooks

Mit EMR Studio können Sie Notebooks in Sekundenschnelle starten, mit Beispielnotebooks integriert werden und Ihre Datenexploration durchführen. Sie können mit Kollegen über die integrierte Zusammenarbeit in Echtzeit zusammenarbeiten und Änderungen über Notebook-Versionen hinweg über Git-Repositories verfolgen. Sie können Ihre Umgebung auch anpassen, indem Sie benutzerdefinierte Kernels und Python-Bibliotheken aus Notebooks laden.

Vollständig verwaltete Jupyter-Notebooks

Einfach zu erstellende Anwendungen

EMR Studio erleichtert Ihnen den Übergang vom Prototyping zur Produktion. Sie können Pipelines aus Code-Repositorys auslösen, Notebooks einfach als Pipelines mit Orchestrierungstools wie Apache Airflow oder Amazon Managed Workflows for Apache Airflow ausführen oder Notebooks mit einem einzigen Klick an einen größeren Cluster anfügen.

Einfach zu erstellende Anwendungen

Vereinfachtes Debugging

Mit EMR Studio können Sie sowohl für aktive als auch für terminierte Cluster Aufträge debuggen und auf Protokolle zugreifen, ohne sich beim Cluster anzumelden. Sie können native Anwendungsschnittstellen wie Spark UI und YARN Timeline Service direkt aus EMR Studio verwenden. Mit EMR Studio können Sie auch den zu debuggenden Cluster oder Auftrag mithilfe von Filtern wie Clusterstatus, Erstellungszeit und Cluster-ID schnell finden.

Vollständig verwaltete Jupyter-Notebooks

Kollaborative Notizbücher in Echtzeit

Mit EMR Studio können Datenwissenschaftler, Ingenieure und Analysten teamübergreifend in Echtzeit zusammenarbeiten. Sie können Ihre Kollegen einladen, Notizbücher anzuzeigen und zu bearbeiten. Dies ermöglicht die gemeinsame Dokumenterstellung, das Code-Debugging und die Codeüberprüfung von Jupyter-Notebooks in Echtzeit.

SQL Explorer

EMR Studio wird mit SQL Explorer geliefert, einer Funktion in Ihrem Workspace, mit der Sie den Datenkatalog durchsuchen und SQL-Abfragen auf EMR-Clustern direkt aus EMR Studio ausführen können. In SQL Explorer können Sie eine Verbindung mit Amazon EMR in EC2-Clustern mit Presto herstellen, um den Datenkatalog anzuzeigen und zu durchsuchen. SQL Explorer bietet Ihnen auch einen Editor zum Ausführen von SQL-Abfragen, zum Anzeigen derer in einer Tabelle und zum Herunterladen von Abfrageergebnissen im CSV-Format.

Mehrsprachige Notebooks

Mit EMR Studio können Sie mehrere Sprachen in einem einzigen Jupyter-Notebook verwenden. Sie können jetzt innerhalb desselben Jupyter-Notebooks zwischen Python, Scala, SparkSQL und R wechseln und Daten über temporäre Tabellen zwischen Zellen austauschen. Mit dieser Funktion können Sie Code in Sprachen schreiben, die für verschiedene Komponenten Ihres Workflows am besten geeignet sind.

Vollständig verwaltete Jupyter-Notebooks

Anwendungsfälle

Mit EMR Studio können Sie Notebooks in Sekundenschnelle starten, mit Beispielnotebooks integriert werden und Ihre Datenexploration durchführen. Sie können mit Kollegen über die integrierte Zusammenarbeit in Echtzeit zusammenarbeiten und Änderungen über Notebook-Versionen hinweg über Git-Repositories verfolgen. Sie können Ihre Umgebung auch anpassen, indem Sie benutzerdefinierte Kernels und Python-Bibliotheken aus Notebooks laden.

In EMR Studio können Sie das Code-Repository verwenden, um Pipelines auszulösen. Sie können auch Notebooks parametrieren und verketten, um Pipelines zu erstellen. Sie können Notebooks mithilfe von Workflow-Orchestrierungsservices wie Apache Airflow oder Amazon Managed Workflows for Apache Airflow in geplante Workflows integrieren. Mit EMR Studio können Sie auch Notebooks erneut an einen größeren Cluster anfügen, um einen Auftrag auszuführen.

In EMR Studio können Sie Notebook-Anwendungen über die Notebook-Benutzeroberfläche debuggen. Sie können Pipelines auch debuggen, indem Sie zunächst Cluster mithilfe von Filtern wie dem Clusterstatus eingrenzen und Aufträge sowohl für aktive als auch für abgeschlossene Cluster mit so wenigen Klicks wie möglich diagnostizieren, um systemeigene Debugbenutzeroberflächen wie Spark UI, Tez UI und Yarn Timeline Service zu öffnen.