Erste Schritte mit Amazon EMR

So benutzt man EMR

1

Ihre Datenverarbeitungsanwendung entwickeln

Sie können Java, Hive (eine SQL-artige Sprache), Pig (eine Datenverarbeitungssprache), Cascading, Ruby, Perl, Python, R, PHP, C++ oder Node.js verwenden. Amazon EMR bietet Ihnen für einen schnellen Einstieg Codebeispiele und Tutorials.

2

Hochladen der Anwendung und Daten auf Amazon S3

Wenn Sie eine große Datenmenge hochladen müssen, ist es überlegenswert, AWS Import/Export Snowball oder AWS Direct Connect zu verwenden (zum Hochladen mittels physischer Speichermedien bzw. zum Herstellen einer dedizierten Netzwerkverbindung zwischen Ihrem Rechenzentrum und AWS). Wenn Sie möchten, können Sie Ihre Daten auch direkt in einen laufenden Cluster schreiben.

3

Cluster konfigurieren und starten

Legen Sie über die AWS-Managementkonsole, die AWS-Befehlszeilenschnittstelle, SDKs oder APIs die Anzahl der Amazon EC2-Instances für Ihren Cluster, die Instance-Typen (Standard, hoher Speicherbedarf, hoher CPU-Bedarf, hoher E/A-Bedarf usw.), die zu installierenden Anwendungen (Apache Spark, Apache Hive, Apache HBase, Presto usw.) und den Standort Ihrer Anwendung und Daten fest. Sie können mit Bootstrap-Aktionen zusätzliche Software installieren oder die Standardeinstellungen ändern.

4

Cluster überwachen

Sie können den Zustand und den Fortschritt des Clusters mit der Managementkonsole, der Befehlszeilenschnittstelle, SDKs oder APIs überwachen. Zur Überwachung/für Alarmsysteme kann EMR mit Amazon CloudWatch kombiniert werden. Es unterstützt auch gängige Überwachungstools wie Ganglia. Sie können jederzeit zum/aus dem Cluster Kapazitäten hinzufügen/entfernen, je nachdem, wie viele Daten zu verarbeiten sind. Zur Problembehebung steht die einfache Debugging-GUI der Konsole zur Verfügung.

5

Ausgabe abrufen

Die Ausgabe kann von Amazon S3 oder von HDFS am Cluster abgerufen werden. Sie können die Daten mit Tools wie Amazon QuickSight, Tableau und MicroStrategy visualisieren. Amazon EMR beendet den Cluster automatisch, wenn die Verarbeitung fertiggestellt ist. Alternativ können Sie den Cluster laufen lassen und ihm weitere Arbeit geben.

Sind Sie bereit, Ihren ersten Cluster zu starten?

Klicken Sie hier, um einen Cluster über die Amazon EMR-Verwaltungskonsole in Betrieb zu nehmen. Navigieren Sie auf der Seite "Create Cluster" zu "Advanced Cluster Configuration" und klicken Sie rechts oben auf die graue Schaltfläche "Configure Sample Application", wenn Sie eine Beispielanwendung mit Beispieldaten ausführen möchten.

Schulungen und Hilfe

Benötigen Sie Unterstützung beim Erstellen eines Machbarkeitsnachweises oder bei der Feinabstimmung Ihrer EMR-Anwendungen? AWS verfügt über ein weltweites Supportteam speziell für EMR. Wenn Sie mehr über zeitlich begrenzte (2–6 Wochen) kostenpflichtige Supportbetreuungen erfahren möchten, kontaktieren Sie uns bitte.

Der Kurs „Big-Data-Lösungen in AWS“ wurde entwickelt, um Ihnen an praktischen Beispielen die Verwendung von Amazon Web Services für Big-Data-Workloads nahezubringen. AWS zeigt Ihnen, wie Sie Amazon EMR-Aufträge ausführen, um Daten unter Verwendung der großen Vielfalt an Hadoop-Tools wie Pig und Hive zu verarbeiten. AWS vermittelt Ihnen zudem, wie Sie mit Amazon DynamoDB und Amazon Redshift Big Data-Umgebungen in der Cloud erstellen, erläutert die Vorteile von Amazon Kinesis und erklärt, wie Sie bewährte Methoden zum Entwerfen von Big Data-Umgebungen für Analyse, Sicherheit und Kosteneffizienz einsetzen. Klicken Sie hier, um weitere Informationen zur Big Data-Schulung zu erhalten.

"Scale Unlimited" bietet angepasste Vor-Ort-Schulungen für Unternehmen an, die schnell lernen müssen, wie sie EMR und andere Technologien für Big Data (große Datenmengen) verwenden. Weitere Informationen finden Sie hier.