Erste Schritte mit Amazon EMR
So benutzt man EMR
Ihre Datenverarbeitungsanwendung entwickeln
Sie können Java, Hive (eine SQL-artige Sprache), Pig (eine Datenverarbeitungssprache), Cascading, Ruby, Perl, Python, R, PHP, C++ oder Node.js verwenden. Amazon EMR bietet Ihnen für einen schnellen Einstieg Codebeispiele und Tutorials.
Hochladen der Anwendung und Daten auf Amazon S3
Wenn Sie eine große Datenmenge hochladen müssen, ist es überlegenswert, AWS Import/Export Snowball oder AWS Direct Connect zu verwenden (zum Hochladen mittels physischer Speichermedien bzw. zum Herstellen einer dedizierten Netzwerkverbindung zwischen Ihrem Rechenzentrum und AWS). Wenn Sie möchten, können Sie Ihre Daten auch direkt in einen laufenden Cluster schreiben.
Cluster konfigurieren und starten
Legen Sie über die AWS-Managementkonsole, die AWS-Befehlszeilenschnittstelle, SDKs oder APIs die Anzahl der Amazon EC2-Instances für Ihren Cluster, die Instance-Typen (Standard, hoher Speicherbedarf, hoher CPU-Bedarf, hoher E/A-Bedarf usw.), die zu installierenden Anwendungen (Apache Spark, Apache Hive, Apache HBase, Presto usw.) und den Standort Ihrer Anwendung und Daten fest. Sie können mit Bootstrap-Aktionen zusätzliche Software installieren oder die Standardeinstellungen ändern.
Cluster überwachen
Sie können den Zustand und den Fortschritt des Clusters mit der Managementkonsole, der Befehlszeilenschnittstelle, SDKs oder APIs überwachen. Zur Überwachung/für Alarmsysteme kann EMR mit Amazon CloudWatch kombiniert werden. Es unterstützt auch gängige Überwachungstools wie Ganglia. Sie können jederzeit zum/aus dem Cluster Kapazitäten hinzufügen/entfernen, je nachdem, wie viele Daten zu verarbeiten sind. Zur Problembehebung steht die einfache Debugging-GUI der Konsole zur Verfügung.
Ausgabe abrufen
Die Ausgabe kann von Amazon S3 oder von HDFS am Cluster abgerufen werden. Sie können die Daten mit Tools wie Amazon QuickSight, Tableau und MicroStrategy visualisieren. Amazon EMR beendet den Cluster automatisch, wenn die Verarbeitung fertiggestellt ist. Alternativ können Sie den Cluster laufen lassen und ihm weitere Arbeit geben.
Sind Sie bereit, Ihren ersten Cluster zu starten?
Klicken Sie hier, um einen Cluster über die Amazon EMR-Verwaltungskonsole in Betrieb zu nehmen. Navigieren Sie auf der Seite "Create Cluster" zu "Advanced Cluster Configuration" und klicken Sie rechts oben auf die graue Schaltfläche "Configure Sample Application", wenn Sie eine Beispielanwendung mit Beispieldaten ausführen möchten.