Apache Hadoop auf Amazon EMR
Warum Apache Hadoop in EMR?
Apache™ Hadoop® ist ein Open-Source-Softwareprojekt zur effizienten Verarbeitung großer Datensätze. Anstatt mit einem einzigen Computer die Daten zu verarbeiten und zu speichern, können Sie mit Hadoop Standardhardware zu Clustern vereinen, um parallel umfangreiche Datensätze zu analysieren.
Das Hadoop-Ökosystem verfügt über eine Menge an Anwendungen und Ausführungsengines, die die Tools bereitstellen, mit denen Sie Ihre Analyse-Jobs effektiv durchführen können. Mit Amazon EMR können Sie ganz einfach vollständig konfigurierte, elastische Cluster auf Amazon EC2 Instances erstellen, auf denen Sie Hadoop oder andere Anwendungen im Hadoop-Ökosystem ausführen können.
Wie stehen Hadoop und Big Data miteinander in Verbindung?
Hadoop wird aufgrund seiner exzellenten Skalierbarkeit häufig für die Verarbeitung von Big Data-Workloads verwendet. Fügen Sie einfach mehr Server mit den entsprechenden CPU- und Speicherwerten hinzu, um die Verarbeitungsleistung Ihres Hadoop-Clusters zu erhöhen und Ihre betrieblichen Anforderungen zu erfüllen.
Hadoop bietet Langlebigkeit und Verfügbarkeit in hohem Maße und kann dabei trotzdem analytische Arbeitslasten parallel verarbeiten. Diese Kombination aus Verfügbarkeit, Langlebigkeit und Skalierbarkeit macht Hadoop zur perfekten Lösung für Big Data-Arbeitslasten. Sie können mit Amazon EMR ein Cluster von Amazon EC2 Instances mit Hadoop binnen weniger Minuten erstellen und konfigurieren und sich Ihre Daten so zu Nutze machen.