AWS Trainium

Erzielen Sie bei Ihrem Deep Learning- und generativen KI-Training eine hohe Leistung und senken Sie gleichzeitig die Kosten

Warum Trainium?

AWS Trainium ist der Machine Learning (ML)-Chip, den AWS speziell für Deep Learning (DL)-Trainings von über 100 Milliarden Parametermodellen entwickelt hat. Jede Amazon Elastic Compute Cloud (Amazon EC2)-Trn1-Instance setzt bis zu 16 Trainium-Beschleuniger ein, um eine leistungsstarke und kostengünstige Lösung für DL-Training in der Cloud bereitzustellen. Obwohl der Einsatz von DL und generativer KI immer schneller voranschreitet, verfügen viele Entwicklungsteams über feste Budgets, was den Umfang und die Häufigkeit des Trainings begrenzt, das zur Verbesserung ihrer Modelle und Anwendungen erforderlich ist. Trainium-basierte Amazon-EC2-Trn1-Instances lösen diese Herausforderung, indem sie die Zeit bis zum Training verkürzen und gleichzeitig bis zu 50 % weniger Kosten verursachen als vergleichbare EC2-Instances. Trainium wurde für das Training natürlicher Sprachverarbeitung, Computer Vision und Empfehlungsmodelle optimiert, die in einer Vielzahl von Anwendungen wie Textzusammenfassung, Code-Generierung, Fragenbeantwortung, Bild- und Videogenerierung, Empfehlungen und Betrugserkennung verwendet werden.

AWS Neuron SDK hilft Entwicklern, Modelle auf Trainium-Beschleunigern zu trainieren (und sie auf AWS-Inferentia-Beschleunigern bereitzustellen). Es lässt sich nativ in gängige Frameworks wie PyTorch und TensorFlow integrieren, sodass Sie weiterhin auf Trainium-Beschleunigern trainieren und Ihre bestehenden Codes und Workflows weiter nutzen können.

Vorteile von Trainium

Von Trainium unterstützte Trn1-Instances bieten eine hohe Leistung und reduzieren gleichzeitig die Schulungskosten im Vergleich zu vergleichbaren Amazon-EC2-Instances um bis zu 50 %. Jeder Trainium-Beschleuniger enthält zwei NeuronCores der zweiten Generation, die speziell für DL-Algorithmen entwickelt wurden. Zur Unterstützung einer effizienten Daten- und Modellparallelität verfügt jeder Trainium-Beschleuniger über 32 GB Speicher mit hoher Bandbreite, liefert bis zu 190 TFLOPS an FP16/BF16-Rechenleistung und verfügt über NeuronLink, eine instanceinterne, ultraschnelle, nicht blockierende Verbindungstechnologie.

Das AWS Neuron SDK, das Trainium unterstützt, ist nativ mit PyTorch und TensorFlow integriert. Dadurch wird sichergestellt, dass Sie Ihre bestehenden Arbeitsabläufe in diesen beliebten Frameworks weiter nutzen und mit Trainium mit nur wenigen Zeilen Codeänderungen loslegen können. Für das verteilte Modelltraining unterstützt das Neuron SDK Bibliotheken wie Megatron-LM und PyTorch Fully Sharded Data Parallel (FSDP). Um schnell mit den von Trainium betriebenen Amazon-EC2-Trn1-Instances zu beginnen, sehen Sie sich die beliebten Modellbeispiele in der Neuron-Dokumentation an.

Um eine hohe Leistung zu bieten und gleichzeitig die Genauigkeitsziele zu erreichen, ist Trainium für die Datentypen FP32, TF32, BF16, FP16, UINT8, und den neuen konfigurierbaren FP8-Datentyp (cFP8) optimiert.
Um das schnelle Tempo der DL-Innovation und der generativen KI zu unterstützen, verfügt Trainium über mehrere Innovationen, die es flexibel und erweiterbar machen, damit sich ständig weiterentwickelnde DL-Modelle trainiert werden können. Trainium verfügt über Hardwareoptimierungen und Softwareunterstützung für dynamische Eingabeformen. Um in Zukunft die Unterstützung neuer Operatoren zu ermöglichen, unterstützt es benutzerdefinierte Operatoren, die in C++ geschrieben wurden. Es unterstützt auch das stochastische Runden, eine Methode des wahrscheinlichkeitsbasierten Rundens, das im Vergleich zu herkömmlichen Rundungsmodi eine hohe Leistung und höhere Genauigkeit ermöglicht.
Trn1-Instances unterstützt von Trainium sind für DL-Training bis zu 25 % energieeffizienter als vergleichbare EC2-Instances mit beschleunigter Datenverarbeitung. Trn1-Instances helfen Ihnen, Ihre Nachhaltigkeitsziele beim Training extrem großer Modelle zu erreichen.

Videos

Ein Blick hinter die Kulissen der Infrastruktur für generative KI bei Amazon
DL beschleunigen und schneller innovieren mit AWS Trainium
Einführung von Amazon-EC2-Trn1-Instances, die von AWS Trainium unterstützt werden