Amazon EC2 Trn2 執行個體和 UltraServer

適用於生成式 AI 訓練和推論的最強大 EC2 運算

為什麼選擇 Amazon EC2 Trn2 執行個體和 UltraServer?

Amazon EC2 Trn2 執行個體由 16 個 AWS Trainium2 晶片提供支援,專為生成式 AI 而建置,是用於訓練和部署具有數千億到數萬億以上參數的模型的最強大 EC2 執行個體。Trn2 執行個體的價格效能比目前一代 GPU 型 EC2 P5e 和 P5en 執行個體更好 30-40%。藉助 Trn2 執行個體,您可以取得最先進的訓練和推論效能,同時降低成本,因此您可以縮短訓練時間、更快地反覆運作,以及提供 AI 支援的即時體驗。您可以使用 Trn2 執行個體來訓練和部署模型,包括大型語言模型 (LLM)、多模態模型和擴散轉換器,以此建置下一代生成式 AI 應用程式。

若要減少最强大、要求最高的模型的訓練時間並實現劃時代的回應時間 (每個字符的延遲),所需運算能力和記憶體可能會超出單一執行個體所能提供的上限。Trn2 UltraServer 使用 NeuronLink,這是我們專有的晶片間互連,可連線四個 Trn2 執行個體中的 64 個 Trainium2 晶片,將單個節點中可用的運算、記憶體和聯網頻寬增加四倍,並為 AWS 上的深度學習和生成式 AI 工作負載提供突破性的效能。對於推論而言,UltraServer 可協助提供業界領先的回應時間,進而創造出最佳的即時體驗。對於訓練而言,與獨立執行個體相比,UltraServers 會透過更快的協同通訊來提高模型平行性的模型訓練速度和效率。

您可以輕鬆開始使用 Trn2 執行個體和 Trn2 UltraServer,其中原生支援 PyTorch 和 JAX 等熱門機器學習 (ML) 架構。

優勢

Trn2 執行個體是最強大的 EC2 執行個體,可協助您縮短訓練時間,並為最終使用者提供即時推論體驗。Trn2 執行個體配備 16 個 Trainium2 晶片,這些晶片透過 NeuronLink (我們專有的晶片間互連) 實現互連,可提供高達 20.8 PFLOPS 的 FP8 運算能力。Trn2 執行個體總共有 1.5 TB HBM3,同時具備 46 TB/秒 (Tbps) 的記憶體頻寬和 3.2 TB/秒 (Tbps) 的 Elastic Fabric Adapter (EFAv3) 聯網速度。Trn2 UltraServer (提供預覽版) 具有 64 個與 NeuronLink 連線的 Trainium2 晶片,可提供高達 83.2 PFLOPS 的 P8 運算能力、總計 6 TB 的高頻寬記憶體 (總計具有 185 TB/s (Tbps) 的記憶體頻寬),以及 12.8 TB/秒 (Tbps) 的 EFAv3 聯網速度。

為實現高效的分散式訓練,Trn2 執行個體提供 3.2 Tbps 的 EFAv3 聯網速度,Trn2 UltraServer 則提供 12.8 Tbps 的 EFAv3 聯網速度。EFA 以 AWS Nitro System 為基礎建置,這意味著透過 EFA 進行的所有通訊均在傳輸過程中加密,而不會造成任何效能損失。EFA 還使用複雜的流量路由和擁堵控制協議,使其能夠可靠地擴展到數十萬個 Trainium2 晶片。在 EC2 UltraClusters 中部署 Trn2 執行個體和 UltraServer,以在單個 PB 級無封鎖網路上實現跨數萬個 Trainium 晶片的擴展分散式訓練。

Trn2 執行個體的價格效能比目前一代 GPU 型 EC2 P5e 和 P5en 執行個體更好 30-40%。

Trn2 執行個體的能源效率比 Trn1 執行個體更高 3 倍。這些執行個體和基礎晶片使用進階的晶片製程,以及憑藉軟硬體最佳化,在大規模執行生成式 AI 工作負載時提供高能源效率。

AWS Neuron SDK 可協助您從 Trn2 執行個體和 UltraServer 擷取完整效能,讓您專注於建置和部署模型,同時縮短上市時間。Neuron 與 JAX、PyTorch 以及 Hugging Face、PyTorch Lightning、and NeMo 等基本程式庫原生整合。Neuron 使用開放原始碼 PyTorch 程式庫 NxD Training 和 NxD Inference 對分散式訓練和推論進行立即可用的最佳化,同時為分析和偵錯提供了深入的洞察。Neuron 還支援 OpenXLA (包括穩定的 HLO 和 GSPMD) 助力 PyTorch/XLA 和 JAX 開發人員利用 Neuron 針對 Inferentia 和 Trainium 的編譯器最佳化。使用 Neuron,您可以將 Trn2 執行個體與各種服務 (例如 Amazon SageMaker、Amazon EKS、Amazon ECS、AWS ParallelCluster 和 AWS Batch) 以及 Ray (Anyscale)、Domino Data Lab 和 Datadog 等第三方服務搭配使用。

功能

Trn2 執行個體配備 16 個 Trainium2 晶片,這些晶片透過 NeuronLink 實現互連,可提供高達 20.8 PFLOPS 的 FP8 運算能力。Trn2 UltraServer 將 NeuronLink 連線能力擴展至四個 Trn2 執行個體中的 64 個 Trainium2 晶片,以提供高達 83.2 PFLOPS 的 FP8 運算能力。

Trn2 執行個體提供 1.5 TB 的加速器記憶體,總記憶體頻寬為 46 TB/秒 (Tbps)。Trn2 UltraServer 提供 6 TB 的共用加速器記憶體,並具有 185 TB/秒 (Tbps) 的總記憶體頻寬,適合用於超大型基礎模型。

為支援超大型基礎模型的擴展分散式訓練,Trn2 執行個體提供 3.2 Tbps 的 EFAv3 聯網頻寬,而 Trn2 UltraServer 則提供 12.8 Tbps 的 EFAv3 聯網頻寬。與 EC2 UltraCluster 結合時,EFAv3 與 EFAv2 相比提供更低的網路延遲。每個 Trn2 執行個體支援高達 8 TB 的本機 NVMe 儲存,每個 Trn2 UltraServer 則支援高達 32 TB 的本機 NVMe 儲存,從而更快地存取大型資料集。

Trn2 執行個體和 UltraServer 支援 FP32、TF32、BF16、FP16 以及可設定的 FP8 (cFP8) 資料類型。它還支援尖端的 AI 最佳化,包括 4 倍稀疏度 (16:4),隨機捨入和專用的集體引擎。Neuron Kernel Interface (NKI) 支援使用具有類似 Triton 介面的 Python 型環境直接存取指令集架構 (ISA),讓您可以創新設計模型架構和高度最佳化的運算內核,使其效能超越現有技術。

Neuron 在 Hugging Face 模型中心上支援超過 100,000 個模型,以便在 Trn2 上進行訓練和部署,包括 Llama 和 Stable Diffusion 等熱門的模型架構。Neuron 與 JAX、PyTorch 以及各種工具、構架和程式庫 (例如 NeMo、Hugging Face、PyTorch Lightning、Ray、Domino Data Lab 和 Data Dog) 原生整合。它可以立即最佳化模型以進行分散式訓練和推論,同時針對分析和偵錯提供深入的洞見。Neuron 也與 Amazon SageMaker、Amazon EKS、Amazon ECS、AWS ParallelCluster 和 AWS Batch 等服務整合。

客戶和合作夥伴見證

以下是客戶和合作夥伴如何計劃透過 Amazon EC2 Trn2 執行個體實現業務目標的範例。

  • Anthropic

    在 Anthropic,數百萬人員每天都依靠 Claude 開展工作。我們宣佈 AWS 取得的兩項重大進展:首先,Claude 3.5 Haiku 推出了一種新的「延遲最佳化模式」,其透過 Amazon Bedrock 將在 Trainium2 上的執行速度提高 60%。其次,Project Rainier 是一種新的叢集,其擁有數十萬個 Trainium2 晶片,可提供數百 EFLOPS,在規模上比我們之前的叢集高出五倍以上。Project Rainier 將協助推動我們的研究和下一代擴展。對於我們的客戶來說,這意味著更高的智慧、更低的價格和更快的速度。我們不僅是建置更快的 AI,還是在建置可信任的可擴展 AI。

    Anthropic 運算長 Tom Brown
  • Databricks

    Databricks 的 Mosaic AI 可讓組織建置和部署高品質的代理程式系統。它以資料湖為基礎原生建置,可讓客戶輕鬆、安全地使用企業資料自訂他們的模型,以及提供更準確的特定領域輸出。由於 Trainium 的高效能和經濟高效,客戶能夠以低成本擴展 Mosaic AI 上的模型訓練。隨著對 Mosaic AI 的需求在所有客戶群體和全球範圍內不斷擴大,Trainium2 的推出將為 Databricks 及其客戶帶來巨大優勢。Databricks 是全球最大規模的資料和 AI 公司之一,公司計劃使用 TRN2 為其客戶提供更理想的結果並將 TCO 降低高達 30%。

    Databricks 生成式 AI 副總裁 Naveen Rao
  • poolside

    在 Poolside,我們著手打造 AI 將推動大部分具備經濟價值的工作和科學進步的世界。我們相信,軟體開發將成為神經網路達到人類水準智慧的第一項主要功能,因為它是我們能夠最佳地結合搜尋和學習方法的領域。為達成此目標,我們正在建置基礎模型、API 和助理,將生成式 AI 的強大功能帶到開發人員的手 (或鍵盤) 中。實現這項技術的主要關鍵點是我們用於建置和執行自身產品的基礎設施。藉助 AWS Trainium2,我們的客戶將能夠以不同於其他 AI 加速器的價格效能比擴展 Poolside 的使用範圍。此外,我們計劃使用 Trn2 UltraServer 訓練未來模型,與 EC2 P5 執行個體相比預期可節省 40% 的費用。

    Poolside 技術長兼共同創辦人 Eiso Kant
  • Itaú Unibanco

    Itaú Unibanco 的宗旨是改善客戶與資金之間的關係,對他們的生活產生積極的影響,同時擴大他們的轉型機會。在 Itaú Unibanco,我們相信每位客戶都是獨一無二的,我們專注于透過直觀的數位旅程來滿足他們的需求,以及利用 AI 的強大功能不斷適應他們的消費習慣。

    我們已經在各種任務中測試 AWS Trainium 和 Inferentia,從標準推論到微調應用程式。這些 AI 晶片的效能助力我們在研究和開發領域中實現重要的里程碑。對於批次和線上推論任務,我們已發現輸送量提高了 7 倍 (與使用 GPU 相比)。這種增強的效能正在推動組織範圍內進一步擴大使用案例的規模。最新一代 Trainium2 晶片為 GenAI 帶來突破性的功能,並為 Itau 的創新開闢全新的道路。

    Itaú Unibanco 資料科學主管 Vitor Azeka
  • NinjaTech AI

    Ninja 是提供無限生產力的一體化 AI 代理程式:一次簡單訂閱,即可無限制存取全球最出色的 AI 模型以及頂級 AI 技能,例如:寫作、編碼、腦力激盪、影像產生、線上研究。Ninja 是提供「超級代理程式」的代理平台,該平台使用混合代理程式,具有與前沿基礎模型相當的世界級準確性 (並且在某些類別中超越後者)。Ninja 的代理技術需要最高效能的加速器,以提供客戶期望的獨特即時體驗。 

    我們非常高興地得知 AWS TRN2 的推出,因為我們相信它將為以 Llama 3.1 405B 為基礎的核心模型 Ninja LLM 提供最佳的每個字符成本效能和目前最快的速度。Trn2 的低延遲、有競爭力的定價和隨需可用性令人驚訝;我們對 Trn2 的到來感到無比興奮!

    NinjaTech AI 創辦人兼執行長 Babak Pahlavan
  • Ricoh

    RICOH 機器學習團隊開發工作場所解決方案和數位轉型服務,旨在管理和最佳化企業解決方案中的資訊流。

    移轉至 Trn1 執行個體非常輕鬆和簡單。我們利用 4,096 個 Trainium 晶片叢集,僅用時 8 天就完成了 13B 參數 LLM 的預先訓練! 在較小模型上取得成功之後,我們對以 Llama-3-Swallow-70B 為基礎的全新、更大規模 LLM 進行微調,並且利用 Trainium,我們能夠將訓練成本降低 50%、能源效率提高 25% (與使用 AWS 中最新的 GPU 機器相比)。我們很高興利用最新一代 AWS AI 晶片 Trainium2,繼續以最低成本為客戶提供最佳效能。

    Ricoh 數位技術開發中心總監 Yoshiaki Umetsu
  • PyTorch

    我最喜歡 AWS Neuron NxD 推論程式庫的一點在於它與 PyTorch 模型的無縫整合。NxD 的方法簡單且使用者友好。我們的團隊能夠在短時間內以最小的程式碼變更量加入 HuggingFace PyTorch 模型。啟用連續批次處理和推測解碼等進階功能非常簡單。這種易用性可提高開發人員的生產力,讓團隊能夠更多專注於創新而非處理整合難題。

    Meta 的 PyTorch 合作夥伴工程負責人 Hamid Shojanazeri
  • Refact.ai

    Refact.ai 提供全面的 AI 工具,例如由擷取增強生成 (RAG) 支援的程式碼自動完成功能,同時提供更準確的建議,以及使用專有和開放原始碼模型的內容感知聊天。

    客戶已發現,與 EC2 G5 執行個體相比,EC2 Inf2 執行個體的效能提升 20%,每美元字符的價值提高 1.5 倍。Refact.ai 的微調功能進一步增強客戶了解並適應其組織獨特程式碼庫和環境的能力。我們同樣非常高興提供 Trainium2 的功能,這將為我們的工作流程帶來更快速、更高效的處理。這項進階技術將助力我們的客戶加速其軟體發展過程,方法是提高開發人員的工作效率,同時保持其程式碼庫的嚴格安全標準。

    Refact.ai 執行長兼創辦人 Oleg Klimov
  • Karakuri Inc.

    KARAKURI 建置 AI 工具以提高 Web 型客戶支援的效率並簡化客戶體驗。這些工具包括配備生成式 AI 功能、常見問答集集中化工具和電子郵件回應工具的 AI 聊天機器人,所有這些工具均提高客戶支援的效率和品質。利用 AWS Trainium,我們成功訓練 KARAKURI LM 8x7B Chat 0.1 版。對於像我們這樣的新創公司,我們需要最佳化建置時間和訓練 LLM 所需的成本。在 AWS Trainium 和 AWS 團隊的支援下,我們能夠在短時間內開發實用層級的 LLM。此外,透過採用 AWS Inferentia,我們能夠建置快速且經濟高效的推論服務。我們對 Trainium2 充滿期待,因為它將徹底變革我們的訓練程序,將訓練時間縮短 2 倍,同時將效率提升到新的高度!

    Karakuri Inc. 共同創辦人 Tomofumi Nakayama
  • Stockmark Inc.

    Stockmark 以「重塑價值創造機制和推進人類發展」為使命,透過提供尖端的自然語言處理技術,幫助眾多公司建立和打造創新業務。Stockmark 的全新資料分析和收集服務稱為 Anews and SAT,這是一種資料結構化服務,透過整理組織中儲存的所有形式資訊,大幅度增加生成式 AI 的使用範圍,這就要求我們重新思考如何建置和部署模型來支援這些產品。藉助 256 個 Trainium 加速器,我們已開發並發布 stockmark-13b,這是一款具有 130 億個參數的大型語言模型,並在包含 220B 字符的日語全集資料庫上從頭開始進行預先訓練。Trn1 執行個體協助我們將訓練成本降低 20%。利用 Trainium,我們成功開發一個 LLM,該 LLM 能夠以前所未有的準確性和速度為專業人士解答關鍵業務問題。鑑於公司在為模型開發提供充分的運算資源方面面臨的廣泛挑戰,這項成就尤其值得注意。由於 Trn1 執行個體具備令人印象深刻的速度和成本降低,我們很高興看到 Trainium2 將為我們的工作流程和客戶帶來的其他優勢。

    Stockmark Inc. 技術長兼共同創辦人 Kosuke Arima
  • Brave

    Brave 是獨立的瀏覽器和搜尋引擎,致力於優先考慮使用者隱私權和安全性。我們擁有超過 7000 萬使用者,提供業界領先的保護措施,使 Web 更安全、更易於使用者使用。與其他不再以使用者為中心的平台不同,Brave 仍然致力於將隱私權、安全性和便利性放在第一位。主要功能包括封鎖有害的指令碼和追蹤器,由 LLM 支援的 AI 輔助頁面摘要、內建 VPN 服務等。我們不斷努力提高搜尋服務和 AI 模型的速度與成本效率。為支援此目標,我們很高興能夠利用包括 Trainium2 在內的 AWS AI 晶片的最新功能來改善使用者體驗,同時擴大規模以處理每月數十億次搜尋查詢。

    Brave Software 工程副總裁 Subu Sathyanarayana
  • Anyscale

    Anyscale 是 Ray 背後的公司,後者是為企業提供 ML 和生成式 AI 計劃支援的 AI 運算引擎。藉助 RayTurbo 驅動的 Anyscale 統一 AI 平台,透過最佳化資源使用率,客戶的資料處理速度提高 4.5 倍,使用 LLM 進行批次推論的成本降低 10 倍,擴展速度提高 5 倍,反覆運作速度提高 12 倍,並且線上模型推論的成本節省 50%。

    在 Anyscale,我們致力於為企業提供最出色的工具,以高效、經濟地擴展 AI 工作負載。藉助由我們的 RayTurbo 執行階段支援的 AWS Trainium 和 Inferentia 晶片的原生支援,我們的客戶可以取得高效能、經濟高效的模型訓練與服務選項。我們現在很高興與 AWS 攜手合作開發 Trainium2,為我們的客戶開啟快速創新的新機遇,並大規模提供高效能的變革性 AI 體驗。

    Anyscale 共同創辦人 Robert Nishihara
  • Datadog

    Datadog 是面向雲端應用程式的可觀測性和安全平台,為客戶提供 AWS Trainium 和 Inferentia 監控,以最佳化模型效能、提高效率並降低成本。Datadog 的整合提供了對 ML 操作和基礎晶片效能的全面可見性,從而實現主動的問題解決和順暢的基礎設施擴展。我們很高興擴大與 AWS 的合作夥伴關係,共同推出 AWS Trainium2,該執行個體可以協助使用者將 AI 基礎設施成本降低高達 50%,同時提高模型訓練和部署效能。

    Datadog 產品公司副總裁 Yrieix Garnier
  • Hugging Face

    Hugging Face 是領先的 AI 建構家開放平台,擁有超過 200 萬個模型、資料集和 AI 應用程式,由超過 500 萬名研究人員、資料科學家、機器學習工程師和軟體發展人員組成的社群共用。我們過去幾年一直與 AWS 合作,讓開發人員能夠更輕鬆地透過 Optimum Neuron 開放原始碼程式庫體驗 AWS Inferentia 和 Trainium 的效能和成本優勢,該程式庫整合在 Hugging Face Inference Endpoints 中,並且目前已在 AWS Marketplace 上提供的全新 HUGS 自我部署服務中進行了最佳化。隨著 Trainium2 的推出,我們的使用者將取得更高的效能,以更快地開發和部署模型。

    Hugging Face 產品主管 Jeff Boudier
  • Lightning AI

    PyTorch Lightning 和 Lightning Studios 的建立者 Lightning AI 為企業級 AI 提供了最直觀、一體化的 AI 開發平台。Lightning 提供完整的程式碼、低程式碼和無程式碼工具,可以快速地建置代理程式、AI 應用程式和生成式 AI 解決方案。它專為實現靈活性而設計,可以在您的雲端或我們的雲端上無縫執行,利用 300 多萬個強大開發人員社群的專業知識與支援。

    Lightning 現在提供對 AWS AI 晶片、Trainium 和 Inferentia 的原生支援,它們整合在 Lightning Studios 和我們的開放原始碼工具 (如 PyTorch Lightning、Fabric 和 LitServe) 中。這可讓使用者能夠順暢地預先訓練、微調和大規模部署,以零切換開銷最佳化成本、可用性和效能,以及充分發揮 AWS AI 晶片 (包括最新一代 Trainium2 晶片) 的效能和成本優勢,以更低的成本提供更高的效能。

    Lightning AI 技術長 Luca Antiga
  • Domino Data Lab

    Domino 在各個環境上協調所有資料科學成品,包括 AWS 上的基礎架構、資料和服務,為 Amazon SageMaker 提供治理和協作功能,以支援企業資料科學團隊。Domino 可透過 AWS Marketplace,以 SaaS 或自我管理方式提供。

    領先的企業必須平衡技術複雜性、成本和管控,並且掌握廣泛的 AI 選項來取得競爭優勢。在 Domino,我們致力於讓客戶使用尖端技術。運算是許多突破性創新的瓶頸,而我們很高興能為客戶提供 Trainium2 的存取權,以便他們訓練和部署效能更高、成本更低且能源效率更佳的模型。

    Domino Data Lab 執行長兼共同創辦人 Nick Elprin

入門

SageMaker 對 Trn2 執行個體的支援即將推出。您可以使用 Amazon SageMaker HyperPod 輕鬆訓練 Trn2 執行個體上的模型,該模型提供彈性的運算叢集、最佳化的訓練效能,以及對基礎運算、網路和記憶體資源的高效利用。您也可以使用 SageMaker 在 Trn2 執行個體上擴展模型部署,以更有效地管理生產中的模型並降低營運負擔。

AWS Deep Learning AMI (DLAMI) 為深度學習 (DL) 從業人員和研究人員提供基礎設施和各種工具,以在 AWS 上加速各種規模的 DL。AWS Neuron 驅動程式已在 DLAMI 中預先設定,可在 Trn2 執行個體上以最佳方式訓練 DL 模型。

針對 Trn2 執行個體的深度學習容器支援即將推出。使用這些容器,您目前能夠在 Amazon Elastic Kubernetes Service (Amazon EKS) 上部署 Trn2 執行個體,這是一種全受管 Kubernetes 服務;也可以在 Amazon Elastic Container Service (Amazon ECS) 中部署,這是一種全受管容器協同服務。Neuron 也可以預先安裝在 AWS 深度學習容器中。若要了解有關在 Trn2 執行個體上執行容器的更多資訊,請參閱 Neuron 容器教學

產品詳細資訊

執行個體大小 適用於 EC2 UltraServers Trainium2 晶片 加速器
記憶體

vCPU 記憶體
(TB)
執行個體儲存體 (TB) 網路頻寬 (Tbps) EBS 頻寬 (Gbps)
trn2.48xlarge 16 1.5 TB 192 2 TB 4 x 1.92 NVMe SSD 3.2 80
trn2u.48xlarge  (預覽版) 16 1.5 TB 192 2 TB 4 x 1.92 NVMe SSD 3.2 80