Amazon SageMaker HyperPod

將基礎模型訓練時間縮短高達 40%,並有效擴展至上千種 AI 加速器

什麼是 SageMaker HyperPod?

Amazon SageMaker HyperPod 消除了建置和最佳化機器學習 (ML) 基礎設施所涉及的無差異化繁重工作。該服務已預先設定 SageMaker 的分散式訓練程式庫,可自動將訓練工作負載分發至成千上萬個 AI 加速器,因此可平行處理工作負載,從而提高模型效能。SageMaker HyperPod 可透過定期儲存檢查點,來確保您能夠不間斷持續 FM 訓練。發生硬體故障時,它會自動偵測、修復或取代故障執行個體,並從上次儲存的檢查點繼續訓練,無需手動管理此程序。彈性環境可讓您在分散式環境中訓練模型數週或數月,而不會中斷,從而節省高達 40% 的訓練時間。SageMaker HyperPod 還可高度自訂,讓您能夠有效地執行和擴展 FM 工作負載,從大規模訓練到推論,輕鬆地在不同工作負載之間共用運算容量。

SageMaker HyperPod 的優勢

Amazon SageMaker HyperPod 已使用 Amazon SageMaker 分散式訓練程式庫進行預先設定,讓您可在 AWS 叢集執行個體中自動分割模型和訓練資料集,有助您有效率地擴展訓練工作負載。
Amazon SageMaker 分散式訓練程式庫會透過兩種技術來最佳化 AWS 網路基礎架構和叢集拓樸的訓練任務:資料平行化和模型平行化。模型平行性會將由於過大而不適合在單個 GPU 上訓練的模型拆分成較小的多個部分,然後將其分佈到多個 GPU 上進行訓練。資料平行性分割大型資料集以並行訓練,從而提升訓練速度。
SageMaker HyperPod 會透過自動偵測、診斷和復原故障,支援更具彈性的訓練環境,讓您可連續數月不中斷地訓練 FM。