什麼是 Amazon SageMaker 模型訓練?
Amazon SageMaker 模型追蹤可大規模減少訓練和調整機器學習 (ML) 模型的時間和成本,而無需管理基礎設施。您可以利用目前可用的最高效能 ML 運算基礎設施,Amazon SageMaker AI 可以自動擴展基礎設施,從一個到數千個 GPU。為了更快訓練深度學習模型,SageMaker AI 可協助您即時選取和精煉資料集。SageMaker 分散式訓練程式庫可以在 AWS GPU 執行個體之間自動分割大型模型和訓練資料集,或者您可以使用第三方程式庫,例如 DeepSpeed、Horovod 或 Megatron。自動監控和修復訓練叢集,連續 數週和數月無中斷地訓練基礎模型 (FM)。
成本效益培訓的優勢
大規模訓練模型
全受管訓練任務
SageMaker 訓練任務可為大型分散式 FM 訓練提供全受管使用者體驗,從而消除基礎設施管理方面的無差異繁重工作。SageMaker 訓練任務會自動啟動具恢復能力的分散式訓練叢集,監控基礎設施,並自動復原故障,以確保順暢的訓練體驗。訓練完成後,SageMaker 會關閉叢集,並依淨訓練時間計費。此外,透過 SageMaker 訓練任務,您可以靈活地選擇適合個別工作負載的適當執行個體類型 (例如,在 P5 叢集上預先訓練大型語言模型 (LLM),或在 p4d 執行個體上微調開放原始碼 LLM),以進一步最佳化您的訓練預算。此外,SagerMaker 訓練工作還為具有不同程度技術專業知識和不同工作負載類型的機器學習團隊提供一致的使用者體驗。
SageMaker HyperPod
Amazon SageMaker HyperPod 是專門建置的基礎設施,可有效地管理運算叢集,以擴展基礎模型 (FM) 開發作業。它可實現進階模型訓練技術、基礎設施控制、效能最佳化,以及增強的模型可觀測性。SageMaker HyperPod 已使用 SageMaker 分散式訓練程式庫進行預先設定,讓您可在 AWS 叢集執行個體中自動分割模型和訓練資料集,以協助有效利用叢集的運算和網路基礎設施。它透過自動偵測、診斷和復原硬體故障,支援更具恢復能力的環境,讓您可連續數月不中斷地訓練 FM,從而減少高達 40% 的訓練時間。
高效能分散式訓練
SageMaker AI 透過在 AWS 加速器之間自動分割模型和訓練資料集,讓您更快地執行分散式訓練。 其可協助您針對 AWS 網路基礎架構和叢集拓樸最佳化訓練工作。SageMaker AI 還透過最佳化儲存檢查點的頻率,利用配方簡化模型檢查點儲存作業,從而確保將訓練期間的開銷降至最低。各種技能組合的資料科學家和開發人員可以透過配方受益於最先進的效能,同時快速開始訓練和微調公開可用的生成式 AI 模型,包括 Llama 3.1 405B、Mixtral 8x22B 和 Mistral 7B。配方包含由 AWS 測試的訓練堆疊,能夠省去在數週內持續測試不同模型組態的繁瑣工作。您可以透過變更配方的一行內容,在 GPU 型執行個體和 AWS Trainium 型執行個體之間切換,並啟用自動化模型檢查點,以改善訓練彈性。此外,您可以在生產環境中使用您選擇的 SageMaker 訓練功能來執行工作負載。
達成最高準確性和最低成本的內建工具
自動調校模型
SageMaker AI 可以透過調整數千種不同的演算法參數組合,自動調校您的模型以實現最準確的預測,從而節省數週的工作量。它藉由在資料集上執行許多訓練工作來協助您找到模型的最佳版本。
受管 Spot 訓練
SageMaker AI 能夠在運算容量可用時自動執行訓練工作,協助降低高達 90% 的訓練成本。這些訓練工作也具有因應由於容量變更所引起之中斷的彈性。
偵錯
Amazon SageMaker Debugger 會即時擷取指標和分析訓練工作,讓您可以在將模型部署到生產之前快速更正效能問題。您也可以透過存取基礎訓練容器,遠端連線至 SageMaker 中的模型訓練環境以進行偵錯。
效能分析工具
彈性且更快速的訓練
完全自訂
SageMaker AI 隨附內建程式庫和工具,可讓更輕鬆快速地完成模型訓練。SageMaker AI 可與熱門開放原始碼 ML 模型 (例如 GPT、BERT 和 DALL·E)、ML 架構 (例如 PyTorch 和 TensorFlow) 以及變壓器 (例如 Hugging Face) 搭配使用。透過 SageMaker AI,您可以根據自身需求使用熱門開放原始碼程式庫和工具,例如 DeepSpeed、Megatron、Horovod、Ray Tune 和 TensorBoard。
本機程式碼轉換
Amazon SageMaker Python SDK 可協助您執行在偏好的整合式開發環境 (IDE) 和本機筆記本中撰寫的 ML 程式碼,以及相關聯的執行時期相依性做為大型 ML 模型訓練工作,且程式碼變更最少。您只需要將一行程式碼 (Python 裝飾項目) 新增到本機 ML 程式碼。SageMaker Python SDK 會同時採用程式碼與資料集和工作區環境設定,並將其作為 SageMaker 訓練工作執行。
自動化 ML 訓練工作流程
使用 Amazon SageMaker Pipelines 的自動化訓練工作流程可建立反覆進行的作業程序,藉此協調模型開發步驟,以便快速進行實驗並重新訓練模型。您可以定期自動執行步驟或在系統觸發特定事件時自動執行,也可以視情況需要手動執行。
靈活的訓練方案
為符合您的訓練時間表和預算,SageMaker AI 會幫助您建立最具成本效益的訓練計劃,這些計劃使用來自多個運算容量區塊的運算資源。在您核准訓練計劃後,SageMaker AI 會在這些運算資源上自動佈建基礎架構並執行訓練工作,而不需要任何人工干預,從而在管理訓練流程,使工作與運算資源可用性保持一致的作業上節省數週的時間。