Amazon SageMaker 模型訓練

訓練並微調機器學習和生成式 AI 模型

什麼是 Amazon SageMaker 模型訓練?

Amazon SageMaker 模型追蹤可大規模減少訓練和調整機器學習 (ML) 模型的時間和成本,而無需管理基礎設施。您可以利用目前可用的最高效能 ML 運算基礎設施,Amazon SageMaker AI 可以自動擴展基礎設施,從一個到數千個 GPU。為了更快訓練深度學習模型,SageMaker AI 可協助您即時選取和精煉資料集。SageMaker 分散式訓練程式庫可以在 AWS GPU 執行個體之間自動分割大型模型和訓練資料集,或者您可以使用第三方程式庫,例如 DeepSpeed、Horovod 或 Megatron。自動監控和修復訓練叢集,連續 數週和數月無中斷地訓練基礎模型 (FM)。

成本效益培訓的優勢

SageMaker AI 提供多種 GPU 和 CPU 選項及 AWS 加速器 (例如 AWS Trainium 和 AWS Inferentia),以支援大規模的模型訓練。您可以自動擴展或縮減基礎架構規模 (從一個到數千個 GPU)。
SageMaker AI 可讓您在 AWS 叢集執行個體中自動分割模型和訓練資料集,以協助您高效地擴展訓練工作負載。其可協助您針對 AWS 網路基礎架構和叢集拓樸最佳化訓練工作。您還可以使用最佳化的配方,從最先進的效能中受益,並在幾分鐘內快速開始訓練和微調公開可用的生成式 AI 模型。SageMaker AI 還透過最佳化儲存檢查點的頻率,利用配方簡化模型檢查點儲存作業,從而確保將訓練期間的開銷降至最低。
SageMaker AI 可以透過調整數千種不同的演算法參數組合,自動調校您的模型,進而達到最準確的預測。使用偵錯和分析工具快速更正效能問題並最佳化訓練效能。
SageMaker AI 可實現高效的 ML 實驗,協助您更輕鬆地追蹤 ML 模型迭代。藉由將模型架構視覺化來識別和修復融合問題,以改善模型訓練效能。

大規模訓練模型

全受管訓練任務

SageMaker 訓練任務可為大型分散式 FM 訓練提供全受管使用者體驗,從而消除基礎設施管理方面的無差異繁重工作。SageMaker 訓練任務會自動啟動具恢復能力的分散式訓練叢集,監控基礎設施,並自動復原故障,以確保順暢的訓練體驗。訓練完成後,SageMaker 會關閉叢集,並依淨訓練時間計費。此外,透過 SageMaker 訓練任務,您可以靈活地選擇適合個別工作負載的適當執行個體類型 (例如,在 P5 叢集上預先訓練大型語言模型 (LLM),或在 p4d 執行個體上微調開放原始碼 LLM),以進一步最佳化您的訓練預算。此外,SagerMaker 訓練工作還為具有不同程度技術專業知識和不同工作負載類型的機器學習團隊提供一致的使用者體驗。

進一步了解

SageMaker HyperPod

Amazon SageMaker HyperPod 是專門建置的基礎設施,可有效地管理運算叢集,以擴展基礎模型 (FM) 開發作業。它可實現進階模型訓練技術、基礎設施控制、效能最佳化,以及增強的模型可觀測性。SageMaker HyperPod 已使用 SageMaker 分散式訓練程式庫進行預先設定,讓您可在 AWS 叢集執行個體中自動分割模型和訓練資料集,以協助有效利用叢集的運算和網路基礎設施。它透過自動偵測、診斷和復原硬體故障,支援更具恢復能力的環境,讓您可連續數月不中斷地訓練 FM,從而減少高達 40% 的訓練時間。

進一步了解

高效能分散式訓練

SageMaker AI 透過在 AWS 加速器之間自動分割模型和訓練資料集,讓您更快地執行分散式訓練。 其可協助您針對 AWS 網路基礎架構和叢集拓樸最佳化訓練工作。SageMaker AI 還透過最佳化儲存檢查點的頻率,利用配方簡化模型檢查點儲存作業,從而確保將訓練期間的開銷降至最低。各種技能組合的資料科學家和開發人員可以透過配方受益於最先進的效能,同時快速開始訓練和微調公開可用的生成式 AI 模型,包括 Llama 3.1 405B、Mixtral 8x22B 和 Mistral 7B。配方包含由 AWS 測試的訓練堆疊,能夠省去在數週內持續測試不同模型組態的繁瑣工作。您可以透過變更配方的一行內容,在 GPU 型執行個體和 AWS Trainium 型執行個體之間切換,並啟用自動化模型檢查點,以改善訓練彈性。此外,您可以在生產環境中使用您選擇的 SageMaker 訓練功能來執行工作負載。

進一步了解

達成最高準確性和最低成本的內建工具

自動調校模型

SageMaker AI 可以透過調整數千種不同的演算法參數組合,自動調校您的模型以實現最準確的預測,從而節省數週的工作量。它藉由在資料集上執行許多訓練工作來協助您找到模型的最佳版本。

ML 訓練工作流程

受管 Spot 訓練

SageMaker AI 能夠在運算容量可用時自動執行訓練工作,協助降低高達 90% 的訓練成本。這些訓練工作也具有因應由於容量變更所引起之中斷的彈性。

進一步了解

偵錯

Amazon SageMaker Debugger 會即時擷取指標和分析訓練工作,讓您可以在將模型部署到生產之前快速更正效能問題。您也可以透過存取基礎訓練容器,遠端連線至 SageMaker 中的模型訓練環境以進行偵錯。

自動調校模型

效能分析工具

Amazon SageMaker Profiler 透過精細硬體分析洞察,包括彙總 GPU 和 CPU 使用率指標、高解析度 GPU/CPU 追蹤圖、自訂註釋以及混合精準使用率的可見性,協助您最佳化訓練效能。
受管 Spot 訓練

用於互動和監控的內建工具

Amazon SageMaker with MLflow

利用 MLflow with SageMaker 培訓來擷取輸入參數、組態和結果,協助您快速找出適合自己使用案例的最佳模型。MLflow UI 只需快速一個步驟,就能讓您能分析模型訓練嘗試,並輕鬆註冊適用於生產的模型選項。

偵錯

Amazon SageMaker with TensorBoard

配備 TensorBoard 的 Amazon SageMaker 可藉由視覺化模型架構,以識別和修復融合問題,例如驗證損失不會融合或消失梯度,來協助您節省開發時間。

實驗管理

彈性且更快速的訓練

完全自訂

SageMaker AI 隨附內建程式庫和工具,可讓更輕鬆快速地完成模型訓練。SageMaker AI 可與熱門開放原始碼 ML 模型 (例如 GPT、BERT 和 DALL·E)、ML 架構 (例如 PyTorch 和 TensorFlow) 以及變壓器 (例如 Hugging Face) 搭配使用。透過 SageMaker AI,您可以根據自身需求使用熱門開放原始碼程式庫和工具,例如 DeepSpeed、Megatron、Horovod、Ray Tune 和 TensorBoard。

效能分析工具

本機程式碼轉換

Amazon SageMaker Python SDK 可協助您執行在偏好的整合式開發環境 (IDE) 和本機筆記本中撰寫的 ML 程式碼,以及相關聯的執行時期相依性做為大型 ML 模型訓練工作,且程式碼變更最少。您只需要將一行程式碼 (Python 裝飾項目) 新增到本機 ML 程式碼。SageMaker Python SDK 會同時採用程式碼與資料集和工作區環境設定,並將其作為 SageMaker 訓練工作執行。

進一步了解

自動化 ML 訓練工作流程

使用 Amazon SageMaker Pipelines 的自動化訓練工作流程可建立反覆進行的作業程序,藉此協調模型開發步驟,以便快速進行實驗並重新訓練模型。您可以定期自動執行步驟或在系統觸發特定事件時自動執行,也可以視情況需要手動執行。

進一步了解

靈活的訓練方案

為符合您的訓練時間表和預算,SageMaker AI 會幫助您建立最具成本效益的訓練計劃,這些計劃使用來自多個運算容量區塊的運算資源。在您核准訓練計劃後,SageMaker AI 會在這些運算資源上自動佈建基礎架構並執行訓練工作,而不需要任何人工干預,從而在管理訓練流程,使工作與運算資源可用性保持一致的作業上節省數週的時間。

最新消息

  • 日期 (最新到最舊)
找不到結果
1