什麼是 SageMaker HyperPod?
AmazonSageMaker HyperPod 消除了建立和優化用於訓練基礎模型 (FM) 的機器學習 (ML) 基礎架構所需的無差別繁重工作,從而縮短高達 40% 的訓練時間。SageMaker HyperPod 預先配置 SageMaker 的分散式訓練庫,使客戶能夠自動分割訓練工作負載至數千個加速器,以實現平行處理,提高模型效能。SageMaker HyperPod 還可以透過定期保存檢查點,確保客戶能夠不間斷持續 FM 訓練。當訓練期間發生硬體故障時,SageMaker HyperPod 會自動偵測故障、修復或取代故障執行個體,並從上次儲存的檢查點繼續訓練,使客戶不需要手動管理此過程,有助於在分散式環境中連續進行數週或數月的訓練而不受中斷。
SageMaker HyperPod 的優勢
優化的分散式訓練
SageMaker HyperPod 預先配置了 SageMaker 分散式庫。只需幾行程式碼,您即可在訓練指令碼中啟用資料平行性。SageMaker HyperPod 透過在 AWS GPU 執行個體之間自動分割模型和訓練資料集,讓您更快執行分散式訓練。
進一步了解 »
工作負載排程和協同運作
SageMaker HyperPod 使用者介面可使用 Slurm 進行高度自訂。您可以選擇並安裝任何需要的框架或工具。所有叢集都會以您選擇的執行個體類型和數量佈建,並在工作負載間保留供您使用。
偵錯並改善模型效能
您可以在 SageMaker HyperPod 中使用專門構建的機器學習工具,以提升訓練效能。配備 TensorBoard 的 Amazon SageMaker 可藉由視覺化模型架構,以識別和修復融合問題,例如驗證損失不融合或梯度消失,來協助您節省開發時間。
自動叢集運作狀態檢查和修復
如果任何執行個體在訓練工作負載期間出現故障,SageMaker HyperPod 會自動偵測並以正常節點替換故障節點。為了偵測硬體故障,SageMaker HyperPod 定期執行一系列 GPU 和網路完整性的運作狀態檢查。