Amazon EC2 P5 執行個體

適用於深度學習和 HPC 應用程式的最高效能 GPU 型執行個體

為什麼選擇 Amazon EC2 P5 執行個體?

採用 NVIDIA H100 Tensor Core GPU 的 Amazon Elastic Compute Cloud (Amazon EC2) P5 執行個體,以及採用 NVIDIA H200 Tensor Core GPUs 的 P5e 執行個體,可在 Amazon EC2 中提供最高效能,供深度學習 (DL) 和高效能運算 (HPC) 應用程式使用。與上一代的 GPU 型 EC2 執行個體相比,此執行個體可讓您以快 4 倍的時間找出解決方案,且訓練 ML 模型的成本可降低達 40%。這些執行個體可協助您以更快的步調反覆運作解決方案,並加速上市時程。您可以使用 P5 和 P5e 執行個體來訓練及部署日趨複雜的大型語言模型 (LLM) 和擴散模型,為需求最嚴苛的生成式人工智慧 (AI) 應用提供支援。這些應用包括問題回答、程式碼產生、影片和影像產生和語音識別。您也可以使用這些執行個體大規模部署需求嚴苛的 HPC 應用程式,包括製藥探索、地震分析、天氣預報和財務模型等領域。

為了提供這些效能改進並節省成本,P5 和 P5e 執行個體搭載 NVIDIA H100 和 H200 Tensor Core GPU,相較於上一代的 GPU 型執行個體,CPU 效能和系統記憶體都高出 2 倍,本機儲存空間則多出 4 倍。它們提供市場領先的擴展功能,用於分散式訓練和緊耦合的 HPC 工作負載,使用第二代 Elastic Fabric Adapter (EFAv2) 提供高達 3,200 Gbps 的網速。為了提供低延遲的大規模運算,Amazon EC2 UltraClusters 中部署了 P5 和 P5e 執行個體,可支援擴展至 20,000 個 H100 或 H200 GPU。這些項目與 PB 規模的非阻攔式網路相互連接。EC2 UltraClusters 中的 P5 和 P5e 執行個體可以提供多達 20 個 exaflop 的彙總運算能力,效能相當於超級電腦。

Amazon EC2 P5 執行個體

優勢

P5 和 P5e 執行個體可大規模訓練超大型生成式 AI 模型,且提供的效能是上一代 GPU EC2 執行個體的 4 倍。

P5 和 P5e 執行個體可將訓練時間和解決方案產生時間從數週縮短為數天。這有助於您以更快的速度反覆運作,並加速上市時程。

與上一代 GPU 型 EC2 執行個體相比,P5 和 P5e 執行個體可節省高達 40% 的 DL 訓練和 HPC 基礎架構成本。

P5 和 P5e 執行個體提供高達 3,200 Gbps 的 EFAv2 聯網。這些執行個體部署在 EC2 UltraCluster 中,並提供 20 個 exaflop 的彙總運算能力。

功能

P5 執行個體提供高達 8 個 NVIDIA H100 GPU,每個執行個體總共最多 640 GB 的 HBM3 GPU 記憶體。P5e 執行個體提供高達 8 個 NVIDIA H200 GPU,每個執行個體總共最多 1128 GB 的 HBM3e GPU 記憶體。這兩個執行個體都支援高達 900 GB/s 的 NVSwitch GPU 互連 (每個執行個體共 3.6 TB/s 的對分頻寬),因此,每個 GPU 都可在單跳延遲下與同一執行個體中的所有其他 GPU 通訊。

NVIDIA H100 和 H200 GPU 具有新的轉換引擎,可進行智能管理,並在 FP8 和 16 位元計算之間動態選擇。相較於上一代 A100 GPU,此功能有助於在 LLM 上提供更快的 DL 訓練速度。對於 HPC 工作負載,NVIDIA H100 和 H200 GPU 具有新的 DPX 指令,動態程式設計演算法比 A100 GPU 更為快速。

P5 和 P5e 執行個體提供高達 3,200 Gbps 的 EFAv2 聯網。EFAv2 針對分散式訓練工作負載提供了高達 50% 的集體通訊效能改善。EFAv2 也與 NVIDIA GPUDirect RDMA 搭配,以作業系統旁路功能達成伺服器之間低延遲的 GPU 與 GPU 通訊。

P5 和 P5e 執行個體支援 Amazon FSx for Lustre 檔案系統,讓您可在大規模的 DL 和 HPC 工作負載所需的數百 GB/s 輸送量和數百萬的 IOPS 下存取資料。每個 P5 和 P5e 執行個體還支援高達 30 TB 的本機 NVMe SSD 儲存,以實現對大型資料集的快速存取。您也可以透過 Amazon Simple Storage Service (Amazon S3) 使用幾乎無限制且具成本效益的儲存空間。

客戶見證

以下是客戶和合作夥伴如何透過 Amazon EC2 P4 執行個體實現業務目標的範例。

  • Anthropic

    Anthropic 建置了可靠、可解釋和可操縱的 AI 系統,這將提供很多為商業和公共利益創造價值的機會。

    在 Anthropic,我們努力打造可靠、可解釋且可操縱的 AI 系統。雖然當今的大型通用 AI 系統可能擁有明顯優勢,但也有可能是不可預測、不可靠且不透明的。我們的目標是在這些議題上取得進展,並部署人們覺得有用的系統。我們的組織是世界上少數在 DL 研究領域建置基礎模型的組織之一。這些模型非常複雜,且為了開發和訓練這些尖端模型,我們必須有效地將其分散到大型 GPU 叢集間。現今,我們廣泛使用 Amazon EC2 P4 執行個體,對於 P5 執行個體的推出我們感到非常興奮。我們期望它們會比 P4d 執行個體提供顯著的價格效能優勢,並且將大規模提供,用以建置下一代 LLM 和相關產品。

    Anthropic 共同創辦人 Tom Brown
  • Cohere

    Cohere 是語言 AI 的領導先驅,使每個開發人員和企業都能使用領先全球的自然語言處理 (NLP) 技術打造絕佳產品,同時保持其資料隱私和安全性

    Cohere 率先協助每個企業運用語言 AI 的力量,以自然而直觀的方式探索、產生、搜尋資訊並據以採取行動,在多個雲端平台間部署於最適合每個客戶的資料環境。採用 NVIDIA H100 的 Amazon EC2 P5 執行個體將透過其運算能力結合 Cohere 最先進的 LLM 和生成式 AI 功能,讓企業能夠更快地建立、成長和擴展。

    Cohere 執行長 Aidan Gomez
  • Hugging Face

    Hugging Face 正著手將良好的 ML 大眾化。

    作為 ML 領域成長最快速的開放原始碼社群,我們目前在平台上提供了超過 150,000 種預先訓練的模型和 25,000 個資料集,用於 NLP、電腦視覺、生物學、強化學習等等。隨著 LLM 和生成式 AI 的重大進展,我們與 AWS 合作共創未來的開放原始碼模型。我們期待透過 Amazon SageMaker 在搭配 EFA 的 UltraClusters 中大規模使用 Amazon EC2 P5 執行個體,更快速地為眾人提供新的基礎 AI 模型。

    Hugging Face CTO 暨共同創辦人 Julien Chaumond

產品詳細資訊

執行個體大小 vCPU 執行個體記憶體 (TiB) GPU   GPU 記憶體 網路頻寬 (Gbps) GPUDirect RDMA GPU 端對端 執行個體儲存體 (TB) EBS 頻寬 (Gbps)
p5.48xlarge 192 2 8 H100 640 GB
HBM3
3200 Gbps EFA 900 GB/s NVSwitch 8 x 3.84 NVMe SSD 80
p5e.48xlarge 192 2 8 H200 1128 GB
HBM3e
3200 Gbps EFA 900 GB/s NVSwitch 8 x 3.84 NVMe SSD 80

ML 使用案例入門

SageMaker 是一項全受管服務,可用來建置、訓練和部署 ML 模型。與 P5 執行個體搭配使用時,您可以更輕鬆地擴展到數十、數百或數千個 GPU,這樣便能更快速地訓練任何規模的模型,無須擔心設定叢集和資料管道。

DLAMI 為 ML 從業人員和研究人員提供基礎設施和各種工具,以加速雲端中各種規模的 DL 工作。 Deep Learning Containers 是連同 DL 架構一併預先安裝的 Docker 映像檔,讓您可以略過從頭建置及最佳化環境的複雜流程,更輕鬆地部署自訂 ML 環境。

如果您偏好透過容器協同運作服務管理自己的容器化工作負載,可以使用 Amazon EKS 或 Amazon ECS 部署 P5 執行個體。

HPC 使用案例入門

P5 執行個體是執行工程模擬、運算金融、地震分析、分子建模、基因體、轉譯和其他 GPU 型 HPC 工作負載的理想平台。HPC 應用程式通常需要高速網路效能、快速儲存、大量記憶體、超強運算能力,也可能需要以上所有特點。P5 執行個體支援 EFAv2,可讓 HPC 應用程式利用訊息傳遞介面 (MPI) 擴展至數千個 GPU。AWS Batch 和 AWS ParallelCluster 可協助 HPC 開發人員能迅速建置並擴展分散式 HPC 應用程式。

進一步了解