Instances Amazon EC2 P5

Instances basées sur les GPU les plus performantes pour les applications de deep learning et de HPC

Pourquoi choisir les instances Amazon EC2 P5 ?

Les instances Amazon Elastic Compute Cloud (Amazon EC2) P5 optimisées par les GPU NVIDIA H100 Tensor Core et les instances P5e et P5en optimisées par les GPU NVIDIA H200 Tensor Core offrent les meilleures performances dans Amazon EC2 pour les applications de deep learning (DL) et de calcul haute performance (HPC). Elles vous permettent d’accélérer votre temps de solution jusqu’à 4 fois par rapport aux instances EC2 basées sur le GPU de la génération précédente, et de réduire le coût d’entraînement des modèles ML jusqu’à 40 %. Ces instances vous permettent d’itérer vos solutions plus rapidement et de les commercialiser plus rapidement. Vous pouvez utiliser les instances P5, P5e et P5en pour l’entraînement et le déploiement de grands modèles de langage (LLM) et de modèles de diffusion à complexité croissante indispensables aux applications d’intelligence artificielle (IA) générative les plus exigeantes. Ces applications incluent la réponse aux questions, la génération de code, la génération de vidéos et d’images et la reconnaissance vocale. Ces instances vous permettent également de déployer à grande échelle des applications HPC complexes dans les domaines de la découverte pharmaceutique, de l’analyse sismique, des prévisions météorologiques et de la modélisation financière.

Pour améliorer les performances et réduire les coûts, les instances P5 et P5e complètent des GPU NVIDIA H100 et H200 Tensor Core avec des performances de processeur deux fois supérieures, une mémoire système deux fois plus élevée et un stockage local quatre fois plus élevé que les instances basées sur des GPU de génération précédente. Les instances P5en associent les GPU NVIDIA H200 Tensor Core à un CPU Intel Sapphire Rapids haute performance, permettant ainsi un PCIe Gen5 entre le CPU et le GPU. En comparaison avec les instances P5e et P5, les instances P5en fournissent jusqu’à deux fois plus de bande passante entre le CPU et le GPU et une latence réseau inférieure, ce qui améliore les performances d’entraînement distribué. La prise en charge des instances P5 et P5e fournit jusqu’à 3 200 Gbit/s de réseau à l’aide d’Elastic Fabric Adapter (EFA) de deuxième génération. Les instances P5en avec la troisième génération d’EFA et Nitro v5 permettent de réduire jusqu’à 35 % la latence par rapport aux instances P5 qui utilisent la génération précédente d’EFA et de Nitro. Ainsi, les performances de communication collective sont améliorées pour les charges de travail d’entraînement distribué telles que le deep learning, l’IA générative, le traitement des données en temps réel et les applications de calcul haute performance (HPC). Afin de fournir des capacités de calcul à grande échelle avec une faible latence, ces instances sont déployées dans les Amazon EC2 UltraClusters qui permettent d’accéder à jusqu’à 20 000 GPU H100 ou H200 interconnectés avec un réseau non bloquant à l’échelle du pétabit. Les instances P5 et P5e et P5en dans les EC2 UltraClusters peuvent fournir jusqu’à 20 exaflops de capacité de calcul agrégée, soit des performances équivalentes à celles d’un superordinateur.

Instances Amazon EC2 P5

Avantages

Les instances P5, P5e et P5en peuvent entraîner des modèles d’IA générative ultra‑larges à grande échelle et offrent des performances jusqu’à quatre fois supérieures à celles des instances EC2 basées sur des GPU de génération précédente.

Les instances P5, P5e et P5en réduisent les temps d’entraînement et de résolution des problèmes de plusieurs semaines à quelques jours seulement. Cela vous permet d’itérer à un rythme plus rapide et d’accéder au marché plus rapidement.

Les instances P5, P5e et P5en permettent de réaliser jusqu’à 40 % d’économies sur les coûts d’entraînement DL et d’infrastructure HPC par rapport aux instances EC2 basées sur des GPU de génération précédente.

Les instances P5, P5e et P5en fournissent jusqu’à 3 200 Gbit/s de mise en réseau EFA. Ces instances sont déployées dans EC2 UltraClusters et fournissent 20 exaflops de capacité de calcul agrégée.

Caractéristiques

Les instances P5 fournissent jusqu’à 8 GPU NVIDIA H100 avec un total de 640 Go de mémoire GPU HBM3 par instance. Les instances P5e et P5en fournissent jusqu’à huit GPU NVIDIA H200 avec jusqu’à 1 128 Go de mémoire GPU HBM3e par instance. Les deux instances prennent en charge jusqu’à 900 Go/s d’interconnexion GPU NVSwitch (un total de 3,6 To/s de bande passante bisectionnelle dans chaque instance), de sorte que chaque GPU peut communiquer avec tous les autres GPU de la même instance avec une latence à saut unique.

Les GPU NVIDIA H100 et H200 sont dotés d’un nouveau moteur de transformation qui gère intelligemment et choisit dynamiquement entre les calculs FP8 et 16 bits. Cette fonctionnalité permet d’accélérer l’entraînement DL sur les LLM par rapport aux GPU A100 de génération précédente. Pour les charges de travail HPC, les GPU NVIDIA H100 et H200 disposent de nouvelles instructions DPX qui accélèrent davantage les algorithmes de programmation dynamique par rapport aux GPU A100.

Les instances P5, P5e et P5en fournissent jusqu’à 3 200 Gbit/s de mise en réseau EFA. L’interface EFA est également couplée à la technologie GPUDirect RDMA de NVIDIA pour permettre une communication GPU à GPU à faible latence entre les serveurs, avec contournement du système d’exploitation.

Les instances P5, P5e et P5en prennent en charge les systèmes de fichiers Amazon FSx pour Lustre. Ainsi, vous pouvez accéder aux données avec un débit de plusieurs centaines de Go/s et des millions d’IOPS pour les charges de travail de deep learning (DL) et de calcul haute performance (HPC) à grande échelle. Chaque instance prend également en charge jusqu’à 30 To de stockage SSD NVMe local pour un accès rapide à de grands jeux de données. Vous pouvez également utiliser un stockage rentable pratiquement illimité avec Amazon Simple Storage Service (Amazon S3).

Témoignages de clients

Voici quelques exemples de la manière dont les clients et partenaires ont atteint leurs objectifs commerciaux grâce aux instances Amazon EC2 P4.

  • Anthropic

    Anthropic construit des systèmes d'IA fiables, interprétables et orientables qui offriront de nombreuses opportunités de créer de la valeur commerciale et dans l'intérêt public.

    Chez Anthropic, nous nous efforçons de créer des systèmes d'IA fiables, interprétables et orientables. Bien que les grands systèmes généraux d'IA d'aujourd'hui puissent présenter des avantages importants, ils peuvent également être imprévisibles, peu fiables et opaques. Notre objectif est de progresser sur ces questions et de déployer des systèmes que les gens trouvent utiles. Notre entreprise est l'une des rares au monde à élaborer des modèles fondamentaux dans le domaine de la recherche sur le DL. Ces modèles sont très complexes, et pour développer et entraîner ces modèles de pointe, nous devons les distribuer efficacement sur de grands clusters de GPU. Nous utilisons largement les instances Amazon EC2 P4 aujourd'hui, et nous sommes enthousiastes à l'idée de lancer des instances P5. Nous nous attendons à ce qu'elles offrent des avantages substantiels en termes de rapport prix/performances par rapport aux instances P4d, et elles seront disponibles à l'échelle massive requise pour créer des LLM de nouvelle génération et des produits connexes.

    Tom Brown, cofondateur d'Anthropic
  • Cohere

    Cohere, l'un des principaux pionniers de l'IA linguistique, permet à chaque développeur et à chaque entreprise de créer des produits incroyables grâce à une technologie de traitement du langage naturel (NLP) de pointe tout en préservant la confidentialité et la sécurité de leurs données.

    Cohere joue un rôle de premier plan en aidant chaque entreprise à exploiter la puissance de l'IA linguistique pour explorer, générer, rechercher et exploiter des informations de manière naturelle et intuitive, en la déployant sur de multiples plateformes cloud dans l'environnement de données le mieux adapté à chaque client. Les instances Amazon EC2 P5 alimentées par NVIDIA H100 permettront aux entreprises de créer, de croître et d'évoluer plus rapidement grâce à leur puissance de calcul combinée aux capacités de pointe de Cohere en matière de LLM et d'IA générative.

    Aidan Gomez, PDG de Cohere
  • Hugging Face

    Hugging Face a pour mission de démocratiser le bon ML.

    En tant que communauté open source pour le ML qui connaît la croissance la plus rapide, nous proposons désormais plus de 150 000 modèles pré-entraînés et 25 000 jeux de données sur notre plateforme pour la PNL, la vision par ordinateur, la biologie, l'apprentissage par renforcement, etc. Grâce aux avancées significatives en matière de LLM et d'IA générative, nous travaillons avec AWS pour créer et contribuer aux modèles open source de demain. Nous sommes impatients d'utiliser les instances Amazon EC2 P5 via Amazon SageMaker à grande échelle dans UltraClusters avec EFA afin d'accélérer la mise à disposition de nouveaux modèles d'IA de base pour tous.

    Julien Chaumond, directeur technique et cofondateur de Hugging Face

Informations sur le produit

Taille de l'instance Processeurs virtuels Mémoire d’instance (Tio) GPU   Mémoire de GPU Bande passante du réseau (Gbit/s) GPUDirect RDMA Pair à pair GPU Storage d'instance (To) Bande passante EBS (Gbit/s)
p5.48xlarge 192 2 8 H100 640 Go
HBM3
EFA à 3200 Gbit/s Oui NVSwitch 900 Go/s 8 x 3.84 (SSD NVMe) 80
p5e.48xlarge 192 2 8 H200 1128 Go
HBM3e
EFA à 3200 Gbit/s Oui NVSwitch 900 Go/s 8 x 3.84 (SSD NVMe) 80
p5en.48xlarge 192 2 8 H200 HBM3e 1 128 Go EFA 3 200 Gbit/s Oui NVSwitch 900 Go/s 8 x SSD NVMe 3,84 100

Premiers pas avec les cas d’utilisation du ML

SageMaker est un service entièrement géré pour créer, entraîner et déployer des modèles de ML. Avec SageMaker HyperPod, vous pouvez facilement mettre à l’échelle des dizaines, des centaines ou des milliers de GPU pour entraîner rapidement un modèle à n’importe quelle échelle, sans vous soucier de la configuration et de la gestion de clusters d’entraînement résilients.

DLAMI fournit aux praticiens et chercheurs en ML l’infrastructure et les outils nécessaires pour accélérer la DL dans le cloud, à n’importe quelle échelle. Les Deep Learning Containers sont des images Docker comportant des cadres de DL préinstallés qui rationalisent le déploiement d’environnements de ML personnalisés en vous permettant d’éliminer les tâches complexes de création et d’optimisation de vos environnements de A à Z.

Si vous préférez gérer vos propres charges de travail conteneurisées via des services d’orchestration de conteneurs, vous pouvez déployer des instances P5, P5e et P5en avec Amazon EKS ou Amazon ECS.

Premiers pas avec les cas d’utilisation du HPC

Les instances P5, P5e et P5en sont une plateforme idéale pour exécuter des simulations d’ingénierie, des calculs financiers, des analyses sismiques, des modélisations moléculaires, de la génomique, du rendu et d’autres charges de travail HPC basées sur des GPU. Les applications HPC exigent souvent des performances réseau élevées, un stockage rapide, d'importantes capacités de mémoire, des capacités de calcul élevées ou tous ces éléments. Les trois types d’instances prennent en charge EFA qui permet aux applications HPC utilisant le MPI (Message Passing Interface) mettre à l’échelle leur nombre de GPU jusqu’à plusieurs milliers. AWS Batch et AWS ParallelCluster aident les développeurs HPC à créer et mettre à l'échelle rapidement des applications HPC distribuées.

En savoir plus