Amazon-EC2-P5-Instances

GPU-basierte Instances mit Höchstleistung für Deep-Learning- und HPC-Anwendungen

Warum Amazon-EC2-P5-Instances?

Amazon Elastic Compute Cloud (Amazon EC2) P5-Instances, unterstützt von NVIDIA H100 Tensor Core-GPUs, und P5e-Instances, die von NVIDIA H200 Tensor Core-GPUs unterstützt werden, bieten die höchste Leistung in Amazon EC2 für Deep-Learning-Anwendungen (DL) und High Performance Computing (HPC). Sie helfen Ihnen dabei, die Zeit bis zur Lösung im Vergleich zu GPU-basierten EC2-Instances der vorherigen Generation um das 4-fache zu verkürzen und die Kosten für das Training von ML-Modellen um bis zu 40 % zu senken. Diese Instances helfen Ihnen dabei, Ihre Lösungen schneller weiterzuentwickeln und schneller auf den Markt zu bringen. Sie können P5- und P5e-Instances für das Training und die Bereitstellung von immer komplexeren großen Sprachmodellen (LLMs) und Diffusionsmodellen verwenden, die die anspruchsvollsten generativen KI-Anwendungen antreiben. Diese Anwendungen umfassen die Beantwortung von Fragen, Codegenerierung, Video- und Bildgenerierung sowie Spracherkennung. Sie können diese Instances auch verwenden, um anspruchsvolle HPC-Anwendungen in großem Maßstab für die pharmazeutische Forschung, seismische Analyse, Wettervorhersage und Finanzmodellierung bereitzustellen.

Um diese Leistungsverbesserungen und Kosteneinsparungen zu erzielen, ergänzen P5- und P5e-Instances NVIDIA-H100- und H200-Tensor-Core-GPUs mit zweimal höherer CPU-Leistung, zweimal höherem Systemspeicher und viermal höherem lokalen Speicher im Vergleich zu GPU-basierten Instances der vorherigen Generation. Sie bieten marktführende Aufskalierungs-Fähigkeiten für verteiltes Training und eng gekoppelte HPC-Workloads mit bis zu 3 200 Gbit/s an Netzwerken mithilfe von Elastic Fabric Adapter (EFAv2) der zweiten Generation. Um umfangreiche Rechenleistung bei geringer Latenz bereitzustellen, werden P5- und P5e-Instances in Amazon EC2 UltraClusters bereitgestellt, die eine Skalierung auf bis zu 20 000 H100- oder H200-GPUs ermöglichen. Diese sind mit einem nicht-blockierenden Netzwerk im Petabit-Bereich verbunden. P5- und P5e-Instances in EC2-UltraClusters können bis zu 20 Exaflops an aggregierter Datenverarbeitungsleistung bereitstellen – eine Leistung, die der eines Supercomputers entspricht.

Amazon-EC2-P5-Instances

Vorteile

P5- und P5e-Instances können extrem große generative KI-Modelle im großen Umfang trainieren und bieten eine bis zu 4-fache Leistung von GPU-basierten EC2-Instances der vorherigen Generation.

P5- und P5e-Instances reduzieren die Trainingszeiten und die Zeit bis zur Lösung von Wochen auf nur wenige Tage. Dies hilft Ihnen, schneller zu iterieren und schneller auf den Markt zu kommen.

P5- und P5e-Instances bieten im Vergleich zu GPU-basierten EC2-Instances der vorherigen Generation Einsparungen bei den Kosten für DL-Training und HPC-Infrastruktur von bis zu 40 %.

P5- und P5e-Instances bieten EFAv2-Netzwerke mit bis zu 3 200 Gbit/s. Diese Instances werden in EC2-UltraCluster bereitgestellt und bieten eine aggregierte Rechenleistung von 20 Exaflops.

Funktionen

P5-Instances bieten bis zu 8 NVIDIA-H100-GPUs mit insgesamt bis zu 640 GB HBM3-GPU-Speicher pro Instance. P5e-Instances bieten bis zu 8 NVIDIA-H200-GPUs mit insgesamt bis zu 1 128 GB HBM3e-GPU-Speicher pro Instance. Beide Instances unterstützen bis zu 900 GB/s an NVSwitch-GPU-Interconnect (insgesamt 3,6 TB/s bisektionale Bandbreite in jeder Instance), sodass jede GPU mit jeder anderen GPU in derselben Instance mit Single-Hop-Latenz kommunizieren kann.

NVIDIA-H100- und -H200-GPUs verfügen über eine neue Transformer-Engine, die intelligent verwaltet und dynamisch zwischen FP8- und 16-Bit-Berechnungen wählt. Dieses Feature ermöglicht im Vergleich zu A100-GPUs der vorherigen Generation schnellere DL-Trainingsgeschwindigkeiten auf LLMs. Für HPC-Workloads verfügen NVIDIA-H100- und -H200-GPUs über neue DPX-Befehle, die dynamische Programmieralgorithmen im Vergleich zu A100-GPUs weiter beschleunigen.

P5- und P5e-Instances stellen EFAv2-Netzwerke mit bis zu 3 200 Gbit/s bereit. EFAv2 verbessert die Leistung der kollektiven Kommunikation bei verteilten Trainingsworkloads um bis zu 50 %. EFAv2 ist außerdem mit NVIDIA GPUDirect RDMA gekoppelt, um die GPU-zu-GPU-Kommunikation zwischen Servern mit geringer Latenz und Betriebssystemumgehung zu ermöglichen.

P5- und P5e-Instances unterstützen Amazon-FSx-für-Lustre-Dateisysteme, sodass Sie auf Daten mit einem Durchsatz von Hunderten von GB/s und Millionen von IOPS zugreifen können, die für umfangreiche DL- und HPC-Workloads erforderlich sind. Jede P5- und P5e-Instance unterstützt außerdem bis zu 30 TB lokalen NVMe-SSD-Speicher für den schnellen Zugriff auf große Datensätze. Mit Amazon Simple Storage Service (Amazon S3) können Sie auch praktisch unbegrenzten kostengünstigen Speicherplatz nutzen.

Kundenempfehlungen

Hier sind einige Beispiele dafür, wie Kunden und Partner ihre Geschäftsziele mit Amazon EC2 P4-Instances erreicht haben.

  • Anthropic

    Anthropic baut zuverlässige, interpretierbare und steuerbare KI-Systeme, die viele Möglichkeiten bieten werden, kommerziellen und öffentlichen Nutzen zu schaffen.

    Bei Anthropic arbeiten wir daran, zuverlässige, interpretierbare und steuerbare KI-Systeme zu entwickeln. Die großen allgemeinen KI-Systeme von heute können zwar erhebliche Vorteile haben, aber sie können auch unvorhersehbar, unzuverlässig und undurchsichtig sein. Unser Ziel ist es, bei diesen Problemen Fortschritte zu erzielen und Systeme einzusetzen, die die Menschen für nützlich halten. Unsere Organisation ist eine der wenigen auf der Welt, die grundlegende Modelle für die DL-Forschung entwickelt. Diese Modelle sind hochkomplex, und um diese hochmodernen Modelle zu entwickeln und zu trainieren, müssen wir sie effizient auf große GPU-Cluster verteilen. Wir nutzen Amazon-EC2-P4-Instances heute ausgiebig und freuen uns über die Einführung von P5-Instances. Wir erwarten, dass sie im Vergleich zu P4d-Instances erhebliche Preis-/Leistungsvorteile bieten und dass sie in dem riesigen Umfang verfügbar sein werden, der für die Entwicklung von LLMs der nächsten Generation und verwandter Produkte erforderlich ist.

    Tom Brown, Cofounder, Anthropic
  • Cohere

    Cohere, ein führender Pionier im Bereich Sprach-KI, ermöglicht es jedem Entwickler und Unternehmen, unglaubliche Produkte mit weltweit führender Technologie zur natürlichen Sprachverarbeitung (NLP) zu entwickeln und gleichzeitig die Privatsphäre und Sicherheit seiner Daten zu gewährleisten

    Cohere ist führend, wenn es darum geht, Unternehmen dabei zu unterstützen, die Möglichkeiten der Sprach-KI zu nutzen, um Informationen auf natürliche und intuitive Weise zu erforschen, zu generieren, zu suchen und darauf zu reagieren, und zwar auf mehreren Cloud-Plattformen in der Datenumgebung, die für jeden Kunden am besten geeignet ist. Von NVIDIA H100 unterstützte Amazon-EC2-P5-Instances werden es Unternehmen ermöglichen, schneller zu erstellen, zu wachsen und zu skalieren, indem sie ihre Rechenleistung mit den hochmodernen LLM- und generativen KI-Funktionen von Cohere kombinieren.

    Aidan Gomez, CEO, Cohere
  • Hugging Face

    Hugging Face hat es sich zur Aufgabe gemacht, gutes ML zu demokratisieren.

    Als die am schnellsten wachsende Open-Source-Community für ML stellen wir jetzt über 150 000 vortrainierte Modelle und 25 000 Datensätze auf unserer Plattform für NLP, Computer Vision, Biologie, Reinforcement-Learning und mehr zur Verfügung. Angesichts erheblicher Fortschritte in den Bereichen LLMs und generativer KI arbeiten wir mit AWS zusammen, um die Open-Source-Modelle von morgen zu entwickeln und einzubringen. Wir freuen uns darauf, Amazon-EC2-P5-Instances über Amazon SageMaker in großem Maßstab in UltraClusters mit EFA zu verwenden, um die Bereitstellung neuer KI-Grundmodelle für alle zu beschleunigen.

    Julien Chaumond, CTO and Cofounder, Hugging Face

Produktdetails

Instance-Größe vCPUs Instance-Arbeitsspeicher (TiB) GPU   GPU-Speicher Netzwerkbandbreite (Gbps) GPUDirect RDMA GPU-Peer-to-Peer Instance-Speicher (TB) EBS-Bandbreite (Gbit/s)
p5.48xlarge 192 2 8 H100 640 GB
HBM3
3200 Gbit/s EFA Ja 900 GB/s NVSwitch 8 x 3.84 NVMe-SSD 80
p5e.48xlarge 192 2 8 H200 1 128 GB
HBM3e
3 200 Gbit/s EFA Ja 900 GB/s NVSwitch 8 x 3.84 NVMe-SSD 80

Erste Schritte mit ML-Anwendungsfällen

SageMaker ist ein komplett verwalteter Service zum Erstellen, Trainieren und Bereitstellen von ML-Modellen. In Verbindung mit P5-Instances können Sie einfacher auf dutzende, hunderte oder tausende von GPUs skalieren, um ein Modell schnell in einem beliebigen Umfang zu trainieren, ohne sich Gedanken über die Einrichtung von Clustern und Data Pipelines machen zu müssen.

DLAMI bietet DL-Praktikern und -Forschern die Infrastruktur und Tools, um Deep Learning in der Cloud in jedem Maß zu beschleunigen. Deep-Learning-Container sind Docker-Images, auf denen DL-Frameworks vorinstalliert sind, um die Bereitstellung benutzerdefinierter ML-Umgebungen zu optimieren, indem Sie den komplizierten Prozess der Erstellung und Optimierung Ihrer Umgebungen von Grund auf überspringen.

Wenn Sie es vorziehen, Ihre eigenen containerisierten Workloads durch Container-Orchestrierungsservices zu verwalten, können Sie P5-Instances mit Amazon EKS oder Amazon ECS bereitstellen.

Erste Schritte mit HPC-Anwendungsfällen

P5-Instances eignen sich hervorragend für die Ausführung für technische Simulationen, computergestütztes Finanzwesen, seismische Analysen, molekulare Modellierung, Genomik, Rendering und andere GPU-basierte HPC-Workloads. HPC-Anwendungen benötigen häufig eine hohe Netzwerkleistung, schnelle Speicherung, viel Arbeitsspeicher, hohe Datenverarbeitungskapazitäten oder alles gleichzeitig. P5-Instances unterstützen EFAv2, wodurch HPC-Anwendungen, die das Message Passing Interface (MPI) verwenden, auf Tausende von GPUs skaliert werden können. AWS Batch und AWS ParallelCluster helfen HPC-Entwicklern, verteilte HPC-Anwendungen schnell zu erstellen und zu skalieren.

Weitere Informationen