Amazon-EC2-P5-Instances

GPU-basierte Instances mit Höchstleistung für Deep-Learning- und HPC-Anwendungen

Warum Amazon-EC2-P5-Instances?

P5-Instances von Amazon Elastic Compute Cloud (Amazon EC2), unterstützt von NVIDIA H100 Tensor Core-GPUs, und P5e- und P5en-Instances, unterstützt von NVIDIA H200 Tensor Core-GPUs, bieten die höchste Leistung in Amazon EC2 für Anwendungen des Deep Learnings (DL) und High Performance Computings (HPC). Sie helfen Ihnen dabei, die Zeit bis zur Lösung im Vergleich zu GPU-basierten EC2-Instances der vorherigen Generation um das 4-fache zu verkürzen und die Kosten für das Training von ML-Modellen um bis zu 40 % zu senken. Diese Instances helfen Ihnen dabei, Ihre Lösungen schneller weiterzuentwickeln und schneller auf den Markt zu bringen. Sie können P5-, P5e- und P5en-Instances für das Training und die Bereitstellung von immer komplexeren großen Sprachmodellen (LLMs) und Diffusionsmodellen verwenden, die die anspruchsvollsten Anwendungen generativer künstlicher Intelligenz (KI) unterstützen. Diese Anwendungen umfassen die Beantwortung von Fragen, Codegenerierung, Video- und Bildgenerierung sowie Spracherkennung. Sie können diese Instances auch verwenden, um anspruchsvolle HPC-Anwendungen in großem Maßstab für die pharmazeutische Forschung, seismische Analyse, Wettervorhersage und Finanzmodellierung bereitzustellen.

Um diese Leistungsverbesserungen und Kosteneinsparungen zu erzielen, ergänzen P5- und P5e-Instances NVIDIA-H100- und H200-Tensor-Core-GPUs mit zweimal höherer CPU-Leistung, zweimal höherem Systemspeicher und viermal höherem lokalen Speicher im Vergleich zu GPU-basierten Instances der vorherigen Generation. P5en-Instances kombinieren NVIDIA H200 Tensor Core-GPUs mit einer leistungsstarken Intel Sapphire Rapids-CPU und ermöglichen so Gen5-PCIe zwischen CPU und GPU. P5en-Instances bieten im Vergleich zu P5e- und P5-Instances eine bis zu viermal so große Bandbreite zwischen CPU und GPU und eine geringere Netzwerklatenz, wodurch die verteilte Trainingsleistung verbessert wird. Die Unterstützung von P5- und P5e-Instances ermöglicht mithilfe des Elastic Fabric Adapters (EFA) der zweiten Generation ein Netzwerk von bis zu 3 200 Gbit/s. P5en, mit der dritten Generation von EFA mit Nitro v5, zeigt eine Verbesserung der Latenz um bis zu 35 % im Vergleich zu P5, das die vorherige Generation von EFA und Nitro verwendet. Dies trägt dazu bei, die kollektive Kommunikationsleistung für verteilte Trainingsworkloads wie Anwendungen des Deep Learnings, generativer KI, der Echtzeitdatenverarbeitung und des High-Performance Computings (HPC) zu verbessern. Um umfangreiche Rechenleistung bei geringer Latenz bereitzustellen, werden diese Instances in Amazon EC2 UltraClustern bereitgestellt, die eine Skalierung auf bis zu 20 000 H100- oder H200-GPUs ermöglichen, verbunden mit einem blockierungsfreien Netzwerk im Petabit-Bereich. P5-, P5e- und P5en-Instances in EC2 UltraClusters können bis zu 20 Exaflops an aggregierter Datenverarbeitungsleistung bereitstellen – eine Leistung, die der eines Supercomputers entspricht.

Amazon-EC2-P5-Instances

Vorteile

Parametermodelle über 100 B in großem Umfang trainieren

P5-, P5e- und P5en-Instances können extrem große generative KI-Modelle im großen Umfang trainieren und bieten eine bis zu 4-fache Leistung von GPU-basierten EC2-Instances der vorherigen Generation.

Zeit bis zur Lösung verkürzen und schneller iterieren

P5-, P5e- und P5en-Instances reduzieren die Trainingszeiten und die Zeit bis zur Lösung von Wochen auf nur wenige Tage. Dies hilft Ihnen, schneller zu iterieren und schneller auf den Markt zu kommen.

DL- und HPC-Infrastrukturkosten senken

P5-, P5e- und P5en-Instances bieten im Vergleich zu GPU-basierten EC2-Instances der vorherigen Generation Einsparungen bei den Kosten für DL-Training und HPC-Infrastruktur von bis zu 40 %.

Verteiltes Training und HPC mit Exascale-Computing ausführen

P5-, P5e- und P5en-Instances bieten EFA-Netzwerke mit bis zu 3 200 Gbit/s. Diese Instances werden in EC2-UltraCluster bereitgestellt und bieten eine aggregierte Rechenleistung von 20 Exaflops.

Funktionen

NVIDIA H100- und H200-Tensor-Core-GPUs

P5-Instances bieten bis zu 8 NVIDIA-H100-GPUs mit insgesamt bis zu 640 GB HBM3-GPU-Speicher pro Instance. P5e- und P5en-Instances bieten bis zu 8 NVIDIA H200-GPUs mit insgesamt bis zu 1 128 GB HBM3e-GPU-Speicher pro Instance. Beide Instances unterstützen bis zu 900 GB/s an NVSwitch-GPU-Interconnect (insgesamt 3,6 TB/s bisektionale Bandbreite in jeder Instance), sodass jede GPU mit jeder anderen GPU in derselben Instance mit Single-Hop-Latenz kommunizieren kann.

Neue Transformer-Engine und DPX-Anweisungen

NVIDIA-H100- und -H200-GPUs verfügen über eine neue Transformer-Engine, die intelligent verwaltet und dynamisch zwischen FP8- und 16-Bit-Berechnungen wählt. Dieses Feature ermöglicht im Vergleich zu A100-GPUs der vorherigen Generation schnellere DL-Trainingsgeschwindigkeiten auf LLMs. Für HPC-Workloads verfügen NVIDIA-H100- und -H200-GPUs über neue DPX-Befehle, die dynamische Programmieralgorithmen im Vergleich zu A100-GPUs weiter beschleunigen.

Leistungsstarkes Netzwerk

P5-, P5e- und P5en-Instances stellen EFA-Netzwerke mit bis zu 3 200 Gbit/s bereit. EFA ist außerdem mit NVIDIA GPUDirect RDMA gekoppelt, um die GPU-zu-GPU-Kommunikation zwischen Servern mit geringer Latenz und Betriebssystemumgehung zu ermöglichen.

Leistungsstarker Speicher

P5-, P5e- und P5en-Instances unterstützen Amazon FSx für Lustre-Dateisysteme, sodass Sie auf Daten mit einem Durchsatz von Hunderten von GB/s und Millionen von IOPS zugreifen können, die für umfangreiche DL- und HPC-Workloads erforderlich sind. Jede Instance unterstützt außerdem bis zu 30 TB lokalen NVMe-SSD-Speicher für den schnellen Zugriff auf große Datensätze. Mit Amazon Simple Storage Service (Amazon S3) können Sie auch praktisch unbegrenzten kostengünstigen Speicherplatz nutzen.

Kundenempfehlungen

Hier sind einige Beispiele dafür, wie Kunden und Partner ihre Geschäftsziele mit Amazon EC2 P4-Instances erreicht haben.

Anthropic

Anthropic baut zuverlässige, interpretierbare und steuerbare KI-Systeme, die viele Möglichkeiten bieten werden, kommerziellen und öffentlichen Nutzen zu schaffen.

Bei Anthropic arbeiten wir daran, zuverlässige, interpretierbare und steuerbare KI-Systeme zu entwickeln. Die großen allgemeinen KI-Systeme von heute können zwar erhebliche Vorteile haben, aber sie können auch unvorhersehbar, unzuverlässig und undurchsichtig sein. Unser Ziel ist es, bei diesen Problemen Fortschritte zu erzielen und Systeme einzusetzen, die die Menschen für nützlich halten. Unsere Organisation ist eine der wenigen auf der Welt, die grundlegende Modelle für die DL-Forschung entwickelt. Diese Modelle sind hochkomplex, und um diese hochmodernen Modelle zu entwickeln und zu trainieren, müssen wir sie effizient auf große GPU-Cluster verteilen. Wir nutzen Amazon-EC2-P4-Instances heute ausgiebig und freuen uns über die Einführung von P5-Instances. Wir erwarten, dass sie im Vergleich zu P4d-Instances erhebliche Preis-/Leistungsvorteile bieten und dass sie in dem riesigen Umfang verfügbar sein werden, der für die Entwicklung von LLMs der nächsten Generation und verwandter Produkte erforderlich ist.

Tom Brown, Cofounder, Anthropic
Cohere

Cohere, ein führender Pionier im Bereich Sprach-KI, ermöglicht es jedem Entwickler und Unternehmen, unglaubliche Produkte mit weltweit führender Technologie zur natürlichen Sprachverarbeitung (NLP) zu entwickeln und gleichzeitig die Privatsphäre und Sicherheit seiner Daten zu gewährleisten

Cohere ist führend, wenn es darum geht, Unternehmen dabei zu unterstützen, die Möglichkeiten der Sprach-KI zu nutzen, um Informationen auf natürliche und intuitive Weise zu erforschen, zu generieren, zu suchen und darauf zu reagieren, und zwar auf mehreren Cloud-Plattformen in der Datenumgebung, die für jeden Kunden am besten geeignet ist. Von NVIDIA H100 unterstützte Amazon-EC2-P5-Instances werden es Unternehmen ermöglichen, schneller zu erstellen, zu wachsen und zu skalieren, indem sie ihre Rechenleistung mit den hochmodernen LLM- und generativen KI-Funktionen von Cohere kombinieren.

Aidan Gomez, CEO, Cohere
Hugging Face

Hugging Face hat es sich zur Aufgabe gemacht, gutes ML zu demokratisieren.

Als die am schnellsten wachsende Open-Source-Community für ML stellen wir jetzt über 150 000 vortrainierte Modelle und 25 000 Datensätze auf unserer Plattform für NLP, Computer Vision, Biologie, Reinforcement-Learning und mehr zur Verfügung. Angesichts erheblicher Fortschritte in den Bereichen LLMs und generativer KI arbeiten wir mit AWS zusammen, um die Open-Source-Modelle von morgen zu entwickeln und einzubringen. Wir freuen uns darauf, Amazon-EC2-P5-Instances über Amazon SageMaker in großem Maßstab in UltraClusters mit EFA zu verwenden, um die Bereitstellung neuer KI-Grundmodelle für alle zu beschleunigen.

Julien Chaumond, CTO and Cofounder, Hugging Face

Produktdetails

Instance-Größe	vCPUs	Instance-Arbeitsspeicher (TiB)	GPU	GPU-Speicher	Netzwerkbandbreite (Gbps)	GPUDirect RDMA	GPU-Peer-to-Peer	Instance-Speicher (TB)	EBS-Bandbreite (Gbit/s)
p5.48xlarge	192	2	8 H100	640 GB HBM3	3200 Gbit/s EFA	Ja	900 GB/s NVSwitch	8 x 3.84 NVMe-SSD	80
p5e.48xlarge	192	2	8 H200	1 128 GB HBM3e	3 200 Gbit/s EFA	Ja	900 GB/s NVSwitch	8 x 3.84 NVMe-SSD	80
p5en.48xlarge	192	2	8 H200	1128 GB HBM3e	3 200 Gbit/s EFA	Ja	900 GB/s NVSwitch	8 x 3.84 NVMe-SSD	100

Erste Schritte mit ML-Anwendungsfällen

Verwenden von SageMaker

SageMaker ist ein komplett verwalteter Service zum Erstellen, Trainieren und Bereitstellen von ML-Modellen. Mit SageMaker HyperPod können Sie einfacher auf dutzende, hunderte oder tausende von GPUs skalieren, um ein Modell schnell in einem beliebigen Umfang zu trainieren, ohne sich Gedanken über die Einrichtung und Verwaltung von stabilen Trainingsclustern machen zu müssen.

Einsatz von DLAMI oder Deep-Learning-Containern

DLAMI bietet DL-Praktikern und -Forschern die Infrastruktur und Tools, um Deep Learning in der Cloud in jedem Maß zu beschleunigen. Deep-Learning-Container sind Docker-Images, auf denen DL-Frameworks vorinstalliert sind, um die Bereitstellung benutzerdefinierter ML-Umgebungen zu optimieren, indem Sie den komplizierten Prozess der Erstellung und Optimierung Ihrer Umgebungen von Grund auf überspringen.

Verwenden von Amazon EKS oder Amazon ECS

Wenn Sie es vorziehen, Ihre eigenen containerisierten Workloads durch Container-Orchestrierungsservices zu verwalten, können Sie P5-, P5e- und P5en-Instances mit Amazon EKS oder Amazon ECS bereitstellen.

Erste Schritte mit HPC-Anwendungsfällen

P5-, P5e- und P5en-Instances eignen sich hervorragend für die Ausführung von technischen Simulationen, computergestütztem Finanzwesen, seismischen Analysen, molekularer Modellierung, Genomik, Rendering und anderen GPU-basierten HPC-Workloads. HPC-Anwendungen benötigen häufig eine hohe Netzwerkleistung, schnelle Speicherung, viel Arbeitsspeicher, hohe Datenverarbeitungskapazitäten oder alles gleichzeitig. Alle drei Instance-Typen unterstützen EFA, mit dem HPC-Anwendungen, die das Message Passing Interface (MPI) verwenden, auf Tausende von GPUs skaliert werden können. AWS Batch und AWS ParallelCluster helfen HPC-Entwicklern, verteilte HPC-Anwendungen schnell zu erstellen und zu skalieren.

Weitere Informationen

Erste Schritte mit AWS

Schritt 1: Anmeldung für ein AWS-Konto

Sie erhalten sofort Zugriff auf das kostenlose AWS-Kontingent.

Weitere Informationen

Schritt 2: Mit 10-Minuten-Anleitungen lernen

Entdecken und lernen Sie mit einfachen Schulungen.

Weitere Informationen

Schritt 3: Mit der Entwicklung mit AWS beginnen

Beginnen Sie mit der Erstellung und nutzen Sie dazu schrittweise Anleitungen, die Ihnen beim Starten Ihres AWS-Projekts helfen.

Weitere Informationen

Wählen Sie Ihre Cookie-Einstellungen aus

Amazon-EC2-P5-Instances

GPU-basierte Instances mit Höchstleistung für Deep-Learning- und HPC-Anwendungen

Warum Amazon-EC2-P5-Instances?

Amazon-EC2-P5-Instances

Vorteile

Parametermodelle über 100 B in großem Umfang trainieren

Zeit bis zur Lösung verkürzen und schneller iterieren

DL- und HPC-Infrastrukturkosten senken

Verteiltes Training und HPC mit Exascale-Computing ausführen

Funktionen

NVIDIA H100- und H200-Tensor-Core-GPUs

Neue Transformer-Engine und DPX-Anweisungen

Leistungsstarkes Netzwerk

Leistungsstarker Speicher

Kundenempfehlungen

Anthropic

Cohere

Hugging Face

Produktdetails

Erste Schritte mit ML-Anwendungsfällen

Verwenden von SageMaker

Einsatz von DLAMI oder Deep-Learning-Containern

Verwenden von Amazon EKS oder Amazon ECS

Erste Schritte mit HPC-Anwendungsfällen

Erste Schritte mit AWS

Schritt 1: Anmeldung für ein AWS-Konto

Schritt 2: Mit 10-Minuten-Anleitungen lernen

Schritt 3: Mit der Entwicklung mit AWS beginnen

Ende des Supports für Internet Explorer