AWS Trainium

Ottieni prestazioni elevate per il deep learning e la formazione sull'IA generativa riducendo al contempo i costi

Perché Trainium?

I chip AWS Trainium sono una famiglia di chip di intelligenza artificiale creati appositamente da AWS per l'addestramento e l'inferenza dell'IA per offrire prestazioni elevate riducendo i costi.

Il chip AWS Trainium di prima generazione alimenta le istanze Trn1 di Amazon Elastic Compute Cloud (Amazon EC2), che hanno costi di addestramento fino al 50% inferiori rispetto alle istanze Amazon EC2 comparabili. Molti clienti, tra cui Databricks, Ricoh, NinjaTech AI e Arcee AI, si stanno rendendo conto dei vantaggi in termini di prestazioni e costi delle istanze Trn1.

Il chip AWS Trainium2 offre prestazioni fino a 4 volte superiori rispetto a Trainium di prima generazione. Le istanze Trn2 di Amazon EC2 basate su Trainium2 sono create appositamente per l'IA generativa e sono le istanze EC2 più potenti per l'addestramento e l'implementazione di modelli con un numero di parametri che va da centinaia di miliardi fino a oltre un trilione. Le istanze Trn2 offrono un rapporto prezzo/prestazioni migliore del 30-40% rispetto all'attuale generazione di istanze EC2 P5e e P5en basate su GPU. Le istanze Trn2 sono dotate di 16 chip Trainium2 interconnessi con NeuronLink, la nostra interconnessione chip-to-chip proprietaria. Puoi utilizzare le istanze Trn2 per addestrare e implementare i modelli più impegnativi, che includono modelli linguistici di grandi dimensioni (LLM), modelli multimodali e trasformatori di diffusione, al fine di creare un'ampia gamma di applicazioni di IA generativa di nuova generazione. Gli UltraServer Trn2, un'offerta EC2 completamente nuova (disponibile in anteprima), sono ideali per i modelli più grandi che richiedono più memoria e larghezza di banda di memoria rispetto a quelle fornite dalle istanze EC2 autonome. Il design UltraServer utilizza NeuronLink per connettere 64 chip Trainium2 su quattro istanze Trn2 in un unico nodo, sbloccando nuove funzionalità. Per l'inferenza, gli UltraServer consentono di fornire tempi di risposta leader del settore per creare le migliori esperienze in tempo reale. Per l'addestramento, gli UltraServer aumentano la velocità e l'efficienza dell'addestramento dei modelli, grazie a una comunicazione collettiva più rapida per il parallelismo dei modelli rispetto alle istanze autonome.

Puoi iniziare ad addestrare e implementare i modelli con le istanze Trn2 e Trn1 con il supporto nativo per i framework di machine learning (ML) più diffusi come PyTorch e JAX.

Vantaggi

Gli UltraServer e le istanze Trn2 offrono prestazioni rivoluzionarie in Amazon EC2 per l'addestramento e l'inferenza dell'IA generativa. Ogni UltraServer Trn2 ha 64 chip Trainium2 interconnessi con NeuronLink, la nostra interconnessione chip-to-chip proprietaria, e offre fino a 83,2 petaflop di calcolo FP8, 6 TB di HBM3 con 185 terabyte al secondo (TBps) di larghezza di banda della memoria e 12,8 terabit al secondo (Tbps) di rete Elastic Fabric Adapter (EFA). Ogni istanza Trn2 ha 16 chip Trainium2 collegati a NeuronLink e fornisce fino a 20,8 petaflop di elaborazione FP8, 1,5 TB di HBM3 con 46 TBps di larghezza di banda della memoria e 3,2 Tbps di rete EFA. L'istanza Trn1 include fino a 16 chip Trainium e offre fino a 3 petaflop di elaborazione FP8, 512 GB di HBM con 9,8 TBps di larghezza di banda della memoria e fino a 1,6 Tbps di rete EFA.

L'SDK AWS Neuron ti consente di estrarre le prestazioni complete dalle istanze Trn2 e Trn1 in modo da poterti concentrare sulla creazione e sull'implementazione di modelli e sull'accelerazione del time-to-market. AWS Neuron si integra in modo nativo con JAX, PyTorch e librerie fondamentali come Hugging Face, PyTorch Lightning e NeMo. AWS Neuron supporta oltre 100.000 modelli sull'hub di modelli Hugging Face, inclusi quelli popolari come la famiglia di modelli Llama di Meta e Stable Diffusion XL. Ottimizza i modelli pronti all'uso per l'addestramento distribuito e l'inferenza, fornendo al contempo approfondimenti per la profilazione e il debug. AWS Neuron si integra con servizi come Amazon SageMaker, Amazon Elastic Kubernetes Service (Amazon EKS), Amazon Elastic Container Service (Amazon ECS), AWS ParallelCluster e Batch AWS, oltre a servizi di terze parti come Ray (Anyscale), Domino Data Lab e Datadog.

Per offrire prestazioni elevate e raggiungere gli obiettivi di precisione, i chip Trainium sono ottimizzati per FP32, TF32, BF16, FP16 e il nuovo tipo di dati FP8 (cFP8) configurabile. Per supportare il rapido ritmo dell'innovazione nell'IA generativa, Trainium2 dispone di ottimizzazioni hardware per la carenza 4x (16:4), il microscaling, l'arrotondamento stocastico e motori collettivi dedicati.

Neuron Kernel Interface (NKI) consente l'accesso diretto all'architettura del set di istruzioni (ISA) utilizzando un ambiente basato su Python con un'interfaccia simile a Triton, che permette di innovare nuove architetture di modelli e kernel di calcolo altamente ottimizzati che superano le tecniche esistenti.

Le istanze Trn2 sono progettate per essere tre volte più efficienti dal punto di vista energetico rispetto alle istanze Trn1. Le istanze Trn1 sono fino al 25% più efficienti dal punto di vista energetico rispetto a quelle EC2 di calcolo accelerato comparabili. Queste istanze consentono di raggiungere i tuoi obiettivi di sostenibilità durante l'addestramento di modelli di dimensioni ultra-grandi.

Video

Dietro le quinte, guarda l'infrastruttura di IA generativa di Amazon
Accelera il deep learning e innova più velocemente con AWS Trainium
Presentazione delle istanze Amazon EC2 Trn1 con tecnologia AWS Trainium