Istanze Trn1 di Amazon EC2
Addestramento ad alte prestazioni e conveniente di modelli di IA generativa
Le istanze Trn1 di Amazon Elastic Compute Cloud (EC2), basate sui chip AWS Trainium, sono create appositamente per l'addestramento di deep learning (DL) ad alte prestazioni di modelli di IA generativa, inclusi modelli linguistici di grandi dimensioni (LLM) e modelli di diffusione latente. Le istanze Trn1 offrono fino al 50% di risparmio sui costi di addestramento rispetto ad altre istanze Amazon EC2 paragonabili. È possibile utilizzare le istanze Trn1 per addestrare modelli di IA generativa e DL con oltre 100 miliardi di parametri su un'ampia gamma di applicazioni, come riepilogo del testo, generazione di codice, risposta a domande, generazione di immagini e video, consigli e rilevamento di frodi.
L’SDK AWS Neuron consente agli sviluppatori di addestrare modelli su AWS Trainium e di implementarli sui chip AWS Inferentia. Si integra in modo nativo con framework come PyTorch e TensorFlow, così che sia possibile continuare a utilizzare i flussi di lavoro e il codice esistenti per addestrare modelli sulle istanze Trn1. Per conoscere l'attuale supporto di Neuron per framework e librerie di machine learning (ML), architetture di modelli e ottimizzazioni hardware, consulta la documentazione di Neuron.
Le istanze Trn1n sono ora disponibili
Le istanze Trn1n raddoppiano la larghezza di banda della rete (rispetto alle istanze Trn1) di Elastic Fabric Adapter (EFAv2) fino a 1600 Gbps. L'aumento della larghezza di banda offre fino al 20% in meno di tempo di addestramento rispetto a Trn1 per l'addestramento di modelli di IA generativa a uso intensivo di rete, come i modello linguistico di grandi dimensioni (LLM) e la miscela di esperti (MoE).
Vantaggi
Riduci i tempi di addestramento dei modelli con oltre 100 miliardi di parametri
Le istanze Trn1 sono progettate appositamente per DL ad alte prestazioni e riducono i tempi di addestramento da mesi a settimane, o addirittura giorni. Con tempi di addestramento ridotti, puoi iterare più velocemente, creare modelli più innovativi e aumentare la produttività. Le istanze Trn1n offrono un tempo di addestramento fino al 20% più veloce rispetto alle istanze Trn1 per i modelli che beneficiano di una maggiore larghezza di banda della rete.
Riduci i costi di calibrazione e pre-addestramento
Le istanze Trn1 offrono prestazioni elevate e al contempo risparmi sui costi di addestramento fino al 50% rispetto ad altre istanze Amazon EC2 comparabili.
Usa i framework e le librerie di ML esistenti
Usa l'SDK AWS Neuron per estrarre le prestazioni complete delle istanze Trn1. Con Neuron puoi utilizzare i framework ML più diffusi, come PyTorch e TensorFlow, e continuare a utilizzare il codice e i flussi di lavoro esistenti per addestrare modelli su istanze Trn1. Per iniziare rapidamente con le istanze Trn1, consulta esempi di modelli comuni nella documentazione di Neuron.
Scala fino a 6 exaflop con EC2 UltraClusters
Le istanze Trn1 supportano fino a 800 Gbps di larghezza di banda della rete Elastic Fabric Adapter (EFAv2) di seconda generazione. Le istanze Trn1n supportano fino a 1600 Gbps di larghezza di banda della rete EFAv2, in modo da fornire prestazioni ancora più elevate per i modelli ad alta intensità di rete. Entrambe le istanze sono implementate in EC2 UltraCluster che consentono di aggiungere fino a 30.000 chip Trainium, interconnessi con una rete non bloccante su scala petabit per fornire 6 exaflop di capacità di calcolo.
Come funziona
-
Utilizzo di AWS DLAMI
-
Utilizzo di Amazon EKS
-
Utilizzo di Amazon ECS
-
Uso di Amazon SageMaker
-
Utilizzo di AWS DLAMI
-
Utilizzo di Amazon EKS
-
Utilizzo di Amazon ECS
-
Uso di Amazon SageMaker
Caratteristiche
Fino a 3 petaflop con AWS Trainium
Le istanze Trn1 sono alimentate da un massimo di 16 chip AWS Trainium appositamente progettati per accelerare l'addestramento DL e fornire fino a 3 petaflop di potenza di elaborazione FP16/BF16. Ogni chip include due NeuronCore di seconda generazione.
Fino a 512 GB di memoria dell'acceleratore ad alta larghezza di banda
Per supportare un parallelismo efficiente di dati e modelli, ogni istanza Trn1 dispone di 512 GB di memoria dell’acceleratore condivisa (HBM) con 9,8 TB/s di larghezza di banda di memoria totale.
Reti e archiviazione ad alte prestazioni
Per supportare l'addestramento di modelli ad alta intensità di rete, come Mixture of Experts (MoE) e Generative Pre-Training Transformers (GPT), ogni istanza Trn1n offre fino a 1600 Gbps di larghezza di banda della rete EFAv2. Ogni istanza Trn1 supporta fino a 800 Gbps di larghezza di banda EFAv2. EFAv2 velocizza l'addestramento distribuito offrendo un miglioramento fino al 50% delle prestazioni di comunicazione collettiva rispetto agli EFA di prima generazione. Queste istanze supportano anche fino a 80 Gbps di larghezza di banda Amazon Elastic Block Store (EBS) e fino a 8 TB di archiviazione locale su unità a stato solido (SSD) NVMe per un accesso rapido al carico di lavoro a set di dati di grandi dimensioni.
Interconnessione NeuronLink
Per una connettività rapida tra chip Trainium e comunicazioni collettive semplificate, le istanze Trn1 supportano fino a 768 GB/s di NeuronLink, un'interconnessione non bloccante ad alta velocità.
Ottimizzazione per nuovi tipi di dati
Per offrire prestazioni elevate e raggiungere gli obiettivi di precisione, le istanze Trn1 sono ottimizzate per FP32, TF32, BF16, FP16, UINT8 e il nuovo tipo di dati FP8 (cFP8) configurabile.
Ottimizzazioni DL all'avanguardia
Per supportare la rapida innovazione di DL e IA generativa, le istanze Trn1 presentano diverse novità che le rendono flessibili ed estensibili per addestrare modelli DL in continua evoluzione. Le istanze Trn1 dispongono di ottimizzazioni hardware e supporto software per forme di input dinamiche. Per consentire il supporto di nuovi operatori in futuro, sono compatibili con operatori personalizzati scritti in C++. Supportano inoltre l'arrotondamento stocastico, un metodo di arrotondamento probabilistico per ottenere prestazioni elevate e una maggiore precisione rispetto alle modalità di arrotondamento tradizionali.
Clienti
"Migliaia di clienti hanno implementato Databricks su AWS, dando la possibilità di utilizzare MosaicML per pre-addestrare, mettere a punto e servire modelli di base per una varietà di casi d'uso. AWS Trainium ci offre la scalabilità e le alte prestazioni necessarie per addestrare i nostri modelli Mosaic MPT e a basso costo. Man mano che addestriamo i nostri modelli Mosaic MPT di nuova generazione, Trainium2 consentirà di creare modelli ancora più velocemente, consentendoci di fornire ai nostri clienti scalabilità e prestazioni senza precedenti in modo che possano portare le proprie applicazioni di IA generativa sul mercato più rapidamente".
Naveen Rao, VP of Generative AI, Databricks
"Con 16 nodi di istanze Amazon EC2 Trn1 alimentati dai chip AWS Trainium, abbiamo sviluppato e rilasciato stockmark-13b, un modello linguistico di grandi dimensioni con 13 miliardi di parametri, pre-addestrato da zero su un corpus giapponese di 220 miliardi di token. Il corpus include gli ultimi testi relativi ai domini aziendali fino a settembre 2023. Il modello ha ottenuto il punteggio JSQuAD più alto (0,813) nel benchmark JGLUE (Japanese General Language Understanding Evaluation) rispetto ad altri modelli equivalenti. È disponibile su Hugging Face Hub e può essere utilizzato commercialmente con la licenza MIT. Le istanze Trn1 ci hanno aiutato a ottenere una riduzione dei costi di formazione del 20% rispetto alle istanze GPU equivalenti".
Kosuke Arima, CTO, Stockmark Co., Ltd.
Yoshiaki Umetsu, Director, Digital Technology Development Center, RICOH
"In HeliXon, creiamo soluzioni di intelligenza artificiale di nuova generazione per terapie a base di proteine. Il nostro obiettivo è sviluppare strumenti di intelligenza artificiale che consentano agli scienziati di decifrare la funzione e l'interazione delle proteine, interrogare set di dati genomici su larga scala per l'identificazione dei bersagli, e infine progettare terapie come anticorpi e terapie cellulari. Oggi utilizziamo librerie di distribuzione dell'addestramento come FSDP per parallelizzare l'addestramento dei modelli su diversi server basati su GPU, ma ci vogliono ancora settimane per addestrare un singolo modello. Siamo entusiasti di utilizzare le istanze Trn1 di Amazon EC2, dotate della massima larghezza di banda della rete (800 Gbps) disponibile in AWS per migliorare le prestazioni dei nostri processi di addestramento distribuiti e ridurre i tempi di addestramento dei nostri modelli, riducendo al tempo stesso i costi".
Jian Peng, CEO, Helixon
Money Forward, Inc. offre ad aziende e privati una piattaforma finanziaria equa e aperta.
"Abbiamo lanciato un servizio di chatbot IA su larga scala sulle istanze Inf1 di Amazon EC2 e ridotto la nostra latenza di inferenza del 97% rispetto a istanze analoghe basate su GPU, riducendo al contempo i costi. Poiché continuiamo a perfezionare periodicamente modelli NLP personalizzati, è importante anche ridurre i tempi e i costi di addestramento dei modelli. Sulla base della nostra esperienza derivante dalla corretta migrazione del carico di lavoro di inferenza su istanze Inf1 e sul nostro lavoro iniziale su istanze EC2 Trn1 basate su AWS Trainium, prevediamo che le istanze Trn1 forniranno un valore aggiunto nel miglioramento delle prestazioni e dei costi di ML end-to-end".
Takuya Nakade, CTO, Money Forward Inc.
Magic è un'azienda di ricerca e prodotti integrati che sta sviluppando un'IA che venga percepita come un collega allo scopo di rendere il mondo più produttivo.
"L'addestramento di modelli autoregressivi di grandi dimensioni basati su Transformer è una componente essenziale del nostro lavoro. Le istanze Trn1 basate su AWS Trainium sono progettate specificamente per questi carichi di lavoro e offrono scalabilità quasi infinita, rete tra nodi veloce e supporto avanzato per tipi di dati a 16 e 8 bit. Le istanze Trn1 ci aiuteranno ad addestrare modelli di grandi dimensioni più velocemente e a un costo inferiore. Siamo particolarmente entusiasti del supporto nativo per l'arrotondamento stocastico BF16 in Trainium, il quale aumenta le prestazioni mentre la precisione numerica è indistinguibile da quella completa".
Eric Steinberger, Cofounder e CEO, Magic
CACTUS offre una suite di prodotti e soluzioni per ricercatori e organizzazioni in grado di migliorare il modo in cui la ricerca viene finanziata, pubblicata, comunicata e scoperta.
"In Cactus Labs sfruttiamo la potenza dell'IA con ricerche incentrate sull'elaborazione del linguaggio naturale, sulla classificazione e sulle raccomandazioni, sull'intelligenza artificiale conversazionale, sui modelli linguistici di grandi dimensioni, sulla visione artificiale, AR/VR e XAI. In linea con il nostro obiettivo di consentire un addestramento più rapido dei modelli di machine learning e permettere ai nostri ricercatori di eseguire più esperimenti, gestendo al contempo i costi dell'infrastruttura, siamo stati lieti di valutare AWS Trainium. Le funzionalità preconfigurate di AWS Trainium, come l'ottimizzazione XLA, l'addestramento in parallelo di dati con più operatori e la memorizzazione nella cache di grafici, ci sono davvero utili per ridurre i tempi di addestramento e aiutarci a eseguire più esperimenti in modo più rapido ed economico".
Nishchay Shah, CTO e Head of Emerging Products, Cactus Communications
Watashiha offre un servizio di IA chatbot innovativo e interattivo, "OGIRI AI", che incorpora l'elemento umoristico per fornire una risposta divertente all'istante a una domanda.
"Utilizziamo modelli linguistici di grandi dimensioni per incorporare l'umorismo e offrire un'esperienza più pertinente e colloquiale ai nostri clienti sui nostri servizi di intelligenza artificiale. Ciò richiede di pre-addestrare e calibrare questi modelli frequentemente. Abbiamo pre-addestrato un modello giapponese basato su GPT sull'istanza EC2 Trn1.32xlarge, sfruttando il parallelismo di tensori e dati. L'addestramento è stato completato entro 28 giorni con una riduzione dei costi del 33% rispetto alla nostra precedente infrastruttura basata su GPU. Poiché i nostri modelli continuano a crescere rapidamente in termini di complessità, attendiamo con impazienza le istanze Trn1n con il doppio della larghezza di banda della rete di Trn1, così da accelerare l'addestramento di modelli più grandi".
Yohei Kobashi, CTO, Watashiha, K.K.
Partner
"In PyTorch acceleriamo il passaggio del machine learning dalla prototipazione per la ricerca alla produzione per i clienti. Abbiamo collaborato a lungo con il team AWS per fornire supporto PyTorch nativo per le nuove istanze Amazon EC2 Trn1 basate su AWS Trainium, create appositamente per l'addestramento di modelli di deep learning. Gli sviluppatori che creano modelli PyTorch possono iniziare l'addestramento sulle istanze Trn1 con modifiche minime al codice. Inoltre, abbiamo collaborato con la comunità OpenXLA per abilitare le librerie distribuite PyTorch per una facile migrazione dei modelli da istanze basate su GPU a istanze Trn1. Siamo entusiasti dell'innovazione che le istanze Trn1 apportano alla comunità PyTorch, tra cui tipi di dati più efficienti, forme dinamiche, operatori personalizzati, arrotondamento stocastico ottimizzato per l'hardware e modalità di debug eager. Tutto ciò rende Trn1 adatto per un'ampia adozione da parte degli sviluppatori di PyTorch, inoltre attendiamo con impazienza futuri contributi congiunti a PyTorch per ottimizzare ulteriormente le prestazioni di addestramento".
Geeta Chauhan, Applied AI, Engineering Manager, PyTorch
"La missione di Hugging Face è di democratizzare il machine learning per aiutare gli sviluppatori di ML di tutto il mondo a risolvere problemi nel mondo reale. E la chiave per farlo è garantire che i modelli più recenti e migliori vengano eseguiti nel modo più rapido ed efficiente possibile sui migliori chip ML del cloud. Siamo incredibilmente entusiasti del potenziale che Inferentia2 diventi il nuovo modo standard per implementare modelli di IA generativa su larga scala. Con Inf1, abbiamo registrato una riduzione dei costi fino al 70% rispetto alle tradizionali istanze basate su GPU e con Inf2 abbiamo riscontrato una latenza fino a 8 volte inferiore per i Transformers simili a BERT rispetto a Inferentia1. Con Inferentia2, la nostra community sarà in grado di adattare facilmente queste prestazioni agli LLM con una scala di oltre 100 miliardi di parametri, oltre che ai più recenti modelli di diffusione e visione artificiale".
Servizi Amazon che utilizzano istanze Trn1
Il motore di ricerca di prodotti di Amazon indicizza miliardi di prodotti, soddisfa ogni giorno miliardi di domande dei clienti ed è uno dei servizi più utilizzati al mondo.
"Stiamo addestrando modelli linguistici di grandi dimensioni (LLM) multimodali (testo + immagine), multilingue, con più impostazioni internazionali, pre-addestrati su più attività e che coinvolgono diverse entità (prodotti, domande, marchi, recensioni, ecc.) per migliorare l'esperienza di acquisto dei clienti. Le istanze Trn1 forniscono un modo più sostenibile per addestrare gli LLM, offrendo il miglior rapporto prestazioni/watt rispetto ad altre soluzioni di machine learning accelerato, oltre a garantirci prestazioni elevate a costi più bassi. Abbiamo intenzione di esplorare il nuovo tipo di dati FP8 configurabile e l'arrotondamento stocastico con accelerazione hardware per aumentare ulteriormente l'efficienza dell'addestramento e la velocità di sviluppo".
Trishul Chilimbi, vicepresidente di Amazon Search
Nozioni di base
Uso di Amazon SageMaker
Puoi addestrare modelli su istanze Trn1 con facilità utilizzando Amazon SageMaker. Riduci in modo significativo i tempi e i costi di addestramento e ottimizzazione dei modelli ML senza la necessità di gestire l'infrastruttura. Con SageMaker, è possibile utilizzare strumenti integrati per gestire e tenere traccia degli esperimenti di addestramento, scegliere automaticamente gli iperparametri ottimali, eseguire il debug dei processi di addestramento e monitorare l'uso delle risorse di sistema.
Utilizzo delle AMI di AWS Deep Learning
Utilizzo dei container AWS per il Deep Learning
Dettagli del prodotto
Dimensioni istanza | Chip Trainium |
Acceleratore Memoria (GB) |
vCPU | Istanza Memoria (GiB) |
Locale NVMe Archiviazione (TB) |
Rete Larghezza di banda (Gb/s) |
EFA e RDMA Supporto |
EBS Larghezza di banda (Gb/s) |
On demand Prezzo all'ora |
1 anno Riservate Istanza Effettivo Orario* |
3 anni Riservate Istanza Effettivo Orario* |
trn1.2xlarge | 1 | 32 | 8 | 32 | 0,5 | Fino a 12,5 | No | Fino a 20 | 1,34 USD | 0,79 USD | 0,4744 USD |
trn1.32xlarge | 16 | 512 | 128 | 512 | 8 | 800 | Sì | 80 | 21,50 USD | 12,60 USD | 7,59 USD |
trn1n.32xlarge |
16 | 512 | 128 | 512 | 8 | 1.600 | Sì | 80 | 24,78 USD | 14,52 USD | 8,59 USD |
Registrati per creare un account AWS
Ottieni accesso istantaneo al piano gratuito di AWS.
Impara con i tutorial di 10 minuti
Esplora e impara con semplici tutorial.
Inizia a lavorare nella console
Inizia a creare seguendo le istruzioni contenute nelle guide dettagliate per avviare un progetto AWS.