Che cos'è SageMaker HyperPod?
Amazon SageMaker HyperPod rimuove i carichi indifferenziati necessari per lo sviluppo e l'ottimizzazione di infrastrutture di machine learning (ML) per l'addestramento di modelli di fondazione (FM), riducendo il tempo di addestramento fino al 40%. SageMaker HyperPod è preconfigurato con le librerie di addestramento distribuite di SageMaker che consentono ai clienti di dividere automaticamente i carichi di lavoro tra migliaia di acceleratori, in modo che possano essere elaborati in parallelo per migliorare le prestazioni del modello. Inoltre, SageMaker HyperPod garantisce ai clienti la possibilità di continuare l'addestramento dei FM senza interruzioni tramite checkpoint di salvataggio periodico. Quando si verifica un guasto hardware durante l'addestramento, SageMaker HyperPod rileva automaticamente il guasto, ripara o sostituisce l'istanza difettosa e riprende l'addestramento dall'ultimo checkpoint di salvataggio, eliminando la necessità di gestire manualmente il processo e aiutando a condurre l'addestramento per settimane o mesi in un ambiente distribuito senza interruzioni.
Vantaggi di SageMaker HyperPod
Librerie di addestramento distribuite e ottimizzate
SageMaker HyperPod è preconfigurato con librerie distribuite SageMaker. Con solo poche righe di codice, è possibile abilitare il parallelismo dei dati negli script di addestramento. SageMaker HyperPod velocizza l'esecuzione dell'addestramento distribuito suddividendo automaticamente i modelli e i set di dati di addestramento tra le istanze GPU AWS.
Ulteriori informazioni »
Esegui il debug e migliora le prestazioni dei modelli
È possibile utilizzare strumenti ML dedicati in SageMaker HyperPod per migliorare le prestazioni di addestramento. Amazon SageMaker con TensorBoard aiuta a risparmiare tempo di sviluppo visualizzando l'architettura del modello per identificare e risolvere i problemi di convergenza, come la perdita di convalida, la non convergenza o la scomparsa dei gradienti.
Controllo dell'integrità e riparazione automatici del cluster
Se qualche istanza diventa difettosa durante lo svolgimento di un carico di lavoro di addestramento, SageMaker HyperPod rileva e sostituisce i nodi difettosi con nodi integri. Per rilevare hardware difettoso, SageMaker HyperPod esegue regolarmente una serie di controlli dell'integrità di GPU e rete.