Qu’est-ce qu’Amazon SageMaker HyperPod ?
AmazonSageMaker HyperPod élimine les tâches fastidieuses liées à la création et à l'optimisation d'une infrastructure de machine learning (ML) pour l'entraînement des systèmes d'IA à usage général (FM), réduisant la durée de l'entraînement jusqu'à 40 %. SageMaker HyperPod est préconfiguré avec les bibliothèques de formation distribuées de SageMaker qui permettent aux clients de répartir automatiquement les charges de travail de formation entre des milliers d'accélérateurs, afin que les charges de travail puissent être traitées en parallèle pour améliorer les performances du modèle. SageMaker HyperPod permet également aux clients de poursuivre l'entraînement des FM sans interruption en enregistrant périodiquement les points de contrôle. Lorsqu'une panne matérielle survient pendant la formation, SageMaker HyperPod détecte automatiquement la panne, répare ou remplace l'instance défectueuse et reprend la formation à partir du dernier point de contrôle enregistré, évitant ainsi aux clients de gérer manuellement ce processus et les aidant à s'entraîner pendant des semaines ou des mois dans un environnement distribué sans interruption.
Avantages de SageMaker HyperPod
Bibliothèques d'entraînement distribué optimisées
SageMaker HyperPod est préconfiguré avec les bibliothèques distribuées SageMaker. Avec seulement quelques lignes de code, vous pouvez activer le parallélisme des données dans vos scripts d'entraînement. SageMaker HyperPod accélère l'exécution d'entraînements distribués en répartissant automatiquement vos modèles et vos jeux de données d'entraînement entre les instances GPU AWS.
En savoir plus »
Planification et orchestration des charges de travail
Déboguer et améliorer les performances du modèle
Vous pouvez utiliser des outils de ML spécialement conçus dans SageMaker HyperPod pour améliorer les performances d'entraînement. Amazon SageMaker avec TensorBoard vous aide à gagner du temps de développement en visualisant l'architecture du modèle afin d'identifier et de résoudre les problèmes de convergence, tels que la perte de validation, l'absence de convergence ou la disparition de gradients.
Surveillance de l'état et réparation du cluster automatiques
Si des instances deviennent défectueuses pendant une charge de travail d'entraînement, SageMaker HyperPod détecte automatiquement les nœuds défectueux et les remplace par des nœuds sains. Pour détecter le matériel défectueux, SageMaker HyperPod effectue régulièrement une série de surveillances de l'état du GPU et du réseau.