Amazon SageMaker Model Monitor

Entraînez et optimisez les modèles de machine learning et d’IA générative

Qu’est-ce que l’entraînement de modèle SageMaker ?

L'entraînement de modèles Amazon SageMaker réduit le temps et les coûts d'entraînement et d'ajustement des modèles de machine learning (ML) à l'échelle sans que vous ayez à gérer l'infrastructure. Vous pouvez tirer parti de l’infrastructure de calcul de ML la plus performante actuellement disponible, et Amazon SageMaker AI peut automatiquement augmenter ou diminuer l’infrastructure, d’un à des milliers de GPU. Pour entraîner plus rapidement les modèles de deep learning, SageMaker AI vous aide à sélectionner et à affiner les jeux de données en temps réel. Les bibliothèques d’entraînement distribuées de SageMaker peuvent automatiquement répartir les modèles et les jeux de données d’entraînement volumineux entre les instances de GPU AWS, ou vous pouvez utiliser des bibliothèques tierces, telles que DeepSpeed, Horovod ou Megatron. Entraînez des modèles de fondation (FM) pendant des semaines et des mois sans interruption grâce à la surveillance et à la réparation automatiques des clusters d’entraînement.

Les avantages d'une formation économique

SageMaker AI propose une vaste gamme de GPU et de processeurs ainsi que des accélérateurs AWS tels qu’AWS Trainium et AWS Inferentia pour entraîner les modèles à grande échelle. Vous mettez automatiquement à l'échelle l'infrastructure, d'un à plusieurs milliers de GPU.
SageMaker AI vous permet de répartir automatiquement vos modèles et vos jeux de données d’entraînement entre les instances de cluster AWS afin de vous aider à mettre à l’échelle efficacement les charges de travail d’entraînement. Il vous aide à optimiser votre tâche de formation à l’infrastructure réseau AWS et à la topologie des clusters. Vous pouvez également utiliser des recettes optimisées pour bénéficier de performances de pointe et commencer rapidement à vous entraîner et à peaufiner des modèles d’IA générative accessibles au public en quelques minutes. Il rationalise également le pointage des modèles via les recettes en optimisant la fréquence de l’enregistrement des points de contrôle, pour ainsi garantir un minimum de frais pendant la formation.
SageMaker AI peut configurer automatiquement votre modèle en ajustant des milliers de combinaisons de paramètres d’algorithmes afin d’obtenir les prévisions les plus précises possibles. Utilisez des outils de débogage et de création de profil pour corriger rapidement les problèmes de performance et optimiser les performances d'entraînement.
SageMaker AI permet de créer des expériences de ML efficaces qui vous aident à suivre plus facilement les itérations des modèles de ML. Améliorez les performances d'entraînement des modèles en visualisant l'architecture du modèle afin d'identifier et de résoudre les problèmes de convergence.

Entraîner des modèles à grande échelle

Tâches d’entraînement entièrement gérées

Les offres de tâches d’entraînement SageMaker offrent une expérience utilisateur entièrement gérée pour l’entraînement de FM distribués à grande échelle, éliminant ainsi les tâches indifférenciées liées à la gestion de l’infrastructure. Les tâches d’entraînement de SageMaker génèrent automatiquement un cluster d’entraînement distribué et résilient, surveillent l’infrastructure et se rétablissent automatiquement des erreurs pour garantir une expérience d’entraînement fluide. Une fois l’entraînement terminé, SageMaker désactive le cluster et le temps d’entraînement net vous est facturé. En outre, avec les tâches d’entraînement SageMaker, vous avez la possibilité de choisir le type d’instance le mieux adapté à une charge de travail individuelle (par exemple, préformer un LLM sur un cluster P5 ou affiner un grand modèle de langage (LLM) open source sur des instances p4d) afin d’optimiser davantage votre budget d’entraînement. En outre, les tâches de formation SageMaker offrent une expérience utilisateur cohérente à toutes les équipes de ML avec différents niveaux d’expertise technique et différents types de charge de travail.

En savoir plus

SageMaker HyperPod

Amazon SageMaker HyperPod est une infrastructure spécialement conçue pour gérer efficacement les clusters de calcul afin de mettre à l’échelle le développement de modèles de fondation (FM). Il permet des techniques avancées d’entraînement des modèles, le contrôle de l’infrastructure, l’optimisation des performances et une meilleure observabilité des modèles. SageMaker HyperPod est préconfiguré avec les bibliothèques d’entraînement distribuées SageMaker, ce qui vous permet de répartir automatiquement les modèles et les jeux de données d’apprentissage sur les instances de cluster AWS pour aider à utiliser efficacement l’infrastructure de calcul et de réseau du cluster. Il offre un environnement plus résilient en détectant, diagnostiquant et en se rétablissant automatiquement des défaillances matérielles, ce qui vous permet d’entraîner les FM pendant des mois sans interruption, réduisant ainsi le temps d’entraînement jusqu’à 40 %.

En savoir plus

Entraînement distribué haute performance

SageMaker AI accélère l’exécution d’entraînements distribués en répartissant automatiquement vos modèles et vos jeux de données d’entraînement entre les accélérateurs AWS. Il vous aide à optimiser votre tâche de formation à l’infrastructure réseau AWS et à la topologie des clusters. Il rationalise également le pointage des modèles via les recettes en optimisant la fréquence de l’enregistrement des points de contrôle, pour ainsi garantir un minimum de frais pendant la formation. Grâce aux recettes, les scientifiques des données et les développeurs de tous niveaux bénéficient de performances de pointe tout en commençant rapidement à entraîner et à optimiser des modèles d’IA générative accessibles au public, notamment Llama 3.1 405B, Mixtral 8x22B et Mistral 7B. Les recettes incluent une pile de formation qui a été testée par AWS, éliminant ainsi des semaines de travail fastidieux à tester différentes configurations de modèles. Vous pouvez basculer entre les instances basées sur GPU et les instances basées sur AWS Trainium en modifiant la recette en une seule ligne et activer le point de contrôle automatique des modèles pour améliorer la résilience de l’entraînement. En outre, vous pouvez exécuter des charges de travail en production sur la fonctionnalité d’entraînement SageMaker de votre choix.

En savoir plus

Outils intégrés pour l'interactivité et la surveillance

Amazon SageMaker avec MLflow

Utilisez MLflow avec l'entraînement SageMaker pour capturer les paramètres d'entrée, les configurations et les résultats, ce qui vous permet d'identifier rapidement les modèles les plus performants pour votre cas d'utilisation. L'interface utilisateur MLflow vous permet d'analyser les tentatives d'entraînement des modèles et d'enregistrer facilement les modèles candidats pour la production en une seule étape rapide.

débogage

Amazon SageMaker avec TensorBoard

Amazon SageMaker avec TensorBoard vous aide à gagner du temps de développement en visualisant l'architecture du modèle afin d'identifier et de résoudre les problèmes de convergence, tels que la perte de validation, l'absence de convergence ou la disparition de gradients.

Gestion des expériences

Nouveautés

  • Date (de la plus récente à la plus ancienne)
Aucun résultat correspondant
1