Was ist Amazon SageMaker HyperPod?
Mit Amazon SageMaker HyperPod entfällt die undifferenzierte Schwerstarbeit, die mit der Entwicklung und Optimierung der Machine Learning (ML)-Infrastruktur verbunden ist. Der Service ist mit den verteilten Trainingsbibliotheken von SageMaker vorkonfiguriert, die es Ihnen ermöglichen, Trainings-Workloads automatisch auf über Tausend KI-Beschleunigern aufzuteilen, so dass Workloads für eine verbesserte Modellleistung parallel verarbeitet werden können. SageMaker HyperPod sorgt dafür, dass Ihr FM-Training nicht unterbrochen wird, indem es regelmäßig Checkpoints speichert. Es erkennt automatisch einen Hardwarefehler, wenn dieser auftritt, repariert oder ersetzt die fehlerhafte Instance und setzt das Training ab dem zuletzt gespeicherten Checkpoint fort, sodass Sie diesen Vorgang nicht mehr manuell verwalten müssen. Die robuste Umgebung ermöglicht es Ihnen, Modelle wochen- oder monatelang in einer verteilten Umgebung ohne Unterbrechung zu trainieren und so die Trainingszeit um bis zu 40 % zu reduzieren. SageMaker HyperPod ist außerdem hochgradig anpassbar, sodass Sie FM-Workloads effizient ausführen und skalieren und Rechenkapazität problemlos zwischen verschiedenen Workloads teilen können, von groß angelegten Trainings bis hin zur Inferenz.