Was ist Amazon SageMaker Neo?
Mit Amazon SageMaker Neo können Entwickler ML-Modelle (Machine Learning) für Inferenz auf SageMaker in der Cloud und unterstützte Geräte optimieren.
ML-Inferenz ist der Prozess der Verwendung eines trainierten Machine Learning-Modells, um Prognosen zu treffen. Nach dem Training eines Modells für hohe Genauigkeit verbringen Entwickler häufig viel Zeit und Mühe damit, das Modell auf hohe Leistung abzustimmen. Für Inferenz in der Cloud wenden sich Entwickler häufig großen Instanzen mit viel Speicher und leistungsstarken Verarbeitungsfunktionen zu höheren Kosten zu, um einen besseren Durchsatz zu erzielen. Für Inferenz auf Edge-Geräte mit begrenztem Rechenaufwand und Speicher benötigen Entwickler häufig Monate, um das Modell von Hand zu optimieren und eine akzeptable Leistung innerhalb der Hardwarebeschränkungen des Geräts zu erzielen.
Amazon SageMaker Neo optimiert automatisch Machine Learning-Modelle für Inferenz in Cloud-Instances und Edge-Geräte, damit diese schneller und ohne Genauigkeitsverlust ausgeführt werden können. Sie beginnen mit einem Modell für Machine Learning, das bereits mit DarkNet, Keras, MXNet, PyTorch, TensorFlow, TensorFlow-Lite, ONNX oder XGBoost erstellt und in Amazon SageMaker oder anderswo geschult wurde. Dann wählen Sie Ihre Ziel-Hardwareplattform, die eine SageMaker-Hosting-Instance oder ein Edge-Gerät sein kann, das auf Prozessoren von Ambarella, Apple, ARM, Intel, MediaTek, Nvidia, NXP, Qualcomm, RockChip oder Texas Instruments basiert. Mit nur einem Klick optimiert SageMaker Neo das trainierte Modell und kompiliert es dann zu einer ausführbaren Datei. Der Compiler verwendet ein Modell für Machine Learning, um die Leistungsoptimierungen anzuwenden, mit denen die beste verfügbare Leistung für Ihr Modell auf der Cloud-Instanz oder dem Edge-Gerät ermittelt wird. Anschließend stellen Sie das Modell als SageMaker-Endpunkt oder auf unterstützten Edge-Geräten bereit und beginnen mit Prognosen.
Für Inferenzen in der Cloud beschleunigt SageMaker Neo die Inferenz und spart Kosten, indem beim SageMaker-Hosting ein inferenzoptimierter Container erstellt wird. SageMaker Neo spart Entwicklern monatelange manuelle Optimierung, indem das Modell automatisch für das ausgewählte Betriebssystem und die ausgewählte Prozessorhardware optimiert wird.
Amazon SageMaker Neo verwendet Apache TVM und von Partnern bereitgestellte Compiler und Beschleunigungsbibliotheken, um die beste verfügbare Leistung für ein bestimmtes Modell und Hardwareziel zu erzielen. AWS liefert den Compiler-Code im Rahmen der Apache-Softwarelizenz an das Apache-TVM-Projekt und den Laufzeitcode an das Neo-AI-Open-Source-Projekt, damit Prozessoranbieter und Gerätehersteller auf Grundlage einer gemeinsamen kompakten Laufzeit schnell Innovationen entwickeln können.