B2B Engineering Insights & Architectural Teardowns

SageMaker AI beschleunigt die ML-Pipeline von Edge-Robotern

Die skalierbare ML-Pipeline wurde zum Engpass für Edge-Roboter. Der Wechsel zu SageMaker AI veränderte die Architektur und Wirtschaftlichkeit der Datenverarbeitung.

Das Problem trat mit dem Wachstum der Flotte autonomer Roboter auf. Die ursprüngliche ML-Pipeline basierte auf einer On-Premises-Infrastruktur und manueller Datenannotation. Die Roboter sendeten Bilder an Amazon S3, danach wurden die Daten manuell annotiert und zum Training von Modellen verwendet. Dieser Ansatz funktionierte in der Anfangsphase, begann jedoch mit zunehmendem Datenvolumen zu degradieren: die Latenz beim Training nahm zu, die Kosten für die Annotation stiegen, und der Durchsatz des Systems entsprach nicht dem Tempo der Datengenerierung. Infolgedessen verlangsamte sich der Zyklus „Sammlung → Training → Bereitstellung“ und hinderte die schnelle Anpassung der Modelle an die Bedingungen im Feld.

Die Lösung verlagerte sich hin zu einer cloud-nativen Architektur, die auf Amazon SageMaker AI basiert. Die Schlüsselidee besteht darin, die ML-Pipeline in einen geschlossenen Zyklus mit minimaler manueller Beteiligung zu verwandeln. In der Architektur wird eine Kombination aus automatischer Annotation, Human-in-the-Loop-Validierung und aktivem Lernen verwendet. Dies ist ein Kompromissansatz: Vollständig automatische Annotation verringert die Qualität, vollständig manuelle ist nicht skalierbar. Der hybride Ansatz ermöglicht es, die Datenqualität und die Kosten in Einklang zu bringen. Darüber hinaus wurde eine Hierarchie von Modellen eingeführt: von grundlegenden (Foundation Models) bis hin zu spezialisierten Edge-Modellen. Dies verringert die Belastung der Geräte und ermöglicht es, die Inferenz an die Einschränkungen der Edge-Umgebung anzupassen.

Die Implementierung basiert auf drei Phasen. Die erste Phase ist die Datenaufnahme von verteilten Robotern in die Cloud. Die zweite Phase umfasst die Verarbeitung und das Training von Modellen mit SageMaker AI, wobei die automatische Annotation durch menschliche Validierung ergänzt wird. Die dritte Phase ist die Lieferung der aktualisierten Modelle zurück an die Geräte. Ein wichtiger Bestandteil ist das aktive Lernen, das die wertvollsten Daten für das Training priorisiert. Dies reduziert den Umfang überflüssiger Annotationen und beschleunigt die Verbesserung der Modelle. Die Architektur bildet eine kontinuierliche Feedback-Schleife: Daten aus dem Feld beeinflussen sofort die nächste Iteration des Modells. Die Hauptschwierigkeit besteht hier in der Synchronisation zwischen Edge und Cloud sowie in der Qualitätskontrolle der automatisch annotierten Daten.

Besondere Aufmerksamkeit verdient der Multi-Modell-Ansatz. Die Modelle sind in vier Ebenen unterteilt: von allgemeinen bis hin zu hochspezialisierten. Dies verhindert eine Überlastung der Edge-Geräte und erhält einen akzeptablen Inferenzdurchsatz. Dieses Design ist ein typischer Trade-off zwischen Genauigkeit und Rechenbeschränkungen. Unter den Bedingungen von Edge AI ist dies entscheidend: Ein überflüssiges Modell erhöht die Latenz, ein nicht ausreichend genaues verringert die Effizienz des Systems.

Die Ergebnisse zeigen, dass die Optimierung nicht nur architektonisch, sondern auch wirtschaftlich war. Die Durchsatzrate der Datenannotation stieg um das 20-fache. Die Kosten für die Annotation sanken um das 22,5-fache. Dies ist eine direkte Folge der Automatisierung und der Einführung von aktivem Lernen. Auch der Zyklus zur Aktualisierung der Modelle wurde beschleunigt, obwohl keine genauen Metriken zur Latenz oder zur Bereitstellungszeit angegeben werden. Wichtig ist, dass das System robust gegenüber dem Wachstum der Daten und der Flottengröße wurde.

Dieser Fall veranschaulicht gut den typischen Übergang von einer lokalen ML-Pipeline zu einer cloud-nativen Architektur. Der Schlüssel-Effekt wird nicht durch eine einzelne Technologie erzielt, sondern durch die Kombination: Automatisierung, Feedback-Schleife und Neubewertung des Datenmodells. SageMaker AI fungiert hier als Plattform, aber der Hauptwert liegt in den architektonischen Lösungen. Ähnliche Ansätze werden bereits zum Standard in Systemen mit verteilten Datenquellen und Edge-Inferenz.

Für Teams mit ähnlichen Herausforderungen ist die praktische Schlussfolgerung einfach: Zuerst sollten die Kosten und die Geschwindigkeit der Annotation bewertet werden, dann aktives Lernen implementiert werden und erst danach sollte die Infrastruktur skaliert werden. Ohne Datenoptimierung wird selbst die leistungsstärkste Plattform Engpässe nicht beseitigen.

Lesen

×

🚀 Deploy the Blocks

Controls: ← → to move, ↑ to rotate, ↓ to drop.
Mobile: use buttons below.