Die Optimierung von Split Learning durch Service Function Chaining reduziert die Latenz durch gemeinsames Management von Platzierung und Routing.

Das Problem im verteilten KI tritt nicht auf der Modellebene auf, sondern an der Schnittstelle zwischen Berechnungen und Netzwerk. Multi-hop Split Learning (MSL/MSI) zerlegt das Modell in Teile und verteilt sie auf Knoten, aber die Leistung beginnt von der Routing der zerschlagenen Daten abzuhängen. Im Gegensatz zum klassischen Client-Server-Split tritt hier eine zusätzliche Variable auf — der Pfad, den die Daten durch mehrere Knoten nehmen. Ohne Berücksichtigung dieses Faktors führt die Optimierung des Modells oder der Platzierung für sich allein zu unvorhersehbarer Latenz.

Die Autoren verwenden Service Function Chaining (SFC) als grundlegende Abstraktion. Jedes Sub-Modell wird als Netzwerkfunktion betrachtet, und das gesamte Modell als Kette. Die Architektur wird auf einem erweiterten Graphen (augmented network) aufgebaut, wo „imaginäre“ Knoten für das Sub-Modell hinzugefügt werden. Die Aufgabe wird als ILP formuliert: Gleichzeitig werden die Schnittpunkte des Modells, die Platzierung des Sub-Modells und die Datenübertragungsrouten optimiert. Die Zielfunktion besteht darin, die End-to-End-Latenz unter Berücksichtigung der Berechnungen (FLOPs, Batch-Größe) und der Datenübertragung (Bandbreite, Propagationsverzögerung) zu minimieren. Für die praktische Anwendung wurde ein heuristischer Algorithmus auf Basis von Block Coordinate Descent (BCD) vorgeschlagen, der abwechselnd Split und Routing optimiert.

Der Schlüsselinsight ist, dass die Latenz durch das Gleichgewicht zwischen Berechnungen und Kommunikation bestimmt wird. Eine Erhöhung der Anzahl der Segmente (K) reduziert die Rechenlast auf dem Knoten, erhöht jedoch das Volumen der Übertragung zerschlagener Daten. In Experimenten ist der optimale Wert von K nicht monoton: Für leichte Aufgaben ist K=2 vorteilhaft (tatsächlich Client-Server), für schwerere Aufgaben K=3. Eine weitere Erhöhung von K verschlechtert die Latenz aufgrund der Netzwerk-Kosten. Es wurde auch gezeigt, dass der vorgeschlagene BCD-Algorithmus nahezu die gleichen Latenzwerte wie ILP erreicht, jedoch mit deutlich besserer Skalierbarkeit. Dies weist auf die praktische Anwendbarkeit in realen Systemen hin.

Für die Industrie bedeutet dies, dass Split Learning nicht als rein ML-Aufgabe betrachtet werden kann. Architektonische Lösungen müssen das Netzwerk als gleichwertige Komponente berücksichtigen. Der Ansatz mit SFC bietet ein klares Modell zur Integration mit bestehenden Praktiken der Netzwerk-Orchestrierung. Die gemeinsame Optimierung (Split + Platzierung + Routing) erweist sich als pragmatische Wahl, während getrennte Strategien (nur Berechnung oder nur Netzwerk) zu einer Erhöhung der Latenz führen. Dies ist besonders wichtig für Edge-Cloud-Szenarien, in denen die Einschränkungen hinsichtlich Bandbreite und Latenz strenger sind als in zentralisierten Systemen.

Informationsquelle

arXiv ist das größte offene Preprint‑Repository (seit 1991 unter der Schirmherrschaft der Cornell University), in dem Forschende schnell Arbeitsfassungen von Artikeln veröffentlichen; die Materialien sind öffentlich zugänglich, unterliegen jedoch keiner vollständigen Begutachtung, weshalb Ergebnisse als vorläufig angesehen und möglichst in überarbeiteten Versionen oder in begutachteten Fachzeitschriften überprüft werden sollten. arxiv.org

Original-PDF der Studie ansehen

Die Optimierung von Split Learning durch Service Function Chaining reduziert die Latenz durch gemeinsames Management von Platzierung und Routing.

🚀 Deploy the Blocks