Slice Spraying in GPU-Clustern reduziert die Latenz und erhöht den Durchsatz im disaggregierten LLM-Serving durch dynamisches Datenmanagement.

Das Problem tritt auf, wenn GPU-Cluster nicht mehr homogen sind. Moderne LLM-Systeme arbeiten über eine Mischung aus NVLink, RDMA, PCIe und anderen Interconnects mit unterschiedlicher Bandbreite und Latenz. Unter diesen Bedingungen verwenden klassische Transfer-Engines eine statische Pfadbindung und einfache Lastverteilung, was zu Head-of-Line-Blocking, einer Verschlechterung des Durchsatzes und Fragmentierung des Clusters führt. Dies ist besonders im disaggregierten LLM-Serving bemerkbar, wo „Elefantenflüsse“ — der Transfer von Gigabyte KVCache oder Gewichten — direkt auf dem kritischen Antwortweg liegen.

TENT schlägt vor, das Modell für das Datenmanagement zu ändern. Anstatt dass die Anwendung den Transport (RDMA, NVLink usw.) im Voraus auswählt, nimmt das System die deklarative Absicht (Transfer Intent) an: was und wohin übertragen werden muss. Der Engine entscheidet dann selbst, wie dies zu tun ist. Intern kombiniert er alle verfügbaren Interconnects zu einem einzigen Pool und zerlegt große Übertragungen in kleine Slices. Diese Slices werden dynamisch basierend auf Telemetrie — aktueller Auslastung, Warteschlangen und Bandbreite — über die Links verteilt. Architektonisch basiert dies auf der Abstraktion von Segmenten, die den physischen Standort der Daten verbergen, und pluggable Backends für verschiedene Transporte.

Der Schlüssel-Effekt ergibt sich aus dem Verzicht auf state-blind Striping. In einem traditionellen Round-Robin-Modell wird der langsame Link zum Engpass für die gesamte Übertragung. TENT hingegen bewertet die erwartete Abschlusszeit jedes Slices und sendet es über den aktuell „schnellsten“ Pfad. Dies beseitigt Head-of-Line-Blocking und gleicht die Last in Multi-Rail-Netzen aus. In Experimenten mit H800 HGX-Clustern zeigte das System eine Steigerung des Durchsatzes um bis zu 1,36× und eine Reduzierung der P90 TTFT um 26% im Vergleich zu Mooncake TE. Im RL-Pipeline betrug die Beschleunigung der Parameteraktualisierung 20–26%, während in Microbenchmarks der Durchsatz um 33% stieg und die P99-Latenz um 27,6% im Vergleich zur Basislinie gesenkt wurde.

Eine separate Schicht ist die Fehlertoleranz. In Produktionsumgebungen treten ständig Ausfälle auf: Degradierung der NIC, GPU-Fehler, instabile Links. In einer klassischen Architektur wird dies auf der Ebene des Control Plane behandelt und erfordert manuelles Eingreifen oder einen Neustart. TENT verlagert diese Logik in das Data Plane. Wenn ein Slice nicht erfolgreich ist, wird es automatisch über einen alternativen Pfad umgeleitet. Die Wiederherstellung erfolgt in wenigen Millisekunden (<50 ms), ohne dass die Anwendung beteiligt ist. Dies verwandelt häufige Hardwareausfälle von Vorfällen in kurzfristige Leistungsschwankungen.

Für die Industrie sieht dies wie ein pragmatischer Wandel aus: Datenbewegung wird zu einer eigenständigen Schicht mit eigener Planungslogik und nicht zu einem Nebeneffekt des Compute. Dieser Ansatz ist besonders nützlich in heterogenen Clustern und Multi-Tenant-Umgebungen, in denen sich Topologie und Netzwerkzustand ständig ändern. Der Preis dafür ist eine Komplexität des Data Plane und die Notwendigkeit präziser Telemetrie. Aber der Gewinn bei der Auslastung der Bandbreite, der Stabilität der Latenz und der Reduzierung der Betriebslast macht diesen Kompromiss für hochbelastete LLM-Systeme gerechtfertigt.

Informationsquelle

arXiv ist das größte offene Preprint‑Repository (seit 1991 unter der Schirmherrschaft der Cornell University), in dem Forschende schnell Arbeitsfassungen von Artikeln veröffentlichen; die Materialien sind öffentlich zugänglich, unterliegen jedoch keiner vollständigen Begutachtung, weshalb Ergebnisse als vorläufig angesehen und möglichst in überarbeiteten Versionen oder in begutachteten Fachzeitschriften überprüft werden sollten. arxiv.org

Original-PDF der Studie ansehen

Slice Spraying in GPU-Clustern reduziert die Latenz und erhöht den Durchsatz im disaggregierten LLM-Serving durch dynamisches Datenmanagement.

🚀 Deploy the Blocks