× Install ThecoreGrid App
Tap below and select "Add to Home Screen" for full-screen experience.
B2B Engineering Insights & Architectural Teardowns

DWDP für LLM-Inferenz ohne inter-GPU-Synchronisation

Distributed Weight Data Parallelism (DWDP) reduziert den Einfluss der Synchronisation in der LLM-Inferenz durch asynchrone Ausführung und selektives Laden von Gewichten.

Das Problem der Skalierung der LLM-Inferenz auf mehrere GPUs zeigt sich nicht in der Parallelisierung selbst, sondern in der Synchronisation. Klassische Strategien — Tensor-, Pipeline- und Expertenparallelismus — erfordern eine inter-GPU-Koordination auf der Ebene jeder Schicht. Unter realen Produktionsbedingungen wird dies zum Engpass. Der Grund ist die Ungleichheit der Last: unterschiedliche Sequenzlängen, unterschiedliche KV-Cache-Hit-Raten und ungleichmäßiges Routing in MoE. Infolgedessen beginnt die Latenz einzelner Ränge auseinanderzulaufen, und das gesamte System wird durch den langsamsten Punkt limitiert. Laut einer Studie verursacht bereits ein moderates Ungleichgewicht (Variationskoeffizient von 20%) etwa 12% Overhead durch Synchronisation.

DWDP bietet an, den Kompromiss zu verschieben. Anstelle eines synchronen Modells wird ein Schema eingeführt, bei dem jede GPU (Rank) ein data-paralleler Ausführer bleibt, aber die MoE-Gewichte auf benachbarte GPUs verteilt werden. Fehlende Experten werden bedarfsorientiert (on-demand) nachgeladen. Die entscheidende Änderung besteht darin, auf kollektive Operationen (z.B. all-to-all über NCCL) im kritischen Pfad zu verzichten. Stattdessen wird eine Peer-to-Peer-Übertragung über cudaMemcpyAsync verwendet, die keine Rechenressourcen (SM) beansprucht. Dies ermöglicht es jedem Rang, unabhängig zu arbeiten, ohne auf die anderen zu warten.

Architektonisch wird das System um die Überlappung von Berechnungen und Datenübertragungen aufgebaut. Während die GPU den MoE-Block der Schicht l und die Attention der nächsten Schicht ausführt, lädt sie asynchron die Gewichte für die Schicht l+1 vor. Wenn das Berechnungsfenster groß genug ist, wird die Übertragungslatenz verborgen. Formal wird dies als T_DWDP = max(T_compute, T_prefetch) ausgedrückt, im Gegensatz zum klassischen Ansatz T_DEP = T_compute + T_all2all. Wichtig ist, dass die Effizienz direkt vom Verhältnis zwischen Berechnung und Kommunikation abhängt. Beispielsweise wächst bei zunehmender Länge der Eingabesequenz das Berechnungsfenster, und DWDP beginnt zu gewinnen — in der Studie wird ein Schwellenwert von etwa 16K Token für eine Batch-Größe von 1 beobachtet.

Die praktische Implementierung zeigt zwei Klassen von Overhead. Die erste ist die Verwaltung der geteilten Gewichte. Der naive Ansatz erfordert die Zusammenführung lokaler und entfernter Gewichte in einen einzigen Puffer vor der Berechnung, was D2D-Kopieren hinzufügt. Dies wird durch die Modifikation des Kernels (groupedGEMM) behoben, der direkt mit mehreren Puffern arbeitet. Die zweite ist die Degradation aufgrund von Konkurrenz bei asynchronen Anfragen: Mehrere GPUs können gleichzeitig Daten von einer Quelle abrufen, was zu einer many-to-one-Konkurrenz führt. Dafür wird Time-Division-Multiplexing eingeführt: Die Gewichte werden in Chunks aufgeteilt, und das Kopieren wird im Round-Robin-Verfahren geplant. Dies verringert die Wahrscheinlichkeit von Blockierungen und nutzt den Kopier-Engine besser aus.

Die Metriken zeigen, dass die Beseitigung der Synchronisation einen spürbaren Effekt hat, jedoch nicht ohne Kompromisse. In der Konfiguration DeepSeek-R1 auf NVL72 erreicht der Anstieg 8,8% TPS/GPU bei vergleichbarem TPS/user. In Mikrobenchmarks der Kontextphase erreicht die Beschleunigung 1,09–1,11× beim Durchsatz und bis zu 1,27× bei TTFT. Dabei wird ein Teil des Gewinns durch Overhead aufgezehrt: Interferenz zwischen Berechnung und Kommunikation sowie Effekte wie Frequenzdrosselung. Nach den Optimierungen beträgt die endgültige Verbesserung der Iterationslatenz etwa 11,7% statt theoretischer ~21%.

Interessanterweise gewinnt DWDP besonders bei zunehmendem Ungleichgewicht der Last. Je ungleichmäßiger das System ist, desto größer ist die Strafe für synchrone Strategien und desto höher ist die relative Effizienz des asynchronen Modells. Bei hohem TPS/user sinkt jedoch der Effekt: Das System wird generation-bound, und die Optimierung der Kontextphase trägt weniger bei. Darüber hinaus wird ein Anstieg von TTFT aufgrund der Verschlechterung des Rate Matching zwischen den Phasen und der Verringerung der Anzahl der Kontext-GPUs beobachtet.

Für die Industrie sieht dies wie eine pragmatische Verschiebung von „ideal synchronen“ Modellen zu weniger stark gekoppelten Ausführungsmodellen aus. DWDP beseitigt nicht die Notwendigkeit der Lastenverteilung, verringert jedoch deren Kritikalität. In Systemen mit Hochgeschwindigkeits-Interconnects (z.B. NVLink-ähnliche Topologien) wird dieser Ansatz besonders anwendbar. Dabei erfordert er Co-Design auf der Ebene von Runtime, Kernel und Kommunikation — ohne dies nivellieren die Overheads schnell den Gewinn.

Die Hauptaussage: Synchronisation wird zu einer Einschränkung, bevor die Rechenressourcen erschöpft sind. DWDP zeigt, dass der teilweise Verzicht darauf kein radikaler Schritt, sondern ein ingenieurtechnischer Kompromiss ist, der messbare Gewinne unter realen Lasten bietet.

Informationsquelle

arXiv ist das größte offene Preprint‑Repository (seit 1991 unter der Schirmherrschaft der Cornell University), in dem Forschende schnell Arbeitsfassungen von Artikeln veröffentlichen; die Materialien sind öffentlich zugänglich, unterliegen jedoch keiner vollständigen Begutachtung, weshalb Ergebnisse als vorläufig angesehen und möglichst in überarbeiteten Versionen oder in begutachteten Fachzeitschriften überprüft werden sollten. arxiv.org

Original-PDF der Studie ansehen

×

🚀 Deploy the Blocks

Controls: ← → to move, ↑ to rotate, ↓ to drop.
Mobile: use buttons below.