Die Optimierung der MoE-Inferenz hängt von der Lastverteilung ab. CRAFT zeigt, wie man die Replikation von Experten ohne übermäßigen GPU-Speicherverbrauch verwalten kann.
Mixture-of-Experts (MoE) ist zum Standard für die Skalierung von LLM durch spärliche Aktivierung von Experten geworden. Doch in der Inferenzphase tritt ein systemisches Problem auf: Lastungleichgewicht auf Expertenebene. Der Router verteilt die Tokens ungleichmäßig, wodurch einige GPUs überlastet werden, während andere untätig bleiben. Dies wird im Expert Parallelism verstärkt, wo die Last über All-to-All-Kommunikationen verteilt wird, was zusätzliche Netzwerkbelastung erzeugt und die Latenz erhöht.
Klassische Ansätze lösen dies durch Expertenplatzierung und Expertenreplikation. Die Platzierung versucht, die Last auszugleichen, indem sie „heiße“ und „kalte“ Experten auf den Geräten kombiniert. Doch sie versagt bei starkem Skew – wenn mehrere Experten einen unverhältnismäßig großen Tokenfluss erhalten. Die Replikation beseitigt diese Verzerrung, schafft jedoch ein neues Problem: den Anstieg des GPU-Speicherverbrauchs, was den KV-Cache einschränkt und den Durchsatz verringert. In realen Systemen wird dies zu einem Trade-off zwischen Ausgewogenheit und Speicherbelastung.
CRAFT schlägt vor, den optimalen Punkt durch fein abgestimmte Replikation auf Schichtebene zu verschieben. Die entscheidende Beobachtung: Nicht alle Schichten von MoE profitieren gleichermaßen von der Replikation. In Schichten mit hohem Skew (wo ein Experte >10× des durchschnittlichen Flusses erhält) bietet die Replikation einen erheblichen Gewinn an Ausgewogenheit. In Schichten mit gleichmäßiger Verteilung ist der Effekt minimal. Dabei führt ein Anstieg der Anzahl der Replikate zu abnehmenden Erträgen: Nach einem bestimmten Schwellenwert haben zusätzliche Kopien kaum Einfluss auf den Durchsatz, verbrauchen jedoch weiterhin Speicher.
Architektonisch basiert CRAFT auf einem kostenbewussten Modell. Zunächst profiliert das System offline die Verteilung der Tokens auf die Experten und bewertet den Replikationsnutzen für jede Schicht. Anschließend wird die Aufgabe als Optimierung mit einer Speicherbeschränkung formalisiert – eine Variante des Rucksackproblems, bei dem eine begrenzte Anzahl von Replikaten auf die Schichten verteilt werden muss. Hierfür wird dynamische Programmierung verwendet, die es ermöglicht, eine annähernd optimale Verteilung zu finden. Der letzte Schritt ist die kapazitätsbewusste Platzierung, die die Nutzung des GPU-Speichers ausgleicht und Fragmentierung des KV-Caches vermeidet.
Die Ergebnisse zeigen einen systemischen Effekt: CRAFT erreicht im Durchschnitt 1,14× Durchsatz (bis zu 1,2×) im Vergleich zu bestehenden Replikationsschemata. Der entscheidende Faktor ist die Reduzierung der Anzahl der Replikate ohne Verlust der Ausgewogenheit. In Experimenten verwendet CRAFT etwa 7-mal weniger Replikate als die Basislinie (EPLB) bei vergleichbarem Ausgleichsniveau. Dies gibt direkt Speicher für den KV-Cache frei und erhöht die Batch-Größe, was für die Hochlastinferenz entscheidend ist.
Ein interessanter Punkt ist die Skalierung. Mit der Zunahme der Anzahl der GPUs verstärkt sich das Ungleichgewicht: Weniger Experten pro Gerät → schlechtere „Glättung“ der Last. Unter diesen Bedingungen wird die Replikation noch wichtiger, aber genau hier ist die Kosten der Fehler (Überreplikation) am höchsten. CRAFT zeigt, dass eine schichtbewusste Strategie sich besser an diesen Modus anpasst als die uniforme Replikation.
Für die Industrie sieht dies wie eine pragmatische Verbesserung des Inferenz-Stacks aus. Der Ansatz erfordert kein erneutes Training des Modells und kann in bestehende Serving-Frameworks integriert werden. Die Hauptschlussfolgerung lautet: Replikation muss gesteuert und kontextbezogen sein. Eine einfache Erhöhung der Anzahl der Kopien von Experten stößt schnell an die Grenzen der Effizienz. Ein präziseres Kostenmodell und schichtbezogene Lösungen bieten ein besseres Gleichgewicht zwischen Durchsatz und Speicherverbrauch.
Informationsquelle
arXiv ist das größte offene Preprint‑Repository (seit 1991 unter der Schirmherrschaft der Cornell University), in dem Forschende schnell Arbeitsfassungen von Artikeln veröffentlichen; die Materialien sind öffentlich zugänglich, unterliegen jedoch keiner vollständigen Begutachtung, weshalb Ergebnisse als vorläufig angesehen und möglichst in überarbeiteten Versionen oder in begutachteten Fachzeitschriften überprüft werden sollten. arxiv.org