× Install ThecoreGrid App
Tap below and select "Add to Home Screen" for full-screen experience.
B2B Engineering Insights & Architectural Teardowns

KV-Cache-Optimierung für Multi-LoRA-Agenten

ForkKV überdenkt die KV-Cache-Optimierung für das Multi-LoRA-Serving, beseitigt Speicherduplikate und erhöht den Durchsatz

Das Problem tritt beim Multi-LoRA-Agenten-Serving auf, wo mehrere spezialisierte Agenten auf einem einzigen Basis-Modell arbeiten. LoRA senkt die Kosten für das Fine-Tuning, aber in der Inferenzphase entsteht ein Engpass — der KV-Cache. Aufgrund der Unterschiede in den Aktivierungen der Adapter hört der KV-Cache auf, gemeinsam zu sein, selbst bei identischem Kontext. Dies bricht das Prefix-Caching und führt zu einem linearen Anstieg des Speicherverbrauchs, was den Durchsatz direkt verringert und den Parallelismus einschränkt.

ForkKV bietet einen architektonischen Wandel: disaggregierter KV-Cache. Anstatt einen einzigen KV-Cache zu speichern, teilt das System ihn in zwei Komponenten — einen gemeinsamen bCache (Basis-Cache) und einen agentenspezifischen rCache (Residual-Cache). Dieses Design basiert auf der Struktur von LoRA: die Hauptprojektion xW ist deutlich größer als der nieder-rangige Teil xA. Das Management dieser Aufteilung wird durch einen DualRadixTree und ein Fork-Modell mit Copy-on-Write (CoW) realisiert, ähnlich den Prozessen in Betriebssystemen. Der neue Agent erbt den gemeinsamen bCache und erstellt nur seinen eigenen rCache, was Daten-Duplikate beseitigt.

Der entscheidende technische Kompromiss ist der teilweise Verlust der Genauigkeit aufgrund von Abweichungen zwischen den Agenten. Empirisch ist diese Abweichung jedoch begrenzt: Die Ähnlichkeit der Eingabestatus übersteigt 99,4 %, und die Qualitätsverschlechterung der Generierung beträgt etwa 1,60 %. Dabei ist der Effizienzgewinn erheblich. In Szenarien mit gemeinsamem Kontext von 32K Tokens reduziert ForkKV den Speicherverbrauch von Dutzenden von Gigabyte auf Einheiten und ermöglicht eine Steigerung des Durchsatzes um bis zu 3,0×. Dies wird nicht nur durch die Einsparung von Speicher, sondern auch durch ResidualAttention — einen benutzerdefinierten Kernel, der den KV-Cache direkt in SRAM rekonstruiert, erreicht, wodurch die HBM-Overheadkosten vermieden und die Batch-Parallelität erhalten bleibt.

Für die Industrie sieht dies nach einem pragmatischen Weg aus, agentenbasierte Systeme zu skalieren. Anstatt die Modelle horizontal zu skalieren, erhöht das System die Dichte der Agentenplatzierung durch eine effizientere Nutzung des Speichers. Der Ansatz ist besonders in Szenarien mit langem gemeinsamem Kontext anwendbar — zum Beispiel in Codebasen oder Dokumenten-Pipelines. Die Einschränkung bleibt in der Komplexität der Implementierung: Es wird eine spezialisierte Laufzeit, benutzerdefinierte Kernel und ein neues Speichermanagement-Modell benötigt. Dennoch erscheint das Prinzip selbst — die Dekomposition des KV-Caches und die CoW-Semantik — bereits als ein nachhaltiges Muster für das Highload-LLM-Serving.

Informationsquelle

arXiv ist das größte offene Preprint‑Repository (seit 1991 unter der Schirmherrschaft der Cornell University), in dem Forschende schnell Arbeitsfassungen von Artikeln veröffentlichen; die Materialien sind öffentlich zugänglich, unterliegen jedoch keiner vollständigen Begutachtung, weshalb Ergebnisse als vorläufig angesehen und möglichst in überarbeiteten Versionen oder in begutachteten Fachzeitschriften überprüft werden sollten. arxiv.org

Original-PDF der Studie ansehen

×

🚀 Deploy the Blocks

Controls: ← → to move, ↑ to rotate, ↓ to drop.
Mobile: use buttons below.