Die KV-Cache-Wiederherstellung wird zum Engpass im LLM-Serving. CacheFlow bietet 3D-Parallellismus, um die Latenz und TTFT zu reduzieren.

Das Problem tritt auf, wenn das System beginnt, mit langem Kontext zu arbeiten. Der KV-Cache (Zwischenzustände der Attention) wächst linear mit der Sequenzlänge, aber seine Wiederherstellung wird nichtlinear teuer. Bei der Neuberechnung steigen die Kosten quadratisch aufgrund der Attention, und bei der I/O-Wiederherstellung stößt das System an die Bandbreite. In realen Szenarien – Multi-Turn-Chat, RAG, Agenten-Pipelines – führt dies zu Verzögerungen von Sekunden bei einem Zielwert von etwa 200 ms für die Time-To-First-Token (TTFT).

Traditionelle Ansätze reduzieren die Aufgabe auf die Wahl: neu berechnen (recompute) oder laden (I/O). Diese Vereinfachung bricht unter Last zusammen. Erstens sind die Kosten für die Wiederherstellung nicht homogen: Späte Tokens sind aufgrund der quadratischen Attention teurer. Zweitens arbeiten Produktionssysteme in Batches und auf mehreren GPUs, wo es zu Konkurrenz um Ressourcen (Compute und Bandbreite) kommt. Eine Optimierung pro Anfrage berücksichtigt diese Effekte nicht und führt zu Stragglers und einer Verschlechterung der tail latency.

CacheFlow definiert die KV-Cache-Wiederherstellung als eine Aufgabe der mehrdimensionalen Planung neu. Die Architektur basiert auf 3D-Parallellismus: nach Tokens, Schichten und GPUs. Auf der Token-Ebene wird eine Two-Pointer-Strategie verwendet: Frühe Tokens werden neu berechnet, späte werden über I/O geladen, und die Prozesse treffen sich in der Mitte. Dies reduziert überflüssige Neuberechnungen dort, wo sie am teuersten sind. Auf der Schichtenebene wird ein ähnliches Schema angewendet, jedoch entlang der Tiefe des Modells: Untere Schichten werden neu berechnet, obere werden geladen. Die Wahl zwischen diesen Modi hängt von der Sequenzlänge ab und wird durch einen Schwellenwert bestimmt, der durch Profilierung erhalten wird.

Die dritte Dimension ist der Multi-GPU-Parallellismus. Anstatt die Wiederherstellung sequenziell durch die Pipeline durchzuführen, nutzt CacheFlow Grenzaktivierungen (boundary activations), um die Abhängigkeit zwischen den Geräten zu durchbrechen. Jede GPU stellt ihren eigenen Shard des KV-Caches unabhängig wieder her. Theoretisch ergibt dies eine lineare Beschleunigung in Bezug auf die Anzahl der GPUs, da Compute und I/O zwischen den Geräten geteilt werden. In der Praxis ist die Beschleunigung durch das Load-Balancing begrenzt, bleibt jedoch nahe an linear.

Ein Schlüsselelement des Systems ist der batch-aware Two-Pointer-Scheduler. Er verteilt Compute und I/O zwischen den Anfragen unter Berücksichtigung ihres „Wertes“. Anfragen mit langem Kontext erhalten Priorität bei I/O, da dies die zukünftigen Kosten der Neuberechnung stärker senkt. Dies ist wichtig in Batches, wo die Konkurrenz um Bandbreite die Latenz einzelner Anfragen erheblich erhöhen kann. Dieser Ansatz reduziert den Straggler-Effekt und stabilisiert die tail latency.

Die Ergebnisse zeigen, dass CacheFlow die TTFT um 10%–62% im Vergleich zu bestehenden Ansätzen (vLLM, SGLang, LMCache, Cake) senkt. Der Effekt verstärkt sich bei langen Kontexten und in den Verteilungsschwänzen (P90–P99). Dabei erreicht das System eine hohe Ressourcenauslastung: etwa 88% GPU-Compute und 78% I/O, was auf eine effektive Überlappung der Operationen hinweist. Es ist auch zu erkennen, dass mit zunehmender Eingabelänge der Abstand zu Neuberechnung-nur-Ansätzen aufgrund der quadratischen Kosten der Attention wächst.

Für die Industrie sieht dies wie ein pragmatischer Wandel von lokaler Optimierung zu systemischer Planung aus. Die KV-Cache-Wiederherstellung kann nicht mehr als binäre Wahl zwischen Compute und I/O betrachtet werden. Es ist eine Aufgabe der Koordination von Ressourcen im mehrdimensionalen Raum: Tokens, Schichten, Geräte und Batches. Solche Ansätze werden bereits im Kontext von Highload-Inferenz diskutiert, wo nicht nur Durchschnittswerte, sondern auch die tail latency entscheidend sind. CacheFlow zeigt, dass selbst ohne Änderung des Modells die Latenz durch präzisere Planung und Nutzung strukturellen Parallellismus erheblich gesenkt werden kann.

Informationsquelle

arXiv ist das größte offene Preprint‑Repository (seit 1991 unter der Schirmherrschaft der Cornell University), in dem Forschende schnell Arbeitsfassungen von Artikeln veröffentlichen; die Materialien sind öffentlich zugänglich, unterliegen jedoch keiner vollständigen Begutachtung, weshalb Ergebnisse als vorläufig angesehen und möglichst in überarbeiteten Versionen oder in begutachteten Fachzeitschriften überprüft werden sollten. arxiv.org

Original-PDF der Studie ansehen

Die KV-Cache-Wiederherstellung wird zum Engpass im LLM-Serving. CacheFlow bietet 3D-Parallellismus, um die Latenz und TTFT zu reduzieren.

🚀 Deploy the Blocks