CPU-freie LLM-Inferenz verändert den kritischen Pfad der Inferenz, indem sie die CPU als Quelle von Verzögerungen und Instabilität eliminiert
Moderne LLM-Serving-Architekturen sind stärker von der CPU abhängig, als es scheint. Obwohl die Berechnungen auf der GPU durchgeführt werden, verwaltet die CPU den Lebenszyklus jedes Tokens: Batching, Scheduling, KV-Cache und das Ausführen von CUDA-Grafiken. Dies macht das System empfindlich gegenüber CPU-Interferenzen – insbesondere unter Bedingungen der Co-Location. Infolgedessen sind Betreiber gezwungen, CPU-Headroom zu reservieren und opfern die Auslastung zugunsten vorhersehbarer Latenzen und SLOs.
Die Blink-Architektur bietet einen anderen Ansatz: die CPU aus dem Steady-State-Inferenzpfad zu entfernen und die Aufgaben zwischen GPU und SmartNIC neu zu verteilen. Der Datenpfad wird auf die SmartNIC verlagert, die Anfragen entgegennimmt und Daten direkt über RDMA in den GPU-Speicher schreibt. Der Steuerpfad wird in die GPU über einen persistenten CUDA-Kernel verlagert, der Batching, Scheduling und KV-Cache verwaltet, ohne zur CPU zurückzukehren. Die Interaktion zwischen den Komponenten erfolgt über einen GPU-residenten Ringpuffer, was überflüssige Kopierungen und Synchronisation über den Host ausschließt.
Der entscheidende Einblick der Studie ist, dass der Flaschenhals nicht in den Berechnungen, sondern im Steuerpfad liegt. Die Autoren zeigen, dass selbst bei Optimierungen die CPU bis zu 50% der Latenz ausmachen kann. Dabei verstärkt Interferenz das Problem: Der Durchsatz bestehender Systeme sinkt auf 28–54% des Baselines, während P99 TTFT um Größenordnungen abnehmen kann. Blink beseitigt diesen Effekt: Reduzierung von P99 TTFT um das 8,47-fache, TPOT um das 3,40-fache, Steigerung des Durchsatzes um das 2,1-fache und Senkung des Energieverbrauchs pro Token um 48,6%. Wichtig ist, dass die Leistung der CPU unter Last stabil bleibt, während traditionelle Systeme um zwei Größenordnungen abfallen.
Die praktische Schlussfolgerung für Architekten ist, dass das Problem nicht durch Tuning des Betriebssystems oder Isolation von Ressourcen gelöst werden kann. Experimente mit Huge Pages, Core Pinning und Cache Partitioning zeigen begrenzte Effekte: Selbst bei Beseitigung der LLC-Konkurrenz ändert sich die Latenz kaum, da die CPU im kritischen Zyklus bleibt. Dies weist auf einen architektonischen Kompromiss hin: entweder dedizierte Ressourcen und niedrige Auslastung oder eine gemeinsame Umgebung mit instabiler Latenz. CPU-freie LLM-Inferenz bietet einen dritten Weg – die Orchestrierung näher an die Daten und Berechnungen zu verlagern und den kritischen Pfad auf GPU + NIC zu verkürzen.
Informationsquelle
arXiv ist das größte offene Preprint‑Repository (seit 1991 unter der Schirmherrschaft der Cornell University), in dem Forschende schnell Arbeitsfassungen von Artikeln veröffentlichen; die Materialien sind öffentlich zugänglich, unterliegen jedoch keiner vollständigen Begutachtung, weshalb Ergebnisse als vorläufig angesehen und möglichst in überarbeiteten Versionen oder in begutachteten Fachzeitschriften überprüft werden sollten. arxiv.org