CPU-free LLM inference меняет критический путь инференса, устраняя CPU как источник задержек и нестабильности
Современные LLM serving архитектуры завязаны на CPU сильнее, чем кажется. Несмотря на то что вычисления выполняются на GPU, именно CPU управляет жизненным циклом каждого токена: batching, scheduling, KV-cache и запуск CUDA-графов. Это делает систему чувствительной к CPU interference — особенно в условиях colocation. В результате операторы вынуждены резервировать CPU headroom, жертвуя утилизацией ради предсказуемых latency и SLO.
Архитектура Blink предлагает другой подход: убрать CPU из steady-state inference path и перераспределить обязанности между GPU и SmartNIC. Data plane уходит на SmartNIC, который принимает запросы и напрямую пишет данные в GPU-память через RDMA. Control plane переносится внутрь GPU через persistent CUDA kernel, который управляет batching, scheduling и KV-cache без возврата к CPU. Взаимодействие между компонентами строится через GPU-резидентный ring buffer, что исключает лишние копирования и синхронизацию через хост.
Ключевой инсайт исследования — bottleneck находится не в вычислениях, а в control path. Авторы показывают, что даже при оптимизациях CPU может занимать до 50% latency. При этом interference усиливает проблему: throughput существующих систем падает до 28–54% от baseline, а P99 TTFT может деградировать на порядки. Blink устраняет этот эффект: снижение P99 TTFT до 8.47×, TPOT до 3.40×, рост throughput до 2.1× и снижение энергии на токен до 48.6%. Важно, что под нагрузкой CPU производительность остается стабильной, тогда как традиционные системы деградируют до двух порядков.
Практический вывод для архитекторов — проблема не решается тюнингом ОС или изоляцией ресурсов. Эксперименты с huge pages, core pinning и cache partitioning показывают ограниченный эффект: даже при устранении LLC contention latency почти не меняется, потому что CPU остается в критическом цикле. Это указывает на архитектурный компромисс: либо выделенные ресурсы и низкая утилизация, либо shared environment с нестабильным latency. CPU-free LLM inference предлагает третий путь — вынести orchestration ближе к данным и вычислениям, сократив критический путь до GPU + NIC.
Новостной источник
arXiv — крупнейший открытый репозиторий препринтов (с 1991, под эгидой Cornell), где учёные оперативно выкладывают рабочие версии статей; материалы общедоступны, но не проходят полноценную рецензии, так что результаты следует считать предварительными и по возможности проверять в обновлённых версиях или в рецензируемых журналах. arxiv.org