Slice spraying в GPU кластерах снижает latency и повышает throughput в disaggregated LLM serving за счет динамического управления передачей данных.

Проблема проявляется в момент, когда GPU-кластеры перестают быть однородными. Современные LLM-системы работают поверх смеси NVLink, RDMA, PCIe и других interconnect-ов с разной пропускной способностью и задержками (latency). В таких условиях классические transfer engines используют статическую привязку путей и простое распределение нагрузки, что приводит к head-of-line blocking, деградации throughput и фрагментации кластера. Особенно это заметно в disaggregated LLM serving, где “elephant flows” — перенос гигабайт KVCache или весов — лежат прямо на критическом пути ответа.

TENT предлагает изменить саму модель управления передачей данных. Вместо того чтобы приложение выбирало транспорт (RDMA, NVLink и т.д.) заранее, система принимает декларативное намерение (transfer intent): что и куда нужно передать. Далее движок сам решает, как это сделать. Внутри он объединяет все доступные interconnect-ы в единый пул и разбивает крупные передачи на мелкие срезы (slices). Эти slices динамически распределяются по линкам на основе телеметрии — текущей загрузки, очередей и пропускной способности. Архитектурно это опирается на абстракцию сегментов (segments), которые скрывают физическое расположение данных, и pluggable backends для разных транспортов.

Ключевой эффект даёт отказ от state-blind striping. В традиционной модели round-robin медленный линк становится узким местом для всей передачи. TENT вместо этого оценивает ожидаемое время завершения каждого slice и отправляет его по наиболее “быстрому” пути в текущий момент. Это устраняет head-of-line blocking и выравнивает загрузку multi-rail сетей. В экспериментах на H800 HGX кластерах система показала до 1.36× роста throughput и снижение P90 TTFT на 26% по сравнению с Mooncake TE. В RL pipeline ускорение обновления параметров составило 20–26%, а в microbenchmarks throughput вырос на 33% при снижении P99 latency до 27.6% от baseline.

Отдельный слой — отказоустойчивость. В production среде сбои происходят постоянно: деградация NIC, ошибки GPU, нестабильные линкы. В классической архитектуре это обрабатывается на уровне control plane и требует ручного вмешательства или перезапуска. TENT переносит эту логику в data plane. Если slice не проходит, он автоматически перенаправляется по альтернативному пути. Восстановление происходит за десятки миллисекунд (<50 ms), без участия приложения. Это превращает частые аппаратные сбои из инцидентов в кратковременные колебания производительности.

Для индустрии это выглядит как прагматичный сдвиг: data movement становится самостоятельным слоем с собственной логикой планирования, а не побочным эффектом compute. Такой подход особенно полезен в heterogeneous кластерах и multi-tenant средах, где topology и состояние сети постоянно меняются. Цена — усложнение data plane и необходимость точной телеметрии. Но выигрыш в утилизации bandwidth, стабильности latency и снижении операционной нагрузки делает этот компромисс оправданным для highload LLM систем.

Новостной источник

arXiv — крупнейший открытый репозиторий препринтов (с 1991, под эгидой Cornell), где учёные оперативно выкладывают рабочие версии статей; материалы общедоступны, но не проходят полноценную рецензии, так что результаты следует считать предварительными и по возможности проверять в обновлённых версиях или в рецензируемых журналах. arxiv.org

Посмотреть pdf-документ в источнике

Slice spraying в GPU кластерах снижает latency и повышает throughput в disaggregated LLM serving за счет динамического управления передачей данных.

🚀 Deploy the Blocks