Distributed Weight Data Parallelism (DWDP) снижает влияние синхронизации в LLM inference за счёт асинхронного исполнения и выборочной загрузки весов.

Проблема масштабирования LLM inference на несколько GPU проявляется не в самой параллелизации, а в синхронизации. Классические стратегии — tensor, pipeline и expert parallelism — требуют меж-GPU координации на уровне каждого слоя. В условиях реального продакшена это становится узким местом. Причина — дисбаланс нагрузки: разные длины последовательностей, различный KV-cache hit rate и неравномерный роутинг в MoE. В результате latency отдельных ранков начинает расходиться, а общая система упирается в самый медленный. По данным исследования, даже умеренный дисбаланс (коэффициент вариации 20%) даёт около 12% накладных расходов на синхронизацию.

DWDP предлагает сместить точку компромисса. Вместо синхронной модели вводится схема, где каждый GPU (rank) остаётся data-parallel исполнителем, но веса MoE распределяются по соседним GPU. Недостающие эксперты подгружаются по требованию (on-demand). Ключевое изменение — отказ от коллективных операций (например, all-to-all через NCCL) в критическом пути. Вместо этого используется peer-to-peer передача через cudaMemcpyAsync, которая не занимает вычислительные ресурсы (SM). Это позволяет каждому ранку двигаться независимо, без ожидания остальных.

Архитектурно система строится вокруг перекрытия вычислений и передачи данных. Пока GPU выполняет MoE-блок слоя l и attention следующего слоя, он асинхронно префетчит веса для слоя l+1. Если окно вычислений достаточно большое, latency передачи скрывается. Формально это выражается как T_DWDP = max(T_compute, T_prefetch), в отличие от классического подхода T_DEP = T_compute + T_all2all. Важно, что эффективность напрямую зависит от соотношения compute и communication. Например, при увеличении длины входной последовательности compute-окно растёт, и DWDP начинает выигрывать — в исследовании порог наблюдается около 16K токенов для batch size 1.

Практическая реализация выявляет два класса накладных расходов. Первый — управление разделёнными весами. Наивный подход требует объединения локальных и удалённых весов в единый буфер перед вычислением, что добавляет D2D копирование. Это устраняется модификацией kernel (groupedGEMM), который начинает работать с несколькими буферами напрямую. Второй — деградация из-за конкуренции при асинхронных запросах: несколько GPU могут одновременно тянуть данные с одного источника, создавая many-to-one contention. Для этого вводится time-division multiplexing: веса разбиваются на чанки, и копирование планируется в round-robin порядке. Это снижает вероятность блокировок и лучше использует copy engine.

Метрики показывают, что устранение синхронизации даёт ощутимый эффект, но не без компромиссов. В конфигурации DeepSeek-R1 на NVL72 прирост достигает 8.8% TPS/GPU при сопоставимом TPS/user. В микробенчмарках context-фазы ускорение достигает 1.09–1.11× по throughput и до 1.27× по TTFT. При этом часть выигрыша съедается накладными расходами: interference между compute и communication и эффектами вроде frequency throttling. После оптимизаций итоговое улучшение iteration latency составляет около 11.7% вместо теоретических ~21%.

Интересно, что DWDP особенно выигрывает при увеличении дисбаланса нагрузки. Чем менее равномерна система, тем больше штраф у синхронных стратегий и тем выше относительная эффективность асинхронной модели. Однако при высоком TPS/user эффект снижается: система становится generation-bound, и оптимизация context-фазы даёт меньший вклад. Более того, наблюдается рост TTFT из-за ухудшения rate matching между стадиями и уменьшения числа context GPU.

Для индустрии это выглядит как прагматичное смещение от “идеально синхронных” моделей к более слабо связанным execution-моделям. DWDP не устраняет необходимость балансировки нагрузки, но снижает её критичность. В системах с высокоскоростным interconnect (например, NVLink-подобные топологии) такой подход становится особенно применимым. При этом он требует co-design на уровне runtime, kernel и коммуникаций — без этого накладные расходы быстро нивелируют выигрыш.

Главный вывод: синхронизация становится ограничением раньше, чем исчерпываются вычислительные ресурсы. DWDP показывает, что частичный отказ от неё — не радикальный шаг, а инженерный компромисс, который даёт измеримый выигрыш в реальных нагрузках.

Новостной источник

arXiv — крупнейший открытый репозиторий препринтов (с 1991, под эгидой Cornell), где учёные оперативно выкладывают рабочие версии статей; материалы общедоступны, но не проходят полноценную рецензии, так что результаты следует считать предварительными и по возможности проверять в обновлённых версиях или в рецензируемых журналах. arxiv.org

Посмотреть pdf-документ в источнике

Distributed Weight Data Parallelism (DWDP) снижает влияние синхронизации в LLM inference за счёт асинхронного исполнения и выборочной загрузки весов.

🚀 Deploy the Blocks