Оптимизация MoE inference упирается в балансировку нагрузки. CRAFT показывает, как управлять репликацией экспертов без перерасхода GPU memory.
Mixture-of-Experts (MoE) стал стандартом для масштабирования LLM за счёт разреженной активации экспертов. Но на этапе inference возникает системная проблема: load imbalance на уровне экспертов. Router направляет токены неравномерно, и часть GPU перегружается, в то время как другие простаивают. Это усиливается в Expert Parallelism, где нагрузка распределяется через all-to-all коммуникации, создавая дополнительный network contention и увеличивая latency.
Классические подходы решают это через expert placement и expert replication. Placement пытается уравновесить нагрузку, комбинируя “горячие” и “холодные” эксперты на устройствах. Но он ломается при сильном skew — когда несколько экспертов получают непропорционально большой поток токенов. Репликация (replication) устраняет этот перекос, но создаёт новую проблему: рост потребления GPU memory, что ограничивает KV cache и снижает throughput. В реальных системах это превращается в trade-off между balancedness и memory pressure.
CRAFT предлагает сместить точку оптимума через fine-grained replication на уровне слоёв. Ключевое наблюдение: не все слои MoE одинаково выигрывают от репликации. В слоях с высоким skew (где один эксперт получает >10× среднего потока) репликация даёт существенный прирост balancedness. В слоях с равномерным распределением эффект минимален. При этом рост числа реплик даёт убывающую отдачу: после определённого порога дополнительные копии почти не влияют на throughput, но продолжают потреблять память.
Архитектурно CRAFT строится вокруг cost-aware модели. Сначала система оффлайн профилирует распределение токенов по экспертам и оценивает replication benefit для каждого слоя. Далее задача формализуется как оптимизация с ограничением по памяти — вариант knapsack problem, где нужно распределить ограниченное число реплик между слоями. Для этого используется dynamic programming, что позволяет находить близкое к оптимальному распределение. Финальный шаг — capacity-aware placement, который выравнивает использование GPU памяти и избегает фрагментации KV cache.
Результаты показывают системный эффект: CRAFT достигает в среднем 1.14× throughput (до 1.2×) по сравнению с существующими схемами репликации. Ключевой фактор — сокращение числа реплик без потери balancedness. В экспериментах CRAFT использует в ~7 раз меньше реплик, чем baseline (EPLB), при сопоставимом уровне балансировки. Это напрямую высвобождает память под KV cache и увеличивает batch size, что критично для highload inference.
Интересный момент — масштабирование. С ростом числа GPU проблема imbalance усиливается: меньше экспертов на устройство → хуже “сглаживание” нагрузки. В таких условиях репликация становится ещё важнее, но именно здесь стоимость ошибки (over-replication) максимальна. CRAFT показывает, что layer-aware стратегия лучше адаптируется к этому режиму, чем uniform replication.
Для индустрии это выглядит как прагматичное улучшение inference-стека. Подход не требует переобучения модели и может быть встроен в существующие serving frameworks. Основной вывод: репликация должна быть управляемой и контекстной. Простое увеличение числа копий экспертов быстро упирается в потолок эффективности. Более точная модель стоимости (cost model) и layer-level решения дают лучший баланс между throughput и memory footprint.
О новостном источнике
arXiv — крупнейший открытый репозиторий препринтов (с 1991, под эгидой Cornell), где учёные оперативно выкладывают рабочие версии статей; материалы общедоступны, но не проходят полноценную рецензии, так что результаты следует считать предварительными и по возможности проверять в обновлённых версиях или в рецензируемых журналах. arxiv.org