Оптимизация split learning через Service Function Chaining снижает latency за счет совместного управления размещением и маршрутизацией.
Проблема в распределенном AI возникает не на уровне модели, а на стыке вычислений и сети. Multi-hop split learning (MSL/MSI) разбивает модель на части и распределяет их по узлам, но производительность начинает зависеть от маршрутизации smashed data. В отличие от классического client-server split, здесь появляется дополнительная переменная — путь прохождения данных через несколько узлов. Без учета этого фактора оптимизация модели или размещения по отдельности дает непредсказуемый latency.
Авторы используют Service Function Chaining (SFC) как базовую абстракцию. Каждый sub-model рассматривается как сетевая функция, а вся модель — как цепочка. Архитектура строится поверх расширенного графа (augmented network), где добавляются “воображаемые” узлы для sub-model. Задача формулируется как ILP: одновременно оптимизируются точки разреза модели, размещение sub-model и маршруты передачи данных. Целевая функция — минимизация end-to-end latency с учетом вычислений (FLOPs, batch size) и передачи данных (bandwidth, propagation delay). Для практического применения предложен эвристический алгоритм на основе Block Coordinate Descent (BCD), который поочередно оптимизирует split и routing.
Ключевой инсайт — latency определяется балансом между вычислениями и коммуникацией. Увеличение числа сегментов (K) снижает вычислительную нагрузку на узел, но увеличивает объем передачи smashed data. В экспериментах оптимальное значение K не монотонно: для легких задач выгоден K=2 (фактически client-server), для более тяжелых — K=3. Дальнейшее увеличение K ухудшает latency из-за сетевых затрат. Также показано, что предложенный BCD-алгоритм достигает почти тех же значений latency, что и ILP, но с существенно лучшей масштабируемостью. Это указывает на практическую применимость в реальных системах.
Для индустрии это означает, что split learning нельзя рассматривать как чисто ML-задачу. Архитектурные решения должны учитывать сеть как равноправный компонент. Подход с SFC дает понятную модель для интеграции с существующими network orchestration практиками. Совместная оптимизация (split + placement + routing) оказывается прагматичным выбором, тогда как раздельные стратегии (compute-only или network-only) приводят к росту latency. Это особенно важно для edge-cloud сценариев, где ограничения по bandwidth и latency жестче, чем в централизованных системах.
Новостной источник
arXiv — крупнейший открытый репозиторий препринтов (с 1991, под эгидой Cornell), где учёные оперативно выкладывают рабочие версии статей; материалы общедоступны, но не проходят полноценную рецензии, так что результаты следует считать предварительными и по возможности проверять в обновлённых версиях или в рецензируемых журналах. arxiv.org