NetAgentBench предлагает state-centric подход к оценке LLM в network configuration, закрывая пробел между статическими тестами и реальным поведением систем.

Проблема в оценке AI-агентов для настройки сети (network configuration) проявляется не сразу — до момента, когда агент сталкивается с состоянием системы, а не с текстом конфигурации. Большинство существующих бенчмарков используют статическую проверку: сравнение с “golden config” или текстовый матчинг. Это игнорирует ключевую особенность сетей — состояние (state) и временную динамику. В результате корректные на бумаге конфигурации могут ломаться при повторном применении или в процессе сходимости протоколов, а сами модели демонстрируют поведение, которое невозможно зафиксировать в one-shot тестах.

NetAgentBench решает эту проблему через формализацию процесса как взаимодействия конечных автоматов (Finite State Machine, FSM). Архитектура разделена на три слоя: инфраструктурный FSM для детерминированного развертывания топологии, SUT FSM (System Under Test) для моделирования живой сети с переходами состояний и контроллер бенчмарка, управляющий сценариями. Агент действует итеративно: читает состояние (read), применяет команды (config), получает наблюдения и повторяет цикл до достижения цели или лимита. Ключевое решение — моделирование сходимости протоколов как событийных переходов, что позволяет учитывать задержки и промежуточные нестабильные состояния.

Интересная деталь — введение ограниченной сходимости (bounded convergence) и конечного пространства состояний через абстракции. Это устраняет бесконечность реальных сетевых параметров (таймеры, счетчики) и делает бенчмарк детерминированным. Метрики выходят за пределы “сработало / не сработало”: оценивается полнота (completeness), робастность через идемпотентность (idempotency) и синтаксическая корректность. Например, конфигурация может быть признана успешной, но провалить тест на повторное применение — типичный сценарий для автоматизации с drift correction.

Эксперименты показывают, что именно динамическая модель выявляет системные сбои. Даже лучший результат среди протестированных моделей — около 24% успешных выполнений. При усложнении задач (от базовых RIP к OSPF и BGP) успешность резко падает почти до нуля. Основные паттерны отказа — “exploration meltdown” (зацикливание команд), “coherence collapse” (разрушение уже достигнутого состояния) и диагностическая стагнация. Важно, что эти эффекты возникают только в multi-turn сценариях и не видны в статических тестах.

Для практики это означает сдвиг в подходе к валидации AI в инфраструктуре. Проверка конфигурации должна учитывать не только финальное состояние, но и траекторию его достижения. FSM-подход дает воспроизводимость и контроль над средой, что критично для SRE и platform engineering. При этом остаются ограничения: идеализированная наблюдаемость (observability) и чувствительность к таймингам сходимости. Тем не менее, сам подход выглядит как прагматичный шаг к инженерной оценке агентных систем, а не их демонстрации.

Новостной источник

arXiv — крупнейший открытый репозиторий препринтов (с 1991, под эгидой Cornell), где учёные оперативно выкладывают рабочие версии статей; материалы общедоступны, но не проходят полноценную рецензии, так что результаты следует считать предварительными и по возможности проверять в обновлённых версиях или в рецензируемых журналах. arxiv.org

Посмотреть pdf-документ в источнике

NetAgentBench предлагает state-centric подход к оценке LLM в network configuration, закрывая пробел между статическими тестами и реальным поведением систем.

🚀 Deploy the Blocks