AutoB2G — фреймворк для автоматической building–grid co-simulation с LLM. Разбираем, как DAG и multi-agent orchestration снижают сложность и повышают корректность пайплайнов.
Проблема возникает на стыке двух моделей: симуляции зданий и анализа энергосети. Большинство сред для RL-контроля оптимизируют метрики на стороне здания — стоимость, пики потребления, комфорт. При этом влияние на сеть остаётся слабо формализованным. Вторая точка напряжения — сам процесс экспериментов. Он требует ручной конфигурации, знания API и сборки пайплайна из разрозненных модулей. По мере роста сложности сценариев система упирается в ошибки зависимостей и некорректные конфигурации.
AutoB2G решает обе проблемы через связку архитектурных решений. Базой выступает расширенный CityLearn V2, дополненный моделью сети на Pandapower. На каждом шаге агрегированная нагрузка зданий передаётся в power flow расчёт, а сетевые состояния (например, напряжение узлов) возвращаются в наблюдения агента. Поверх этого добавлен LLM-слой: пользователь задаёт задачу на естественном языке, а система строит исполняемый пайплайн. Ключевой элемент — кодовая база, организованная как DAG (directed acyclic graph), где явно заданы зависимости и порядок выполнения модулей. Это ограничивает пространство ошибок при генерации.
Сам генератор — не один LLM, а multi-agent система SOCIA. Роли разделены: генерация кода, исполнение, валидация, анализ ошибок и обратная связь. Итерации строятся вокруг механизма Textual Gradient Descent. Вместо числовых градиентов система формирует текстовые “градиенты” — структурированные указания, какие ограничения нарушены и как их исправить. Затем код патчится и повторно проверяется. Это приближает процесс к constraint-based оптимизации, где цель — привести программу в допустимое множество (feasible set) без ручной отладки.
Отдельный слой — agentic retrieval. Вместо передачи всей кодовой базы в контекст, агент выбирает релевантные модули через DAG. Если цепочка неполная, валидатор возвращает ошибки зависимостей, и агент дорабатывает выбор. Это снижает шум и уменьшает риск включения лишних компонентов. Экспериментально это проявляется в метрике code score: при высокой сложности задач базовый LLM падает до 0.44, тогда как связка SOCIA + retrieval достигает 0.88. Похожая динамика и в success rate: при комплексных сценариях рост с 0.53 до 0.83.
Важно, что улучшение достигается не за счёт “умнее модели”, а за счёт структуры исполнения. DAG задаёт жёсткие зависимости. Multi-agent цикл разбивает задачу на проверяемые шаги. Retrieval ограничивает контекст. В сумме это снижает вероятность скрытых ошибок — например, когда все модули присутствуют, но нарушен порядок вызовов или несовместимы интерфейсы.
С практической точки зрения это выглядит как эволюционное улучшение DevEx для симуляций. Инженер задаёт цель: обучить RL-агента, добавить grid-aware reward, прогнать N–1 анализ. Система сама собирает пайплайн: генерация данных через EnergyPlus, обучение в CityLearn, расчёты в Pandapower, агрегация результатов. При этом добавлены сетевые метрики — допустимость напряжения, тепловые лимиты линий, устойчивость к отказам, токи КЗ. Это устраняет перекос в сторону building-only оптимизации.
Ограничения тоже очевидны. Сильная связность модулей остаётся источником сбоев: даже при корректном наборе компонентов мелкие несоответствия ломают весь pipeline. Вторая проблема — неоднозначность natural language. Если требования заданы неявно, агент может добавить лишние шаги или неверно интерпретировать цель. Эти ошибки не всегда ловятся на ранних итерациях.
Для индустрии это сигнал: LLM-автоматизация сложных инженерных пайплайнов требует не только RAG, но и явной модели зависимостей и механизма валидации. DAG + multi-agent orchestration — прагматичный паттерн, который можно переносить на другие домены: data engineering, simulation platforms, CI/CD для научных расчётов. Без этого LLM остаётся генератором кода. С этим — становится частью исполняемой системы.
Новостной источник
arXiv — крупнейший открытый репозиторий препринтов (с 1991, под эгидой Cornell), где учёные оперативно выкладывают рабочие версии статей; материалы общедоступны, но не проходят полноценную рецензии, так что результаты следует считать предварительными и по возможности проверять в обновлённых версиях или в рецензируемых журналах. arxiv.org