AutoB2G — ein Framework für die automatische Building-Grid-Ko-Simulation mit LLM. Wir analysieren, wie DAG und Multi-Agenten-Orchestrierung die Komplexität reduzieren und die Genauigkeit der Pipelines erhöhen.
Das Problem tritt an der Schnittstelle von zwei Modellen auf: der Simulation von Gebäuden und der Analyse von Energienetzen. Die meisten Umgebungen für RL-Kontrolle optimieren Metriken auf der Gebäudeseite — Kosten, Verbrauchsspitzen, Komfort. Dabei bleibt der Einfluss auf das Netz schwach formalisiert. Der zweite Spannungsbereich ist der Prozess der Experimente selbst. Er erfordert manuelle Konfiguration, Kenntnisse der API und den Aufbau einer Pipeline aus verschiedenen Modulen. Mit zunehmender Komplexität der Szenarien stößt das System auf Abhängigkeitsfehler und inkorrekte Konfigurationen.
AutoB2G löst beide Probleme durch eine Kombination architektonischer Lösungen. Die Basis bildet das erweiterte CityLearn V2, ergänzt durch ein Netzwerkmodell auf Pandapower. In jedem Schritt wird die aggregierte Last der Gebäude in die Leistungsflussberechnung übergeben, während die Netzwerkzustände (z.B. Knotenpotentiale) an die Beobachtungen des Agenten zurückgegeben werden. Darüber hinaus wird eine LLM-Schicht hinzugefügt: Der Benutzer gibt eine Aufgabe in natürlicher Sprache ein, und das System erstellt eine ausführbare Pipeline. Ein Schlüsselelement ist die Codebasis, die als DAG (gerichteter azyklischer Graph) organisiert ist, in dem Abhängigkeiten und die Reihenfolge der Ausführung der Module klar definiert sind. Dies begrenzt den Raum für Fehler bei der Generierung.
Der Generator ist nicht ein einzelnes LLM, sondern ein Multi-Agenten-System namens SOCIA. Die Rollen sind aufgeteilt: Codegenerierung, Ausführung, Validierung, Fehleranalyse und Feedback. Iterationen basieren auf dem Mechanismus des Textuellen Gradientenabstiegs. Anstelle von numerischen Gradienten bildet das System textuelle „Gradienten“ — strukturierte Anweisungen, welche Einschränkungen verletzt wurden und wie sie behoben werden können. Dann wird der Code gepatcht und erneut überprüft. Dies bringt den Prozess näher an die constraint-basierte Optimierung, bei der das Ziel darin besteht, das Programm in eine zulässige Menge (feasible set) zu bringen, ohne manuelle Fehlersuche.
Eine separate Schicht ist das agentische Retrieval. Anstatt die gesamte Codebasis in den Kontext zu übertragen, wählt der Agent relevante Module über den DAG aus. Wenn die Kette unvollständig ist, gibt der Validator Abhängigkeitsfehler zurück, und der Agent überarbeitet die Auswahl. Dies reduziert das Rauschen und verringert das Risiko, überflüssige Komponenten einzuschließen. Experimentell zeigt sich dies in der Metrik Code Score: Bei hoher Komplexität der Aufgaben fällt das Basis-LLM auf 0,44, während die Kombination SOCIA + Retrieval 0,88 erreicht. Eine ähnliche Dynamik zeigt sich auch in der Erfolgsquote: Bei komplexen Szenarien steigt sie von 0,53 auf 0,83.
Es ist wichtig, dass die Verbesserung nicht durch „intelligentere Modelle“ erreicht wird, sondern durch die Struktur der Ausführung. Der DAG legt strenge Abhängigkeiten fest. Der Multi-Agenten-Zyklus zerlegt die Aufgabe in überprüfbare Schritte. Das Retrieval begrenzt den Kontext. Insgesamt verringert dies die Wahrscheinlichkeit versteckter Fehler — zum Beispiel, wenn alle Module vorhanden sind, aber die Reihenfolge der Aufrufe verletzt wird oder inkompatible Schnittstellen bestehen.
Aus praktischer Sicht sieht dies wie eine evolutionäre Verbesserung der DevEx für Simulationen aus. Der Ingenieur gibt ein Ziel vor: einen RL-Agenten zu trainieren, eine grid-aware Belohnung hinzuzufügen, eine N–1-Analyse durchzuführen. Das System stellt selbst die Pipeline zusammen: Datengenerierung über EnergyPlus, Training in CityLearn, Berechnungen in Pandapower, Aggregation der Ergebnisse. Dabei werden Netzwerkmetriken hinzugefügt — zulässige Spannungen, thermische Grenzen der Leitungen, Ausfallsicherheit, Kurzschlussströme. Dies beseitigt die Verzerrung hin zu einer reinen Gebäudeoptimierung.
Die Einschränkungen sind ebenfalls offensichtlich. Die starke Kopplung der Module bleibt eine Quelle für Ausfälle: Selbst bei einer korrekten Auswahl von Komponenten können kleine Inkonsistenzen die gesamte Pipeline zum Scheitern bringen. Ein weiteres Problem ist die Mehrdeutigkeit der natürlichen Sprache. Wenn Anforderungen nicht explizit formuliert sind, kann der Agent überflüssige Schritte hinzufügen oder das Ziel falsch interpretieren. Diese Fehler werden nicht immer in frühen Iterationen erkannt.
Für die Industrie ist dies ein Signal: Die LLM-Automatisierung komplexer Ingenieur-Pipelines erfordert nicht nur RAG, sondern auch ein explizites Modell der Abhängigkeiten und einen Validierungsmechanismus. DAG + Multi-Agenten-Orchestrierung ist ein pragmatisches Muster, das auf andere Bereiche übertragen werden kann: Datenengineering, Simulationsplattformen, CI/CD für wissenschaftliche Berechnungen. Ohne dies bleibt LLM ein Codegenerator. Mit diesem wird es Teil eines ausführbaren Systems.
Informationsquelle
arXiv ist das größte offene Preprint‑Repository (seit 1991 unter der Schirmherrschaft der Cornell University), in dem Forschende schnell Arbeitsfassungen von Artikeln veröffentlichen; die Materialien sind öffentlich zugänglich, unterliegen jedoch keiner vollständigen Begutachtung, weshalb Ergebnisse als vorläufig angesehen und möglichst in überarbeiteten Versionen oder in begutachteten Fachzeitschriften überprüft werden sollten. arxiv.org