NetAgentBench bietet einen zustandszentrierten Ansatz zur Bewertung von LLM in der Netzwerk-Konfiguration und schließt die Lücke zwischen statischen Tests und dem tatsächlichen Verhalten von Systemen.

Das Problem bei der Bewertung von AI-Agenten für die Netzwerk-Konfiguration zeigt sich nicht sofort — bis der Agent auf den Zustand des Systems trifft und nicht auf den Text der Konfiguration. Die meisten bestehenden Benchmarks verwenden statische Überprüfungen: den Vergleich mit einer „goldenen Konfiguration“ oder Textabgleich. Dies ignoriert das Schlüsselmerkmal von Netzwerken — den Zustand und die zeitliche Dynamik. Infolgedessen können auf dem Papier korrekte Konfigurationen bei wiederholter Anwendung oder im Verlauf der Konvergenz von Protokollen fehlschlagen, und die Modelle zeigen ein Verhalten, das in One-Shot-Tests nicht erfasst werden kann.

NetAgentBench löst dieses Problem durch die Formalisierung des Prozesses als Interaktion von endlichen Automaten (Finite State Machine, FSM). Die Architektur ist in drei Schichten unterteilt: eine infrastrukturelle FSM für die deterministische Bereitstellung der Topologie, eine SUT FSM (System Under Test) zur Modellierung eines lebenden Netzwerks mit Zustandsübergängen und einen Benchmark-Controller, der die Szenarien steuert. Der Agent handelt iterativ: er liest den Zustand (read), wendet Befehle an (config), erhält Beobachtungen und wiederholt den Zyklus, bis das Ziel oder das Limit erreicht ist. Die Schlüsselentscheidung ist die Modellierung der Konvergenz von Protokollen als ereignisbasierte Übergänge, was es ermöglicht, Verzögerungen und zwischenzeitliche instabile Zustände zu berücksichtigen.

Ein interessantes Detail ist die Einführung einer begrenzten Konvergenz (bounded convergence) und eines endlichen Zustandsraums durch Abstraktionen. Dies beseitigt die Unendlichkeit realer Netzwerkparameter (Timer, Zähler) und macht den Benchmark deterministisch. Die Metriken gehen über „funktioniert / funktioniert nicht“ hinaus: es wird die Vollständigkeit (completeness), Robustheit durch Idempotenz (idempotency) und syntaktische Korrektheit bewertet. Beispielsweise kann eine Konfiguration als erfolgreich angesehen werden, aber den Test auf Wiederanwendung nicht bestehen — ein typisches Szenario für die Automatisierung mit Driftkorrektur.

Experimente zeigen, dass gerade das dynamische Modell systemische Fehler aufdeckt. Selbst das beste Ergebnis unter den getesteten Modellen liegt bei etwa 24 % erfolgreicher Ausführungen. Bei der Komplexität der Aufgaben (von grundlegenden RIP zu OSPF und BGP) fällt die Erfolgsquote drastisch auf fast null. Die Hauptmuster des Versagens sind „exploration meltdown“ (Befehlszyklus), „coherence collapse“ (Zerstörung eines bereits erreichten Zustands) und diagnostische Stagnation. Wichtig ist, dass diese Effekte nur in Multi-Turn-Szenarien auftreten und in statischen Tests nicht sichtbar sind.

Für die Praxis bedeutet dies einen Wandel im Ansatz zur Validierung von AI in der Infrastruktur. Die Überprüfung der Konfiguration sollte nicht nur den Endzustand, sondern auch den Verlauf seiner Erreichung berücksichtigen. Der FSM-Ansatz bietet Reproduzierbarkeit und Kontrolle über die Umgebung, was für SRE und Platform Engineering entscheidend ist. Dabei bleiben jedoch Einschränkungen: idealisierte Beobachtbarkeit (observability) und Sensitivität gegenüber den Zeitpunkten der Konvergenz. Dennoch erscheint der Ansatz als ein pragmatischer Schritt zur ingenieurtechnischen Bewertung von Agentensystemen und nicht zu deren Demonstration.

Informationsquelle

arXiv ist das größte offene Preprint‑Repository (seit 1991 unter der Schirmherrschaft der Cornell University), in dem Forschende schnell Arbeitsfassungen von Artikeln veröffentlichen; die Materialien sind öffentlich zugänglich, unterliegen jedoch keiner vollständigen Begutachtung, weshalb Ergebnisse als vorläufig angesehen und möglichst in überarbeiteten Versionen oder in begutachteten Fachzeitschriften überprüft werden sollten. arxiv.org

Original-PDF der Studie ansehen

NetAgentBench bietet einen zustandszentrierten Ansatz zur Bewertung von LLM in der Netzwerk-Konfiguration und schließt die Lücke zwischen statischen Tests und dem tatsächlichen Verhalten von Systemen.

🚀 Deploy the Blocks