Das LLM-Multi-Agent-System wird zur Grundlage des Agentic Web. Holos bietet eine Architektur, in der Agenten als Ökosystem skaliert und koordiniert werden.
Die klassische Hypothese, dass AGI durch das Skalieren eines Modells entstehen wird, wird hier in Frage gestellt. Der Grund sind induktive Einschränkungen: Jedes Modell ist in den Rahmen seiner Daten und Optimierungen eingebettet. Dies führt zu lokalen Maxima — stark in engen Aufgaben, aber instabil in offenen Umgebungen. Holos betrachtet eine Alternative: Intelligenz als Ergebnis der Interaktion vieler Agenten und nicht eines zentralen Punktes.
Architektonisch implementiert Holos das LLM-Multi-Agent-System auf Web-Ebene. Im Kern steht ein fünfschichtiges Modell, bei dem jede Schicht eine Klasse von Problemen isoliert. Die Substratschicht mit der Nuwa-Engine ist verantwortlich für die Generierung und „faule“ Aktivierung von Agenten durch einen serverlosen Ansatz. Die Koordinationsschicht verwaltet den DAG von Aufgaben, trennt Planung von der Zuweisung von Ausführenden (blind planning) und verwendet dann Market Dispatch mit Learning-to-Rank zur Auswahl des Agenten. Die Wertschicht schließt den Zyklus durch wirtschaftliche Anreize, indem sie die Qualität der Ausführung mit zukünftigen Möglichkeiten des Agenten verknüpft.
Der Schlüsselinsight ist der Versuch, drei systemische Probleme von LaMAS zu lösen: Reibung beim Skalieren, Koordinationsdegradation und Wertverlust. Zur Skalierung wird das Modell der „schlafenden Agenten“ verwendet: Agenten werden als Profile gespeichert und nur bei Bedarf durch JIT-Instanziierung aktiviert. Für die Koordination wird ein DAG mit topologischer Validierung (Kahn-Algorithmus) verwendet, was Zyklen und logische Planungsfehler beseitigt. Um die Homogenisierung der Werkzeuge zu verhindern, wird S-MMR eingesetzt — ein Gleichgewicht zwischen Relevanz und Vielfalt des Toolsets, was die Korrelation im Verhalten der Agenten verringert.
Besonders hervorzuheben ist der Mechanismus des Market Dispatch. Anstelle eines statischen Registers wird ein Hybrid verwendet: aktive Suche über Embeddings + passive Gebote über Pub/Sub-Kanäle. Die endgültige Auswahl trifft ein LTR-Modell (LambdaMART), das Semantik, Kosten, Reputation und Einschränkungen berücksichtigt. Dies verwandelt die Verteilung von Aufgaben in ein wirtschaftliches Optimierungsproblem und nicht nur in Routing. Bei langen Aufgaben weicht das System von einem synchronen Modell zu einer ereignisgesteuerten Schleife ab: Der Zustand wird serialisiert, die Ausführung wird bei Ereignissen fortgesetzt, was den Ressourcenverbrauch senkt und die Robustheit erhöht.
Praktische Erkenntnis für Architekten: Holos demonstriert den Übergang von „Pipeline-Agenten“ zu „Agentenökonomie“. Dies ist wichtig für Systeme mit hoher Unsicherheit und langen Lebenszyklen von Aufgaben. Die Trennung von Planung und Ausführung verringert die kognitive Belastung des LLM und reduziert die Wahrscheinlichkeit von Fehlern. Das serverlose Modell von Agenten ermöglicht es, auf Millionen von Entitäten zu skalieren, ohne dass die Infrastruktur linear wächst. Der Kompromiss ist jedoch offensichtlich: Das System wird komplexer in der Fehlersuche, und die Qualität hängt von den Ranking-Mechanismen und Anreizen ab, nicht nur vom Modell.
Informationsquelle
arXiv ist das größte offene Preprint‑Repository (seit 1991 unter der Schirmherrschaft der Cornell University), in dem Forschende schnell Arbeitsfassungen von Artikeln veröffentlichen; die Materialien sind öffentlich zugänglich, unterliegen jedoch keiner vollständigen Begutachtung, weshalb Ergebnisse als vorläufig angesehen und möglichst in überarbeiteten Versionen oder in begutachteten Fachzeitschriften überprüft werden sollten. arxiv.org