Der Agent Reliability Score zeigt, warum KI-Agenten nicht in der Modellierung, sondern in der Plattform scheitern. Der Schlüssel liegt in der Kontrolle des Kontexts und sicheren Aktionen.

Das Problem zeigt sich nicht sofort — bis der Agent beginnt, im realen Umfeld zu agieren. In mehreren Fällen lag der Fehler nicht im Modell, sondern im Fehlen von plattformweiten Garantien. Der Chatbot gab zuversichtliche, aber falsche Antworten zur Rückgabepolitik. Der Support erfand nicht existierende Einschränkungen. Der interne Agent schloss Aufgaben basierend auf veraltetem Kontext ab. Das allgemeine Muster ist dasselbe: Das Modell verarbeitet die Eingabedaten korrekt, aber die Daten selbst sind ungültig. Ohne Zuverlässigkeitsverträge kontrolliert die Plattform weder die Aktualität (freshness), noch die Übereinstimmung mit der Politik, noch die Sicherheit der Aktionen.

Die Lösung verlagert den Fokus von der Qualität des Modells auf die Qualität des Systems. Der Agent Reliability Score ist eine Anpassung des ML Test Score an agentenbasierte Systeme. Der Ansatz bewertet nicht „wie intelligent das Modell ist“, sondern „kann die Plattform korrektes Verhalten garantieren“. Dies ist ein pragmatischer Wandel: Ein Agent ist nicht nur Inferenz, sondern eine Kette von Aktionen. In einer Anfrage kann er Kontext aus RAG sammeln, API aufrufen, Geschäftsregeln anwenden und Nebenwirkungen erzeugen. Jeder Schritt ist ein potenzieller Fehlerpunkt. Der Trade-off ist offensichtlich: Ein Anstieg der Zuverlässigkeit erfordert Einschränkungen, Validierung und zusätzliche Infrastruktur, was die Latenz und Komplexität erhöht.

Auf der Implementierungsebene ist ein Schlüsselelement — Verträge über den Kontext (context integrity). Die Plattform muss die Datenquellen validieren, bevor sie sie an den Agenten übergibt. Dies umfasst:

Kontrolle der Quellen: Schemata, Format, Vollständigkeit
Qualitätsmetriken für Retrieval (retrieval quality) in der Produktion
Kontrolle der Frische (context freshness) durch TTL und Metadaten
Validierung der Eingabedaten-Schemata
Verfolgung von Abhängigkeiten zur Laufzeit

Ohne dies wird RAG zur Quelle stiller Fehler. Ein typisches Anti-Pattern: Die Qualität des Retrievals in der Entwicklungsphase zu messen und nach dem Release nicht mehr zu beobachten. Im Laufe der Zeit ändern sich die Daten, Indizes veralten, die Relevanz sinkt — aber das System erkennt dies nicht.

Eine separate Schicht — Sicherheit und Risikomanagement. Der Kontext kann durch Dokumente oder APIs vergiftet werden (prompt injection). Der Agent unterscheidet nicht zwischen „Daten“ und „Anweisungen“, wenn die Plattform die Eingaben nicht filtert. Ähnlich bei PII: Die Kombination mehrerer Quellen kann ein vollständiges Benutzerprofil innerhalb eines Prompts erstellen. Dies ist nicht mehr ein Problem des Modells — es ist ein Problem der Datenpipeline. Die Plattform muss Filterung, Anomaliedetektion und Leckkontrolle als obligatorischen Schritt implementieren.

Architektonisch entsteht eine neue Verantwortungszone: Orchestrierung und Guardrails. Der Agent sollte keine Entscheidungen ohne Kontrolle treffen. Die Plattform setzt Grenzen:

Limits für die Anzahl der Aktionen und die Ausführungszeit
Budget für Aufrufe (cost control)
Strenge Zonen, in denen Entscheidungen deterministisch sind
Fallback-Strategien bei Abhängigkeitsfehlern

Ohne diese Mechanismen wird der Agent zu einem nicht deterministischen Prozess mit externen Effekten. Ein Fehler ist nicht mehr eine Metrik, sondern ein Vorfall.

Das Ergebnis der Implementierung eines solchen Ansatzes ist nicht ein Anstieg der „Intelligenz“ des Agenten, sondern eine Verringerung unerwarteter Ausfälle. Metriken sind nicht direkt angegeben, aber der Effekt zeigt sich in der Vorhersehbarkeit des Systems. Die Teams erhalten die Möglichkeit, Schwachstellen vor der Produktion zu erkennen. Der Agent Reliability Score ist in diesem Sinne ein diagnostisches Werkzeug. Er erhöht nicht automatisch die Endbewertung, macht jedoch die Lücken offensichtlich.

Die Branche hat diese Phase bereits mit ML-Systemen durchlaufen. Die Hauptschlussfolgerung damals war einfach: Das Modell ist ein kleiner Teil des Systems, der Rest ist Infrastruktur. Agentensysteme verstärken diesen Effekt. Ohne plattformweite Verträge wird selbst das ideale Modell falsche Entscheidungen treffen, weil es sich auf einen falschen Kontext stützt.

Lesen

Der Agent Reliability Score zeigt, warum KI-Agenten nicht in der Modellierung, sondern in der Plattform scheitern. Der Schlüssel liegt in der Kontrolle des Kontexts und sicheren Aktionen.

🚀 Deploy the Blocks