AI-Agenten erschweren die Observability: Ein und dieselbe Anfrage kann zu unterschiedlichen Aktionsketten führen. Ohne Tracing wird das System undurchsichtig.
Das Problem zeigt sich, wenn generative Systeme von einfachen LLM-Aufrufen zu Agenten übergehen. Ein Agent plant Schritte, ruft Tools auf und trifft dynamisch Entscheidungen. Das Verhalten wird nicht-deterministisch: Der gleiche Prompt kann zu unterschiedlichen Aufrufsequenzen und unterschiedlichen Kosten führen. Traditionelles APM erfasst Latenz und Infrastruktur, erklärt aber nicht, warum der Agent einen bestimmten Weg gewählt hat. Infolgedessen wird die Fehlerdiagnose zum Rätselraten.
Als Lösung wird die Erweiterung der Observability auf die Agentenebene eingesetzt. Der Ansatz baut auf OpenLIT – einem SDK mit nativer OpenTelemetry-Unterstützung – und Grafana Cloud als Visualisierungssystem auf. Die Kernidee: Jeder Schritt des Agenten wird als Teil eines Distributed Trace betrachtet. Dies ermöglicht es, Reasoning, Tool Calls und die endgültige Antwort zu einer einzigen Kette zu verknüpfen. Der Kompromiss ist offensichtlich: Das Volumen der Telemetriedaten und die Komplexität ihrer Analyse nehmen zu, aber im Gegenzug gewinnt man an kausaler Transparenz.
Die Implementierung stützt sich auf automatische Instrumentierung. OpenLIT wird neben dem Agenten-Framework (z. B. CrewAI, LangChain, OpenAI Agents, AutoGen) integriert und erfordert keine manuelle Erstellung von Spans. Nach der Initialisierung erfasst das SDK:
- Planungsschritte des Agenten
- Tool-Aufrufe
- Modell-Aufrufe
- Token-Nutzung und Fehler
Diese Daten werden als Traces und Metriken über OpenTelemetry gesendet – direkt an Grafana Cloud oder über den OpenTelemetry Collector. Aufseiten von Grafana kommen vorkonfigurierte Dashboards zum Einsatz. Sie aggregieren Latenz, Error Rate, Throughput, Token Usage und Kosten. Zusätzlich werden Entitäten auf Agentenebene erfasst: Name des Agenten, Aktionen, Aufrufsequenz. Dies verwandelt Observability in eine Feedback Loop und nicht nur in bloßes Monitoring.
Das Ergebnis ist eine detailliertere Diagnose des Systemverhaltens. Man kann genau erkennen, welcher Schritt zu einem Fehler oder einem Kostenanstieg geführt hat und wie der Agent zu einer Entscheidung gelangt ist. Dies ist besonders wichtig für Produktions-Workloads, bei denen das Verhalten der Agenten schwer zu reproduzieren ist. Konkrete numerische Verbesserungen werden im Ausgangsmaterial nicht genannt, aber der qualitative Effekt ist die Verringerung der Unsicherheit bei der Analyse von Vorfällen und die Möglichkeit, die Aktionsketten der Agenten zu optimieren.