AI-агенты усложняют наблюдаемость: один и тот же запрос может приводить к разным цепочкам действий. Без трассировки система становится непрозрачной.
Проблема проявляется, когда генеративные системы переходят от простых LLM-вызовов к агентам. Агент планирует шаги, вызывает инструменты и принимает решения динамически. Поведение становится недетерминированным: одинаковый prompt может привести к разным последовательностям вызовов и разной стоимости. Традиционный APM фиксирует latency и инфраструктуру, но не объясняет, почему агент выбрал конкретный путь. В результате диагностика инцидентов превращается в догадки.
В качестве решения используется расширение наблюдаемости на уровень агента. Подход строится вокруг OpenLIT — SDK с нативной поддержкой OpenTelemetry — и Grafana Cloud как системы визуализации. Ключевая идея: рассматривать каждый шаг агента как часть распределённого трейса (distributed tracing). Это позволяет связать reasoning, tool calls и итоговый ответ в единую цепочку. Компромисс очевиден: увеличивается объём телеметрии и сложность её анализа, но взамен появляется причинно-следственная прозрачность.
Реализация опирается на автоматическую инструментализацию. OpenLIT встраивается рядом с агентным фреймворком (например, CrewAI, LangChain, OpenAI Agents, AutoGen) и не требует ручного создания span’ов. После инициализации SDK фиксирует:
- шаги планирования агента
- вызовы инструментов
- обращения к моделям
- использование токенов и ошибки
Эти данные отправляются в виде трейсов и метрик через OpenTelemetry — напрямую в Grafana Cloud или через OpenTelemetry Collector. На стороне Grafana используются преднастроенные дашборды. Они агрегируют latency, error rate, throughput, token usage и cost. Дополнительно фиксируются сущности уровня агента: имя агента, действия, последовательность вызовов. Это превращает наблюдаемость в feedback loop, а не просто мониторинг.
Результат — более детальная диагностика поведения системы. Можно увидеть, какой именно шаг привёл к ошибке или росту стоимости, и как агент пришёл к решению. Это особенно важно для production-нагрузок, где поведение агентов сложно воспроизвести. Конкретные числовые улучшения в исходном материале не приведены, но качественный эффект — снижение неопределённости при разборе инцидентов и возможность оптимизировать цепочки действий агентов.