Управление context window в multi-agent системах определяет качество reasoning и устойчивость расследований. Разбираем, как это решается через разделение контекста.
Когда agentic system выходит за пределы коротких сценариев, могут возникнуть проблемы. В длинных расследованиях количество inference-запросов растёт, а вместе с ним и объём истории сообщений. Поскольку LLM API остаются stateless, вся история должна передаваться в каждом вызове. Это быстро упирается в ограничения context window: растёт latency, увеличивается стоимость, и деградирует качество ответов. В multi-agent конфигурации ситуация усложняется: каждому агенту нужен свой срез состояния системы. Слишком мало контекста ведёт к потере связности, слишком много — к снижению качества reasoning и эффекту confirmation bias.
Решение строится вокруг разделения контекста на три канала: Journal, Review и Timeline. Это компромисс между полнотой и управляемостью. Вместо передачи полной истории сообщений система передаёт агрегированные представления состояния. Journal выполняет роль рабочей памяти (working memory) директора — фиксирует гипотезы, решения и вопросы. Review агрегирует выводы экспертов и проверяет их на достоверность. Timeline собирает единый нарратив событий. Такой подход снижает давление на context window и одновременно удерживает агентов в общей логике расследования.
Реализация опирается на строгую декомпозицию ролей. Director управляет процессом и ведёт Journal, который доступен всем агентам как хронология. Это создаёт единый источник правды без передачи сырой истории сообщений. Эксперты работают в узких доменах и возвращают findings с привязкой к артефактам (tool calls). Однако этого недостаточно из-за риска hallucination. Поэтому вводится Critic, который проверяет выводы через инструменты доступа к исходным данным и методологии. Он анализирует не только результаты, но и корректность их получения. Дополнительно используется scoring: выводы ранжируются по достоверности, что позволяет фильтровать слабые гипотезы.
Ключевой элемент — Timeline. В отличие от Review, он не требует обращения к инструментам и работает только с уже агрегированным контекстом. Это снижает нагрузку на модель и повышает качество reasoning. Timeline принудительно выстраивает причинно-следственные связи и отбрасывает несогласованные выводы. Фактически это механизм борьбы с hallucination через нарративную согласованность. Если вывод не вписывается в общую цепочку событий, он не сохраняется. Дополнительно система ограничивает количество “пробелов” (gaps), чтобы не перегружать директора второстепенными неопределённостями.
Результат — устойчивое поведение системы в длинных сценариях без передачи полной истории сообщений. Контекст управляется через сжатые представления, а не через накопление данных. Это снижает latency и стоимость, хотя точные метрики не указаны. Важнее другое: сохраняется когерентность между агентами и контроль качества reasoning. Такой подход можно рассматривать как эволюционное улучшение agent frameworks, где управление состоянием становится архитектурной задачей, а не побочным эффектом.
Подобные решения отражают общий тренд: отказ от “бесконечного контекста” в пользу структурированной памяти. Даже при гипотетически неограниченном context window передача всей истории остаётся спорной — избыток информации мешает адаптации к новым данным. Здесь выбран прагматичный путь: ограничить контекст, но повысить его плотность и релевантность.