AI-агенты в разработке стали автономнее, но вместе с этим выросли стоимость ошибок и сложность контроля. Основное напряжение сместилось с качества моделей на управление поведением систем.
Проблема проявляется не сразу, а в момент, когда агент выходит за пределы простого сценария. Ранние подходы вроде “vibe coding” опирались на короткие сессии и ограниченный контекст. Сейчас агенты могут работать автономно до 20 минут и интегрироваться напрямую в CI/CD через headless CLI. Это меняет профиль риска. Ошибки становятся не только функциональными, но и операционными: утечка секретов, публикация вредоносных пакетов, неконтролируемые действия во внешних системах. Дополнительное давление создаёт сам контекст: даже “чистая” сессия уже занимает часть окна (около 15% без пользовательского ввода), что ограничивает масштаб задач и увеличивает вероятность деградации.
Ответом стала эволюция управления контекстом (context engineering). Вместо монолитных файлов правил используется декомпозиция на “навыки” с ленивой загрузкой (lazy loading). Это снижает давление на окно контекста и делает поведение агента более предсказуемым для конкретной задачи. Параллельно появляются оркестрации из нескольких агентов (agent swarms или agent teams). Это позволяет разделять ответственность, но вводит координационные издержки и новые классы ошибок. В enterprise-сценариях такие системы сталкиваются с менее формализованными задачами и отсутствием полноценных тестовых наборов, что делает их менее надёжными, чем демонстрационные кейсы.
Реализация требует явного слоя управления рисками. Практический фреймворк строится на трёх переменных: вероятность ошибки, её влияние и обнаруживаемость. Новым фактором является именно вероятность, что командам нужно выработать интуицию, какие задачи агент решает стабильно. Остальные параметры остаются классическими инженерными оценками. Критическая зона возникает при сочетании трёх условий: доступ к недоверенному вводу, доступ к приватным данным и возможность внешней коммуникации. Это описывает типовой вектор атак через prompt injection. Реальный инцидент показал, что агент, обрабатывающий GitHub issue, смог извлечь секреты и опубликовать вредоносный пакет из-за отсутствия sandboxing и контроля окружения.
Практические результаты неоднозначны. С одной стороны, автономность и скорость разработки растут. С другой — увеличиваются затраты на контроль, безопасность и инфраструктуру агентов. Даже в длительных автономных проектах наблюдается “энтропия” системы, несмотря на использование линтеров и вспомогательных агентов для очистки кода. Чётких метрик улучшения нет, но основной вывод устойчив: ключевая зона развития — это не модели, а практики их использования. AI-агенты усиливают существующие инженерные подходы, включая слабые места.