Stripe довёл LLM-агентов до генерации production-ready pull request’ов без участия человека в коде. Ключевой вопрос — как удержать надёжность при росте автономии.

Проблема проявляется на стыке масштаба и ответственности. Система генерирует изменения для кода, который обслуживает платежную инфраструктуру с высокими требованиями к корректности и комплаенсу. При увеличении доли автоматически создаваемого кода растёт риск скрытых дефектов. Особенно в среде с множеством зависимостей и интеграций. Простые интерактивные ассистенты здесь не подходят: они требуют постоянного участия инженера и не закрывают end-to-end задачи.

Stripe выбрал модель автономных агентов, которые выполняют задачу целиком по одному входному описанию. Это компромисс между скоростью и контролем. С одной стороны — минимизация ручного труда. С другой — обязательный human review и жёсткие проверки в пайплайне. В отличие от инструментов вроде Copilot, агенты работают не как подсказчик, а как исполнитель. Это меняет границу ответственности: система должна учитывать не только генерацию кода, но и его проверку, структуру и полноту (включая тесты и документацию).

Реализация построена вокруг blueprint’ов — описанных в коде workflow. Blueprint определяет разбиение задачи на подзадачи и решает, где использовать детерминированную логику, а где — агентные циклы. Это снижает неопределённость LLM и удерживает систему в предсказуемых рамках. Источником задач могут быть Slack, баг-репорты или feature-запросы. Агент генерирует код, тесты и документацию, после чего создаётся pull request. Надёжность обеспечивается стандартным стеком: CI/CD, автоматические тесты и статический анализ. Дополнительно система ограничена типами задач — лучше всего она работает на чётко определённых изменениях, таких как конфигурация, обновление зависимостей и небольшой рефакторинг. Это явное ограничение области применимости.

В результате система вышла на более чем 1300 pull request’ов в неделю (рост с 1000). Весь код проходит human review, но не содержит ручных изменений. Метрики качества или дефектности не раскрываются, поэтому оценить влияние на reliability напрямую нельзя. Однако сама архитектура показывает прагматичный подход: автономия увеличивается, но контроль остаётся на уровне пайплайна и процесса ревью. Это согласуется с более широким индустриальным трендом — интеграция LLM-агентов напрямую в CI/CD с акцентом на проверяемость, а не на «магическую» генерацию кода.

Источник

🚀 Deploy the Blocks