Агентные системы упираются не в промпты, а в экономику и инфраструктуру инференса. Cloudflare пытается закрыть этот разрыв, интегрируя большие open-source модели прямо в свою edge-платформу.

Проблема проявляется при масштабировании агентных сценариев. Один агент может обрабатывать сотни тысяч токенов в час. При росте числа агентов стоимость инференса становится основным ограничением. В serverless-модели добавляется ещё один фактор — это непредсказуемая доступность ресурсов и конкуренция за GPU. Параллельно растёт техническая сложность: большие модели требуют оптимизаций (parallelism, memory layout, scheduling), без которых throughput и latency деградируют. Отдельный узкий момент — стадия prefill: при длинном контексте (до 256k токенов) GPU простаивает, ожидая завершения обработки входа, что увеличивает Time to First Token (TTFT).

В качестве ответа выбрана интеграция крупной open-source модели (Kimi K2.5) прямо в Workers AI. Это прагматичный компромисс: снизить стоимость по сравнению с проприетарными моделями, сохранив качество на уровне, достаточном для production-задач. Ключевая идея — не просто “хостить модель”, а встроить её в уже существующие примитивы платформы (Durable Objects, Workflows, sandbox execution), чтобы покрыть полный lifecycle агента. Trade-off очевиден: serverless даёт гибкость и pay-per-token, но требует сложной оркестрации и не гарантирует мгновенную обработку под нагрузкой.

Реализация опирается на оптимизацию всего inference stack. Используются кастомные kernel’ы поверх собственного движка Infire для повышения утилизации GPU. Применяются стандартные для индустрии техники — data/tensor/expert parallelism и disaggregated prefill (разделение стадий prefill и generation между машинами). Отдельный слой оптимизации — это prefix caching: повторно используется уже обработанный контекст между запросами. Это снижает вычисления на prefill и напрямую влияет на TTFT и throughput (tokens per second). Для повышения cache hit rate введён механизм session affinity (заголовок x-session-affinity), который направляет связанные запросы на один и тот же инстанс модели.

Дополнительно переработана асинхронная модель выполнения. Serverless-инференс ограничен ёмкостью, поэтому синхронные запросы могут получать ошибки при перегрузке. Новый async API использует pull-based очередь и исполняет задачи при появлении свободной мощности, отслеживая загрузку GPU. Это смещает систему к модели “eventual execution” вместо жёстких SLA по latency. Подход подходит для неинтерактивных задач (например, анализ кода), но не заменяет real-time сценарии.

Практические результаты описаны на уровне внутренних кейсов. Модель используется в разработке и автоматическом code review. В одном из сценариев агент обрабатывает более 7 млрд токенов в день и выявляет уязвимости в коде. Ключевой эффект — это снижение стоимости: заявлено сокращение затрат на 77% по сравнению с проприетарной моделью. При этом точные метрики latency, SLA или стабильности не раскрываются, что оставляет открытым вопрос предсказуемости под нагрузкой.

В итоге Workers AI движется в сторону управляемого компромисса: перенос сложности оптимизаций внутрь платформы, чтобы пользователь работал с API, а не с GPU-инфраструктурой. Это снижает порог входа, но не убирает фундаментальные ограничения serverless-инференса — конкуренцию за ресурсы и вариативность latency.

Источник

🚀 Deploy the Blocks