× Install ThecoreGrid App
Tap below and select "Add to Home Screen" for full-screen experience.
B2B Engineering Insights & Architectural Teardowns

GKE Agent Sandbox и гиперкластер для AI

GKE Agent Sandbox меняет подход к безопасному запуску AI-агентов в Kubernetes. Вместе с гиперкластером это формирует новую модель масштабирования и изоляции.

Проблема проявляется на стыке двух трендов: рост multi-agent систем и требования к изоляции. Когда агентный код становится динамическим и потенциально недоверенным, классическая контейнеризация уже не даёт достаточных гарантий. При этом нагрузка растёт нелинейно — сотни запусков в секунду, непредсказуемые пики, строгие требования к latency. Параллельно инфраструктура фрагментируется: команды создают сотни Kubernetes-кластеров под обучение и inference, что увеличивает операционную сложность и снижает управляемость.

Google делает ставку на Kubernetes как универсальный runtime для AI и агентов. В этом контексте GKE Agent Sandbox решает задачу изоляции через gVisor на уровне ядра, а не только контейнера. Это компромисс между безопасностью и производительностью: microVM дают более сильную изоляцию, но дороже по latency и ресурсам; контейнеры быстрее, но слабее по security. gVisor занимает промежуточную позицию. Важный архитектурный выбор — сделать sandbox не проприетарной функцией, а Kubernetes-примитивом. Это снижает vendor lock-in и позволяет переносимость (portability) между кластерами.

Решение оформлено как набор новых сущностей: Sandbox, SandboxTemplate и SandboxClaim. Это не просто API-расширение, а попытка встроить execution-модель агентов в сам Kubernetes control plane. SandboxTemplate задаёт политику безопасности, а SandboxClaim работает как декларативный запрос на вычислительную среду. Такой подход приближает sandbox к стандартным workload abstraction, но добавляет слой оркестрации для динамических задач. Для снижения cold start latency используются warm pools — предсозданные pod’ы, что позволяет удерживать запуск ниже одной секунды.

На практике система уже выдерживает сотни sandbox-запусков в секунду. Заявленные показатели — до 300 sandbox/sec и sub-second latency — указывают на оптимизацию scheduler и pre-provisioning. При этом Google заявляет до 30% улучшения price-performance на Axion, но без деталей методологии эти цифры стоит воспринимать осторожно. Важно другое: сама модель рассчитана на burst-нагрузку и непредсказуемый traffic pattern, характерный для agent-based систем.

Параллельно решается другая крайность — масштаб. GKE гиперкластер объединяет до миллиона accelerator-чипов под одним control plane. Это ответ на проблему “cluster sprawl”, когда инфраструктура дробится на сотни независимых кластеров. Централизация упрощает управление, но увеличивает blast radius. Один control plane становится критической точкой отказа и изменения. Даже при наличии регионального распределения и аппаратной изоляции через Titanium Intelligence Enclave, вопрос change management остаётся открытым.

Интересно, что безопасность здесь смещается на уровень hardware-attestation. Модель “no-admin-access” означает, что даже операторы платформы не имеют доступа к данным — веса моделей и prompt’ы остаются зашифрованными. Это важно для AI workloads, где данные часто чувствительны и требуют строгой изоляции.

На inference-уровне изменения более прикладные. Predictive Latency Boost использует ML для routing запросов, заменяя эвристики на data-driven scheduling. Это снижает time-to-first-token до 70%, что критично для пользовательского опыта. Второе улучшение — tiering KV cache между RAM, SSD и object storage. Это решает проблему long-context моделей, где память становится узким местом. Заявленный рост throughput — до 70% при offload на SSD — подтверждает, что storage hierarchy становится ключевым элементом AI-инфраструктуры.

Дополнительные элементы, такие как intent-based autoscaling и RL-оптимизированные scheduler’ы, указывают на сдвиг в сторону более “умной” оркестрации. Например, сокращение реакции autoscaling с 25 до 5 секунд достигается за счёт метрик напрямую из pod’ов, минуя внешние системы мониторинга. Это уменьшает latency в feedback loop и делает scaling более предсказуемым.

В итоге, архитектура GKE движется в сторону унификации: Kubernetes становится не просто оркестратором контейнеров, а execution-платформой для AI. Agent Sandbox закрывает проблему изоляции, гиперкластер — проблему масштаба. Но компромиссы остаются: между централизацией и отказоустойчивостью, между безопасностью и производительностью, между универсальностью и сложностью управления. Именно эти границы и будут определять, насколько жизнеспособной окажется эта модель в production.

Читать больше — InfoQ

×

🚀 Deploy the Blocks

Controls: ← → to move, ↑ to rotate, ↓ to drop.
Mobile: use buttons below.