GKE Agent Sandbox ändert den Ansatz für den sicheren Betrieb von AI-Agenten in Kubernetes. Zusammen mit dem Hypercluster bildet es ein neues Modell für Skalierung und Isolation.

Das Problem zeigt sich an der Schnittstelle zweier Trends: dem Wachstum von Multi-Agent-Systemen und den Anforderungen an die Isolation. Wenn der Agent-Code dynamisch und potenziell nicht vertrauenswürdig wird, bietet die klassische Containerisierung nicht mehr ausreichende Garantien. Gleichzeitig wächst die Last nicht linear — Hunderte von Starts pro Sekunde, unvorhersehbare Spitzen, strenge Anforderungen an die Latenz. Parallel dazu fragmentiert sich die Infrastruktur: Teams erstellen Hunderte von Kubernetes-Clustern für Training und Inferenz, was die operationale Komplexität erhöht und die Verwaltbarkeit verringert.

Google setzt auf Kubernetes als universelle Runtime für AI und Agenten. In diesem Kontext löst GKE Agent Sandbox das Problem der Isolation durch gVisor auf Kernel-Ebene und nicht nur auf Container-Ebene. Dies ist ein Kompromiss zwischen Sicherheit und Leistung: MicroVM bieten eine stärkere Isolation, sind jedoch teurer in Bezug auf Latenz und Ressourcen; Container sind schneller, aber schwächer in Bezug auf Sicherheit. gVisor nimmt eine Zwischenposition ein. Eine wichtige architektonische Entscheidung ist, das Sandbox nicht zu einer proprietären Funktion, sondern zu einem Kubernetes-Primitiv zu machen. Dies reduziert den Vendor Lock-in und ermöglicht Portabilität zwischen Clustern.

Die Lösung wird als eine Reihe neuer Entitäten gestaltet: Sandbox, SandboxTemplate und SandboxClaim. Dies ist nicht nur eine API-Erweiterung, sondern ein Versuch, das Ausführungsmodell von Agenten in den Kubernetes Control Plane selbst zu integrieren. SandboxTemplate legt die Sicherheitsrichtlinie fest, während SandboxClaim als deklarative Anfrage an die Rechenumgebung fungiert. Dieser Ansatz bringt die Sandbox näher an die standardmäßige Workload-Abstraktion, fügt jedoch eine Orchestrierungsschicht für dynamische Aufgaben hinzu. Zur Reduzierung der Cold Start-Latenz werden Warm Pools verwendet — vorerstellte Pods, die es ermöglichen, den Start unter einer Sekunde zu halten.

In der Praxis hält das System bereits Hunderte von Sandbox-Starts pro Sekunde aus. Die angegebenen Werte — bis zu 300 Sandbox/sec und sub-sekündliche Latenz — deuten auf eine Optimierung des Schedulers und Pre-Provisioning hin. Dabei gibt Google eine Verbesserung der Preis-Leistungs-Verhältnis von bis zu 30% auf Axion an, aber ohne Details zur Methodologie sollten diese Zahlen mit Vorsicht betrachtet werden. Wichtiger ist: Das Modell ist auf Burst-Lasten und unvorhersehbare Traffic-Muster ausgelegt, die für agentenbasierte Systeme charakteristisch sind.

Parallel wird eine andere Extremität — die Skalierung — angegangen. GKE Hypercluster vereint bis zu einer Million Accelerator-Chips unter einem Control Plane. Dies ist eine Antwort auf das Problem der „Cluster-Sprawl“, wenn die Infrastruktur in Hunderte unabhängiger Cluster zerfällt. Die Zentralisierung vereinfacht das Management, erhöht jedoch den Blast Radius. Ein Control Plane wird zu einem kritischen Punkt für Ausfälle und Änderungen. Selbst bei regionaler Verteilung und hardwarebasierter Isolation durch Titanium Intelligence Enclave bleibt die Frage des Change Managements offen.

Interessanterweise verschiebt sich die Sicherheit hier auf die Ebene der Hardware-Bestätigung. Das Modell „no-admin-access“ bedeutet, dass selbst die Betreiber der Plattform keinen Zugriff auf die Daten haben — die Gewichte der Modelle und die Prompts bleiben verschlüsselt. Dies ist wichtig für AI-Workloads, bei denen Daten oft sensibel sind und strenge Isolation erfordern.

Auf der Inferenzebene sind die Änderungen praktischer Natur. Predictive Latency Boost nutzt ML für das Routing von Anfragen und ersetzt Heuristiken durch datengestütztes Scheduling. Dies reduziert die Time-to-First-Token um bis zu 70%, was für das Benutzererlebnis entscheidend ist. Eine zweite Verbesserung ist das Tiering des KV-Caches zwischen RAM, SSD und Object Storage. Dies löst das Problem von Long-Context-Modellen, bei denen der Speicher zum Engpass wird. Der angegebene Anstieg des Durchsatzes — bis zu 70% bei Offload auf SSD — bestätigt, dass die Speicherhierarchie ein Schlüsselelement der AI-Infrastruktur wird.

Zusätzliche Elemente wie intent-basiertes Autoscaling und RL-optimierte Scheduler weisen auf eine Verschiebung in Richtung einer „intelligenteren“ Orchestrierung hin. Beispielsweise wird die Reaktionszeit des Autoscalings von 25 auf 5 Sekunden durch Metriken direkt aus den Pods erreicht, wodurch externe Überwachungssysteme umgangen werden. Dies reduziert die Latenz im Feedback-Loop und macht das Scaling vorhersehbarer.

Insgesamt bewegt sich die Architektur von GKE in Richtung Vereinheitlichung: Kubernetes wird nicht nur zum Orchestrator von Containern, sondern zur Ausführungsplattform für AI. Agent Sandbox löst das Problem der Isolation, der Hypercluster das Problem der Skalierung. Aber Kompromisse bleiben: zwischen Zentralisierung und Ausfallsicherheit, zwischen Sicherheit und Leistung, zwischen Universalisierung und Managementkomplexität. Genau diese Grenzen werden bestimmen, wie tragfähig dieses Modell in der Produktion sein wird.

Mehr lesen – InfoQ

GKE Agent Sandbox ändert den Ansatz für den sicheren Betrieb von AI-Agenten in Kubernetes. Zusammen mit dem Hypercluster bildet es ein neues Modell für Skalierung und Isolation.

🚀 Deploy the Blocks