Agentenbasierte Systeme werden nicht durch Prompts begrenzt, sondern vielmehr durch die Wirtschaftlichkeit und Infrastruktur der Inferenz. Cloudflare versucht, diese Lücke zu schließen, indem große Open-Source-Modelle direkt in seine Edge-Plattform integriert werden.
Das Problem wird bei der Skalierung agentenbasierter Szenarien offensichtlich. Ein einzelner Agent kann Hunderttausende von Token pro Stunde verarbeiten. Mit zunehmender Anzahl von Agenten werden die Inferenzkosten zum primären Engpass. Im Serverless-Modell kommt ein weiterer Faktor ins Spiel – unvorhersehbare Ressourcenverfügbarkeit und der Wettbewerb um GPUs. Gleichzeitig steigt die technische Komplexität: Große Modelle erfordern Optimierungen (Parallelität, Speicherlayout, Scheduling), ohne die sich Durchsatz und Latenz verschlechtern. Ein spezifischer Engpass ist die Prefill-Phase: Bei langen Kontexten (bis zu 256k Token) befindet sich die GPU im Leerlauf, während sie auf den Abschluss der Eingabeverarbeitung wartet, was die Time to First Token (TTFT) erhöht.
Die gewählte Lösung besteht darin, ein großes Open-Source-Modell (Kimi K2.5) direkt in Workers AI zu integrieren. Dies ist ein pragmatischer Kompromiss: Senkung der Kosten im Vergleich zu proprietären Modellen bei gleichzeitiger Aufrechterhaltung der Qualität auf einem für Produktionsaufgaben ausreichenden Niveau. Die Kernidee ist nicht einfach, „das Modell zu hosten“, sondern es in die bestehenden Primitive der Plattform (Durable Objects, Workflows, Sandbox-Ausführung) einzubetten, um den gesamten Lebenszyklus des Agenten abzudecken. Der Trade-off ist klar: Serverless bietet Flexibilität und Pay-per-Token-Preise, erfordert jedoch eine komplexe Orchestrierung und garantiert keine sofortige Verarbeitung unter Last.
Die Implementierung beruht auf der Optimierung des gesamten Inferenz-Stacks. Auf der proprietären Engine von Infire werden Custom Kernels eingesetzt, um die GPU-Auslastung zu verbessern. Dabei kommen branchenübliche Techniken zum Einsatz – Daten-/Tensor-/Experten-Parallelität und Disaggregated Prefill (Verteilung der Prefill- und Generierungsphasen auf verschiedene Maschinen). Eine separate Optimierungsschicht ist das Prefix Caching: Zuvor verarbeiteter Kontext wird zwischen Anfragen wiederverwendet. Dies reduziert die Prefill-Berechnungen und wirkt sich direkt auf die TTFT und den Durchsatz (Token pro Sekunde) aus. Um die Trefferquote des Caches zu verbessern, wurde ein Session-Affinity-Mechanismus (der x-session-affinity-Header) eingeführt, der zusammenhängende Anfragen an dieselbe Modellinstanz weiterleitet.
Darüber hinaus wurde das asynchrone Ausführungsmodell überarbeitet. Serverless-Inferenz ist kapazitätsbegrenzt, sodass synchrone Anfragen bei Überlastung fehlschlagen können. Die neue Async-API nutzt eine Pull-basierte Warteschlange und führt Aufgaben aus, sobald Kapazität verfügbar wird, wobei die GPU-Auslastung überwacht wird. Dies verlagert das System in Richtung eines „Eventual Execution“-Modells anstelle von strengen Latenz-SLAs. Dieser Ansatz eignet sich für nicht-interaktive Aufgaben (z. B. Code-Analyse), ersetzt aber keine Echtzeit-Szenarien.
Praktische Ergebnisse werden anhand interner Use Cases beschrieben. Das Modell wird in der Entwicklung und für automatisierte Code-Reviews eingesetzt. In einem Szenario verarbeitet ein Agent täglich über 7 Milliarden Token und identifiziert Schwachstellen im Code. Der Hauptvorteil ist die Kostenreduzierung: Es wird eine Kostenersparnis von 77 % im Vergleich zu einem proprietären Modell angegeben. Genaue Metriken zu Latenz, SLAs oder Stabilität werden jedoch nicht offengelegt, was die Frage der Vorhersagbarkeit unter Last offenlässt.
Letztendlich bewegt sich Workers AI auf einen verwalteten Kompromiss zu: Die Komplexität der Optimierungen wird in die Plattform verlagert, sodass der Nutzer mit einer API anstatt mit GPU-Infrastruktur arbeitet. Dies senkt die Einstiegshürde, beseitigt jedoch nicht die grundlegenden Einschränkungen der Serverless-Inferenz – den Wettbewerb um Ressourcen und die Variabilität der Latenz.