Eine Auswahl an architektonischen Insights und Releases, die wir diese Woche gelesen haben.

AI Systems & LLM Infrastructure

🔹 Blink (CPU-free LLM Inference)
Ein radikaler Wandel in der Serving-Architektur: Die vollständige Auslagerung der Inference-Pipeline auf die GPU und SmartNIC eliminiert die CPU als Bottleneck, was die Latenz senkt und den Throughput bei hohen Lasten erhöht.
Release lesen (EN)

🔹 ForkKV (Disaggregated KV Cache for Multi-LoRA)
Ein Copy-on-Write-KV-Cache ermöglicht die Skalierung von Multi-LoRA-Inference ohne lineares Speicherwachstum, was Multi-Tenant-LLM-Serving deutlich effizienter macht.
Release lesen (EN)

🔹 Holos Multi-Agent System
LLM-Agenten gehen über zur Web-Scale-Orchestrierung: Es wird eine Architektur vorgeschlagen, in der sich Agenten als verteiltes System mit expliziten Rollen, Gedächtnis und Kommunikation koordinieren.
Release lesen (EN) (Release lesen (EN))

🔹 Anthropic Three-Agent Harness
Eine praktische Implementierung der Multi-Agenten-Entwicklung: Die Trennung von Rollen (Planner, Coder, Verifier) erhöht die Widerstandsfähigkeit lang laufender Aufgaben und verringert die Qualitätsminderung.
Release lesen (EN)

Distributed Systems & HPC

🔹 Reverse Address Translation in Multi-GPU Pods
Es wird gezeigt, dass RAT in Scale-up-GPU-Konfigurationen zu einem versteckten Bottleneck werden kann, was die Latenz der Inter-GPU-Kommunikation beeinträchtigt – kritisch für das LLM-Training.
Release lesen (EN)

🔹 Alltoallv RMA in MPI
Eine Analyse von persistenten RMA-Implementierungen zeigt, wie der Overhead kollektiver Operationen gesenkt werden kann – ein Schlüssel zur Optimierung von communication-heavy HPC-Workloads.
Release lesen (EN)

🔹 Minos (GPU Workload Profiling)
Ein Framework verknüpft systematisch Performance- und Power-Profile von GPU-Aufgaben und ebnet damit den Weg für energiebewusstes Scheduling in HPC-Clustern.
Release lesen (EN)

Cloud Native & Platform Engineering

🔹 OpenFaaS Runtime & Kubernetes Study
Es wird dargelegt, dass die Wahl der Runtime und der Kubernetes-Distribution Kaltstarts und den Durchsatz von Serverless-Funktionen erheblich beeinflusst – Tuning erfordert einen systematischen Ansatz, keine Standardwerte.
Release lesen (EN)

🔹 Pinterest Spark Auto Memory Retries
Ein Engineering-Pattern: Automatische Retries mit Speicheranpassung reduzieren OOM-Fehler um 96 % und verwandeln instabile Batch-Pipelines in vorhersehbare.
Release lesen (EN)

🔹 Autonomous AI SRE Agent (Elasticsearch)
Der End-to-End-SRE-Zyklus (Deploy → Monitor → Heal) wird durch einen Agenten automatisiert und demonstriert einen realen Übergang zu selbstheilenden Systemen ohne menschliches Eingreifen. Release lesen (EN)

Data Infrastructure & Databases

🔹 Etsy Migration to Vitess
Die Migration von 1000 MySQL-Shards (425 TB) zu Vitess bestätigt die Reife von Vitess als Control Plane für massives Sharding und Online-Migrationen ohne Downtime.
Release lesen (EN)

Developer Experience & Performance Engineering

🔹 GitHub Diff Performance Engineering
Eine tiefgehende Analyse der Optimierung des Diff-Renderings zeigt, dass Bottlenecks oft in Vergleichsalgorithmen und im Layout liegen, nicht im I/O – eine wichtige Lektion für das UI-Engineering bei großen Datenmengen.
Release lesen (EN)

Security & Blockchain

🔹 Routing Attacks in Ethereum PoS
Angriffe auf der Netzwerkschicht (Routing/Eclipse) bleiben eine reale Bedrohung für PoS: Der Konsens ist nur bei robuster Netzwerkkonnektivität sicher.
Release lesen (EN)