Eine Auswahl an architektonischen Insights und Releases, die wir diese Woche gelesen haben.
LLM Infrastructure & Distributed AI
🔹 TENT (Slice Spraying Engine)
Eine deklarative Engine für die Datenverteilung im disaggregated LLM Serving reduziert die Tail Latency durch Adaptive Slice Placement und Widerstandsfähigkeit gegen Netzwerkdegradationen.
Release lesen (EN)
🔹 DWDP (Distributed Weight Data Parallelism)
Ein neuer Parallelismus-Modus für Inference auf NVL72 skaliert LLMs ohne die klassischen Bottlenecks von Tensor-/Pipeline-Parallelism, indem Gewichte statt Aktivierungen umverteilt werden.
Release lesen (EN)
🔹 CRAFT (Cost-aware Expert Allocation)
Die Optimierung der Platzierung von MoE-Experten unter Berücksichtigung der Layer-Level-Kosten senkt die Inference-Ausgaben bei gleichzeitiger Einhaltung von SLAs — ein wichtiger Schritt in Richtung Production-MoE-Ökonomie.
Release lesen (EN)
🔹 UNIFERENCE
Ein Discrete-Event-Simulations-Framework für Distributed AI ermöglicht reproduzierbare Tests von Architekturentscheidungen vor dem Deployment, einschließlich Netzwerk- und Scheduling-Effekten.
Release lesen (EN)
🔹 Spark-LLM-Eval
Ein verteiltes System zur LLM-Evaluierung mit Fokus auf statistische Signifikanz der Ergebnisse eliminiert typische Benchmarking-Fehler auf großen Clustern.
Release lesen (EN)
GPU Clusters & High-Performance Systems
🔹 Node-Interconnect Multi-Path Balancing
Execution-Time-Scheduling von Netzwerkpfaden beseitigt Skew in GPU-Clustern und verbessert die Utilization ohne Änderungen auf Anwendungsebene.
Release lesen (EN)
🔹 EXaCTz
Lossy Compression mit garantierter Erhaltung topologischer Eigenschaften (Graph/Contour Trees) ermöglicht eine aggressive Komprimierung wissenschaftlicher Daten ohne Verlust der analytischen Korrektheit.
Release lesen (EN)
Networking & Distributed Systems Theory
🔹 Internet-scale Anomaly Detection (Topology & Routing)
Methoden zur Erkennung von Routing-Anomalien und Überlastungen auf Internetebene zeigen, wie Telemetrie und Inference für Real-Time-Netzwerkdiagnostik kombiniert werden können.
Release lesen (EN)
🔹 Density-Delay Law
Die Formalisierung der Abhängigkeit zwischen Ereignisdichte und Latenzen bildet die Grundlage für das vorhersehbare Design von Event-driven Distributed Systems.
Release lesen (EN)
🔹 Online Network Slice Deployment (Multi-domain)
Algorithmen zur Platzierung von Network Slices unter Berücksichtigung von Trust Constraints ermöglichen die Verwaltung einer Multi-Operator-Infrastruktur ohne zentralisierte Kontrolle. Release lesen (EN)
Cloud Native & Telco
🔹 Serverless5GC
Die Architektur eines 5G-Cores als Ansammlung von Function-Prozeduren demonstriert, wie der Serverless-Ansatz auf den Telekommunikationskern angewendet werden kann, was zu Vorteilen bei Flexibilität und Betriebskosten führt.
Release lesen (EN)
Identity & Application Architecture
🔹 Source Known Identifiers
Ein dreistufiges Identifikationsmodell (Source-aware) löst das Problem von Vertrauen und Rückverfolgbarkeit in verteilten Anwendungen ohne zentralisierte Identity-Provider.
Release lesen (EN)
Agentic Systems & Applied AI
🔹 PayPal Agentic Toolkit + MCP Servers
Die Infrastruktur für Agent-driven Commerce zeigt, wie MCP und Tool-APIs Zahlungssysteme in eine programmierbare Umgebung für autonome Agenten verwandeln.
Release lesen (EN)