Подборка архитектурных инсайтов и релизов, которые мы читали на этой неделе.

AI Systems & LLM Infrastructure

🔹 Blink (CPU-free LLM Inference)
Радикальный сдвиг в serving-архитектуре: полный вынос inference-пайплайна на GPU и SmartNIC устраняет CPU как bottleneck, снижая latency и повышая throughput при высоких нагрузках.
Читать релиз (EN) (Читать релиз (EN))

🔹 ForkKV (Disaggregated KV Cache for Multi-LoRA)
Copy-on-write KV-кэш позволяет масштабировать multi-LoRA inference без линейного роста памяти, делая multi-tenant LLM serving существенно эффективнее.
Читать релиз (EN)

🔹Holos Multi-Agent System
LLM-агенты переходят в web-scale orchestration: предложена архитектура, где агенты координируются как распределённая система с явными ролями, памятью и коммуникацией.
Читать релиз (EN)

🔹 Anthropic Three-Agent Harness
Практическая реализация multi-agent разработки: разделение ролей (planner, coder, verifier) повышает устойчивость long-running задач и снижает деградацию качества.
Читать релиз (EN)

Distributed Systems & HPC

🔹 Reverse Address Translation in Multi-GPU Pods
Показано, что RAT может становиться скрытым bottleneck в scale-up GPU-конфигурациях, влияя на latency меж-GPU коммуникаций — критично для LLM training.
Читать релиз (EN)

🔹Alltoallv RMA in MPI
Анализ persistent RMA-реализаций показывает, как снижать накладные расходы коллективных операций — ключ к оптимизации communication-heavy HPC workload’ов.
Читать релиз (EN)

🔹 Minos (GPU Workload Profiling)
Фреймворк системно связывает performance и power profile GPU-задач, открывая путь к energy-aware scheduling в HPC-кластерах.
Читать релиз (EN)

Cloud Native & Platform Engineering

🔹 OpenFaaS Runtime & Kubernetes Study
Показано, что выбор runtime и дистрибутива Kubernetes существенно влияет на cold start и throughput serverless-функций — tuning требует системного подхода, а не дефолтов.
Читать релиз (EN)

🔹 Pinterest Spark Auto Memory Retries
Инженерный паттерн: автоматический retry с адаптацией памяти снижает OOM на 96%, превращая нестабильные batch-пайплайны в предсказуемые.
Читать релиз (EN)

🔹Autonomous AI SRE Agent (Elasticsearch)
End-to-end SRE-цикл (deploy → monitor → heal) автоматизирован через агента, демонстрируя реальный переход к self-healing системам без участия человека. Читать релиз (EN)

Data Infrastructure & Databases

🔹 Etsy Migration to Vitess
Миграция 1000 шаров MySQL (425 ТБ) на Vitess подтверждает зрелость Vitess как control plane для massive sharding и online-миграций без даунтайма.
Читать релиз (EN)

Developer Experience & Performance Engineering

🔹 GitHub Diff Performance Engineering
Глубокий разбор оптимизации diff-рендеринга показывает, что bottleneck’и часто лежат в алгоритмах сравнения и layout, а не в I/O — важный урок для UI-инженерии на больших данных.
Читать релиз (EN)

Security & Blockchain

🔹 Routing Attacks in Ethereum PoS
Атаки на сетевой уровень (routing/eclipse) остаются реальной угрозой для PoS: консенсус безопасен лишь при устойчивой сетевой связности.
Читать релиз (EN)