Инфраструктура

«Инфраструктура» на ThecoreGrid — это про проектирование, развитие и эксплуатацию базовых систем, на которых строится современный софт на масштабе.

Мы разбираем compute, networking и storage-слои, виртуализацию, контейнеризацию и облачные платформы в условиях highload. В фокусе — production-подход: надежность, отказоустойчивость, capacity planning, оптимизация стоимости и безопасность инфраструктуры. Темы включают Infrastructure as Code, автоматизацию, provisioning, multi-region архитектуры, маршрутизацию трафика и стратегии восстановления после сбоев. Анализируем реальные компромиссы и операционные риски на основе практик BigTech, post-mortems инцидентов и опыта эксплуатации крупных инфраструктур. Публикуем deep dive в observability, performance tuning и устойчивость платформ под динамической нагрузкой. Тег полезен platform- и DevOps-инженерам, SRE-командам и архитекторам, которые строят масштабируемую, надежную и управляемую инфраструктуру.

LLM-нагрузка без слепых зон: как вынести observability в слой маршрутизации через OpenRouter и Grafa…

27.03.202624.03.2026 от ThecoreGrid

Когда LLM становится частью продакшн-инфраструктуры, классического мониторинга уже недостаточно. Узким местом становится не код приложения, а слой маршрутизации и выбора моделей — и именно там нужна наблюдаемость. В cах деградация начинается не с падения HTTP-эндпоинтов, а с накопления неочевидных эффектов: рост латентности на отдельных моделях, скачки стоимости из-за маршрутизации, таймауты конкретных промптов, rate limits у … Читать далее

Stateless Kafka-совместимый брокер: перенос устойчивости в слой хранения

29.03.202623.03.2026 от ThecoreGrid

Tansu предлагает пересобрать Kafka-модель: убрать состояние из брокеров и делегировать надежность внешнему хранилищу. Это меняет поведение системы под нагрузкой и упрощает операционную модель. Проблема проявляется на уровне эксплуатации. Классический Kafka-брокер — это stateful-компонент: репликация, лидер-элекции, постоянное состояние, длительное время жизни. Такие узлы трудно масштабировать вниз, они требуют конфигурации и ресурсов (например, heap в гигабайтах). Система … Читать далее

ThecoreGrid Radar: AI-native инфраструктура, пересборка observability и эволюция control plane

27.03.202622.03.2026 от ThecoreGrid

ThecoreGrid Radar — это рубрика, в которой мы собираем ключевые архитектурные инсайты и релизы недели. Без необходимости искать по разным источникам — всё в одном месте.

Datadog Terraform Provider v4: предсказуемые права доступа и унификация AWS-интеграции

29.03.202622.03.2026 от ThecoreGrid

Обновление провайдера смещает фокус с удобства на предсказуемость поведения. Это критично, когда Terraform становится источником истины (source of truth) для observability-конфигурации. Проблема проявляется на уровне управления состоянием. В больших инсталляциях Terraform должен детерминированно контролировать доступ и интеграции. В предыдущих версиях поведение прав на мониторы могло быть неочевидным, особенно при обновлениях. Параллельно AWS-интеграция была разбита на … Читать далее

Наблюдаемость AI-агентов: трассировка недетерминированных workflow через OpenLIT и Grafana Cloud

29.03.202621.03.2026 от ThecoreGrid

AI-агенты усложняют наблюдаемость: один и тот же запрос может приводить к разным цепочкам действий. Без трассировки система становится непрозрачной. Проблема проявляется, когда генеративные системы переходят от простых LLM-вызовов к агентам. Агент планирует шаги, вызывает инструменты и принимает решения динамически. Поведение становится недетерминированным: одинаковый prompt может привести к разным последовательностям вызовов и разной стоимости. Традиционный APM … Читать далее

🚀 Deploy the Blocks