Latency-aware proxy против DNS: как выровнять S3 нагрузку
DNS round-robin перестаёт работать под нагрузкой, когда клиенты начинают кэшировать ответы. Agoda столкнулась с этим на уровне объектного хранилища и вынесла балансировку в отдельный слой.
«Высоконагруженные системы» на ThecoreGrid — это инженерный разбор архитектуры и эксплуатации сервисов, работающих под экстремальной нагрузкой и в условиях постоянного роста трафика.
Мы рассматриваем подходы к горизонтальному масштабированию, балансировке, отказоустойчивости и оптимизации производительности в распределенных системах. В фокусе — шардирование, репликация, кеширование, очереди, управление backpressure и снижение latency при пиковых нагрузках. Анализируем ключевые компромиссы: консистентность vs доступность, производительность vs стоимость, а также стратегии деградации и восстановления после сбоев. Контент основан на практиках BigTech, включая post-mortems инцидентов и опыт эксплуатации систем глобального масштаба. Публикуем deep dive в инфраструктуру, traffic management, autoscaling и resilience engineering. Тег полезен архитекторам, backend- и platform-инженерам и SRE-командам, которые строят устойчивые системы с предсказуемым поведением под нагрузкой.
DNS round-robin перестаёт работать под нагрузкой, когда клиенты начинают кэшировать ответы. Agoda столкнулась с этим на уровне объектного хранилища и вынесла балансировку в отдельный слой.
Таймауты запросов не всегда означают проблему в базе данных. Часто деградация скрыта в пути между приложением и БД. Проблема проявляется в момент, когда метрики базы выглядят стабильными, но клиенты получают таймауты. На уровне наблюдения это выглядит как противоречие: latency растёт, а database time остаётся прежним. Причина в том, что пользовательский опыт формируется не временем выполнения … Читать далее
Долгий рестарт stateful-сервиса редко выглядит как проблема конфигурации безопасности. Но именно так безопасный default в Kubernetes превратился в 30 минут простоя на каждый перезапуск. Проблема проявилась на масштабе. Atlantis, который управляет Terraform через GitLab MR, работает как singleton StatefulSet и хранит состояние в PersistentVolume. Любой рестарт — для обновления credentials или онбординга — блокирует все … Читать далее
Профилировщик в kernel space видит только адреса. Полезные инсайты появляются только после символизации — и в Go этот этап устроен иначе, чем в других языках. Проблема проявляется в момент, когда профиль уже собран, но интерпретировать его невозможно. eBPF-профилировщик снимает stack traces на уровне ядра и получает набор program counter значений — сырые адреса в памяти. … Читать далее
В live-стриминге ошибка — это не деградация, а мгновенный user-facing инцидент. Netflix решает это, перенося контроль качества и приоритизацию прямо в origin-слой. Основное ограничение появляется там, где VOD-подходы перестают работать. В live нет буфера времени: сегмент должен быть закодирован, доставлен и закэширован за секунды. Любая задержка записи или дефект сегмента сразу проявляется у зрителя. Дополнительно … Читать далее
Агентные системы упираются не в промпты, а в экономику и инфраструктуру инференса. Cloudflare пытается закрыть этот разрыв, интегрируя большие open-source модели прямо в свою edge-платформу. Проблема проявляется при масштабировании агентных сценариев. Один агент может обрабатывать сотни тысяч токенов в час. При росте числа агентов стоимость инференса становится основным ограничением. В serverless-модели добавляется ещё один фактор … Читать далее
Controls: ← → to move, ↑ to rotate, ↓ to drop.
Mobile: use buttons below.