B2B Engineering Insights & Architectural Teardowns

Mid-path анализ сети через A/B сравнение маршрутов

Mid-path анализ выявляет скрытые проблемы маршрутизации и interconnection, которые обычно маскируются в классических измерениях сети.

Проблема проявляется не на уровне доступа, а глубже — в середине пути (mid-path), где пересекаются автономные системы и interconnection. Классические инструменты измерения стараются сгладить вариации, считая их шумом. В результате деградация (latency, throughput) списывается на edge или пользовательскую среду. Это особенно заметно, когда разные маршруты к “одинаково близким” серверам дают разные результаты, но такие расхождения редко изолируются корректно.

Ключевая сложность — отделить влияние access ISP от влияния сети между провайдерами. Без этого любые выводы о производительности остаются частично слепыми. Дополнительный фактор — суточные колебания нагрузки и неравномерность тестов, которые искажают статистику. В таких условиях mid-path проблемы либо не фиксируются, либо интерпретируются неверно.

Решение строится на контролируемых A/B сравнениях, используя данные Measurement Lab (M-Lab). Основная идея — сравнивать производительность пользователей из одного access ISP к разным географически близким серверам. За счёт uniform server selection каждый сервер получает статистически эквивалентный поток тестов. Это устраняет перекосы по клиентам, времени и локальным условиям.

Если распределения метрик совпадают, mid-path можно считать “чистым”. Если нет — различие становится сигналом. Такой подход переворачивает традиционную модель: то, что раньше считалось шумом, становится основным источником информации. В качестве метрик используются throughput и minimum RTT (minRTT). Первый указывает на ограничения пропускной способности или traffic shaping, второй — на неэффективную маршрутизацию или “hairpinning”.

Компромисс здесь очевиден. Метод требует строгого контроля над распределением тестов и не работает в системах, где сервер выбирается по RTT или текущей загрузке. Это исключает часть популярных платформ измерения, но делает сигнал чище.

Реализация построена на обработке больших массивов NDT данных в BigQuery. Используются разреженные многомерные гистограммы (sparse multidimensional histograms), где измерения агрегируются по трём осям: сервер, ASN (access ISP) и значение метрики. Такой подход позволяет обработать миллионы измерений за один проход.

Для сравнения распределений применяются два показателя:

  • Kolmogorov-Smirnov distance — фиксирует различия формы распределений
  • отношение геометрических средних (geometric mean ratio) — даёт интерпретируемую разницу в процентах

KS distance чувствителен к любым отклонениям, но сложен для интерпретации. Геометрическое среднее проще читать, но может скрывать локальные аномалии. Использование обоих метрик снижает риск ложных выводов.

Практика показывает два типовых паттерна. Большие различия в throughput указывают на перегруженные interconnection или rate limiting. Например, узкое “плато” на фиксированном значении скорости сигнализирует о per-flow ограничении. Если бы проблема была в агрегированной нагрузке, распределение было бы более размытым.

Различия в minRTT выявляют проблемы маршрутизации. Даже без потери throughput, удлинённые пути увеличивают latency и ухудшают отзывчивость приложений. В ряде случаев это связано с отсутствием локального peering и вынужденным транзитом через удалённые узлы.

Результаты агрегируются в дашборды, где можно быстро увидеть проблемные регионы и пары серверов. При этом важно отметить: количественные улучшения в исследовании явно не фиксируются. Метод скорее выявляет аномалии, чем измеряет их влияние в абсолютных значениях.

Дополнительная ценность — возможность drill-down до конкретных ISP и маршрутов. Для части измерений доступны tcp info, traceroute и даже packet capture, что позволяет углубить анализ. Это создаёт основу для интеграции с другими подходами, включая BGP-анализ и активные probing-инструменты.

В индустриальном контексте это прагматичный шаг. Вместо попытки “очистить” данные от шума, система использует его как сигнал. Такой подход лучше отражает реальное поведение интернета, где interconnection и политика маршрутизации часто важнее, чем состояние edge.

Главный вывод — mid-path больше нельзя считать чёрным ящиком. При корректной постановке эксперимента его влияние становится измеримым и операционно полезным.

Новостной источник

arXiv — крупнейший открытый репозиторий препринтов (с 1991, под эгидой Cornell), где учёные оперативно выкладывают рабочие версии статей; материалы общедоступны, но не проходят полноценную рецензии, так что результаты следует считать предварительными и по возможности проверять в обновлённых версиях или в рецензируемых журналах. arxiv.org

Посмотреть pdf-документ в источнике

×

🚀 Deploy the Blocks

Controls: ← → to move, ↑ to rotate, ↓ to drop.
Mobile: use buttons below.