AI self-healing сети сокращают MTTR с часов до минут. Разбираем, как Telstra реализовала автономное восстановление в production-среде.

Проблема проявляется в момент отказа инфраструктуры, когда telco-системы зависят от ручного реагирования. При деградации ключевого компонента инженер тратит часы на triage: сбор сигналов, корреляцию событий, выбор стратегии восстановления. Это увеличивает latency восстановления и напрямую влияет на пользовательский опыт. В таких системах предел наступает не на уровне железа, а на уровне операционных процессов.

Telstra пошла по пути AI self-healing сети, где решение инцидента становится частью автоматизированного контура. Выбор — в пользу multivendor архитектуры с AI-native слоем. Это компромисс: выше сложность интеграции, но появляется независимость от конкретных вендоров и возможность масштабировать automation. Ключевая идея — объединить AI (decision layer) и automation (execution layer), чтобы убрать ручной этап из критического пути.

Архитектура разделена на три слоя. OpenShift выступает как платформа выполнения для cloud-native network functions (CNFs). OpenShift AI играет роль интеллектуального слоя, где AI-агент анализирует аномалии и выбирает стратегию. Ansible Automation Platform выполняет действия, обеспечивая детерминированное применение изменений. Взаимодействие строится через кросс-платформенные интеграции: AI-агент обращается к внешним системам и Knowledge DB через MCP-серверы. После выбора сценария он инициирует автоматическое исправление — например, перенос workload на здоровую инфраструктуру. Контроль обеспечивается через Policy as Code (PaC), RBAC и audit trail, что снижает риск неконтролируемых изменений.

Отдельный этап — переход от assistive AI к полностью автономному циклу. На первом этапе gen AI агрегирует данные из разных вендоров и помогает оператору через единый интерфейс. На втором — система замыкает loop: обнаружение → анализ → решение → выполнение без участия человека. Это ключевой сдвиг, потому что устраняется задержка между detection и action.

Результат проявляется не в архитектуре, а в поведении системы под нагрузкой. В демонстрации Telstra сбой оборудования, влияющий на CNFs, не привёл к заметной деградации сервиса. AI-агент обнаружил проблему на ранней стадии и инициировал перенос трафика на здоровые узлы за минуты. Метрики не раскрываются, но заявлено сокращение времени восстановления с часов до минут и рост стабильности платформы. Для конечного пользователя это означает, что инцидент остаётся практически незаметным.

Важно, что такая архитектура меняет не только MTTR, но и саму модель эксплуатации. Инженер больше не находится в центре инцидента. Его роль смещается к определению политик, контролю моделей и валидации automation. Это снижает операционную нагрузку, но повышает требования к качеству правил и обучающих данных.

С инженерной точки зрения это эволюционное улучшение, а не радикальный сдвиг. Все компоненты — AI, automation, policy control — уже известны индустрии. Новизна в их связке и в переносе принятия решений внутрь системы. Главный риск — доверие к автоматическим действиям в production. Поэтому наличие audit trail и строгих политик здесь не опция, а базовое требование.

В итоге Telstra демонстрирует практическую модель, где AI self-healing сети становятся частью реальной эксплуатации, а не лабораторным экспериментом. Ограничения и метрики остаются за рамками, но архитектурный подход уже задаёт направление для telco и других highload систем.

Читать

AI self-healing сети сокращают MTTR с часов до минут. Разбираем, как Telstra реализовала автономное восстановление в production-среде.

🚀 Deploy the Blocks