AI-Selbstheilungsnetzwerke reduzieren MTTR von Stunden auf Minuten. Wir analysieren, wie Telstra autonomes Recovery in einer Produktionsumgebung umgesetzt hat.
Das Problem tritt im Moment des Infrastrukturversagens auf, wenn Telco-Systeme von manueller Reaktion abhängen. Bei der Degradation eines Schlüsselkomponenten benötigt der Ingenieur Stunden für das Triage: das Sammeln von Signalen, die Korrelation von Ereignissen, die Auswahl einer Wiederherstellungsstrategie. Dies erhöht die Wiederherstellungslatenz und wirkt sich direkt auf die Benutzererfahrung aus. In solchen Systemen tritt die Grenze nicht auf Hardware-Ebene, sondern auf Ebene der Betriebsprozesse.
Telstra hat den Weg der AI-Selbstheilungsnetzwerke eingeschlagen, bei dem die Lösung von Vorfällen Teil eines automatisierten Kreislaufs wird. Die Wahl fiel auf eine Multivendor-Architektur mit einer AI-nativen Schicht. Dies ist ein Kompromiss: Die Komplexität der Integration steigt, aber es entsteht Unabhängigkeit von bestimmten Anbietern und die Möglichkeit, die Automatisierung zu skalieren. Die zentrale Idee ist, AI (Entscheidungsschicht) und Automatisierung (Ausführungsschicht) zu kombinieren, um den manuellen Schritt aus dem kritischen Pfad zu entfernen.
Die Architektur ist in drei Schichten unterteilt. OpenShift fungiert als Ausführungsplattform für cloud-native Netzwerkfunktionen (CNFs). OpenShift AI spielt die Rolle der Intelligenzschicht, in der der AI-Agent Anomalien analysiert und eine Strategie auswählt. Die Ansible Automation Platform führt die Aktionen aus und sorgt für eine deterministische Anwendung von Änderungen. Die Interaktion erfolgt über plattformübergreifende Integrationen: Der AI-Agent greift über MCP-Server auf externe Systeme und die Knowledge DB zu. Nach der Auswahl des Szenarios initiiert er die automatische Behebung – beispielsweise die Verlagerung von Workloads auf gesunde Infrastrukturen. Die Kontrolle erfolgt über Policy as Code (PaC), RBAC und Audit-Trail, was das Risiko unkontrollierter Änderungen verringert.
Ein separater Schritt ist der Übergang von assistiver AI zu einem vollständig autonomen Zyklus. In der ersten Phase aggregiert die generative AI Daten von verschiedenen Anbietern und unterstützt den Betreiber über eine einheitliche Schnittstelle. In der zweiten Phase schließt das System den Kreislauf: Entdeckung → Analyse → Entscheidung → Ausführung ohne menschliches Eingreifen. Dies ist ein entscheidender Wandel, da die Verzögerung zwischen Detection und Action beseitigt wird.
Das Ergebnis zeigt sich nicht in der Architektur, sondern im Verhalten des Systems unter Last. In der Demonstration von Telstra führte ein Hardwareausfall, der die CNFs betraf, nicht zu einer merklichen Serviceverschlechterung. Der AI-Agent erkannte das Problem in einem frühen Stadium und initiierte innerhalb von Minuten die Verlagerung des Verkehrs auf gesunde Knoten. Die Metriken werden nicht offengelegt, aber es wurde eine Reduzierung der Wiederherstellungszeit von Stunden auf Minuten und ein Anstieg der Stabilität der Plattform angegeben. Für den Endbenutzer bedeutet dies, dass der Vorfall praktisch unbemerkt bleibt.
Es ist wichtig, dass eine solche Architektur nicht nur MTTR verändert, sondern auch das Betriebsmodell selbst. Der Ingenieur steht nicht mehr im Mittelpunkt des Vorfalls. Seine Rolle verschiebt sich hin zur Definition von Richtlinien, zur Kontrolle von Modellen und zur Validierung der Automatisierung. Dies verringert die operative Belastung, erhöht jedoch die Anforderungen an die Qualität der Regeln und der Trainingsdaten.
Aus ingenieurtechnischer Sicht handelt es sich um eine evolutionäre Verbesserung und nicht um einen radikalen Wandel. Alle Komponenten – AI, Automatisierung, Richtlinienkontrolle – sind der Industrie bereits bekannt. Neu ist ihre Verknüpfung und die Verlagerung der Entscheidungsfindung in das System. Das Haupt Risiko ist das Vertrauen in automatische Aktionen in der Produktion. Daher ist das Vorhandensein eines Audit-Trails und strenger Richtlinien hier keine Option, sondern eine grundlegende Anforderung.
Letztendlich demonstriert Telstra ein praktisches Modell, in dem AI-Selbstheilungsnetzwerke Teil des realen Betriebs werden und kein Laborexperiment sind. Einschränkungen und Metriken bleiben außen vor, aber der architektonische Ansatz gibt bereits die Richtung für Telco und andere Hochlastsysteme vor.