Das MRC-Protokoll verändert das Verhalten von Netzwerken in AI-Clustern, verringert die Überlastung und erhöht die Robustheit bei Ausfällen. Dies ist entscheidend für das synchrone Training von Modellen auf Zehntausenden von GPUs.

Das Problem zeigt sich nicht sofort — bis zu dem Zeitpunkt, an dem die Skalierung des Clusters jede Netzwerk-Anomalie verstärkt. Beim Training großer Modelle umfasst ein Schritt Millionen von Datenübertragungen. Eine einzige Verzögerung reicht aus, damit der gesamte Schritt ins Stocken gerät. Dies erzeugt den Effekt des „Failure Amplifiers“: Einzelne Paketverluste, Überlastung oder Link-Ausfälle beginnen, sich auf den gesamten Job auszuwirken. In klassischen Netzwerken mit RDMA (RoCE) folgt jeder Datenstrom einem einzigen Pfad. In Multi-Plane-Topologien führt dies zu Kollisionen zwischen Strömen und ungleicher Auslastung, was Jitter verstärkt und den Durchsatz verringert.

Die Lösung basiert auf MRC (Multipath Reliable Connection) — einer Erweiterung von RoCE, die das grundlegende Liefermodell verändert. Anstelle eines einzelnen Pfades für die Übertragung werden Hunderte paralleler Routen verwendet. Dies verringert die Wahrscheinlichkeit von Hot-Spots und gleicht die Last aus. Zusätzlich wird SRv6-Source-Routing angewendet, bei dem der Sender den Pfad des Pakets explizit angibt. Dies beseitigt die Abhängigkeit von dynamischem Routing und verringert die Fehlerklasse des Control Plane. Der Kompromiss ist hier offensichtlich: Das System wird auf der Ebene der Endknoten komplexer, aber das Netzwerk insgesamt wird vereinfacht und vorhersehbarer.

Architektonisch stützt sich MRC auf ein Multi-Plane-Netzwerk. Eine 800Gb/s-Schnittstelle wird in mehrere Kanäle unterteilt, zum Beispiel 8×100Gb/s, wobei jeder mit einem separaten Plane verbunden ist. Dies ermöglicht den Aufbau von Topologien mit zwei Ebenen von Switches anstelle von drei oder vier. Weniger Ebenen bedeuten geringere Latenz und weniger Ausfallpunkte. Diese Redundanz schafft jedoch das Problem der effizienten Nutzung der Pfade. MRC löst dies durch Packet Spraying: Pakete eines Streams werden auf alle verfügbaren Routen verteilt. Die Reihenfolge der Lieferung ist nicht garantiert, aber jedes Paket enthält die endgültige Adresse im Speicher, was das Sammeln von Daten ohne strikte Reihenfolge ermöglicht.

Zusätzlich wurde eine adaptive Reaktion auf Degradierung implementiert. Wenn ein Pfad beginnt, Pakete zu verlieren oder überlastet ist, wird er innerhalb von Mikrosekunden aus dem Verkehr gezogen. Bei Paketverlust geht das System von einem Ausfall aus und wechselt sofort. Um Fehlalarme zu vermeiden, wird Packet Trimming verwendet: Bei Überlastung schneidet der Switch den Payload ab und sendet nur den Header weiter, um eine gezielte Retransmission einzuleiten. Dies verringert die Wahrscheinlichkeit einer fehlerhaften Interpretation von Überlastung als Ausfall.

Eine separate Vereinfachungsebene ist der Verzicht auf dynamisches Routing (z. B. BGP) zugunsten statischer Tabellen und SRv6. Jedes Paket trägt den vollständigen Pfad durch das Netzwerk. Die Switches agieren deterministisch und berechnen die Pfade bei Ausfällen nicht neu. Dies beseitigt Verzögerungen bei der Konvergenz, die in traditionellen Netzwerken Sekunden in Anspruch nehmen können. Bei MRC erfolgt die Reaktion auf der Verbindungsebene und liegt im Mikrosekundenbereich.

Aus betrieblicher Sicht verändert dies das Verhalten des Systems. Link-Ausfälle und sogar Neustarts von Switches hören auf, kritische Ereignisse zu sein. Das Netzwerk funktioniert weiterhin, und der Trainingsjob erfordert keinen Neustart. Der Verlust eines Teils der Bandbreite führt zu einer Degradierung, die jedoch in der Regel geringer ist als der physische Verlust von Ressourcen. Bei der Wiederherstellung von Links kehren diese automatisch in den Pool der verfügbaren Pfade zurück.

Die Ergebnisse sind systemischer Natur. Der Einfluss von Überlastung wird verringert, die Latenz zwischen den Strömen wird ausgeglichen, und die Empfindlichkeit gegenüber Ausfällen wird gesenkt. Zudem entsteht die Möglichkeit, Cluster mit mehr als 100.000 GPUs mit weniger Netzwerkebenen zu erstellen. Dies senkt den Energieverbrauch und die Anzahl der Komponenten. Exakte Metriken in den Ausgangsdaten sind nicht vorhanden, aber es wird angegeben, dass der Einfluss von Netzwerkfehlern auf das synchrone Training praktisch nicht mehr wahrnehmbar ist.

Im weiteren Kontext ist MRC der Versuch, die Komplexität aus dem Netzwerk in die Endknoten zu verlagern und das Verhalten des Systems deterministisch zu gestalten. Solche Ansätze werden bereits in der Industrie diskutiert, insbesondere im Kontext von AI-Infrastrukturen, wo Vorhersehbarkeit wichtiger ist als Spitzenleistung. In Maßstäben, in denen das Netzwerk die Effizienz der Nutzung von GPUs bestimmt, erscheinen solche Kompromisse pragmatisch.

Lesen

Das MRC-Protokoll verändert das Verhalten von Netzwerken in AI-Clustern, verringert die Überlastung und erhöht die Robustheit bei Ausfällen. Dies ist entscheidend für das synchrone Training von Modellen auf Zehntausenden von GPUs.

🚀 Deploy the Blocks