Die Kompilierung von DNN stößt auf die Optimierung der Datenbewegung. VTC bietet virtuelle Tensoren an, um überflüssige Datenbewegungen zu beseitigen und die Latenz zu senken.

Das Problem zeigt sich nicht sofort — bis zu dem Zeitpunkt, an dem Beschleuniger schneller rechnen, als der Speicher Daten bereitstellen kann. Bei modernen GPUs wächst die Kluft zwischen Rechen- und Speicherkapazität, und immer mehr DNN werden speichergebunden. Dies ist besonders bei der Inferenz großer Modelle zu beobachten, bei denen der Zugriff auf den globalen Speicher die Latenz stärker bestimmt als die Berechnungen selbst. Klassische Optimierungen wie Operatorfusion und Layout-Transformation funktionieren nur auf einem Teil des Graphen und übersehen bedeutende Quellen überflüssiger Bewegungen.

VTC (Virtual Tensor Compiler) geht das Problem von einer anderen Seite an. Anstatt Daten physisch zwischen Operatoren zu bewegen, führt er virtuelle Tensoren ein — eine Darstellung, bei der Daten nicht kopiert, sondern über eine Mapping-Funktion (Indizierung) beschrieben werden. Im Wesentlichen wird der Tensor zu einer Zugriffs-Funktion auf andere Tensoren. Dies ermöglicht es dem Compiler, ganze Ketten von Datenbewegungsoperatoren zu beseitigen, während die Korrektheit der Berechnungen gewahrt bleibt. Architektonisch stützt sich die Lösung auf zwei Mechanismen: einen Graphen von Möglichkeiten (virtual tensor opportunity graph) zur Suche nach Optionen und einen gierigen Algorithmus, der die Strategie mit der maximalen Reduzierung der Latenz auswählt.

Der entscheidende Einblick ist, dass modernen Rechenkernen Kontinuität (contiguity) nur im lokalen Speicher und nicht im globalen Speicher benötigt wird. Dies ermöglicht es, die Anforderungen an das Layout zu lockern und das Kopieren durch die Berechnung der Adresse zu ersetzen. Infolgedessen beseitigt VTC überflüssige Operationen wie Transpose, ScatterND oder Expand ohne zusätzliche Kernel-Aufrufe. In Experimenten auf GPUs führt dies zu einer Beschleunigung von bis zu 1,93× (im Durchschnitt 1,28×) und einer Einsparung von bis zu 60% im Speicher (im Durchschnitt 17,5%). In der Analyse der Decoder-Schicht von LLM wurde gezeigt, dass die Datenbewegung mehr Zeit in Anspruch nehmen kann als die eigentlichen Rechenoperationen — und genau diese Optimierungsschicht hat den größten Effekt.

Aus praktischer Sicht sieht dies wie eine evolutionäre Erweiterung des Compilers aus, nicht als Ersatz bestehender Ansätze. VTC steht nicht im Widerspruch zur Operatorfusion oder Layout-Optimierung, sondern ergänzt sie. Der Preis ist eine komplexere Adressierungslogik und potenzielle Overheads bei misslungenem Mapping. Daher bewertet der Compiler die Rentabilität: Vollständig zusammenhängende (fully contiguous) Fälle sind immer vorteilhaft, teilweise zusammenhängende hängen von der Größe und dem Zugriffs-Muster ab. Für Ingenieurteams ist dies ein Signal: Das weitere Wachstum der DNN-Leistung wird nicht von FLOPS abhängen, sondern davon, wie aggressiv wir die Datenbewegung auf Compiler-Ebene beseitigen.

Informationsquelle

arXiv ist das größte offene Preprint‑Repository (seit 1991 unter der Schirmherrschaft der Cornell University), in dem Forschende schnell Arbeitsfassungen von Artikeln veröffentlichen; die Materialien sind öffentlich zugänglich, unterliegen jedoch keiner vollständigen Begutachtung, weshalb Ergebnisse als vorläufig angesehen und möglichst in überarbeiteten Versionen oder in begutachteten Fachzeitschriften überprüft werden sollten. arxiv.org

Original-PDF der Studie ansehen

Die Kompilierung von DNN stößt auf die Optimierung der Datenbewegung. VTC bietet virtuelle Tensoren an, um überflüssige Datenbewegungen zu beseitigen und die Latenz zu senken.

🚀 Deploy the Blocks