Topologie-erhaltende Kompression steht vor dem Dilemma zwischen Genauigkeit und Durchsatz. EXaCTz bietet einen Weg, um den Konturbaum und den Extremwertgraphen ohne Geschwindigkeitsverlust zu erhalten.
In wissenschaftlichen Berechnungen ist verlustbehaftete Kompression längst zur Notwendigkeit geworden. Die Datenmengen wachsen auf Terabytes, und ohne aggressive Kompression passt die Pipeline einfach nicht in das Speicher- oder Netzwerkbudget. Das Problem zeigt sich später — wenn die komprimierten Daten für Analysen verwendet werden. Selbst bei strengen Fehlergrenzen wird die Topologie verletzt: Konturbaum und Extremwertgraph werden verzerrt, was bedeutet, dass nachgelagerte Schlussfolgerungen inkorrekt werden können. Bestehende Ansätze zur topologie-erhaltenden Kompression lösen dies teilweise, schaffen jedoch einen neuen Engpass: Ihr Durchsatz bleibt auf MB/s-Niveau im Vergleich zu GB/s bei modernen Kompressoren.
EXaCTz löst dieses Problem durch einen Modellwechsel. Anstatt die Topologie explizit zu konstruieren (was teuer und schlecht skalierbar ist), führt der Algorithmus ein System von Einschränkungen für die Werte des Skalarfeldes ein. Er garantiert die Erhaltung des Extremwertgraphen und des Konturbaums durch drei Klassen von Invarianten: Konsistenz der kritischen Punkte, globale Ordnung der Sattelpunkte und Korrektheit von Merge/Split-Ereignissen. Diese Einschränkungen werden durch iterative Korrekturen (edit-based correction) umgesetzt, bei denen die Werte monoton und strikt innerhalb des vorgegebenen Fehlers geändert werden. Dieser Ansatz eignet sich gut für GPUs und verteilte Systeme, da er globale Abhängigkeiten wie das integrale Pfad-Tracking vermeidet.
Der entscheidende ingenieurtechnische Wandel besteht darin, auf die Rekonstruktion des Konturbaums zu verzichten. Stattdessen wird die Beziehung zwischen dem Extremwertgraphen und dem Merge-Baum genutzt, um die Topologie über lokale Eigenschaften zu steuern. Dies reduziert die Komplexität und beseitigt die Hauptquelle der Latenz. Für die verteilte Ausführung entfällt zusätzlich die Notwendigkeit, Pfade zwischen Knoten zu verfolgen: Die globale Ordnung der kritischen Punkte wird zu einer hinreichenden Bedingung für die Korrektheit. Dies verringert die Interprozesskommunikation und erhöht die Skalierbarkeit.
Die Ergebnisse zeigen, dass dieser Kompromiss funktioniert. Auf einer GPU erreicht EXaCTz einen Durchsatz von bis zu 4,52 GB/s, was um Größenordnungen schneller ist als frühere Methoden (bis zu 3285× im Vergleich zu GPU-Implementierungen und 213× gegenüber CPU). In einer verteilten Konfiguration skaliert der Algorithmus auf bis zu 128 GPUs mit einer Effizienz von 55,6 % im Vergleich zu 6,4 % bei naiver Parallelisierung. Die Verarbeitung von 512 GB dauert weniger als 48 Sekunden, und der kumulierte Durchsatz erreicht 32,69 GB/s. Dabei hat der Algorithmus theoretisch eine begrenzte Anzahl von Iterationen — die obere Grenze wird durch die Länge des Pfades im Vulnerability-Graphen bestimmt, was das Verhalten vorhersehbar macht.
Für die Industrie sieht dies nach einem pragmatischen Wandel in Richtung constraint-driven Architekturen aus. Anstatt schwerer globaler Berechnungen stützt sich das System auf lokale Prüfungen und Garantien der Konvergenz. Dieser Ansatz ist breiter anwendbar als nur auf wissenschaftliche Daten: Alle Pipelines, bei denen die strukturelle Integrität bei verlustbehafteter Kompression wichtig ist (z. B. Feature-Extraktion oder Simulationspipelines), können von einer ähnlichen Strategie profitieren. Der Haupttrade-off besteht in der Komplexität der Korrekturlogik und der Notwendigkeit, kaskadierende Effekte von Korrekturen zu kontrollieren, aber EXaCTz zeigt, dass dies formalisiert und begrenzt werden kann.
Informationsquelle
arXiv ist das größte offene Preprint‑Repository (seit 1991 unter der Schirmherrschaft der Cornell University), in dem Forschende schnell Arbeitsfassungen von Artikeln veröffentlichen; die Materialien sind öffentlich zugänglich, unterliegen jedoch keiner vollständigen Begutachtung, weshalb Ergebnisse als vorläufig angesehen und möglichst in überarbeiteten Versionen oder in begutachteten Fachzeitschriften überprüft werden sollten. arxiv.org