Die meisten KI-Benchmarks bewerten das Ergebnis. ARC-AGI verlagert den Fokus auf den Prozess – wie effektiv das System Neues lernt.
Das Problem zeigt sich auf der Ebene der Metriken. Moderne Systeme zeigen ein hohes Maß an Automatisierung, aber dies ist oft eine Folge der Skalierung von Daten und Berechnungen und nicht des Wachstums der Generalisierungsfähigkeit. Die Fähigkeit (skill) wird zur Funktion des Umfangs der Trainingsdaten. Bei ausreichenden Priors „kauft“ der Entwickler tatsächlich die Leistung. In diesem Modell ist es schwierig, die Intelligenz des Systems von der Ingenieursqualität des Datensatzes zu trennen. Infolgedessen entsteht eine Kluft: Systeme lösen bekannte Aufgaben gut, sind aber instabil unter Bedingungen von Neuheit und Unsicherheit.
ARC-AGI bietet ein anderes Feedback-Signal. Intelligenz wird definiert als die Effizienz des Erwerbs von Fähigkeiten (skill-acquisition efficiency) bei unbekannten Aufgaben. Dies verlagert den Schwerpunkt vom Ergebnis auf die Geschwindigkeit und Qualität des Lernens. Eine Schlüsselentscheidung besteht darin, die Priors auf grundlegende kognitive Primitiven (core knowledge) zu beschränken. Dieser Ansatz beseitigt den Vorteil, der mit dem Vortraining auf kulturellen oder domänenspezifischen Daten verbunden ist. Dies ist ein Kompromiss: Wir opfern die Breite der abgedeckten Aufgaben, erhalten aber eine reinere Messung der Fähigkeit zur Generalisierung.
Die Umsetzung stützt sich auf mehrere strenge Einschränkungen.
- Die Aufgaben erfordern kein spezialisiertes Wissen oder Sprache.
- Es werden nur universelle kognitive Primitiven verwendet, die für den Menschen ohne Training zugänglich sind.
- Die Szenarien werden nach dem Prinzip „einfach für Menschen, schwierig für KI“ aufgebaut.
Dies ist wichtig, um die Variable zu isolieren. Wenn eine Aufgabe Englisch erfordert, beginnt die Metrik, den Zugang zu Textkorpora zu berücksichtigen, anstatt die Fähigkeit zu argumentieren. ARC-AGI beseitigt solche Abhängigkeiten. Das System muss eine Regel aus einer begrenzten Anzahl von Beispielen ableiten und sie auf neue Eingaben anwenden. Hier zeigen sich die realen Einschränkungen: Regel-Synthese (rule synthesis), Arbeit mit Abstraktionen und Wissenstransfer zwischen Aufgaben.
Das Ergebnis ist eine strengere Bewertung der Kluft zwischen Mensch und KI. ARC-AGI liefert keine Zahlen, die leicht als Fortschritt in Prozent interpretiert werden können – in dem Ausgangsmaterial sind solche Metriken nicht angegeben. Aber es identifiziert ein qualitatives Problem: Moderne Systeme schneiden bei Aufgaben schlechter ab, die schnelles Generalisieren bei begrenzter Erfahrung erfordern. Dies macht den Benchmark nützlich, nicht als KPI, sondern als Diagnoseinstrument. Er zeigt, wo genau die Architekturen an Grenzen stoßen und warum eine weitere Skalierung der Daten diese Kluft nicht schließt.