Большинство AI-бенчмарков оценивают результат. ARC-AGI смещает фокус на процесс — насколько эффективно система учится новому.
Проблема проявляется на уровне метрик. Современные системы демонстрируют высокий уровень автоматизации, но это часто следствие масштабирования данных и вычислений, а не роста обобщающей способности (generalization). Навык (skill) становится функцией объёма обучающих данных. При достаточных priors разработчик фактически «покупает» производительность. В этой модели трудно отделить интеллект системы от инженерного качества датасета. В результате возникает разрыв: системы хорошо решают известные задачи, но нестабильны в условиях новизны и неопределённости.
В ARC-AGI предлагается другой сигнал обратной связи. Интеллект определяется как эффективность приобретения навыков (skill-acquisition efficiency) на неизвестных задачах. Это смещает акцент с результата на скорость и качество обучения. Ключевой выбор — ограничить priors до базовых когнитивных примитивов (core knowledge). Такой подход убирает преимущество, связанное с предобучением на культурных или доменных данных. Это компромисс: мы жертвуем широтой покрываемых задач, но получаем более чистое измерение способности к обобщению.
Реализация опирается на несколько жёстких ограничений.
- Задачи не требуют специализированных знаний или языка.
- Используются только универсальные когнитивные примитивы, доступные человеку без обучения.
- Сценарии строятся по принципу “easy for humans, hard for AI”.
Это важно для изоляции переменной. Если задача требует английского языка, метрика начинает учитывать доступ к корпусам текста, а не способность рассуждать. ARC-AGI устраняет такие зависимости. Система должна вывести правило из ограниченного числа примеров и применить его к новым входам. Здесь проявляются реальные ограничения: синтез правил (rule synthesis), работа с абстракциями и перенос знаний между задачами.
Результат — более строгая оценка разрыва между человеком и AI. ARC-AGI не даёт чисел, которые легко интерпретировать как прогресс в процентах — в исходном материале такие метрики не указаны. Но он выявляет качественную проблему: современные системы уступают в задачах, где требуется быстрое обобщение при ограниченном опыте. Это делает бенчмарк полезным не как KPI, а как инструмент диагностики. Он показывает, где именно архитектуры упираются в пределы и почему дальнейшее масштабирование данных не закрывает этот разрыв.