Большинство AI-бенчмарков оценивают результат. ARC-AGI смещает фокус на процесс — насколько эффективно система учится новому.

Проблема проявляется на уровне метрик. Современные системы демонстрируют высокий уровень автоматизации, но это часто следствие масштабирования данных и вычислений, а не роста обобщающей способности (generalization). Навык (skill) становится функцией объёма обучающих данных. При достаточных priors разработчик фактически «покупает» производительность. В этой модели трудно отделить интеллект системы от инженерного качества датасета. В результате возникает разрыв: системы хорошо решают известные задачи, но нестабильны в условиях новизны и неопределённости.

В ARC-AGI предлагается другой сигнал обратной связи. Интеллект определяется как эффективность приобретения навыков (skill-acquisition efficiency) на неизвестных задачах. Это смещает акцент с результата на скорость и качество обучения. Ключевой выбор — ограничить priors до базовых когнитивных примитивов (core knowledge). Такой подход убирает преимущество, связанное с предобучением на культурных или доменных данных. Это компромисс: мы жертвуем широтой покрываемых задач, но получаем более чистое измерение способности к обобщению.

Реализация опирается на несколько жёстких ограничений.

Задачи не требуют специализированных знаний или языка.
Используются только универсальные когнитивные примитивы, доступные человеку без обучения.
Сценарии строятся по принципу “easy for humans, hard for AI”.

Это важно для изоляции переменной. Если задача требует английского языка, метрика начинает учитывать доступ к корпусам текста, а не способность рассуждать. ARC-AGI устраняет такие зависимости. Система должна вывести правило из ограниченного числа примеров и применить его к новым входам. Здесь проявляются реальные ограничения: синтез правил (rule synthesis), работа с абстракциями и перенос знаний между задачами.

Результат — более строгая оценка разрыва между человеком и AI. ARC-AGI не даёт чисел, которые легко интерпретировать как прогресс в процентах — в исходном материале такие метрики не указаны. Но он выявляет качественную проблему: современные системы уступают в задачах, где требуется быстрое обобщение при ограниченном опыте. Это делает бенчмарк полезным не как KPI, а как инструмент диагностики. Он показывает, где именно архитектуры упираются в пределы и почему дальнейшее масштабирование данных не закрывает этот разрыв.

Источник

🚀 Deploy the Blocks