CompressARC: ИИ-вундеркинд разгадывает сложные головоломки с первого взгляда
NewsMakerГигабайты обучающих данных не нужны, когда есть сжатие.
Исследователи Университета Карнеги-Меллон создали алгоритм искусственного интеллекта, который решает сложные логические задачи практически "с нуля" – без предварительного обучения на тысячах примеров. Система получила название CompressARC, и ее главная особенность заключается в принципиально новом подходе к обработке информации.
В основе алгоритма лежит процесс сжатия данных. CompressARC использует специально разработанную нейронную сеть, которая не просто копирует архитектуру современных трансформеров, а действует как декодер. При этом она опирается на так называемый "остаточный поток" – технологию, позволяющую последовательно преобразовывать данные с сохранением промежуточных результатов.
Для проверки эффективности своего подхода аспирант Исаак Ляо и профессор Альберт Гу выбрали один из самых сложных тестов для искусственного интеллекта – набор визуальных головоломок ARC-AGI, созданный в 2019 году специалистом по машинному обучению Франсуа Шолле. Каждая головоломка представляет собой сетку-паззл, где нужно вывести правило на основе нескольких примеров и применить его к новой ситуации.
В одной из типичных задач светло-голубые линии разделяют поле на ячейки, которые нужно раскрасить по определенной логике: черным цветом – углы, пурпурным – центр, а остальные клетки должны отражать направление (красный означает верх, синий – низ, зеленый – право, желтый – лево). Такие головоломки проверяют базовые когнитивные способности: понимание сохранения объектов, целенаправленные действия, умение считать и работать с геометрическими формами.
CompressARC подходит к решению задач совершенно иначе, чем традиционные системы ИИ. Вместо того чтобы перебирать варианты методом проб и ошибок, алгоритм применяет математический прием под названием "градиентный спуск". Это похоже на поиск дна долины: система постепенно корректирует параметры нейросети, двигаясь в направлении наименьшей ошибки.
Технически процесс выглядит так: при кодировании алгоритм настраивает внутренние параметры сети и входные данные, стремясь минимизировать ошибки. В результате формируется максимально компактное описание головоломки, которое при развертывании точно воспроизводит как исходные примеры, так и правильное решение. Главная сложность заключается в том, чтобы получить это сжатое представление, не имея готовых ответов.
На тренировочном наборе задач CompressARC достигла точности 34,75%, а на новых, ранее не встречавшихся головоломках – 20%. Для системы без предварительного обучения это впечатляющий результат, хотя он и уступает показателям ведущих ИИ-систем. Например, модель o3 от OpenAI в декабре установила рекорд, решив 75,7% задач при ограниченных вычислениях и 87,5% с неограниченным временем на размышления.
Однако у CompressARC есть важное преимущество: она обрабатывает одну головоломку всего за 20 минут на обычной игровой видеокарте RTX 4070. Для сравнения, современные системы вроде o3 требуют мощных серверных кластеров и, по словам исследователей, "астрономических объемов вычислений".
Идея о связи между сжатием информации и интеллектом имеет серьезное научное обоснование. Она опирается на фундаментальные концепции информатики: сложность по Колмогорову (длина кратчайшей программы для получения заданного результата) и индукцию Соломонова (теоретически идеальный алгоритм предсказания). Способность эффективно сжимать данные требует тех же навыков, что считаются признаками разумного поведения: распознавания закономерностей и понимания структуры информации.
Исследования в этом направлении уже приносят неожиданные результаты. В сентябре 2023 года команда DeepMind обнаружила, что их языковая модель Chinchilla 70B превосходит специализированные алгоритмы сжатия: она уменьшает размер фрагментов изображений до 43,4% от исходного (против 58,5% у PNG) и сжимает аудио до 16,4% (формат FLAC дает 30,3%).
Конечно, у CompressARC есть заметные ограничения. Система хорошо справляется с задачами на распределение цветов, заполнение пробелов и анализ соседних пикселей, но испытывает трудности со счетом, распознаванием удаленных закономерностей, поворотами и отражениями. Критики также отмечают, что алгоритм может использовать специфические особенности головоломок ARC, которые не обязательно будут полезны в других областях.
Тем не менее открытие исследователей из Карнеги-Меллон может оказаться поворотным моментом в развитии искусственного интеллекта. В то время как ведущие компании вкладывают миллиарды в создание все более масштабных моделей, требующих огромных вычислительных мощностей, CompressARC предлагает принципиально иной путь – через глубокое понимание механизмов обработки информации. Это может стать ключом к разгадке природы интеллекта, которая до сих пор остается одной из главных загадок для ученых.

Исследователи Университета Карнеги-Меллон создали алгоритм искусственного интеллекта, который решает сложные логические задачи практически "с нуля" – без предварительного обучения на тысячах примеров. Система получила название CompressARC, и ее главная особенность заключается в принципиально новом подходе к обработке информации.
В основе алгоритма лежит процесс сжатия данных. CompressARC использует специально разработанную нейронную сеть, которая не просто копирует архитектуру современных трансформеров, а действует как декодер. При этом она опирается на так называемый "остаточный поток" – технологию, позволяющую последовательно преобразовывать данные с сохранением промежуточных результатов.
Для проверки эффективности своего подхода аспирант Исаак Ляо и профессор Альберт Гу выбрали один из самых сложных тестов для искусственного интеллекта – набор визуальных головоломок ARC-AGI, созданный в 2019 году специалистом по машинному обучению Франсуа Шолле. Каждая головоломка представляет собой сетку-паззл, где нужно вывести правило на основе нескольких примеров и применить его к новой ситуации.
В одной из типичных задач светло-голубые линии разделяют поле на ячейки, которые нужно раскрасить по определенной логике: черным цветом – углы, пурпурным – центр, а остальные клетки должны отражать направление (красный означает верх, синий – низ, зеленый – право, желтый – лево). Такие головоломки проверяют базовые когнитивные способности: понимание сохранения объектов, целенаправленные действия, умение считать и работать с геометрическими формами.
CompressARC подходит к решению задач совершенно иначе, чем традиционные системы ИИ. Вместо того чтобы перебирать варианты методом проб и ошибок, алгоритм применяет математический прием под названием "градиентный спуск". Это похоже на поиск дна долины: система постепенно корректирует параметры нейросети, двигаясь в направлении наименьшей ошибки.
Технически процесс выглядит так: при кодировании алгоритм настраивает внутренние параметры сети и входные данные, стремясь минимизировать ошибки. В результате формируется максимально компактное описание головоломки, которое при развертывании точно воспроизводит как исходные примеры, так и правильное решение. Главная сложность заключается в том, чтобы получить это сжатое представление, не имея готовых ответов.
На тренировочном наборе задач CompressARC достигла точности 34,75%, а на новых, ранее не встречавшихся головоломках – 20%. Для системы без предварительного обучения это впечатляющий результат, хотя он и уступает показателям ведущих ИИ-систем. Например, модель o3 от OpenAI в декабре установила рекорд, решив 75,7% задач при ограниченных вычислениях и 87,5% с неограниченным временем на размышления.
Однако у CompressARC есть важное преимущество: она обрабатывает одну головоломку всего за 20 минут на обычной игровой видеокарте RTX 4070. Для сравнения, современные системы вроде o3 требуют мощных серверных кластеров и, по словам исследователей, "астрономических объемов вычислений".
Идея о связи между сжатием информации и интеллектом имеет серьезное научное обоснование. Она опирается на фундаментальные концепции информатики: сложность по Колмогорову (длина кратчайшей программы для получения заданного результата) и индукцию Соломонова (теоретически идеальный алгоритм предсказания). Способность эффективно сжимать данные требует тех же навыков, что считаются признаками разумного поведения: распознавания закономерностей и понимания структуры информации.
Исследования в этом направлении уже приносят неожиданные результаты. В сентябре 2023 года команда DeepMind обнаружила, что их языковая модель Chinchilla 70B превосходит специализированные алгоритмы сжатия: она уменьшает размер фрагментов изображений до 43,4% от исходного (против 58,5% у PNG) и сжимает аудио до 16,4% (формат FLAC дает 30,3%).
Конечно, у CompressARC есть заметные ограничения. Система хорошо справляется с задачами на распределение цветов, заполнение пробелов и анализ соседних пикселей, но испытывает трудности со счетом, распознаванием удаленных закономерностей, поворотами и отражениями. Критики также отмечают, что алгоритм может использовать специфические особенности головоломок ARC, которые не обязательно будут полезны в других областях.
Тем не менее открытие исследователей из Карнеги-Меллон может оказаться поворотным моментом в развитии искусственного интеллекта. В то время как ведущие компании вкладывают миллиарды в создание все более масштабных моделей, требующих огромных вычислительных мощностей, CompressARC предлагает принципиально иной путь – через глубокое понимание механизмов обработки информации. Это может стать ключом к разгадке природы интеллекта, которая до сих пор остается одной из главных загадок для ученых.