FrontierMath: Epoch AI отправила ИИ в математический нокаут

Новый тест раскрывает истинные возможности крупнейших моделей.

Исследовательская организация Epoch AI представила новый математический тест FrontierMath , который поставил в тупик ведущие модели искусственного интеллекта. Результаты удивляют - даже самые мощные системы вроде GPT-4 и Claude 3.5 Sonnet справляются менее чем с 2% задач.

В разработке тестового комплекса приняли участие более 60 математиков из крупнейших научных учреждений. Каждая задача прошла тщательную проверку на корректность формулировок и отсутствие неоднозначностей. Около 5% заданий потребовали доработки в процессе рецензирования – для крупных проектов в области машинного обучения это типичный показатель.

FrontierMath кардинально отличается от существующих тестов тем, что его задания остаются непубличными. Такой подход исключает возможность "загрязнения данных" - ситуации, когда ИИ-модели заранее обучаются на тестовых примерах и демонстрируют завышенные результаты, создавая иллюзию глубокого понимания математики.

Задачи охватывают широкий спектр дисциплин - от вычислительной теории чисел до абстрактной алгебраической геометрии. Уровень сложности настолько высок, что даже лауреат Филдсовской премии Теренс Тао признал: решить их под силу только узкопрофильным специалистам или команде из аспиранта и ИИ, вооруженной специализированным программным обеспечением.

Также поражает контраст между результатами FrontierMath и других испытаний. Если в более простых бенчмарках вроде GSM8K и MATH современные языковые модели демонстрируют точность выше 90%, то здесь они практически беспомощны – и это при том, что им разрешено использовать Python для проверки ответов.

Математик Эван Чен рассказал в своем блоге, чем FrontierMath отличается от привычных олимпиадных задач. На Международной математической олимпиаде участникам не нужны глубокие специальные знания и сложные вычисления – главное проявить смекалку и найти нестандартный выход. В FrontierMath же наоборот: помимо творческого мышления от испытуемого требуется владение узкопрофильными знаниями и навыками.

Создатели теста продумали систему защиты от случайных попаданий. В качестве ответа нужно указать либо огромное целое число, либо настолько сложную математическую конструкцию, что шанс угадать ответ составляет меньше одного процента. При этом в ответе участнику не нужно приводить математическое доказательство – достаточно создать работающую программу.

Провал ведущих систем ИИ в тесте говорит о многом. По мнению экспертов, современные языковые модели не умеют применять известные им принципы в новых ситуациях и с трудом обобщают полученные знания.

Команда Epoch AI не собирается останавливаться на достигнутом. В ближайшие месяцы они покажут научному сообществу новые примеры задач, чтобы помочь разработчикам усовершенствовать свои системы искусственного интеллекта. Тестирование новых моделей на FrontierMath теперь будет проводиться регулярно.