FrontierMath: Epoch AI отправила ИИ в математический нокаут
NewsMakerНовый тест раскрывает истинные возможности крупнейших моделей.
Исследовательская организация Epoch AI представила новый математический тест FrontierMath , который поставил в тупик ведущие модели искусственного интеллекта. Результаты удивляют - даже самые мощные системы вроде GPT-4 и Claude 3.5 Sonnet справляются менее чем с 2% задач.
В разработке тестового комплекса приняли участие более 60 математиков из крупнейших научных учреждений. Каждая задача прошла тщательную проверку на корректность формулировок и отсутствие неоднозначностей. Около 5% заданий потребовали доработки в процессе рецензирования – для крупных проектов в области машинного обучения это типичный показатель.
FrontierMath кардинально отличается от существующих тестов тем, что его задания остаются непубличными. Такой подход исключает возможность "загрязнения данных" - ситуации, когда ИИ-модели заранее обучаются на тестовых примерах и демонстрируют завышенные результаты, создавая иллюзию глубокого понимания математики.
Задачи охватывают широкий спектр дисциплин - от вычислительной теории чисел до абстрактной алгебраической геометрии. Уровень сложности настолько высок, что даже лауреат Филдсовской премии Теренс Тао признал: решить их под силу только узкопрофильным специалистам или команде из аспиранта и ИИ, вооруженной специализированным программным обеспечением.
Также поражает контраст между результатами FrontierMath и других испытаний. Если в более простых бенчмарках вроде GSM8K и MATH современные языковые модели демонстрируют точность выше 90%, то здесь они практически беспомощны – и это при том, что им разрешено использовать Python для проверки ответов.
Математик Эван Чен рассказал в своем блоге, чем FrontierMath отличается от привычных олимпиадных задач. На Международной математической олимпиаде участникам не нужны глубокие специальные знания и сложные вычисления – главное проявить смекалку и найти нестандартный выход. В FrontierMath же наоборот: помимо творческого мышления от испытуемого требуется владение узкопрофильными знаниями и навыками.
Создатели теста продумали систему защиты от случайных попаданий. В качестве ответа нужно указать либо огромное целое число, либо настолько сложную математическую конструкцию, что шанс угадать ответ составляет меньше одного процента. При этом в ответе участнику не нужно приводить математическое доказательство – достаточно создать работающую программу.
Провал ведущих систем ИИ в тесте говорит о многом. По мнению экспертов, современные языковые модели не умеют применять известные им принципы в новых ситуациях и с трудом обобщают полученные знания.
Команда Epoch AI не собирается останавливаться на достигнутом. В ближайшие месяцы они покажут научному сообществу новые примеры задач, чтобы помочь разработчикам усовершенствовать свои системы искусственного интеллекта. Тестирование новых моделей на FrontierMath теперь будет проводиться регулярно.
Исследовательская организация Epoch AI представила новый математический тест FrontierMath , который поставил в тупик ведущие модели искусственного интеллекта. Результаты удивляют - даже самые мощные системы вроде GPT-4 и Claude 3.5 Sonnet справляются менее чем с 2% задач.
В разработке тестового комплекса приняли участие более 60 математиков из крупнейших научных учреждений. Каждая задача прошла тщательную проверку на корректность формулировок и отсутствие неоднозначностей. Около 5% заданий потребовали доработки в процессе рецензирования – для крупных проектов в области машинного обучения это типичный показатель.
FrontierMath кардинально отличается от существующих тестов тем, что его задания остаются непубличными. Такой подход исключает возможность "загрязнения данных" - ситуации, когда ИИ-модели заранее обучаются на тестовых примерах и демонстрируют завышенные результаты, создавая иллюзию глубокого понимания математики.
Задачи охватывают широкий спектр дисциплин - от вычислительной теории чисел до абстрактной алгебраической геометрии. Уровень сложности настолько высок, что даже лауреат Филдсовской премии Теренс Тао признал: решить их под силу только узкопрофильным специалистам или команде из аспиранта и ИИ, вооруженной специализированным программным обеспечением.
Также поражает контраст между результатами FrontierMath и других испытаний. Если в более простых бенчмарках вроде GSM8K и MATH современные языковые модели демонстрируют точность выше 90%, то здесь они практически беспомощны – и это при том, что им разрешено использовать Python для проверки ответов.
Математик Эван Чен рассказал в своем блоге, чем FrontierMath отличается от привычных олимпиадных задач. На Международной математической олимпиаде участникам не нужны глубокие специальные знания и сложные вычисления – главное проявить смекалку и найти нестандартный выход. В FrontierMath же наоборот: помимо творческого мышления от испытуемого требуется владение узкопрофильными знаниями и навыками.
Создатели теста продумали систему защиты от случайных попаданий. В качестве ответа нужно указать либо огромное целое число, либо настолько сложную математическую конструкцию, что шанс угадать ответ составляет меньше одного процента. При этом в ответе участнику не нужно приводить математическое доказательство – достаточно создать работающую программу.
Провал ведущих систем ИИ в тесте говорит о многом. По мнению экспертов, современные языковые модели не умеют применять известные им принципы в новых ситуациях и с трудом обобщают полученные знания.
Команда Epoch AI не собирается останавливаться на достигнутом. В ближайшие месяцы они покажут научному сообществу новые примеры задач, чтобы помочь разработчикам усовершенствовать свои системы искусственного интеллекта. Тестирование новых моделей на FrontierMath теперь будет проводиться регулярно.