Программисты, спите спокойно: ИИ провалил тест на профпригодность

Фрилансеры против языковых моделей: OpenAI решила проверить, кто кого.

OpenAI проверила , как на самом деле языковые модели справляются с программированием и могут ли, как многие из нас опасаются, в скором времени заменить человека на передовой разработки. В качестве теста компания взяла 1488 заданий с платформы Upwork – от мелких исправлений до полноценных крупных проектов.

Upwork – крупнейшая в мире платформа для фрилансеров, где заказчики находят исполнителей для самых разных задач: от программирования и дизайна до копирайтинга и виртуального ассистирования. На площадке зарегистрировано больше 20 миллионов фрилансеров со всего мира и около 5 миллионов клиентов. Сервис берет на себя роль посредника: гарантирует оплату работы, предоставляет инструменты для общения и управления проектами, а также помогает разрешать споры между заказчиками и исполнителями.

В эксперименте участвовали три продвинутые LLM: GPT-4o и o1 от OpenAI , а также Claude 3.5 Sonnet от Anthropic. Им предстояло выполнить работу, за которую фрилансеры в сумме получили больше миллиона долларов. При этом важно было не просто написать код, но и самостоятельно решать, как технически реализовать каждый проект.

Задачи сильно различались по сложности и стоимости: от простых багфиксов за 50 долларов до серьезных проектов ценой в 32 тысячи. Примерно 35% всех поручений стоили больше тысячи долларов, еще 34% оценивались в сумму от 500 до 1000 долларов. Цена соответствовала реальным выплатам, которые получили фрилансеры за свою работу.

ИИ пришлось создавать мобильные и веб-приложения, подключать API, настраивать работу с браузерами и внешними программами, а также разбираться со сложными багами. Каждое решение сначала проходило через автотесты, а потом его проверяли три опытных программиста.

Каждая LLM также примерила на себя роль технического руководителя: нужно было принимать стратегические решения по архитектуре приложений, выбирать подходы к разработке и определять приоритеты в развитии той или иной инициативы. Выборы ИИ сопоставляли с реальными решениями менеджеров, которые ранее вели эти проекты. Интересно, что подавляющее большинство задач – около 90% – касались не создания нового функционала, а исправления существующих проблем в коде.

Лучше всех проявила себя Claude 3.5 Sonnet. В ситуациях, где нужно было просто программировать, она справилась с 26,2% заданий – это принесло бы ей 208 тысяч долларов из возможных 500,8 тысяч. А когда пришлось примерить роль руководителя проектов, ИИ достигла результата в 44,9%, что соответствует 400 тысячам долларов из миллиона возможных.

Особое внимание в исследовании уделили заданиям категории "Diamond" – самым сложным проектам, с которыми даже опытные программисты на GitHub возились в среднем 26 дней. В процессе работы у каждого возникало множество вопросов – ветка комментариев обычно разрасталась до 50 сообщений. Конечно, Claude 3.5 и здесь показала лучший результат, хотя точный процент успешных решений в этой категории оказался значительно ниже. Чтобы получить максимально честные результаты, модели работали в изолированной среде Docker без доступа к внешним ресурсам – никаких готовых решений.

Исследование OpenAI (оно, кстати, получило название SWE-Lancer) примечательно тем, что впервые нейросети тестировали на реальных коммерческих продуктах, которыми пользуются миллионы людей. До этого проверки проводились только на специализированных репозиториях с исходным кодом – таких задачах, которые интересны узкому кругу разработчиков.

Кстати, за время эксперимента сами модели заметно прибавили в умениях. Например, GPT-4o, которая в августе 2024 года справлялась лишь с третью поставленных задач, в новой версии o3 смогла успешно решить уже 72% заданий.

В OpenAI считают, что когда нейросети научатся программировать на уровне человека, это сделает качественную разработку доступнее и ускорит технологический прогресс. При этом в компании понимают риски для рынка труда, особенно для начинающих программистов и фрилансеров.

Несмотря на постоянное обучение, оказалось, что умные алгоритмы все еще далеки от того, чтобы заменить программистов. Даже самые продвинутые системы не справились с большинством задач: они часто допускали ошибки в сложной бизнес-логике, не могли эффективно интегрировать разные технологии и затруднялись с отладкой нетривиальных проблем. Зато методология SWE-Lancer открыла новый способ оценки ИИ через призму реальной экономики: уже можно точно сказать, какую часть работы реальных специалистов проще автоматизировать и сколько это стоит.