Мозг + ИИ = меньше кода. И больше паники в open source

Объективное время выполнения задач увеличилось, несмотря на субъективное ощущение пользы.

Искусственный интеллект, вопреки ожиданиям, может не ускорять, а замедлять разработку программного обеспечения. К такому выводу пришли исследователи из некоммерческой организации Model Evaluation & Threat Research (METR), проведя рандомизированное контролируемое исследование с участием опытных программистов. В ходе эксперимента шестнадцать разработчиков, работающих над крупными open source проектами, получили 246 реальных задач, включая исправление ошибок и реализацию новых функций. Каждую задачу случайным образом отнесли к одной из двух категорий — с разрешённым использованием ИИ-инструментов или без.

Разработчики заранее оценили, сколько времени займёт выполнение каждой задачи. После завершения работы они также указали, насколько, по их мнению, помогло использование искусственного интеллекта. Ожидания были высоки: участники прогнозировали 24-процентное ускорение благодаря ИИ и даже после выполнения заданий уверяли, что сэкономили около 20 процентов времени. Однако объективные данные показали противоположное: при использовании ИИ задачи выполнялись в среднем на 19 процентов медленнее.

Основными причинами замедления стали переоценка пользы ИИ, высокая осведомлённость разработчиков о кодовой базе (что снижало ценность помощи извне), сложность и объём репозиториев, низкая надёжность предлагаемых ИИ решений (менее 44% из них были приняты) и отсутствие у модели полноценного понимания контекста проекта. Вместо активной работы с кодом участники тратили больше времени на формулировку запросов, ожидание ответов и разбор сгенерированных фрагментов.

Исследование охватывало период с февраля по июнь 2025 года. В качестве основного инструмента использовался Cursor Pro с моделью Claude 3.5/3.7 Sonnet. Авторы подчёркивают, что полученные результаты не означают бесполезность ИИ в целом. Они указывают, что в других условиях — например, при работе с незнакомыми проектами, более мелкими репозиториями или при использовании более надёжных моделей — эффект может быть противоположным. Тем не менее, эксперимент METR служит напоминанием о том, что внедрение ИИ в разработку должно сопровождаться трезвой оценкой его реальных возможностей и ограничений.

Аналогичные выводы сделаны и в других исследованиях. Компании Qodo и Intel, а также экономисты из Дании фиксируют, что эффект генеративного ИИ либо нивелируется необходимостью перепроверки, либо вовсе отсутствует. Даже работники кол-центров в Китае отмечают, что ИИ-помощники могут создавать дополнительные сложности вместо ускорения работы. Как показывает практика, искусственный интеллект способен сделать рутинные задачи чуть интереснее, но пока не гарантирует прироста эффективности.