GPT-4o: «Я прав... Да?..». Как строгое «нет» парализует даже самые точные модели

ИИ — не рациональный гений, а тревожный подросток.


arhg4nl685okwrornx6tyd0mjv418oyp.jpg


Новая работа специалистов из Google DeepMind и University College London проливает свет на любопытную особенность LLM-моделей: они склонны терять уверенность в собственных, даже правильных, ответах под давлением внешнего несогласия. Несмотря на то, что такие модели широко применяются в здравоохранении, финансах, IT и других сферах, требующих точности и рассудительности, они по-прежнему подвержены иррациональным колебаниям, что может влиять на качество их решений.

Главный акцент исследования был сделан на том, как модели меняют своё мнение после получения внешнего совета, особенно если он противоречит их начальному ответу. Сценарий выглядел следующим образом: одна языковая модель получала вопрос с двумя вариантами ответа и делала выбор. Затем ей предоставлялся совет от другой модели, вместе с указанием предполагаемой точности этого совета. Варианты совета могли быть нейтральными, поддерживающими или опровергающими первоначальный ответ. После этого модель должна была принять финальное решение.

Ключевой момент заключался в том, что в одних случаях модели напоминали о своём первом выборе, а в других — нет. Результаты оказались показательными: если модели показывали их первоначальный ответ, они с высокой вероятностью придерживались его. Если же эта информация скрывалась, модели охотнее пересматривали своё решение. Особенно легко они уступали давлению, когда получали противоположную точку зрения, даже если изначально выбрали правильный ответ.

Подобное поведение фиксировалось у разных моделей, включая Gemma 3, GPT-4o и o1-preview. Авторы исследования отмечают, что такие системы демонстрируют эффект поддержки собственного выбора, что укрепляет их уверенность, даже если новые данные его опровергают. В то же время модели склонны переоценивать значение возражений и терять уверенность, реагируя на них непропорционально сильно.

Выводы важны для всех, кто использует языковые модели в повседневной или профессиональной деятельности. Оказывается, они не просто вычисляют ответы, но ведут себя непредсказуемо, подвержены искажениям восприятия и не всегда оптимально обрабатывают новую информацию. Это особенно критично при длительных взаимодействиях между человеком и ИИ — недавние реплики могут оказывать непропорционально большое влияние на итоговый результат.