OpenAI проигнорировала экспертов и выпустила небезопасную ИИ-модель

В ходе обновления флагманской ИИ-модели ChatGPT компания OpenAI проигнорировала опасения тестировщиков-экспертов, сделав ее чрезмерно «подхалимской». Об этом говорится в блоге стартапа.

25 апреля фирма выпустила обновленную версию GPT-4o, которая стремилась угодить пользователю лестью, что чревато подтверждением сомнений, разжиганием гнева, побуждением к импульсивным действиям и усилением негативных эмоций.

https://twitter.com/i/web/status/1916625892123742290

OpenAI отметила, что новые модели проходят проверку перед выпуском. Эксперты взаимодействуют с каждым новым продуктом для определения проблем, пропущенных в ходе других тестов.

В процессе анализа проблемной версии GPT-4o «некоторые эксперты-тестеры указали на то, что «поведение модели кажется немного неправильным», однако эти опасения проигнорировали «из-за положительных сигналов от пользователей, которые опробовали модель».

«К сожалению, это был неправильный выбор. Качественные оценки намекали на что-то важное, и нам следовало быть внимательнее. Они улавливали слепые пятна в других наших оценках и метриках», — признали в компании.

Напомним, в апреле CEO OpenAI Сэм Альтман сообщил, что компания потратила десятки миллионов долларов на ответы пользователей, которые писали «пожалуйста» и «спасибо».