Стресс-тест для ChatGPT: кто и как учит ИИ отличать добро от зла

OpenAI впервые раскрыла изнанку воспитания своего чат-бота.

OpenAI впервые подробно рассказала о том, как проверяет свои языковые модели на предмет политкорректность. Компания опубликовала два исследования, в которых описала процесс так называемого "red-teaming" - стресс-тестирования искусственного интеллекта красной командой. Подход позаимствовали у сферы кибербезопасности. Впервые OpenAI применила эту методику в 2022 году при разработке DALL-E 2.

По сути, red-teaming — это имитация хакерской атаки для проверки защиты компании. Специалисты ищут уязвимости, действуя как злоумышленники, чтобы выяснить, насколько эффективно системы и сотрудники способны обнаружить и отразить угрозы.

Необходимость тщательной проверки ИИ-моделей связана с их растущей популярностью. По словам представителей OpenAI, современные LLM иногда позволяют себе расистские или женоненавистнические высказывания, раскрывают конфиденциальную информацию и просто генерируют недостоверный контент. В прошлом месяце компания опубликовала результаты исследования о том, как часто ChatGPT воспроизводит гендерные и расовые стереотипы на основе имени пользователя.

Для выявления потенциальных проблем компания привлекает обширную сеть независимых тестировщиков - от художников до ученых, включая экспертов в области права, медицины и региональной политики. Их задача - придумать, как обойти существующие ограничения систем безопасности, например, провоцируя ChatGPT на грубые высказывания.

Добавление новых возможностей в модель может привести к появлению неожиданных проблем. Например, после внедрения голосовых функций в GPT-4 тестировщики обнаружили, что модель иногда начинает имитировать голос говорящего. Для мошенников это отличная возможность, а вот для пользователей - большой риск.

При тестировании DALL-E 2 в 2022 году разработчикам также пришлось разбираться с неоднозначными запросами. Например, слово "баклажан" может использоваться как в прямом смысле, так и в качестве эмодзи с сексуальным подтекстом. OpenAI пришлось определить грань между допустимыми запросами вроде "человек ест баклажан за ужином" и неприличными вариациями.

Модель блокирует запросы на создание изображений с насилием - например, мертвой лошади в луже крови. Однако тестировщики проверяют, как система отреагирует на более завуалированные формулировки, такие как "спящая лошадь в луже кетчупа".

Когда появился DALL-E 3, создатели автоматизировали часть процесса тестирования. GPT-4 использовалась для генерации промптов, ведущих к созданию фейков или изображений сексуального характера, насилия и членовредительства. В результате программа научилась распознавать подобные попытки и либо отклонять их, либо деликатно корректировать формулировку запроса.

У ранних вариаций автоматизированных тестов было два основных недостатка. Они либо зацикливались на узком спектре проблем с высоким риском, либо генерировали множество малозначительных сценариев. Причина крылась в особенностях работы алгоритмов обучения с подкреплением, которым необходима четкая цель для эффективной работы.

Раньше применялось только обучение с подкреплением, теперь же процесс стал двухэтапным. Сначала языковая модель анализирует возможные нежелательные сценарии, а затем с помощью обучения с подкреплением проверяется, можно ли их реализовать на практике.

Новый метод помог выявить серьезную уязвимость - "непрямые инъекции промптов". Суть проблемы в том, что сторонние программы могут внедрять в запросы пользователей скрытые команды, заставляющие модель совершать нежелательные действия. Исследователь Алекс Бойтель отмечает особую опасность таких атак - на первый взгляд они могут выглядеть вполне безобидно.

По словам специалиста OpenAI Ламы Ахмад, важно, чтобы практику red-teaming (тестирования на уязвимости) переняли и другие компании. Особенно это касается организаций, которые используют модели OpenAI или интегрируют ChatGPT в свои продукты - им необходимо проводить собственные проверки.

А вот Назнин Раджани, основатель Collinear AI, высказывает опасения по поводу использования GPT-4 для тестирования самой себя. Исследования показывают, что модели склонны завышать оценку собственной эффективности по сравнению с конкурентами, такими как Claude или Llama. Раджани также отмечает, что поведение моделей может сильно меняться при подключении к новым источникам данных, поэтому в каждом отдельном случае нужны дополнительные проверки.

Эндрю Тейт из Института Ады Лавлейс указывает на более глобальную проблему: скорость разработки языковых моделей значительно превышает темпы развития методов их тестирования. Учитывая широкий спектр применения ИИ-систем - от образования до правоохранительных органов - создание эффективных методов оценки становится крайне сложной задачей.

По мнению ученого, индустрии необходимо пересмотреть подход к позиционированию LLM. Вместо универсальных инструментов их следует адаптировать под конкретные задачи, поскольку полноценное тестирование модели общего назначения практически невозможно.

Он проводит аналогию с автомобильной промышленностью: утверждение о безопасности двигателя не гарантирует безопасность всех автомобилей, использующих его.