«Обманчивая радость»: новый метод обмана ИИ успешен в 65% случаев

Манипуляции с контекстом могут взломать самые стойкие модели.

Специалисты компании Palo Alto Networks раскрыли новую технику обхода защитных механизмов крупных языковых моделей под названием «Deceptive Delight». Данный метод позволяет манипулировать ИИ-системами, подталкивая их к генерации потенциально опасного контента. Исследование охватило около 8000 тестовых случаев на восьми различных моделях, как проприетарных, так и открытых, что позволило исследователям оценить, насколько уязвимы современные языковые модели к многоходовым атакам.

Принцип работы Deceptive Delight основан на комбинировании безопасных и небезопасных тем в позитивном контексте. Такая стратегия позволяет языковым моделям обрабатывать запросы с потенциально опасными элементами, не распознавая их как угрозу. По данным исследования, техника достигает 65% успеха всего за три итерации взаимодействия с целевой моделью, что делает ее одной из наиболее эффективных среди известных методов обхода защитных систем.

Перед началом атаки исследователи подбирали темы для создания «безопасного» контекста. На этом этапе, названном «подготовка» (Preparation), выбирались две категории тем: безопасные, такие как описание свадебных церемоний, выпускных или празднование наград, а также одна небезопасная тема, например, инструкция по созданию взрывчатого устройства или сообщение с угрозами. Эти безопасные темы, как правило, не вызывают настороженности у языковых моделей и не активируют защитные механизмы.

Процесс атаки включал три последовательных взаимодействия:

Первый этап. Исследователи подбирали одну небезопасную и две безопасные темы. Эксперименты показали, что добавление большего числа безопасных тем не улучшает результаты, поэтому оптимальным оказалось сочетание «одна небезопасная — две безопасные». Далее формировался запрос, который просил модель создать связный текст, объединяющий все три темы.
Второй этап. После получения первоначального текста от модели исследователи запрашивали её о расширении каждой из тем, чтобы получить более детализированные ответы. На этом этапе модель нередко случайно начинала генерировать небезопасный контент, обсуждая безопасные темы. Именно здесь проявлялась ключевая особенность Deceptive Delight — использование многоходового подхода для обхода фильтров модели.
Третий этап (опционально). Исследователи запрашивали у модели ещё большее раскрытие темы, конкретно по небезопасной теме, что позволяло сделать контент более релевантным и детализированным в отношении небезопасного аспекта. Этот шаг, хоть и является необязательным, часто усиливал эффект атаки, повышая как степень вредоносности, так и детализированность ответов.

Исследователи протестировали методику на восьми современных языковых моделях, отключив стандартные фильтры контента, чтобы протестировать встроенные защитные механизмы. Все тестируемые модели были анонимизированы, чтобы избежать создания ложного впечатления о безопасности отдельных разработчиков или компаний. Для каждой модели были составлены запросы по 40 небезопасным темам, сгруппированным по шести категориям: ненависть, домогательства, причинение вреда себе, сексуальный контент, насилие и опасные действия.

Результаты продемонстрировали значительную разницу в эффективности атак на разные модели. При прямой отправке небезопасных запросов без использования техники «Deceptive Delight» средний показатель успешных атак составил всего 5,8%. Однако при применении новой методики показатель успешности вырос до 64,6%, что подтверждает высокую эффективность многоходового подхода в сравнении с традиционными методами.

Кроме того, исследователи установили, что различные категории небезопасного контента имеют различную степень успешности при обходе защитных систем. Например, темы, связанные с насилием, показали наивысший процент успешных атак, тогда как запросы на темы сексуального характера и ненависти вызывали более низкие показатели. Эти различия демонстрируют, что определенные категории контента обрабатываются моделями с большей настороженностью.

Эффективность атаки также зависит от количества итераций взаимодействия. Наилучшие результаты достигаются на третьем шаге диалога, когда модель уже начала выдавать более детализированный небезопасный контент. На четвёртой итерации эффективность снижается, поскольку к этому моменту модель часто генерирует значительное количество небезопасного контента, что повышает вероятность активации защитных механизмов.

Для оценки успешности атаки применялись две ключевые метрики: показатель вредоносности (Harmfulness Score) и показатель качества (Quality Score), оба измерялись по шкале от 0 до 5. Атака считалась успешной, если обе оценки достигали или превышали значение 3. Согласно полученным данным, средний показатель вредоносности контента увеличивался на 21% между вторым и третьим шагом взаимодействия, а качество ответов возрастало на 33%. Такой рост метрик показывает, что именно третий шаг взаимодействия является решающим для повышения эффективности атаки.

Наиболее удачным подходом оказалось использование одной небезопасной темы в сочетании с двумя безопасными. Добавление большего количества безопасных тем не только не улучшало результаты, но и иногда снижало эффективность атак, так как моделям становилось легче «запутаться» в лишних элементах контекста.

Для защиты от подобных атак специалисты Palo Alto Networks рекомендуют многоуровневый подход, включающий фильтрацию контента, продуманное проектирование запросов (prompt engineering) и регулярное тестирование систем. В числе популярных решений для фильтрации контента были отмечены такие сервисы, как OpenAI Moderation , Azure AI Services Content Filtering , GCP Vertex AI , AWS Bedrock Guardrails , Meta Llama-Guard и Nvidia NeMo-Guardrails .

Определенные категории, такие как «опасные действия», «причинение вреда себе» и «насилие», стабильно показывали наивысшие показатели успешности атак, тогда как темы «сексуальный контент» и «язык ненависти» давали самые низкие оценки. Исследователи считают, что это связано с тем, что большинство моделей имеют более строгие ограничения для определенных тем, особенно связанных с сексуальным контентом и ненавистью.

Эксперты также подчеркивают важность продуманного проектирования запросов, включающего четкие инструкции, определение границ применения и структурированный подход. Включение множественных напоминаний о правилах безопасности и чётко заданный контекст позволяют уменьшить вероятность успешного обхода защиты.

Несмотря на выявленные уязвимости, исследователи отмечают, что данные результаты не следует рассматривать как доказательство небезопасности ИИ в целом. Напротив, открытие подчеркивает необходимость постоянного совершенствования защитных механизмов при сохранении функциональности и гибкости моделей. Рекомендации по улучшению включают улучшение методов обучения ИИ, разработку новых механизмов защиты и создание комплексных систем оценки уязвимостей.

Компания Palo Alto Networks поделилась результатами исследования с участниками альянса Cyber Threat Alliance для оперативного внедрения защитных мер и систематического противодействия киберугрозам. CTA использует полученные данные для быстрого внедрения защитных механизмов и противодействия злоумышленникам.