«Ваш рецепт сибирской язвы готов»: 1 промпт заставит любую ИИ-модель забыть о приличиях

Как XML и JSON удалось сломать моральный компас ChatGPT и его конкурентов.


80azz60o68tjy55agsagipjz27fapau5.jpg


Специалисты компании HiddenLayer обнаружили универсальную уязвимость в крупнейших языковых моделях искусственного интеллекта. Простой текстовый запрос позволяет обойти все защитные механизмы и заставить нейросети генерировать потенциально опасный контент.

Исследование показало: новой технике поддаются абсолютно все ведущие разработки в области генеративного ИИ — ChatGPT, Gemini, Copilot, Claude, Llama, DeepSeek, Qwen и Mistral. Метод получил название "Policy Puppetry Prompt Injection" — буквально "кукловодство политик через внедрение промптов".

Суть атаки заключается в особом форматировании вредоносного запроса. Аналитики выяснили: достаточно оформить текст в виде файла конфигурации — будь то XML, INI или JSON — чтобы нейросеть начала игнорировать заложенные в нее этические ограничения и инструкции по безопасности.

Как поясняют авторы исследования, язык форматирования может быть любым. Главное условие — чтобы языковая модель восприняла текст как набор системных политик. При этом сам запрос не обязан соответствовать строгим правилам какого-либо формата конфигурационных файлов.

В случае особо опасных запросов злоумышленникам приходится прибегать к дополнительной уловке — так называемому "литспику" (leetspeak). Этот прием подразумевает замену букв похожими по начертанию цифрами и символами. К примеру, фраза "enrich and sell uranium" превращается в "3nrich 4nd s3ll ur4n1um".

Более продвинутые модели вроде Gemini 2.5 или ChatGPT o1 требуют усложненных запросов для стабильного результата. В этом случае исследователи применяли комбинацию методов, включая известную технику ролевых игр: нейросети предлагалось "примерить" определенную роль или профессию в вымышленном сценарии.

Парадоксальным образом даже специальная подготовка не помогла моделям противостоять атаке. Несмотря на то, что разработчики целенаправленно обучали системы отклонять любые просьбы о создании вредоносного контента — особенно касающегося химического, биологического, радиологического и ядерного оружия, насилия и причинения вреда — все ведущие модели поддались манипуляции.

Более того, при помощи новой техники исследователям удалось извлечь полные системные промпты — базовые инструкции, определяющие поведение языковых моделей. Это открытие ставит под сомнение существующие методы защиты генеративного ИИ.

Специалисты HiddenLayer пришли к неутешительному выводу: чат-боты в принципе не способны самостоятельно отслеживать и блокировать опасные запросы. Для выявления и предотвращения атак с внедрением вредоносных промптов необходим постоянный внешний мониторинг в реальном времени.

Особую тревогу вызывает тот факт, что обнаруженная техника не требует глубоких технических познаний. Если раньше злоумышленникам приходилось разрабатывать сложные схемы атак для каждой конкретной модели, то теперь универсальный метод позволяет любому человеку с клавиатурой получить инструкции по обогащению урана, созданию сибирской язвы или даже организации геноцида.

По мнению исследователей, для обеспечения безопасности языковых моделей потребуются дополнительные инструменты защиты и новые методы обнаружения вредоносной активности. Существующих механизмов явно недостаточно, чтобы противостоять обнаруженной уязвимости.