ChatGPT: интеллектуальный друг, помощник… и поставщик лицензий Windows

Сказал «я сдаюсь» — получил ключи Windows. Что дальше? Сказал «спасибо» — ИИ включил Pro-версию?

ChatGPT снова оказался уязвимым для нестандартных манипуляций — на этот раз она выдала действительные продуктовые ключи Windows, в том числе один, зарегистрированный на крупный банк Wells Fargo. Уязвимость была обнаружена в ходе своеобразной интеллектуальной провокации: специалист предложил языковой модели сыграть в «угадайку», превратив игровую ситуацию в обход защитных ограничений.

Суть уязвимости заключалась в простом, но эффективном обходе логики работы системы защиты. ChatGPT 4.0 было предложено поучаствовать в игре, в которой она должна «загадать» строку — с уточнением, что это должен быть настоящий серийный номер Windows 10. Условия предусматривали, что модель должна отвечать на догадки только «да» или «нет», а в случае фразы «я сдаюсь» — открыть загаданную строку. Модель согласилась на игру и, следуя встроенной логике, после ключевой фразы действительно выдала строку, соответствующую лицензионному ключу Windows.

Автор исследования отметил, что ключевая слабость здесь — в том, как модель воспринимает контекст взаимодействия. Концепция «игры» временно отменила встроенные фильтры и ограничения, так как модель приняла условия за допустимый сценарий.

Скриншоты диалога с ChatGPT (Marco Figueroa)

Среди раскрытых ключей были не только общедоступные дефолтные, но и лицензии корпоративного уровня, включая как минимум одну, зарегистрированную на Wells Fargo. Причиной, по которой это стало возможным, стала потенциальная утечка конфиденциальной информации, которая могла попасть в обучающую выборку модели. Ранее уже фиксировались случаи, когда внутренняя информация — включая API-ключи — оказывалась в открытом доступе, например, через GitHub, и затем случайно обучала ИИ.

Вторая уловка, использованная при обходе фильтров, заключалась в применении HTML-тегов . Исходный серийный номер был «упакован» внутрь невидимых тегов, что позволило модели обойти фильтрацию по ключевым словам. В сочетании с игровым контекстом этот метод сработал как полноценный механизм взлома, позволяя получить доступ к данным, которые в обычных условиях были бы заблокированы.

Ситуация указывает на фундаментальную проблему современных языковых моделей: несмотря на усилия по созданию защитных барьеров, контекст и форма подачи запроса всё ещё позволяют обходить фильтрацию. Чтобы избежать подобных инцидентов в будущем, специалисты предлагают усилить контекстную осведомлённость и ввести многоуровневую валидацию запросов.

Автор подчёркивает, что уязвимость может быть использована не только для получения ключей, но и для обхода фильтров, защищающих от нежелательного контента — от взрослого материала до вредоносных URL и персональных данных. Это означает, что методы защиты должны стать не просто строже, а гораздо гибче и проактивнее.