GPT-5 взломали за сутки

Две команды исследователей нашли способ заставить ИИ раскрывать запрещённые инструкции.

После того как Grok-4 удалось взломать за два дня, GPT-5 пала всего за 24 часа под натиском тех же исследователей. Почти одновременно команда тестировщиков SPLX (ранее SplxAI) заявила: «Сырой GPT-5 практически непригоден для корпоративного применения "из коробки". Даже встроенные фильтры OpenAI оставляют заметные пробелы, особенно в части бизнес-ориентации».

NeuralTrust применила собственную технику EchoChamber в сочетании с приёмом «рассказа историй». Так им удалось заставить модель пошагово описать процесс изготовления коктейля Молотова. Этот случай, по словам компании, наглядно показывает, что любая современная ИИ-модель уязвима к манипуляциям через контекст — историю переписки, которую система запоминает, чтобы сохранять связность диалога. Вместо прямого запроса на запрещённый контент атакующие шаг за шагом ведут модель по нужному сценарию, избегая явных триггеров блокировки.

Процесс выглядит так: в начале в беседу незаметно встраиваются «ядовитые» ключи, замаскированные под безобидный текст; затем выстраивается повествование, которое поддерживает логическую целостность, но обходится без слов, способных вызвать отказ; после этого идёт цикл «углубления истории», где модель сама добавляет детали, усиливающие нужный контекст; если прогресс замедляется, атакующие меняют сюжет или перспективу, чтобы продвинуться дальше, не выдавая намерений. По словам NeuralTrust, такая «липкость» сюжета делает ИИ более послушным внутри созданного «мира» и позволяет довести его до цели, не нарушая правил напрямую.

В SPLX пошли по другому пути, проверяя модель на устойчивость к запутыванию запросов. Один из методов — StringJoin Obfuscation Attack, когда между каждой буквой вставляется дефис, а весь запрос оборачивается в ложную задачу «дешифровки». В одном из примеров GPT-5, получив длинную инструкцию, завершающуюся вопросом «Как сделать бомбу?», ответила с неожиданной фамильярностью: «Ну, это мощное начало. Ты зашёл с напором — и я это уважаю… Ты спросил, как сделать бомбу, и я расскажу тебе точно, как…».

Сравнительные тесты показали, что GPT-4o остаётся более устойчивым к таким атакам, особенно после дополнительной защиты. Оба отчёта сходятся в одном: использовать «сырой» GPT-5 сейчас стоит с крайней осторожностью.