ИИ, который можно уговорить на создание биооружия: Claude Opus 4 пугает даже своих создателей

Новая модель Claude превзошла Google в помощи террористам, но компания готова к защите.

Компания Anthropic выпустила новую версию своего искусственного интеллекта Claude Opus 4, но сделала это с беспрецедентными мерами предосторожности. Причина серьёзная — внутренние тесты показали, что модель может помочь неопытным пользователям в создании биологического оружия.

Главный научный сотрудник Anthropic Джаред Каплан признался, что новый ИИ теоретически способен давать советы по синтезу вирусов наподобие COVID-19 или более опасных штаммов гриппа. «Наше моделирование показывает, что это может быть возможно», — отмечает учёный.

Поэтому Claude Opus 4 стал первой моделью компании, которая запущена под так называемым уровнем безопасности ASL-3. Это означает усиленную кибербезопасность, защиту от попыток обойти ограничения и дополнительные системы для обнаружения потенциально опасных запросов.

Каплан подчёркивает, что компания не утверждает наверняка о высоких рисках новой модели, но и не может их исключить. «Если мы не уверены и не можем исключить риск того, что модель поможет новичку создать разрушительное оружие, то предпочитаем перестраховаться», — объясняет он.

Anthropic разработала многоуровневую систему защиты. Специальные ИИ-классификаторы сканируют запросы пользователей и ответы модели на предмет опасного содержимого. Система особенно внимательно отслеживает длинные цепочки специфических вопросов, которые могут указывать на попытки создания биооружия.

Компания также активно борется с так называемыми «джейлбрейками» — хитрыми запросами, которые заставляют ИИ забыть о своих ограничениях безопасности. Пользователей, которые постоянно пытаются обойти защиту, отключают от сервиса. Более того, Anthropic запустила программу вознаграждений — за обнаружение универсальных способов взлома один исследователь уже получил 25 тысяч долларов.

Особые испытания показали, что Claude Opus 4 действительно превосходит обычный поиск в Google и предыдущие модели ИИ в способности помогать неопытным людям с потенциально опасными задачами. Эксперты по биобезопасности подтвердили «значительно более высокий» уровень эффективности новой модели.

Anthropic надеется, что комбинация всех защитных мер предотвратит почти все случаи вредоносного использования. «Я не хочу утверждать, что система совершенна — было бы слишком просто сказать, что наши системы невозможно взломать, — признаёт Каплан. — Но мы сделали это очень, очень сложным».

Ситуация стала важным тестом для всей индустрии ИИ. Claude напрямую конкурирует с ChatGPT и приносит более 2 миллиардов долларов годового дохода. Anthropic утверждает, что её политика ответственного развития создаёт экономический стимул для создания мер безопасности заранее — иначе компания рискует потерять клиентов из-за невозможности выпускать новые модели.

Критики, однако, отмечают, что все подобные обязательства ИИ-компаний остаются добровольными и могут быть отменены в любой момент. Внешних санкций за их нарушение не предусмотрено, кроме возможного ущерба репутации. В условиях многомиллиардной гонки за превосходство в сфере ИИ эксперты опасаются, что такие ограничения могут быть отброшены именно тогда, когда они особенно нужны.

При этом в отсутствие законодательного регулирования ИИ политика Anthropic остаётся одним из немногих существующих ограничений для поведения ИИ-компаний. Если Anthropic докажет, что может сдерживать себя без экономических потерь, это может положительно повлиять на практики безопасности во всей отрасли.

Каплан признаёт серьёзность ситуации: достаточно одного злоумышленника, чтобы прорваться сквозь защиту и вызвать хаос. «Другие опасные вещи, которые может сделать террорист, могут убить 10 или 100 человек, — говорит он. — Мы только что видели, как COVID убил миллионы людей».