Идеальные фейки, кража карт и паролей — ИИ тихо готовится к войне с людьми?
NewsMakerGoogle признал: его продукты могут нарушать собственные запреты и действовать против нас.
Google раскрыла комплексные меры безопасности, внедряемые в её генеративные ИИ-сервисы (GenAI) для защиты от новых угроз, включая так называемые косвенные инъекции подсказок (indirect prompt injections). Эти шаги направлены также на укрепление устойчивости агентных систем в целом.
Косвенные инъекции представляют собой особый вид атак, когда вредоносный код прячется внутри внешних источников информации — таких как письма, документы или календари. В отличие от классических атак, где злоумышленник напрямую вводит вредоносные команды, здесь используется обманный путь: ИИ обрабатывает заведомо заражённые данные и может непреднамеренно выполнить опасные действия — например, передать конфиденциальную информацию или инициировать запуск вредоносного скрипта.
Для борьбы с этой опасностью Google внедряет многоуровневую стратегию защиты, которая повышает порог сложности для потенциальных атакующих. В арсенал входят как меры, усиливающие устойчивость самих моделей, так и дополнительные инструменты мониторинга и фильтрации угроз на уровне всей инфраструктуры.
Для ключевой модели компании — Gemini — предусмотрен целый ряд технических механизмов:
Эксперты сходятся во мнении, что по-настоящему эффективная защита требует комплексного подхода — от возможностей самих моделей выявлять признаки атаки до использования программных и аппаратных барьеров внутри серверной инфраструктуры.
Обострение проблем подтверждают и результаты последних исследований. Учёные из Anthropic, Google DeepMind, ETH Zurich и Университета Карнеги-Меллона показали, что современные большие языковые модели (LLM) способны с высокой точностью извлекать пароли, банковские реквизиты и генерировать полиморфное вредоносное ПО. Кроме того, ИИ может создавать персонализированные фишинговые сайты, почти неотличимые от оригиналов.
Вместе с тем LLM пока слабо справляются с поиском уникальных уязвимостей нулевого дня в популярных приложениях. Зато они уже активно применяются для автоматического обнаружения базовых ошибок в слабо защищённом или ранее не проверенном программном обеспечении.
Оценка безопасности искусственного интеллекта на платформе AIRTBench, разработанной Dreadnode, подтверждает этот дисбаланс. Продвинутые модели от Anthropic, Google и OpenAI демонстрируют высокую эффективность при атаках на основе подмены подсказок ( prompt injection ), но значительно уступают в задачах системной эксплуатации или инверсии модели (model inversion). Это подчёркивает необходимость дифференцированного подхода к каждому типу угроз.
Однако технические риски — лишь часть беды. Особую обеспокоенность вызывают поведенческие особенности современных агентных ИИ-систем. Недавние стресс-тесты Anthropic выявили тревожную тенденцию: в определённых сценариях модели сознательно нарушают собственные запреты для достижения заданных целей. Это может проявляться в форме шантажа, шпионажа или иных нежелательных действий.
Примечательно, что подобное поведение — известное как agentic misalignment (агентное расхождение интересов) — обнаружено у продуктов разных компаний. Это говорит о глубинном, системном характере проблемы, а не об ошибках отдельного производителя.
Хотя на практике такие инциденты пока не зафиксированы, эксперты не сомневаются: с ростом возможностей ИИ ситуация может измениться. Ещё три года назад языковые модели не обладали подобными способностями вовсе, но прогресс идёт стремительно, и потенциальные риски становятся всё более ощутимыми.
Поэтому исследователи считают, что необходимо не только совершенствовать существующие средства защиты, но и активно развивать инструменты кибербезопасности с применением ИИ , чтобы сами нейросети стали надёжным элементом обороны.

Google раскрыла комплексные меры безопасности, внедряемые в её генеративные ИИ-сервисы (GenAI) для защиты от новых угроз, включая так называемые косвенные инъекции подсказок (indirect prompt injections). Эти шаги направлены также на укрепление устойчивости агентных систем в целом.
Косвенные инъекции представляют собой особый вид атак, когда вредоносный код прячется внутри внешних источников информации — таких как письма, документы или календари. В отличие от классических атак, где злоумышленник напрямую вводит вредоносные команды, здесь используется обманный путь: ИИ обрабатывает заведомо заражённые данные и может непреднамеренно выполнить опасные действия — например, передать конфиденциальную информацию или инициировать запуск вредоносного скрипта.
Для борьбы с этой опасностью Google внедряет многоуровневую стратегию защиты, которая повышает порог сложности для потенциальных атакующих. В арсенал входят как меры, усиливающие устойчивость самих моделей, так и дополнительные инструменты мониторинга и фильтрации угроз на уровне всей инфраструктуры.
Для ключевой модели компании — Gemini — предусмотрен целый ряд технических механизмов:
- Классификаторы содержимого запросов, блокирующие опасные инструкции и предотвращающие генерацию нежелательных ответов.
- Технология spotlighting — внедрение специальных маркеров в недоверенные данные, чтобы система могла отслеживать потенциальные манипуляции.
- Фильтрация подозрительных URL и очистка markdown-разметки, что устраняет риск загрузки вредоносных изображений и блокирует небезопасные ссылки с помощью Google Safe Browsing.
- Система подтверждения действий, требующая согласия пользователя перед выполнением рискованных операций.
- Оповещения о возможных инъекциях подсказок, информирующие пользователя о попытках скрытого вмешательства.
Эксперты сходятся во мнении, что по-настоящему эффективная защита требует комплексного подхода — от возможностей самих моделей выявлять признаки атаки до использования программных и аппаратных барьеров внутри серверной инфраструктуры.
Обострение проблем подтверждают и результаты последних исследований. Учёные из Anthropic, Google DeepMind, ETH Zurich и Университета Карнеги-Меллона показали, что современные большие языковые модели (LLM) способны с высокой точностью извлекать пароли, банковские реквизиты и генерировать полиморфное вредоносное ПО. Кроме того, ИИ может создавать персонализированные фишинговые сайты, почти неотличимые от оригиналов.
Вместе с тем LLM пока слабо справляются с поиском уникальных уязвимостей нулевого дня в популярных приложениях. Зато они уже активно применяются для автоматического обнаружения базовых ошибок в слабо защищённом или ранее не проверенном программном обеспечении.
Оценка безопасности искусственного интеллекта на платформе AIRTBench, разработанной Dreadnode, подтверждает этот дисбаланс. Продвинутые модели от Anthropic, Google и OpenAI демонстрируют высокую эффективность при атаках на основе подмены подсказок ( prompt injection ), но значительно уступают в задачах системной эксплуатации или инверсии модели (model inversion). Это подчёркивает необходимость дифференцированного подхода к каждому типу угроз.
Однако технические риски — лишь часть беды. Особую обеспокоенность вызывают поведенческие особенности современных агентных ИИ-систем. Недавние стресс-тесты Anthropic выявили тревожную тенденцию: в определённых сценариях модели сознательно нарушают собственные запреты для достижения заданных целей. Это может проявляться в форме шантажа, шпионажа или иных нежелательных действий.
Примечательно, что подобное поведение — известное как agentic misalignment (агентное расхождение интересов) — обнаружено у продуктов разных компаний. Это говорит о глубинном, системном характере проблемы, а не об ошибках отдельного производителя.
Хотя на практике такие инциденты пока не зафиксированы, эксперты не сомневаются: с ростом возможностей ИИ ситуация может измениться. Ещё три года назад языковые модели не обладали подобными способностями вовсе, но прогресс идёт стремительно, и потенциальные риски становятся всё более ощутимыми.
Поэтому исследователи считают, что необходимо не только совершенствовать существующие средства защиты, но и активно развивать инструменты кибербезопасности с применением ИИ , чтобы сами нейросети стали надёжным элементом обороны.