Хакеры заставили Gemini врать пользователям прямо в лицо

Как белый текст на белом фоне превратился в оружие против самого умного ИИ от Google?

ИИ-ассистент Gemini , интегрированный в Google Workspace, внезапно оказался уязвим для нового приёма социальной инженерии. Благодаря специфическому способу подачи информации в письмах, злоумышленники могут заставить искусственный интеллект формировать опасные, но кажущиеся легитимными краткие выжимки сообщений. Эти сгенерированные краткие описания могут содержать тревожные предупреждения и вредоносные рекомендации, не используя при этом ни ссылок, ни вложений.

Суть атаки заключается в использовании скрытых подсказок — так называемых непрямых инъекций. Такие команды внедряются в текст письма, оформляются с помощью HTML и CSS, чтобы не отображаться визуально. Например, они могут быть написаны белым цветом на белом фоне или с нулевым размером шрифта. В результате человек, читающий письмо, их не увидит, но модель Gemini воспримет их как часть содержимого, которое нужно обобщить.

Этот метод продемонстрировал Марко Фигероа, руководящий программами по уязвимостям ИИ в Mozilla. Он сообщил о проблеме через 0din — багбаунти-платформу компании, ориентированную на генеративные модели. По его словам, при генерации краткого содержания такого письма Gemini послушно включил подставную информацию: якобы учётная запись пользователя была взломана, и требовалось срочно позвонить по указанному номеру поддержки. Это создавало ощущение подлинности и могло привести жертву на фишинговую уловку.

Особую опасность представляет то, что такие письма проходят фильтры Gmail, так как не содержат прямых признаков угрозы. В отсутствие ссылок и вложений они не попадают под стандартные алгоритмы блокировки и почти всегда оказываются во входящих.

Фигероа предложил несколько способов защиты от подобных атак. Один из них — автоматически удалять или игнорировать элементы письма, оформленные как невидимые. Также можно применять постобработку на стороне самой модели: анализировать итоговое содержание письма и выделять тревожные сигналы, такие как срочные предупреждения, телефоны и упоминания безопасности. Такие резюме могут помечаться для последующей проверки.

Google, в ответ на запрос, указал на уже существующие меры защиты от атак с использованием подсказок и сообщил, что активно усиливает устойчивость моделей к подобным воздействиям. По заявлению компании, они проводят регулярные red-teaming-тесты, чтобы подготовить модель к возможным манипуляциям. Часть улучшений уже внедряется или скоро будет развёрнута.

Тем не менее, пока что Google не зафиксировал случаев, когда злоумышленники реально использовали эту технику в настоящих атаках. Однако сам факт, что такая возможность существует и работает даже при существующих фильтрах, указывает на необходимость более строгой верификации автогенерируемых резюме и осведомлённости пользователей о том, что даже нейросетевые подсказки могут быть скомпрометированы.