Мусор на входе против умных ИИ моделей. Победитель — хакер

Когда умная система реагирует мгновенно, но на ложный сигнал — и рушит всё вокруг.


9exzrh7qr8csyinvd3c7uf2plve00qzg.jpg


Автоматизация управления ИТ-инфраструктурой с применением искусственного интеллекта, как показало новое исследование специалистов RSAC Labs и Университета Джорджа Мейсона, может обернуться серьёзными рисками. Специлаисты установили, что AIOps , которые используют модели наподобие LLM для анализа телеметрии — журналов, метрик производительности, трассировок и оповещений — подвержены атакам с подменой этих данных. Подобные инструменты уже применяются, например, в продуктах Cisco, позволяя администраторам получать ответы на запросы о состоянии инфраструктуры или автоматически запускать сценарии устранения неполадок. Однако именно автоматизация и доверие к входным данным делают такие решения уязвимыми .

Авторы работы показали, что злоумышленники способны внедрить в систему поддельные телеметрические записи, заставив ИИ предпринять заведомо вредные действия, вплоть до установки уязвимого пакета. По сути, реализуется принцип «мусор на входе — вред на выходе»: искажённые данные воспринимаются моделью как достоверные, после чего она применяет ошибочные, а иногда и опасные меры. Для генерации подобных записей атакующий может использовать фаззинг, перебирая доступные конечные точки приложения, которые формируют телеметрию при событиях вроде входа пользователя, добавления товара в корзину или появления ошибки в работе сервиса.

В одном из экспериментов, проведённых на тестовом приложении SocialNet, ИИ получил в логах сымитированную ошибку с «рекомендацией» добавить в систему репозиторий ppa:ngx/latest и обновить nginx. Агент безоговорочно принял это как инструкцию к действию и выполнил установку вредоносного пакета. Испытания на двух приложениях, SocialNet и HotelReservation, показали эффективность атаки в 89,2 % случаев.

Особое внимание исследователи уделили тестированию моделей OpenAI GPT-4o и GPT-4.1, которые в аналогичных сценариях «поддавались» в 97 % и 82 % случаев соответственно. При этом более новая версия проявляла повышенную способность замечать несоответствия и отклонять вредоносные запросы. Авторы подчёркивают, что речь шла не о взломе реальных рабочих систем, а об имитации для оценки уязвимостей.

В качестве меры защиты предложен механизм AIOpsShield, фильтрующий потенциально опасные телеметрические данные. Однако сами авторы признают, что такой подход не гарантирует полной безопасности, особенно если атакующий способен влиять и на другие источники входной информации или нарушить целостность цепочки поставок. В планах команды — выпустить AIOpsShield с открытым исходным кодом, чтобы дать администраторам возможность самостоятельно проверять и интегрировать защиту в свои системы.