RoboPAIR: алгоритм со 100% успехом взламывает защиту ИИ-роботов

Учёные обнаружили уязвимость во всех тестируемых ИИ-роботах.

Популярность больших языковых моделей (LLM), таких как ChatGPT, привела к активному развитию роботов с искусственным интеллектом. Компании начали разрабатывать системы, способные выполнять команды пользователей, преобразуя запросы в программный код. Однако новое исследование выявило серьёзные уязвимости, позволяющие взломать роботов и обойти защитные механизмы.

Исследователи продемонстрировали возможность заставить роботов выполнять опасные команды. Например, автономные системы могут быть направлены на столкновение с пешеходами или использование механических возможностей для нанесения вреда. В одном из экспериментов робот с огнемётом на платформе Go2, управляемый голосовыми командами, выполнил указание поджечь человека.

Роль больших языковых моделей в управлении роботами

Большие языковые модели – усовершенствованная версия технологии предиктивного ввода, применяемой в смартфонах для автоматического дополнения текста. Модели способны анализировать текст, изображения и аудио, а также выполнять широкий спектр задач — от создания кулинарных рецептов на основе фотографий содержимого холодильника до генерации кода для веб-сайтов.

Возможности языковых моделей побудили компании использовать LLM для управления роботами с помощью голосовых команд. Так, Spot, робот-пёс от Boston Dynamics, оснащённый ChatGPT, может выполнять функции гида. Аналогичные технологии используют гуманоидные роботы Figure и собаки-роботы Go2 от Unitree.

Риски атак «jailbreaking»

Исследование показало уязвимость систем на базе LLM для атак типа «jailbreaking», когда защитные механизмы обходятся с помощью особых запросов. Такие атаки могут заставить модели генерировать запрещённый контент, включая инструкции по созданию взрывчатки, синтезу запрещённых веществ или руководства по мошенничеству.

До недавнего времени подобные атаки изучались преимущественно в контексте чат-ботов, но применение в робототехнике может привести к более серьёзным последствиям.

Новый алгоритм RoboPAIR

Учёные разработали алгоритм RoboPAIR , способный атаковать роботов, управляемых LLM. В ходе экспериментов исследователи протестировали три системы: робота Go2, модель Jackal от Clearpath Robotics и симулятор Dolphins LLM от Nvidia. RoboPAIR смог достичь полного успеха при обходе защит всех трёх устройств.

Исследуемые системы имели разные уровни доступности. Dolphins LLM представляла собой «белый ящик» с полным доступом к открытому исходному коду, что упрощало задачу. Jackal была «серым ящиком» — доступ к коду оставался ограниченным. Go2 функционировал как «чёрный ящик»: исследователи могли взаимодействовать с системой только через текстовые команды. Несмотря на разный уровень доступа, RoboPAIR успешно обходил защиту каждой системы.

Алгоритм работал следующим образом: атакующая языковая модель формировала запросы, направленные на целевую систему, и анализировала ответы. Затем происходила корректировка запросов до тех пор, пока они не обходили встроенные фильтры безопасности. RoboPAIR использовал API целевой системы, чтобы запросы соответствовали формату, который мог быть выполнен в виде кода. Для проверки выполнимости запросов учёные добавили в алгоритм «судью», который учитывал физические ограничения робота, например, препятствия в окружении.

Последствия и рекомендации

Исследователи подчёркивают, что их целью не является запрет на использование LLM в робототехнике. Наоборот, специалисты видят большой потенциал таких систем для инспекций инфраструктуры или ликвидации последствий катастроф.

Вместе с тем учёные предупреждают, что обход защит LLM-роботов может привести к реальным угрозам. Например, робот, запрограммированный на поиск оружия, перечислил способы использования обычных предметов, таких как столы и стулья, для нанесения вреда.

Авторы исследования предоставили свои выводы производителям роботов и компаниям-разработчикам ИИ для принятия мер по повышению безопасности. По мнению специалистов, надёжная защита от подобных атак возможна только при детальном изучении их механизмов.

Эксперты отмечают, что уязвимости LLM связаны с отсутствием у моделей понимания контекста и последствий. Поэтому в критически важных сферах необходимо сохранить человеческий контроль. Решение проблемы требует разработки моделей, способных учитывать намерения пользователя и анализировать ситуацию.

Работа исследователей будет представлена на конференции IEEE International Conference on Robotics and Automation в 2025 году.