RoboPAIR: алгоритм со 100% успехом взламывает защиту ИИ-роботов
NewsMakerУчёные обнаружили уязвимость во всех тестируемых ИИ-роботах.
Популярность больших языковых моделей (LLM), таких как ChatGPT, привела к активному развитию роботов с искусственным интеллектом. Компании начали разрабатывать системы, способные выполнять команды пользователей, преобразуя запросы в программный код. Однако новое исследование выявило серьёзные уязвимости, позволяющие взломать роботов и обойти защитные механизмы.
Исследователи продемонстрировали возможность заставить роботов выполнять опасные команды. Например, автономные системы могут быть направлены на столкновение с пешеходами или использование механических возможностей для нанесения вреда. В одном из экспериментов робот с огнемётом на платформе Go2, управляемый голосовыми командами, выполнил указание поджечь человека.
Роль больших языковых моделей в управлении роботами
Большие языковые модели – усовершенствованная версия технологии предиктивного ввода, применяемой в смартфонах для автоматического дополнения текста. Модели способны анализировать текст, изображения и аудио, а также выполнять широкий спектр задач — от создания кулинарных рецептов на основе фотографий содержимого холодильника до генерации кода для веб-сайтов.
Возможности языковых моделей побудили компании использовать LLM для управления роботами с помощью голосовых команд. Так, Spot, робот-пёс от Boston Dynamics, оснащённый ChatGPT, может выполнять функции гида. Аналогичные технологии используют гуманоидные роботы Figure и собаки-роботы Go2 от Unitree.
Риски атак «jailbreaking»
Исследование показало уязвимость систем на базе LLM для атак типа «jailbreaking», когда защитные механизмы обходятся с помощью особых запросов. Такие атаки могут заставить модели генерировать запрещённый контент, включая инструкции по созданию взрывчатки, синтезу запрещённых веществ или руководства по мошенничеству.
До недавнего времени подобные атаки изучались преимущественно в контексте чат-ботов, но применение в робототехнике может привести к более серьёзным последствиям.
Новый алгоритм RoboPAIR
Учёные разработали алгоритм RoboPAIR , способный атаковать роботов, управляемых LLM. В ходе экспериментов исследователи протестировали три системы: робота Go2, модель Jackal от Clearpath Robotics и симулятор Dolphins LLM от Nvidia. RoboPAIR смог достичь полного успеха при обходе защит всех трёх устройств.
Исследуемые системы имели разные уровни доступности. Dolphins LLM представляла собой «белый ящик» с полным доступом к открытому исходному коду, что упрощало задачу. Jackal была «серым ящиком» — доступ к коду оставался ограниченным. Go2 функционировал как «чёрный ящик»: исследователи могли взаимодействовать с системой только через текстовые команды. Несмотря на разный уровень доступа, RoboPAIR успешно обходил защиту каждой системы.
Алгоритм работал следующим образом: атакующая языковая модель формировала запросы, направленные на целевую систему, и анализировала ответы. Затем происходила корректировка запросов до тех пор, пока они не обходили встроенные фильтры безопасности. RoboPAIR использовал API целевой системы, чтобы запросы соответствовали формату, который мог быть выполнен в виде кода. Для проверки выполнимости запросов учёные добавили в алгоритм «судью», который учитывал физические ограничения робота, например, препятствия в окружении.
Последствия и рекомендации
Исследователи подчёркивают, что их целью не является запрет на использование LLM в робототехнике. Наоборот, специалисты видят большой потенциал таких систем для инспекций инфраструктуры или ликвидации последствий катастроф.
Вместе с тем учёные предупреждают, что обход защит LLM-роботов может привести к реальным угрозам. Например, робот, запрограммированный на поиск оружия, перечислил способы использования обычных предметов, таких как столы и стулья, для нанесения вреда.
Авторы исследования предоставили свои выводы производителям роботов и компаниям-разработчикам ИИ для принятия мер по повышению безопасности. По мнению специалистов, надёжная защита от подобных атак возможна только при детальном изучении их механизмов.
Эксперты отмечают, что уязвимости LLM связаны с отсутствием у моделей понимания контекста и последствий. Поэтому в критически важных сферах необходимо сохранить человеческий контроль. Решение проблемы требует разработки моделей, способных учитывать намерения пользователя и анализировать ситуацию.
Работа исследователей будет представлена на конференции IEEE International Conference on Robotics and Automation в 2025 году.
Популярность больших языковых моделей (LLM), таких как ChatGPT, привела к активному развитию роботов с искусственным интеллектом. Компании начали разрабатывать системы, способные выполнять команды пользователей, преобразуя запросы в программный код. Однако новое исследование выявило серьёзные уязвимости, позволяющие взломать роботов и обойти защитные механизмы.
Исследователи продемонстрировали возможность заставить роботов выполнять опасные команды. Например, автономные системы могут быть направлены на столкновение с пешеходами или использование механических возможностей для нанесения вреда. В одном из экспериментов робот с огнемётом на платформе Go2, управляемый голосовыми командами, выполнил указание поджечь человека.
Роль больших языковых моделей в управлении роботами
Большие языковые модели – усовершенствованная версия технологии предиктивного ввода, применяемой в смартфонах для автоматического дополнения текста. Модели способны анализировать текст, изображения и аудио, а также выполнять широкий спектр задач — от создания кулинарных рецептов на основе фотографий содержимого холодильника до генерации кода для веб-сайтов.
Возможности языковых моделей побудили компании использовать LLM для управления роботами с помощью голосовых команд. Так, Spot, робот-пёс от Boston Dynamics, оснащённый ChatGPT, может выполнять функции гида. Аналогичные технологии используют гуманоидные роботы Figure и собаки-роботы Go2 от Unitree.
Риски атак «jailbreaking»
Исследование показало уязвимость систем на базе LLM для атак типа «jailbreaking», когда защитные механизмы обходятся с помощью особых запросов. Такие атаки могут заставить модели генерировать запрещённый контент, включая инструкции по созданию взрывчатки, синтезу запрещённых веществ или руководства по мошенничеству.
До недавнего времени подобные атаки изучались преимущественно в контексте чат-ботов, но применение в робототехнике может привести к более серьёзным последствиям.
Новый алгоритм RoboPAIR
Учёные разработали алгоритм RoboPAIR , способный атаковать роботов, управляемых LLM. В ходе экспериментов исследователи протестировали три системы: робота Go2, модель Jackal от Clearpath Robotics и симулятор Dolphins LLM от Nvidia. RoboPAIR смог достичь полного успеха при обходе защит всех трёх устройств.
Исследуемые системы имели разные уровни доступности. Dolphins LLM представляла собой «белый ящик» с полным доступом к открытому исходному коду, что упрощало задачу. Jackal была «серым ящиком» — доступ к коду оставался ограниченным. Go2 функционировал как «чёрный ящик»: исследователи могли взаимодействовать с системой только через текстовые команды. Несмотря на разный уровень доступа, RoboPAIR успешно обходил защиту каждой системы.
Алгоритм работал следующим образом: атакующая языковая модель формировала запросы, направленные на целевую систему, и анализировала ответы. Затем происходила корректировка запросов до тех пор, пока они не обходили встроенные фильтры безопасности. RoboPAIR использовал API целевой системы, чтобы запросы соответствовали формату, который мог быть выполнен в виде кода. Для проверки выполнимости запросов учёные добавили в алгоритм «судью», который учитывал физические ограничения робота, например, препятствия в окружении.
Последствия и рекомендации
Исследователи подчёркивают, что их целью не является запрет на использование LLM в робототехнике. Наоборот, специалисты видят большой потенциал таких систем для инспекций инфраструктуры или ликвидации последствий катастроф.
Вместе с тем учёные предупреждают, что обход защит LLM-роботов может привести к реальным угрозам. Например, робот, запрограммированный на поиск оружия, перечислил способы использования обычных предметов, таких как столы и стулья, для нанесения вреда.
Авторы исследования предоставили свои выводы производителям роботов и компаниям-разработчикам ИИ для принятия мер по повышению безопасности. По мнению специалистов, надёжная защита от подобных атак возможна только при детальном изучении их механизмов.
Эксперты отмечают, что уязвимости LLM связаны с отсутствием у моделей понимания контекста и последствий. Поэтому в критически важных сферах необходимо сохранить человеческий контроль. Решение проблемы требует разработки моделей, способных учитывать намерения пользователя и анализировать ситуацию.
Работа исследователей будет представлена на конференции IEEE International Conference on Robotics and Automation в 2025 году.