Когда ИИ чинит баги лучше программиста — Meta запускает LlamaFirewall

Новая защита работает так, будто давно знает, от чего именно должна защищать.

Meta* представила новый инструмент для защиты систем искусственного интеллекта от всё более сложных киберугроз. Новая разработка под названием LlamaFirewall распространяется с открытым исходным кодом и предназначена для выявления и предотвращения таких атак, как внедрение вредоносных запросов, обходы ограничений и генерация небезопасного кода.

В основе LlamaFirewall лежат три защитных компонента:

PromptGuard 2 осуществляет мгновенное обнаружение прямых попыток взломов и манипуляции с промптами.
Agent Alignment Checks анализирует рассуждения ИИ-агентов, чтобы выявить потенциальные попытки перехвата управления или скрытых атак через косвенные подсказки.
CodeShield представляет собой онлайн-механизм статического анализа, направленный на блокировку генерации уязвимого кода языковыми моделями.

Как поясняется в техническом описании проекта, архитектура LlamaFirewall построена по модульному принципу, что позволяет настраивать многослойную защиту — от момента получения входных данных до формирования итогового ответа. Решение подходит как для простых чат-ботов, так и для более сложных автономных агентов.

Помимо LlamaFirewall, компания обновила два других инструмента. Улучшенная версия LlamaGuard предназначена для более точного распознавания недопустимого содержимого, а новая редакция CyberSecEval направлена на оценку способности ИИ-систем противостоять различным кибер угрозам .

В частности, в CyberSecEval 4 появился модуль AutoPatchBench, который используется для тестирования возможностей языковых моделей автоматически устранять уязвимости в коде на C и C++, выявленные с помощью Fuzzing. Этот модуль предлагает унифицированную методику оценки эффективности таких решений и помогает выявить их слабые и сильные стороны.

Также был запущен проект Llama for Defenders — инициатива по предоставлению разработчикам и партнёрам доступа к решениям с различными уровнями открытости. Это позволяет адаптировать защиту под конкретные задачи, включая выявление сгенерированного ИИ контента, применяемого в мошенничестве и фишинге.

Все анонсы сопровождались заявлением о приверженности прозрачности: в рамках программы Private Processing команда WhatsApp разрабатывает механизм, позволяющий использовать ИИ-функции без передачи пользовательских данных в открытые облака. Все архитектурные решения, по словам Meta, проходят аудит в сотрудничестве с профессиональным сообществом и будут открыто совершенствоваться до официального запуска.

* Компания Meta и её продукты признаны экстремистскими, их деятельность запрещена на территории РФ.