Когда ИИ чинит баги лучше программиста — Meta запускает LlamaFirewall
NewsMakerНовая защита работает так, будто давно знает, от чего именно должна защищать.
Meta* представила новый инструмент для защиты систем искусственного интеллекта от всё более сложных киберугроз. Новая разработка под названием LlamaFirewall распространяется с открытым исходным кодом и предназначена для выявления и предотвращения таких атак, как внедрение вредоносных запросов, обходы ограничений и генерация небезопасного кода.
В основе LlamaFirewall лежат три защитных компонента:
Помимо LlamaFirewall, компания обновила два других инструмента. Улучшенная версия LlamaGuard предназначена для более точного распознавания недопустимого содержимого, а новая редакция CyberSecEval направлена на оценку способности ИИ-систем противостоять различным кибер угрозам .
В частности, в CyberSecEval 4 появился модуль AutoPatchBench, который используется для тестирования возможностей языковых моделей автоматически устранять уязвимости в коде на C и C++, выявленные с помощью Fuzzing. Этот модуль предлагает унифицированную методику оценки эффективности таких решений и помогает выявить их слабые и сильные стороны.
Также был запущен проект Llama for Defenders — инициатива по предоставлению разработчикам и партнёрам доступа к решениям с различными уровнями открытости. Это позволяет адаптировать защиту под конкретные задачи, включая выявление сгенерированного ИИ контента, применяемого в мошенничестве и фишинге.
Все анонсы сопровождались заявлением о приверженности прозрачности: в рамках программы Private Processing команда WhatsApp разрабатывает механизм, позволяющий использовать ИИ-функции без передачи пользовательских данных в открытые облака. Все архитектурные решения, по словам Meta, проходят аудит в сотрудничестве с профессиональным сообществом и будут открыто совершенствоваться до официального запуска.
* Компания Meta и её продукты признаны экстремистскими, их деятельность запрещена на территории РФ.

Meta* представила новый инструмент для защиты систем искусственного интеллекта от всё более сложных киберугроз. Новая разработка под названием LlamaFirewall распространяется с открытым исходным кодом и предназначена для выявления и предотвращения таких атак, как внедрение вредоносных запросов, обходы ограничений и генерация небезопасного кода.
В основе LlamaFirewall лежат три защитных компонента:
- PromptGuard 2 осуществляет мгновенное обнаружение прямых попыток взломов и манипуляции с промптами.
- Agent Alignment Checks анализирует рассуждения ИИ-агентов, чтобы выявить потенциальные попытки перехвата управления или скрытых атак через косвенные подсказки.
- CodeShield представляет собой онлайн-механизм статического анализа, направленный на блокировку генерации уязвимого кода языковыми моделями.
Помимо LlamaFirewall, компания обновила два других инструмента. Улучшенная версия LlamaGuard предназначена для более точного распознавания недопустимого содержимого, а новая редакция CyberSecEval направлена на оценку способности ИИ-систем противостоять различным кибер угрозам .
В частности, в CyberSecEval 4 появился модуль AutoPatchBench, который используется для тестирования возможностей языковых моделей автоматически устранять уязвимости в коде на C и C++, выявленные с помощью Fuzzing. Этот модуль предлагает унифицированную методику оценки эффективности таких решений и помогает выявить их слабые и сильные стороны.
Также был запущен проект Llama for Defenders — инициатива по предоставлению разработчикам и партнёрам доступа к решениям с различными уровнями открытости. Это позволяет адаптировать защиту под конкретные задачи, включая выявление сгенерированного ИИ контента, применяемого в мошенничестве и фишинге.
Все анонсы сопровождались заявлением о приверженности прозрачности: в рамках программы Private Processing команда WhatsApp разрабатывает механизм, позволяющий использовать ИИ-функции без передачи пользовательских данных в открытые облака. Все архитектурные решения, по словам Meta, проходят аудит в сотрудничестве с профессиональным сообществом и будут открыто совершенствоваться до официального запуска.
* Компания Meta и её продукты признаны экстремистскими, их деятельность запрещена на территории РФ.