AbavaNet technical corner: Тестирование безопасности ИИ-агентов

Monday, November 17, 2025

Тестирование безопасности ИИ-агентов

Кибербезопасность охватывает несколько взаимосвязанных областей, что усложняет разработку значимых, релевантных для трудозатрат бенчмарков. Существующие бенчмарки оценивают отдельные навыки, а не комплексную производительность. Мы обнаружили, что предварительная подготовка в области кибербезопасности у LLM не подразумевает навыков атаки и защиты, что выявляет разрыв между знаниями и возможностями. Чтобы устранить это ограничение, мы представляем Cybersecurity AI Benchmark (CAIBench) – модульную мета-бенчмарк-систему, которая позволяет оценивать модели и агентов LLM в областях наступательной и оборонительной кибербезопасности, делая шаг к осмысленной оценке их трудозатрат. CAIBench объединяет пять категорий оценки, охватывающих более 10 000 случаев: CTF в стиле Jeopardy, CTF атаки и защиты, упражнения Cyber Range, бенчмарки знаний и оценки конфиденциальности. Ключевые нововведения включают систематическую одновременную оценку наступательных и оборонительных навыков, задачи кибербезопасности, ориентированные на робототехнику (RCTF2), и оценку производительности с сохранением конфиденциальности (CyberPII-Bench). Оценка современных моделей ИИ выявляет насыщение по метрикам знаний о безопасности (успех 70%), но существенное ухудшение в многошаговых сценариях противодействия (A&D) (успех 20–40%) или, что ещё хуже, в сценариях с роботизированными целями (успех 22%). Сочетание фреймворка и выбора модели LLM значительно влияет на производительность; мы обнаружили, что правильное сопоставление улучшает дисперсию в CTF атаки и защиты до 2,6 раз. Эти результаты демонстрируют выраженный разрыв между концептуальными знаниями и адаптивными возможностями, что подчёркивает необходимость мета-бенчмарка. - Cybersecurity AI Benchmark (CAIBench): A Meta-Benchmark for Evaluating Cybersecurity AI Agents

См. также другие публикации, посвященные агентам

Monday, November 17, 2025

Тестирование безопасности ИИ-агентов

No comments: