Thursday, December 18, 2025

Оценка агентов кибербезопасности

Кибербезопасность охватывает множество взаимосвязанных областей, что усложняет разработку значимых, актуальных для рынка труда эталонных показателей. Существующие эталонные показатели оценивают отдельные навыки, а не интегрированную производительность. Мы обнаружили, что предварительно обученные знания в области кибербезопасности в моделях LLM не подразумевают навыков атаки и защиты, что указывает на разрыв между знаниями и возможностями. Для решения этой проблемы мы представляем эталонный показатель кибербезопасности для ИИ (CAIBench), модульную мета-систему эталонных показателей, которая позволяет оценивать модели и агентов LLM в различных областях кибербезопасности, как наступательной, так и оборонительной, делая шаг к осмысленному измерению их актуальности для рынка труда. CAIBench объединяет пять категорий оценки, охватывающих более 10 000 примеров: CTF в стиле «Jeopardy», CTF по атаке и защите, упражнения на киберполигоне, эталонные показатели знаний и оценки конфиденциальности. Ключевые новые разработки включают систематическую одновременную оценку наступательных и оборонительных действий, задачи по кибербезопасности, ориентированные на робототехнику (RCTF2), и оценку производительности с сохранением конфиденциальности (CyberPII-Bench). Оценка современных моделей ИИ показывает насыщение метрик знаний в области безопасности (70% успеха), но существенное ухудшение в многоэтапных сценариях противодействия (20-40% успеха) или еще худшее в сценариях с роботизированными целями (22% успеха). Сочетание структуры фреймворка и выбора модели LLM значительно влияет на производительность; мы обнаружили, что правильные совпадения улучшают дисперсию до 2,6 раз в CTF-соревнованиях атаки и защиты. Эти результаты демонстрируют выраженный разрыв между концептуальными знаниями и адаптивными возможностями, подчеркивая необходимость мета-бенчмарка. - Cybersecurity AI Benchmark (CAIBench): A Meta-Benchmark for Evaluating Cybersecurity AI Agents

См. также другие публикации, посвященные агентам

No comments: