См. также другие публикации, посвященные агентам
технические проблемы и идеи, родившиеся в бурных водах реки Abava (а равно как и на ее берегах, далеких и близких), выставленные на всеобщее обсуждение
Thursday, December 18, 2025
Оценка агентов кибербезопасности
Кибербезопасность охватывает множество взаимосвязанных областей, что усложняет разработку значимых, актуальных для рынка труда эталонных показателей. Существующие эталонные показатели оценивают отдельные навыки, а не интегрированную производительность. Мы обнаружили, что предварительно обученные знания в области кибербезопасности в моделях LLM не подразумевают навыков атаки и защиты, что указывает на разрыв между знаниями и возможностями. Для решения этой проблемы мы представляем эталонный показатель кибербезопасности для ИИ (CAIBench), модульную мета-систему эталонных показателей, которая позволяет оценивать модели и агентов LLM в различных областях кибербезопасности, как наступательной, так и оборонительной, делая шаг к осмысленному измерению их актуальности для рынка труда. CAIBench объединяет пять категорий оценки, охватывающих более 10 000 примеров: CTF в стиле «Jeopardy», CTF по атаке и защите, упражнения на киберполигоне, эталонные показатели знаний и оценки конфиденциальности. Ключевые новые разработки включают систематическую одновременную оценку наступательных и оборонительных действий, задачи по кибербезопасности, ориентированные на робототехнику (RCTF2), и оценку производительности с сохранением конфиденциальности (CyberPII-Bench). Оценка современных моделей ИИ показывает насыщение метрик знаний в области безопасности (70% успеха), но существенное ухудшение в многоэтапных сценариях противодействия (20-40% успеха) или еще худшее в сценариях с роботизированными целями (22% успеха).
Сочетание структуры фреймворка и выбора модели LLM значительно влияет на производительность; мы обнаружили, что правильные совпадения улучшают дисперсию до 2,6 раз в CTF-соревнованиях атаки и защиты. Эти результаты демонстрируют выраженный разрыв между концептуальными знаниями и адаптивными возможностями, подчеркивая необходимость мета-бенчмарка. - Cybersecurity AI Benchmark (CAIBench): A Meta-Benchmark for Evaluating Cybersecurity AI Agents
Subscribe to:
Post Comments (Atom)
No comments:
Post a Comment