См. также другие публикации, посвященные LLM
технические проблемы и идеи, родившиеся в бурных водах реки Abava (а равно как и на ее берегах, далеких и близких), выставленные на всеобщее обсуждение
Tuesday, March 17, 2026
LLM в атаке
Реальные операции по обеспечению безопасности в наступательных операциях по своей природе являются открытыми: злоумышленники исследуют неизвестные поверхности атаки, пересматривают гипотезы в условиях неопределенности и действуют без гарантированного успеха. Существующие оценки наступательных агентов на основе LLM основаны на
закрытых средах с предопределенными целями и бинарными критериями успеха. Для решения этой проблемы мы представляем CyberExplorer, набор инструментов оценки, состоящий из
двух основных компонентов: (1) открытого бенчмарка, построенного на виртуальной машине, на которой размещены 40 уязвимых веб-сервисов, полученных из реальных задач CTF, где агенты автономно выполняют разведку, выбор цели и эксплуатацию без предварительного знания местоположения уязвимостей; и (2) реактивной многоагентной структуры,
поддерживающей динамическое исследование без предопределенных планов. CyberExplorer обеспечивает детальную оценку, выходящую за рамки восстановления флагов, фиксируя динамику взаимодействия, координационное поведение, режимы отказов и сигналы обнаружения уязвимостей, преодолевая разрыв между бенчмарками и реалистичными сценариями многоцелевых атак. - CyberExplorer: Benchmarking LLM Offensive Security Capabilities in a Real-World Attacking Simulation Environment
Subscribe to:
Post Comments (Atom)
No comments:
Post a Comment