Tuesday, March 17, 2026

LLM в атаке

Реальные операции по обеспечению безопасности в наступательных операциях по своей природе являются открытыми: злоумышленники исследуют неизвестные поверхности атаки, пересматривают гипотезы в условиях неопределенности и действуют без гарантированного успеха. Существующие оценки наступательных агентов на основе LLM основаны на закрытых средах с предопределенными целями и бинарными критериями успеха. Для решения этой проблемы мы представляем CyberExplorer, набор инструментов оценки, состоящий из двух основных компонентов: (1) открытого бенчмарка, построенного на виртуальной машине, на которой размещены 40 уязвимых веб-сервисов, полученных из реальных задач CTF, где агенты автономно выполняют разведку, выбор цели и эксплуатацию без предварительного знания местоположения уязвимостей; и (2) реактивной многоагентной структуры, поддерживающей динамическое исследование без предопределенных планов. CyberExplorer обеспечивает детальную оценку, выходящую за рамки восстановления флагов, фиксируя динамику взаимодействия, координационное поведение, режимы отказов и сигналы обнаружения уязвимостей, преодолевая разрыв между бенчмарками и реалистичными сценариями многоцелевых атак. - CyberExplorer: Benchmarking LLM Offensive Security Capabilities in a Real-World Attacking Simulation Environment

См. также другие публикации, посвященные LLM

No comments: