Saturday, April 11, 2026

LLM как пентестер

"Агенты на основе LLM демонстрируют перспективность в автоматизации тестирования на проникновение, однако сообщаемая производительность сильно различается в зависимости от системы и бенчмарков. Мы анализируем 28 систем тестирования на проникновение на основе LLM и оцениваем пять репрезентативных реализаций на трех бенчмарках возрастающей сложности. Наш анализ выявляет два различных режима отказов: отказы типа А возникают из-за пробелов в возможностях (отсутствие инструментов, неадекватные подсказки), которые инженеры легко устраняют, в то время как отказы типа В сохраняются независимо от инструментов из-за ограничений планирования и управления состоянием. Мы показываем, что отказы типа В имеют общую первопричину, которая в значительной степени инвариантна для базового LLM: агентам не хватает оценки сложности задачи в реальном времени. В результате агенты неправильно распределяют усилия, чрезмерно концентрируются на малоценных ветвях, и исчерпывают контекст до завершения цепочек атак. Основываясь на этом понимании, мы представляем PENTESTGPT V2, агент тестирования на проникновение, который сочетает в себе мощные инструменты с планированием с учетом сложности. Слой инструментов и навыков устраняет ошибки типа А за счет типизированных интерфейсов и знаний, дополненных механизмом поиска. Механизм оценки сложности задачи (TDA) устраняет ошибки типа B, оценивая выполнимость по четырем измеримым параметрам (оценка горизонта, достоверность доказательств, контекстная нагрузка и исторический успех) и используя эти оценки для принятия решений об исследовании и эксплуатации в рамках поиска по дереву атак с учетом доказательств (EGATS). PENTESTGPT V2 достигает до 91% выполнения задач на бенчмарках CTF с использованием передовых моделей (относительное улучшение на 39–49% по сравнению с базовыми показателями) и компрометирует 4 из 5 хостов в среде Active Directory GOAD против 2 в предыдущих системах. Эти результаты показывают, что планирование с учетом сложности обеспечивает стабильные сквозные улучшения для всех моделей и устраняет ограничение, которое не устраняется одним лишь масштабированием модели."- What Makes a Good LLM Agent for Real-world Penetration Testing?

См. также другие публикации, посвященные LLM

No comments: