Инетересно тем, что атака явно использует семантическую информацию, а не формально манипулирует градиентами.
технические проблемы и идеи, родившиеся в бурных водах реки Abava (а равно как и на ее берегах, далеких и близких), выставленные на всеобщее обсуждение
Friday, October 03, 2025
Атаки на code-review
Большим языковым моделям (LLM) всё чаще доверяют выполнение автоматизированного обзора кода и статического анализа в масштабах, поддерживая такие задачи, как обнаружение уязвимостей, суммирование и рефакторинг. В этой статье мы выявляем и используем критическую уязвимость в анализе кода на основе LLM: смещение абстракции, которое заставляет модели чрезмерно обобщать знакомые шаблоны программирования и упускать из виду небольшие, но значимые ошибки. Злоумышленники могут использовать эту слепую зону, чтобы перехватить поток управления интерпретацией LLM, внося минимальные правки и не влияя на фактическое поведение во время выполнения. Мы называем эту атаку атакой по знакомому шаблону (FPA). Мы разрабатываем полностью автоматизированный алгоритм «чёрного ящика», который
обнаруживает и внедряет FPA в целевой код. Наша оценка показывает, что FPA не только эффективны, но и переносимы между моделями (GPT-4o, Claude 3.5, Gemini 2.0) и универсальны для языков программирования (Python, C, Rust, Go). Более того, FPA остаются эффективными даже когда модели явно предупреждены об атаке посредством надежных системных подсказок. Наконец, мы исследуем позитивное, защитное использование FPA и обсуждаем их более широкое влияние на надежность и безопасность кодо-ориентированных LLM. - Trust Me, I Know This Function: Hijacking LLM Static Analysis using Bias
Subscribe to:
Post Comments (Atom)
No comments:
Post a Comment