Thursday, June 18, 2026

Автоматизация косвенных инъекций

Внедрение подсказок косвенным путем представляет собой серьезную угрозу для агентов LLM, взаимодействующих с ненадежными внешними данными, однако автоматизированные методы атак, доказавшие свою эффективность при взломе систем, остаются недостаточно изученными, в реалистичных агентных условиях. Мы представляем всестороннюю эмпирическую оценку атак с внедрением подсказок автоматическим путем против агентов LLM, адаптируя как методы «белого ящика» (GCG), так и методы «черного ящика» (TAP) к агентной среде в рамках AgentDojo. Мы провели оценку на 80 парах задач, охватывающих четыре области и несколько моделей, и обнаружили, что оптимизация методом «черного ящика» существенно превосходит градиентные методы, что мы объясняем нестабильностью оптимизации GCG при разумных вычислительных затратах. Мы также обнаружили, что эффективность TAP зависит от модели злоумышленника, поскольку как общая производительность, так и настройка безопасности влияют на успех атаки — более сильные модели обеспечивают более эффективные внедрения, в то время как злоумышленники с настроенной безопасностью могут отказаться от генерации враждебных подсказок. Универсальные атаки на задачи эффективно переносятся на неизвестные задачи и внераспространенные области но атаки, оптимизированные для небольших моделей с открытым исходным кодом, не переносятся на передовые модели, такие как GPT-5. Эти результаты подчеркивают, что автоматическое внедрение подсказок представляет собой реальную, но зависящую от модели угрозу, при этом сохраняются значительные препятствия для эксплуатации, не зависящей от модели. - Assessing Automated Prompt Injection Attacks in Agentic Environments

См. также другие публикации, посвященные LLM

No comments: