Tuesday, June 23, 2026

Перефразирование в состязательных атаках

Большие языковые модели (LLM) широко используются в различных реальных условиях, но остаются уязвимыми для взлома, где атаки на основе подсказок обходят фильтры безопасности. Мы представляем THREAT (Targeted Harmful generation via Reframing and Exploitation of Adversarial Tactics) — основанную на рассуждениях структуру, которая координирует работу нескольких LLM в итеративном цикле поиска для обнаружения текстовых подсказок для взлома. Мы формулируем задачу обнаружения подсказок как невыпуклую задачу оптимизации и предлагаем эффективное решение, которое сокращает время выполнения и повышает эффективность атаки. На различных наборах данных и архитектурах моделей THREAT обеспечивает более высокие показатели успешности атак при меньших вычислительных затратах, чем предыдущие методы. Созданные подсказки были помечены как вредоносные менее чем в 1% случаев, по сравнению с примерно 50% отказов для соответствующих неизмененных подсказок. Эти результаты выявляют ранее не обнаруженные уязвимости в выровненных LLM и позиционируют THREAT как практический инструмент для упреждающего повышения безопасности базовых моделей.

С помощью LLM перефразируют состязательные запросы до тех пор, пока их не перестанут отвергать.

См. также другие публикации, посвященные LLM

No comments: