См. также другие публикации, посвященные LLM
технические проблемы и идеи, родившиеся в бурных водах реки Abava (а равно как и на ее берегах, далеких и близких), выставленные на всеобщее обсуждение
Страницы
▼
Tuesday, May 06, 2025
Дьявольский джейлбрейк
Недавно атака джейлбрейка, которая генерирует состязательные подсказки для обхода мер безопасности и введения в заблуждение больших языковых моделей (LLM) для вывода вредоносных ответов, привлекла широкий интерес из-за ее потенциала для выявления уязвимостей LLM. Однако, игнорируя эксплуатацию характеристик в понимании намерения, существующие исследования могли генерировать только подсказки со слабой атакующей способностью, не способные обойти защиту (например, чувствительное обнаружение слов) и вызывающие злой умысел (например, вредоносные результаты). Мотивированные механизмом в психологии человеческого неверного суждения, мы предлагаем структуру атаки джейлбрейка с двойным намерением (DIE) для генерации более скрытных и токсичных подсказок для обмана LLM для вывода вредоносного контента. Для скрытности, вдохновленные эффектом привязки, мы разработали модуль Intention-anchored Malicious Concealment (IMC), который скрывает вредоносное намерение за сгенерированным намерением привязки с помощью блока рекурсивной декомпозиции и блока вложенности противоположного намерения. Поскольку якорное намерение будет получено первым, LLM могут уделять меньше внимания вредоносному намерению и войти в статус ответа. Для токсичности мы предлагаем модуль Intention-reinforced Malicious Inducement (IMI), основанный на механизме смещения доступности в прогрессивном вредоносном подходе подсказок. Из-за продолжающегося появления утверждений, коррелирующих с вредоносными намерениями, выходное содержимое LLM будет ближе к этим более доступным намерениям, т. е. более токсичным. Мы провели обширные эксперименты в условиях черного ящика, подтвердив, что DIE может достичь 100% ASR-R и 92,9% ASR-G против GPT3.5-turbo. - Dual Intention Escape: Penetrating and Toxic Jailbreak Attack against Large Language Models
No comments:
Post a Comment