AbavaNet technical corner: Дьявольский джейлбрейк

Недавно атака джейлбрейка, которая генерирует состязательные подсказки для обхода мер безопасности и введения в заблуждение больших языковых моделей (LLM) для вывода вредоносных ответов, привлекла широкий интерес из-за ее потенциала для выявления уязвимостей LLM. Однако, игнорируя эксплуатацию характеристик в понимании намерения, существующие исследования могли генерировать только подсказки со слабой атакующей способностью, не способные обойти защиту (например, чувствительное обнаружение слов) и вызывающие злой умысел (например, вредоносные результаты). Мотивированные механизмом в психологии человеческого неверного суждения, мы предлагаем структуру атаки джейлбрейка с двойным намерением (DIE) для генерации более скрытных и токсичных подсказок для обмана LLM для вывода вредоносного контента. Для скрытности, вдохновленные эффектом привязки, мы разработали модуль Intention-anchored Malicious Concealment (IMC), который скрывает вредоносное намерение за сгенерированным намерением привязки с помощью блока рекурсивной декомпозиции и блока вложенности противоположного намерения. Поскольку якорное намерение будет получено первым, LLM могут уделять меньше внимания вредоносному намерению и войти в статус ответа. Для токсичности мы предлагаем модуль Intention-reinforced Malicious Inducement (IMI), основанный на механизме смещения доступности в прогрессивном вредоносном подходе подсказок. Из-за продолжающегося появления утверждений, коррелирующих с вредоносными намерениями, выходное содержимое LLM будет ближе к этим более доступным намерениям, т. е. более токсичным. Мы провели обширные эксперименты в условиях черного ящика, подтвердив, что DIE может достичь 100% ASR-R и 92,9% ASR-G против GPT3.5-turbo. - Dual Intention Escape: Penetrating and Toxic Jailbreak Attack against Large Language Models

См. также другие публикации, посвященные LLM

AbavaNet technical corner

Страницы

Tuesday, May 06, 2025

Дьявольский джейлбрейк

No comments:

Post a Comment