AbavaNet technical corner: Ручной взлом LLM

Sunday, November 02, 2025

Ручной взлом LLM

Подсказки для джейлбрейка представляют собой растущую проблему в области больших языковых моделей (LLM), где пользователи-люди используют когнитивные стратегии для обхода мер безопасности ИИ и получения непреднамеренных или ограниченных результатов. В данной статье представлен всесторонний обзор методов джейлбрейка, описанных в научной литературе, онлайн-репозиториях и обсуждениях в сообществе, а также представлен всесторонний анализ моделей человеческого мышления при состязательной инженерии подсказок. Мы разрабатываем новую таксономию шести когнитивных стратегий, включая рассуждения по аналогии, декомпозицию цели и контекстуальный рефрейминг, которые лежат в основе успешных попыток джейлбрейка, и выделяем четыре основные категории методов манипуляции подсказками. В нашем анализе рассматриваются когнитивные и лингвистические стратегии, используемые людьми-джейлбрейкерами, выявляя закономерности в контекстуальном манипулировании, итеративном уточнении и творческой адаптации, которые отличают человеческие подходы от автоматизированных методов. Мы обсуждаем появление гибридных методов совместной работы человека и ИИ и их влияние на безопасность ИИ. В исследовании выявлены ключевые уязвимости существующих механизмов безопасности и предложены направления исследований для разработки более надёжных средств защиты от подсказок, исходящих от человека. Эта работа представляет собой фундаментальный взгляд на роль человеческого мышления в джейлбрейке, предлагая идеи для исследователей, разработчиков и политиков, работающих над решением меняющихся проблем безопасности и согласованности ИИ. - Exploring Human Logic in Developing Jailbreaking Prompts: A Survey of Approaches and Strategies

См. также другие публикации, посвященные LLM

Sunday, November 02, 2025

Ручной взлом LLM

No comments: