Tuesday, December 24, 2024

Техники убеждения

"Этот проект о том, как систематически убеждать LLM сделать джейлбрейк. Известный пример «Grandma Exploit» также использует эмоциональный призыв, технику убеждения, для джейлбрейка!

Что мы представили? Таксономию с 40 техниками убеждения, которые помогут вам быть более убедительными!

Что мы обнаружили? Итеративно применяя различные техники убеждения в нашей таксономии, мы успешно сделали джейлбрейк продвинутых выровненных LLM, включая Llama 2-7b Chat, GPT-3.5 и GPT-4, достигнув поразительного показателя успешности атаки в 92%, в частности, без какой-либо указанной оптимизации." - отсюда

См. также другие публикации, посвященные LLM

No comments: