Что мы представили? Таксономию с 40 техниками убеждения, которые помогут вам быть более убедительными!
Что мы обнаружили? Итеративно применяя различные техники убеждения в нашей таксономии, мы успешно сделали джейлбрейк продвинутых выровненных LLM, включая Llama 2-7b Chat, GPT-3.5 и GPT-4, достигнув поразительного показателя успешности атаки в 92%, в частности, без какой-либо указанной оптимизации." - отсюда
См. также другие публикации, посвященные LLM
No comments:
Post a Comment