Оценка атак с использованием джейлбрейка представляет собой сложную задачу, когда запросы не являются явно вредоносными или не приводят к вредоносным результатам.
К сожалению, многие существующие наборы данных Red Team содержат такие неподходящие запросы. Для точной оценки атак эти наборы данных необходимо оценить и очистить на предмет вредоносности.
Однако существующие методы обнаружения вредоносного контента основаны либо на ручной аннотации, что является трудоемким процессом, либо на больших языковых моделях (LLM), которые имеют нестабильную точность
для вредоносных типов. Чтобы сбалансировать точность и эффективность, мы предлагаем гибридную структуру оценки под названием MDH (обнаружение вредоносного контента на основе LLM с помощью человека),
которая сочетает аннотацию на основе LLM с минимальным человеческим контролем, и применяем ее для очистки наборов данных и обнаружения ответов, полученных с помощью джейлбрейка. Более того, мы обнаружили, что грамотно составленные сообщения разработчика могут значительно повысить успешность джейлбрейка, что побудило нас предложить две новые стратегии: D-Attack, использующую моделирование контекста, и DH-CoT, которая использует перехваченные цепочки мыслей. Коды, наборы данных, суждения и результаты обнаружения будут опубликованы в репозитории GitHub: https://github.com/AlienZhang1996/DH-CoT. -
Jailbreaking Commercial Black-Box LLMs with Explicitly Harmful Prompts
Новый подход к формированию вредоносных подсказок. Кстати, это должно быть локализовано
См. также другие публикации, посвященные LLM
No comments:
Post a Comment