Большие языковые модели (LLM) уязвимы для универсальных стратегий, побуждающих к джейлбрейкам, которые систематически обходят защитные механизмы моделей и позволяют пользователям выполнять вредоносные процессы, требующие множества взаимодействий с моделями, например, производство незаконных веществ в больших масштабах. Для защиты от этих атак мы вводим конституционные классификаторы: защитные механизмы, обученные на синтетических данных, созданных путем подсказки LLM с помощью правил естественного языка (т. е. конституции), определяющих разрешенный и ограниченный контент. За более чем 3000 предполагаемых часов работы red teaming ни один red teaming не нашел универсального джейлбрейка, который мог бы извлекать информацию из раннего защищенного классификатором LLM на том же уровне детализации, что и незащищенная модель, по большинству целевых запросов. При автоматизированных оценках улучшенные классификаторы продемонстрировали надежную защиту от удерживаемых доменно-специфичных джейлбрейков. Эти классификаторы также поддерживают жизнеспособность развертывания с абсолютным увеличением отказов производственного трафика на 0,38% и накладными расходами на вывод на 23,7%. Наша работа показывает, что защита от универсальных джейлбрейков при сохранении практической жизнеспособности развертывания является управляемой. -
Constitutional Classifiers: Defending against Universal Jailbreaks across Thousands of Hours of Red Teaming
Anthropic описал состязательные тренировки для LLM. Вот здесь есть описание подхода
См. также другие публикации, посвященные LLM
No comments:
Post a Comment