Wednesday, July 02, 2025

Все не слава богу

Обеспечение безопасности и согласованности больших языковых моделей (LLM) является серьезной проблемой в связи с их растущей интеграцией в критически важные приложения и общественные функции. В то время как предыдущие исследования были в основном сосредоточены на атаках с джейлбрейком, меньше внимания уделялось несостязательным сбоям, которые незаметно возникают во время безобидных взаимодействий. Мы вводим вторичные риски — новый класс режимов сбоев, отмеченных вредоносным или вводящим в заблуждение поведением во время безобидных подсказок. В отличие от состязательных атак, эти риски возникают из-за несовершенного обобщения и часто обходят стандартные механизмы безопасности. Чтобы обеспечить систематическую оценку, мы вводим два примитива риска — подробный ответ и спекулятивный совет, — которые охватывают основные шаблоны сбоев. Основываясь на этих определениях, мы предлагаем SecLens, многоцелевую поисковую структуру черного ящика, которая эффективно выявляет поведение вторичного риска путем оптимизации релевантности задачи, активации риска и лингвистической правдоподобности. Для поддержки воспроизводимой оценки мы выпускаем SecRiskBench, эталонный набор данных из 650 подсказок, охватывающих восемь различных категорий реальных рисков. Экспериментальные результаты обширных оценок на 16 популярных моделях показывают, что вторичные риски широко распространены, переносимы между моделями и не зависят от модальности, что подчеркивает настоятельную необходимость в усовершенствованных механизмах безопасности для устранения правильного, но вредного поведения LLM в реальных развертываниях. - Exploring the Secondary Risks of Large Language Models

См. также другие публикации, посвященные LLM

No comments: