Tuesday, January 06, 2026

Один раз - не доказательство

Современные оценки безопасности больших языковых моделей основаны на однократном тестировании, неявно предполагая, что ответы модели детерминированы и репрезентативны для соответствия модели требованиям безопасности. Мы ставим под сомнение это предположение, исследуя стабильность решений об отказе от безопасного выполнения при различных случайных начальных значениях и температурных настройках. Протестировав четыре модели, настроенные на основе инструкций, из трех семейств (Llama 3.1 8B, Qwen 2.5 7B, Qwen 3 8B, Gemma 3 12B) на 876 вредоносных запросах при 20 различных конфигурациях выборки (4 температуры × 5 случайных начальных значений), мы обнаружили, что 18–28% запросов демонстрируют изменение решения — модель отказывается в одних конфигурациях, но выполняет требование в других — в зависимости от модели. Наш индекс стабильности безопасности (SSI) показывает, что более высокие температуры значительно снижают стабильность решений (критерий Фридмана χ² = 396,81, p < 0,001), при этом средний SSI внутри каждой температуры снижается с 0,977 при температуре 0,0 до 0,942 при температуре 1,0. Мы подтверждаем наши результаты для всех семейств моделей, используя Cloude 3.5 в качестве единого внешнего судьи, достигнув 89,0% согласованности между судьями с нашим основным судьей Llama 70B (коэффициент Коэна κ = 0,62). В каждой модели подсказки с более высокими показателями соответствия демонстрируют меньшую стабильность (коэффициент Спирмена ρ = от -0,47 до -0,70, все p < 0,001), что указывает на то, что модели «колеблются» сильнее при пограничных запросах.

Эти результаты показывают, что однократные оценки безопасности недостаточны для надежной оценки безопасности, и что протоколы оценки должны учитывать стохастические вариации в поведении модели. Мы показываем, что однократная оценка согласуется с многовыборочными эталонными данными только в 92,4% случаев при объединении данных по разным температурам (94,2–97,7% при фиксированной температуре в зависимости от настроек), и рекомендуем использовать не менее 3 выборок на каждый запрос для надежной оценки безопасности. - The Instability of Safety: How Random Seeds and Temperature Expose Inconsistent LLM Refusal Behavior

См. также другие публикации, посвященные LLM

No comments: