См. также другие публикации, посвященные LLM
технические проблемы и идеи, родившиеся в бурных водах реки Abava (а равно как и на ее берегах, далеких и близких), выставленные на всеобщее обсуждение
Wednesday, December 17, 2025
Тесты защитников
Риск предоставления небезопасной информации системами генеративного ИИ вызывает серьезные опасения, подчеркивая необходимость в защитных механизмах. Для снижения этого риска все чаще используются модели защиты, которые обнаруживают небезопасный контент во взаимодействии человека и ИИ, дополняя безопасность больших языковых моделей. Несмотря на недавние усилия по оценке эффективности этих моделей, их устойчивость к изменениям входных данных и атакам с использованием состязательных элементов остается в значительной степени неизученной. В этой статье мы представляем всестороннюю оценку 15 современных моделей защиты, оценивая их устойчивость к: а) изменениям входных данных, таким как опечатки, маскировка ключевых слов, шифры и скрытые выражения, и б) атакам с использованием состязательных элементов, предназначенным для обхода защитных механизмов моделей. Эти атаки используют возможности больших языковых моделей, такие как следование инструкциям, ролевая игра, персонификация, рассуждения и кодирование, или вводят состязательные токены для вызывания некорректного поведения модели. Наши результаты показывают, что большинство моделей защитных механизмов можно обойти с помощью простых изменений входных данных, и они уязвимы для атак со стороны злоумышленников. Например, один злонамеренный токен может обмануть их в среднем в 44,5% случаев. Ограничения текущего поколения моделей защитных механизмов подчеркивают необходимость создания более надежных защитных механизмов. - On Guardrail Models’ Robustness to Mutations and Adversarial Attacks
Subscribe to:
Post Comments (Atom)
No comments:
Post a Comment