См. также другие публикации по теме Red Team
технические проблемы и идеи, родившиеся в бурных водах реки Abava (а равно как и на ее берегах, далеких и близких), выставленные на всеобщее обсуждение
Saturday, July 05, 2025
Перекрашивание AI Red Team
Защитные меры Large Language Model (LLM), реализующие отказы в запросах, стали широко принятой стратегией смягчения последствий ненадлежащего использования. На стыке состязательного машинного обучения и безопасности ИИ защитная красная команда эффективно выявила критические уязвимости в современных обученных отказам LLM. Однако, по нашему мнению, многочисленные материалы конференций по красной команде LLM в совокупности не расставляют приоритеты в отношении правильных исследовательских проблем. Во-первых, тестирование на соответствие четким спецификациям безопасности продукта должно иметь более высокий приоритет, чем абстрактные социальные предубеждения или этические принципы. Во-вторых, красная команда должна отдавать приоритет реалистичным моделям угроз, которые представляют расширяющийся ландшафт рисков и то, что могут сделать реальные злоумышленники. Наконец, мы утверждаем, что безопасность на уровне системы является необходимым шагом для продвижения исследований красной команды вперед, поскольку модели ИИ представляют новые угрозы, а также возможности для смягчения угроз (например, обнаружение
и блокировка злонамеренных пользователей) после помещения в контекст развертывания. Принятие этих приоритетов будет необходимо для того, чтобы исследовательская группа Red Team могла адекватно реагировать на ряд новых угроз, которые стремительное развитие ИИ представляет сегодня и будет представлять в самом ближайшем будущем. - A Red Teaming Roadmap Towards System-Level Safety
Subscribe to:
Post Comments (Atom)
No comments:
Post a Comment