См. также другие публикации, посвященные LLM
технические проблемы и идеи, родившиеся в бурных водах реки Abava (а равно как и на ее берегах, далеких и близких), выставленные на всеобщее обсуждение
Tuesday, June 03, 2025
Новый подход к джелбрейкам
Состязательные атаки на большие языковые модели (LLM) с помощью методов взлома — методов, которые обходят их встроенные ограничения безопасности и этики — стали критической проблемой в безопасности ИИ. Эти атаки ставят под угрозу надежность LLM, эксплуатируя присущие им слабости в возможностях понимания. В этой статье исследуется эффективность стратегий взлома, которые специально адаптированы к различным уровням понимания, демонстрируемым различными LLM. Мы предлагаем адаптивные стратегии взлома, основанные на возможностях семантического понимания больших языковых моделей, новую структуру, которая классифицирует LLM на категории Типа I и Типа II в соответствии с их способностями семантического понимания. Для каждой категории мы разрабатываем индивидуальные стратегии взлома, направленные на использование их уязвимостей для облегчения успешных атак. Обширные эксперименты, проведенные на нескольких LLM, показывают, что наша адаптивная стратегия заметно повышает успех взлома. Примечательно, что наш подход обеспечивает исключительный показатель успеха в 98,9% при взломе GPT-4o (релиз от 29 мая 2025 г.) - https://arxiv.org/pdf/2505.23404
Subscribe to:
Post Comments (Atom)
No comments:
Post a Comment