Страницы

Saturday, April 18, 2026

Комплексная защита LLM

Большие языковые модели все чаще используются в критически важных инфраструктурах, от здравоохранения до финансов, однако их уязвимость к манипуляциям со стороны злоумышленников угрожает целостности системы и безопасности пользователей. Несмотря на растущее внедрение, комплексной сравнительной оценки безопасности основных архитектур больших языковых моделей не существует, что не позволяет организациям количественно оценить риски или выбрать подходящие по безопасности большие языковые модели для важных приложений. Данное исследование восполняет этот пробел, создавая стандартизированную структуру оценки уязвимости и разрабатывая многоуровневую систему защиты от выявленных угроз. Мы систематически оцениваем пять широко используемых семейств больших языковых моделей: GPT-4, GPT-3.5 Turbo, Claude-3 Haiku, LLaMA-2-70B и Gemini-2.5-pro, используя 10 000 запросов от злоумышленников, охватывающих шесть категорий атак. Наша оценка выявляет критические различия в безопасности, при этом показатели уязвимости варьируются от 11,9% до 29,8%, демонстрируя, что возможности больших языковых моделей не коррелируют с надежностью безопасности. Для снижения этих рисков мы разработали готовую к внедрению в производство защитную систему, достигающую в среднем 83% точности обнаружения при всего 5% ложных срабатываний. Эти результаты демонстрируют, что систематическая оценка безопасности в сочетании с внешними мерами защиты обеспечивает жизнеспособный путь к более безопасному развертыванию LLM в производственных средах. - Security Assessment and Mitigation Strategies for Large Language Models: A Comprehensive Defensive Framework

Датасеты и код доступны здесь

См. также другие публикации, посвященные LLM

No comments:

Post a Comment