Tuesday, June 10, 2025

Атаки на LLM

Большие языковые модели (LLM) и агенты на основе LLM широко используются в широком спектре приложений в реальном мире, включая диагностику в здравоохранении, финансовый анализ, поддержку клиентов, робототехнику и автономное вождение, расширяя их мощные возможности понимания, рассуждения и генерации естественных языков. Однако широкое развертывание приложений на основе LLM подвергает критическим рискам безопасности и надежности, таким как вероятность злонамеренного использования, утечки конфиденциальной информации и сбоя в обслуживании, которые ослабляют доверие пользователей и подрывают общественную безопасность. В этой статье представлен систематический обзор деталей состязательных атак, нацеленных как на LLM, так и на агентов на основе LLM. Эти атаки организованы в три фазы в LLM: атаки на фазе обучения, атаки на фазе вывода и атаки на доступность и целостность. Для каждой фазы мы анализируем детали репрезентативных и недавно представленных методов атак вместе с их соответствующими защитами. Мы надеемся, что наш опрос предоставит хорошее руководство и всестороннее понимание безопасности LLM, особенно атак на LLM. Мы хотим привлечь внимание к рискам, присущим широко развернутым приложениям на основе LLM, и подчеркнуть настоятельную необходимость в надежных стратегиях смягчения возникающих угроз. - A Survey of Attacks on Large Language Models

См. также другие публикации, посвященные LLM

No comments: