Friday, September 05, 2025

Атака по книжкам

Безопасность больших языковых моделей (LLM) привлекла значительное внимание исследователей. В данной статье мы утверждаем, что предыдущие эмпирические исследования демонстрируют, что LLM склонны доверять информации из авторитетных источников, таких как научные статьи, что подразумевает новые возможные уязвимости. Для проверки этой возможности был проведен предварительный анализ, иллюстрирующий два наших вывода. Основываясь на этом понимании, предлагается новый метод взлома, Paper Summary Attack (PSA). Он систематически синтезирует контент из документа безопасности LLM, ориентированного как на атаку, так и на защиту, для создания шаблона вредоносного запроса, стратегически заполняя вредоносные запросы в качестве вредоносной нагрузки в предопределенных подразделах. Масштабные эксперименты показывают значительные уязвимости не только в базовых LLM, но и в современных моделях рассуждений, таких как Deepseek-R1. PSA достигает 97% успеха атаки (ASR) на хорошо согласованных моделях, таких как Claude3.5-Sonnet, и ещё более 98% ASR на Deepseek-R1. Что ещё интереснее, наша работа выявила диаметрально противоположные смещения уязвимости между различными базовыми моделями и даже между разными версиями одной и той же модели при сопоставлении как с документами, ориентированными на атаку, так и с документами, ориентированными на защиту. Этот феномен потенциально указывает на будущие исследовательские подсказки как для состязательных методологий, так и для сопоставления безопасности. Код доступен по адресу https://github.com/233liang/Paper-SummaryAttack - Paper Summary Attack: Jailbreaking LLMs through LLM Safety Papers

См. также другие публикации, посвященные LLM

No comments: