См. также другие публикации, посвященные LLM
технические проблемы и идеи, родившиеся в бурных водах реки Abava (а равно как и на ее берегах, далеких и близких), выставленные на всеобщее обсуждение
Friday, September 05, 2025
Атака по книжкам
Безопасность больших языковых моделей (LLM) привлекла значительное внимание исследователей. В данной статье мы утверждаем, что предыдущие эмпирические исследования демонстрируют, что LLM склонны
доверять информации из авторитетных источников, таких как научные статьи, что подразумевает новые возможные уязвимости. Для проверки этой возможности был проведен предварительный анализ, иллюстрирующий два наших вывода. Основываясь на этом понимании, предлагается новый метод взлома, Paper Summary Attack (PSA). Он систематически синтезирует контент из документа безопасности LLM, ориентированного как на атаку, так и на защиту, для создания шаблона вредоносного запроса, стратегически заполняя вредоносные запросы в качестве вредоносной нагрузки в предопределенных подразделах. Масштабные эксперименты показывают значительные уязвимости не только в базовых LLM,
но и в современных моделях рассуждений, таких как Deepseek-R1. PSA достигает 97% успеха атаки (ASR) на хорошо согласованных моделях, таких как Claude3.5-Sonnet, и ещё более 98% ASR на Deepseek-R1. Что ещё интереснее, наша работа выявила диаметрально противоположные смещения уязвимости между различными базовыми моделями и даже между разными версиями одной и той же модели при сопоставлении как с документами, ориентированными на атаку, так и с документами, ориентированными на защиту. Этот феномен потенциально указывает на будущие исследовательские подсказки как для состязательных методологий, так и для сопоставления безопасности. Код доступен по адресу https://github.com/233liang/Paper-SummaryAttack - Paper Summary Attack: Jailbreaking LLMs through LLM Safety Papers
Subscribe to:
Post Comments (Atom)
No comments:
Post a Comment