См. также другие публикации, посвященные LLM
технические проблемы и идеи, родившиеся в бурных водах реки Abava (а равно как и на ее берегах, далеких и близких), выставленные на всеобщее обсуждение
Saturday, December 27, 2025
Новые старые джейлбрейки
Большие языковые модели остаются уязвимыми для атак типа «взлом системы», которые обходят защитные механизмы и приводят к получению вредоносных результатов. Защита от новых типов взлома системы представляет собой критическую задачу в области безопасности ИИ. Состязательное обучение — разработанное для повышения устойчивости моделей к наихудшим сценариям возмущений — было доминирующей парадигмой для обеспечения устойчивости к состязательным атакам. Однако из-за проблем оптимизации и трудностей в определении реалистичных моделей угроз методы состязательного обучения часто терпят неудачу на практике при работе с недавно разработанными типами взлома системы. В этой статье предлагается новая парадигма повышения устойчивости к ранее неизвестным типам взлома системы, основанная на гипотезе состязательного дежавю: новые типы взлома системы не являются принципиально новыми, а представляют собой в основном рекомбинации навыков состязательных атак из предыдущих. Мы изучаем эту гипотезу посредством масштабного анализа 32 статей об атаках, опубликованных за два года. Используя автоматизированный конвейер, мы извлекаем и сжимаем навыки состязательных атак в разреженный словарь примитивов, при этом LLM-ы генерируют удобочитаемые описания. Наш анализ показывает, что неизвестные атаки могут быть эффективно объяснены как разреженные композиции более ранних навыков, при этом объяснительная сила возрастает монотонно по мере расширения охвата навыков. Руководствуясь этим пониманием, мы представляем обучение композиции навыков состязательных атак (ASCoT), которое обучается на разнообразных композициях примитивов навыков, а не на изолированных примерах атак. ASCoT существенно повышает устойчивость к неизвестным атакам, включая многоходовые взломы, при сохранении низкого уровня отказов. Мы также демонстрируем, что расширение охвата навыков состязательных атак, а не только масштаба данных, является ключом к защите от новых атак. Предупреждение: Данная статья содержит контент, который может быть вредным или оскорбительным по своей природе. Страница проекта: https://mahavirdabas18.github.io/adversarial_deja_vu/ - Adversarial D\'ej\a Vu: Jailbreak Dictionary Learning for Stronger Generalization to Unseen Attacks
Subscribe to:
Post Comments (Atom)
No comments:
Post a Comment