Friday, January 16, 2026

Агент-бэкдорщик

Атаки с использованием бэкдоров представляют серьезную угрозу для безопасного развертывания больших языковых моделей (LLM), позволяя злоумышленникам внедрять скрытое поведение, запускаемое определенными входными данными. Однако существующие методы часто основаны на вручную созданных триггерах и статических конвейерах обработки данных, которые являются жесткими, трудоемкими и неадекватными для систематической оценки надежности современных средств защиты. По мере того, как агенты ИИ становятся все более совершенными, возрастает потребность в более строгих, разнообразных и масштабируемых системах тестирования на проникновение, которые могут реалистично имитировать угрозы с использованием бэкдоров и оценивать устойчивость модели в условиях противодействия. В этой работе мы представляем AUTOBACKDOOR, общую структуру для автоматизации внедрения бэкдоров, включающую генерацию триггеров, создание отравленных данных и тонкую настройку модели с помощью автономного конвейера, управляемого агентом. В отличие от предыдущих подходов, AutoBackdoor использует мощный агент языковой модели для генерации семантически согласованных, контекстно-зависимых триггерных фраз, что позволяет масштабируемо отравлять контент по произвольным темам с минимальными человеческими усилиями. Мы оцениваем AutoBackdoor в трех реалистичных сценариях угроз, включая рекомендации, основанные на предвзятости, внедрение галлюцинаций и манипулирование экспертной оценкой, чтобы смоделировать широкий спектр атак. Эксперименты как на моделях с открытым исходным кодом, так и на коммерческих моделях, включая LLaMA-3, Mistral, Qwen и GPT-4o, демонстрируют, что наш метод достигает более 90% успеха атак всего лишь с небольшим количеством отравленных образцов. Что еще важнее, мы обнаружили, что существующие средства защиты часто не справляются с смягчением этих атак, что подчеркивает необходимость более строгих и адаптивных методов оценки угроз, управляемых агентами, как это исследовано в данной работе. Весь код, наборы данных и экспериментальные конфигурации будут объединены в наш основной репозиторий по адресу https://github.com/bboylyg/BackdoorLLM - AutoBackdoor: Automating Backdoor Attacks via LLM Agents

См. также другие публикации, посвященные агентам

No comments: