Saturday, March 07, 2026

Атаки губки для LLM

Атаки типа «губка» все чаще представляют угрозу для систем LLM, вызывая чрезмерные вычисления и DoS-атаки. Существующие средства защиты либо полагаются на статистические фильтры, которые не справляются с семантически значимыми атаками, либо используют статические детекторы на основе LLM, которые с трудом адаптируются по мере развития стратегий атак. Мы представляем SHIELD, многоагентную систему защиты с автоматическим восстановлением, основанную на трехэтапном агенте защиты, который интегрирует поиск семантического сходства, сопоставление шаблонов и рассуждения на основе LLM. Два вспомогательных агента — агент обновления знаний и агент оптимизации подсказок — образуют замкнутый цикл самовосстановления: когда атака обходит обнаружение, система обновляет развивающуюся базу знаний и уточняет инструкции защиты. Обширные эксперименты показывают, что SHIELD неизменно превосходит системы защиты на основе перплексии и автономные системы защиты LLM, достигая высоких показателей F1 как при несемантических, так и при семантических атаках типа «губка», демонстрируя эффективность агентного самовосстановления против развивающихся угроз истощения ресурсов. - SHIELD: An Auto-Healing Agentic Defense Framework for LLM Resource Exhaustion Attacks

См. также другие публикации, посвященные LLM

No comments: