AbavaNet technical corner: Универсальная атака на LLM

Thursday, April 02, 2026

Универсальная атака на LLM

Агенты LLM, такие как Claude Code, могут не только писать код, но и использоваться для автономных исследований и разработок в области ИИ. Мы показываем, что конвейер в стиле автоматического исследования (Karpathy, 2026), работающий на базе Claude Code, обнаруживает новые алгоритмы атак типа «белый ящик», которые значительно превосходят все существующие (более 30) методы в оценках взлома и внедрения подсказок. Начиная с существующих реализаций атак, таких как GCG, агент итеративно создает новые алгоритмы, достигающие до 40% успешности атак на запросы CBRN против GPT-OSSSafeguard-20B, по сравнению с ≤10% для существующих алгоритмов. Обнаруженные алгоритмы обобщают: атаки, оптимизированные на суррогатных моделях, напрямую переносятся на отложенные модели, достигая 100% ASR против Meta-SecAlign-70B по сравнению с 56% для лучшего базового варианта . Расширяя результаты Carlini et al., 2025, наши результаты являются ранней демонстрацией того, что инкрементальные исследования в области безопасности могут быть автоматизированы с использованием агентов LLM. Метод «белого ящика» для противодействия угрозам особенно хорошо подходит для этого: существующие методы обеспечивают сильные отправные точки, а цель оптимизации дает плотную количественную обратную связь. Мы публикуем все обнаруженные атаки вместе с базовыми реализациями и кодом оценки по адресу https://github.com/romovpa/claudini - Claudini: Autoresearch Discovers State-of-the-Art Adversarial Attack Algorithms for LLMs

См. также другие публикации, посвященные LLM

Thursday, April 02, 2026

Универсальная атака на LLM

No comments: