См. также другие публикации, посвященные LLM
технические проблемы и идеи, родившиеся в бурных водах реки Abava (а равно как и на ее берегах, далеких и близких), выставленные на всеобщее обсуждение
Thursday, April 02, 2026
Универсальная атака на LLM
Агенты LLM, такие как Claude Code, могут не только писать код, но и использоваться для автономных исследований и разработок в области ИИ. Мы показываем, что конвейер в стиле автоматического исследования (Karpathy, 2026), работающий на базе Claude Code, обнаруживает новые алгоритмы атак типа «белый ящик», которые значительно превосходят все существующие (более 30) методы в оценках взлома и внедрения подсказок.
Начиная с существующих реализаций атак, таких как GCG, агент итеративно создает новые алгоритмы, достигающие до 40% успешности атак на запросы CBRN против GPT-OSSSafeguard-20B, по сравнению с ≤10% для существующих алгоритмов. Обнаруженные алгоритмы обобщают: атаки, оптимизированные на суррогатных моделях, напрямую переносятся на отложенные модели, достигая 100% ASR против Meta-SecAlign-70B по сравнению с 56% для лучшего базового варианта .
Расширяя результаты Carlini et al., 2025, наши результаты являются ранней демонстрацией того, что инкрементальные исследования в области безопасности могут быть автоматизированы с использованием агентов LLM. Метод «белого ящика» для противодействия угрозам особенно хорошо подходит для этого: существующие методы обеспечивают сильные отправные точки, а цель оптимизации дает плотную количественную обратную связь. Мы публикуем все обнаруженные атаки вместе с базовыми реализациями и кодом оценки по адресу https://github.com/romovpa/claudini - Claudini: Autoresearch Discovers State-of-the-Art Adversarial Attack Algorithms for LLMs
Subscribe to:
Post Comments (Atom)
No comments:
Post a Comment