1. Глубокие нейронные сети (DNN) добились широкого успеха, но остаются уязвимыми для состязательных атак. Как правило, такие атаки либо включают в себя частые запросы к целевой модели, либо используют суррогатные модели, точно отражающие целевую модель, — часто обучаемые на подмножествах обучающих данных целевой модели — для достижения высокой успешности атак благодаря переносимости. Однако в реалистичных сценариях,
когда обучающие данные недоступны, а чрезмерные запросы могут вызвать тревогу, создание состязательных примеров становится более сложной задачей. В данной статье мы представляем UnivIntruder, новый фреймворк для атак, основанный исключительно на одной общедоступной модели CLIP и общедоступных наборах данных. Используя текстовые концепции, UnivIntruder генерирует универсальные, переносимые и целенаправленные состязательные возмущения, которые вводят DNN в заблуждение, заставляя их ошибочно классифицировать входные данные в заданные злоумышленником классы, определяемые текстовыми концепциями. Наши обширные эксперименты показывают, что наш подход обеспечивает успех атаки (ASR) до 85% на ImageNet и более 99% на CIFAR-10, значительно превосходя существующие методы, основанные на передаче данных. Кроме того, мы выявили реальные уязвимости,
показав, что даже без запросов к целевым моделям UnivIntruder компрометирует поисковые системы изображений, такие как Google и Baidu, с уровнем ASR до 84%, и модели языка машинного зрения, такие как GPT-4 и
Claude-3.5, с уровнем ASR до 80%. Эти результаты подчеркивают практичность нашей атаки в сценариях, где традиционные пути блокированы, что подчеркивает необходимость переоценки парадигм безопасности в приложениях ИИ. -
One Surrogate to Fool Them All: Universal, Transferable, and Targeted Adversarial Attacks with CLIP. Интересный подход с использованием VLM для генерации универсальных атак.
2. Мы представляем кросс-доменную многоцелевую атаку (CDMTA) – метод генерации состязательных примеров, которые вводят классификаторы изображений в заблуждение относительно любого целевого класса, включая те, которые не были обнаружены во время обучения. Традиционные целевые атаки ограничены одним классом на модель, что требует дорогостоящего переобучения для каждой цели. Многоцелевые атаки
решают эту проблему путем введения генератора возмущений с условным входом для указания целевого класса. Однако существующие методы ограничены классами, наблюдаемыми во время обучения, и требуют доступа к обучающим данным модели «черного ящика», что приводит к утечке данных, которая подрывает реалистичность оценки в практических сценариях «черного ящика». Мы определяем чрезмерную зависимость от векторных представлений классов как ключевое ограничение, приводящее к переобучению и плохому обобщению на невидимые классы. Для решения этой проблемы CD-MTA заменяет контроль на уровне классов условным входом на основе изображений и вводит независимые от класса потери, которые выравнивают возмущенные и целевые изображения в пространстве признаков. Такая конструкция устраняет зависимость от семантики классов, тем самым позволяя обобщение на невиданные классы в разных наборах данных. Эксперименты на ImageNet и семи других наборах данных показывают, что CD-MTA превосходит предыдущие многоцелевые атаки как в стандартных, так и в кросс-доменных условиях — без доступа к обучающим данным модели «черного ящика». - Breaking Dataset Boundaries: Class-Agnostic Targeted Adversarial Attacks
P.S. См. также другие публикации по теме adversarial, посвященные устойчивому машинному обучению
No comments:
Post a Comment