Tuesday, June 30, 2026

Бэкдоры сегодня

Пара интересных работ по бэкдор-атакам.

Атаки с использованием бэкдоров против нейронных сетей позволяют злоумышленникам внедрять скрытые модели поведения, которые активируются во время вывода, сохраняя при этом высокую производительность на чистых входных данных. Атаки с использованием бэкдоров с чистыми метками особенно скрытны, поскольку они отравляют обучающие данные, не изменяя истинные метки, что затрудняет обнаружение вредоносных образцов с помощью традиционной проверки данных. Эта угроза особенно актуальна, когда обучающие данные собираются из ненадежных, внешних или распределенных источников. В данной статье представлен систематический обзор атак с использованием бэкдоров с чистыми метками и отравлением данных в классификации изображений. Мы вводим единую двухуровневую таксономию, которая сначала различает атаки, содержащие триггеры, и атаки без триггеров, а затем организует каждую категорию в соответствии с лежащими в ее основе механизмами атаки. На основе этой таксономии мы анализируем 18 репрезентативных методов и сравниваем их с точки зрения эффективности атаки, скрытности и операционных предположений, используя общепринятые метрики, такие как частота успешных атак и точность на чистых данных. Мы также изучаем настройки знаний злоумышленников и практические сценарии развертывания, чтобы оценить реальную осуществимость этих атак. Кроме того, мы выявляем новые тенденции, включая адаптивные и специфичные для выборки триггеры, обсуждаем ограничения существующих стратегий защиты и описываем открытые проблемы в оценке и смягчении последствий. Наконец, мы предлагаем стандартизированную систему отчетности для повышения воспроизводимости, сопоставимости и согласованности между исследованиями. Этот обзор обеспечивает структурированное понимание атак с использованием бэкдоров с «чистой меткой» и предлагает рекомендации по разработке более надежных и безопасных систем машинного обучения. - Clean-Label Backdoor Attacks: A Survey

Атаки с использованием бэкдоров позволяют злоумышленникам внедрять вредоносное поведение в модели машинного обучения путем отравления обучающих данных триггерами. Исследователи в основном сосредоточивались на бэкдорах в одномодальных моделях. Однако появление многомодальных систем, например, моделей «зрение-язык» (VLM) и многомодальных больших языковых моделей (MLLM), значительно расширило поверхность атаки. Многомодальные бэкдоры могут использовать кросс-модальные триггеры, манипулирование на уровне представления, поведение, обусловленное инструкциями, и пути активации во время тестирования, которые недоступны в одномодальных моделях. Тем не менее, количественная оценка прогресса в этой области остается сложной задачей из-за фрагментированных наборов данных, непоследовательных моделей угроз, и отсутствия стандартизированных протоколов оценки. Эта методологическая непоследовательность ограничивает сравнительный анализ и препятствует систематическому пониманию устойчивости в многомодальных условиях. В данной статье представлено мета-исследование многомодальных атак с использованием бэкдоров и проанализировано, как методологическая фрагментация подрывает воспроизводимость и кумулятивное научное понимание. Мы утверждаем, что для надежного и систематического развития исследований многомодальных атак с использованием бэкдоров необходимы стандартизированные контрольные показатели и обратно совместимые протоколы оценки. - Meta-Research on Backdoors: Dataset and Threat Model Shifts in Multimodal Backdoor Attacks

См. также другие публикации по бэкдор атакам

No comments: