AbavaNet technical corner
технические проблемы и идеи, родившиеся в бурных водах реки Abava (а равно как и на ее берегах, далеких и близких), выставленные на всеобщее обсуждение
Wednesday, July 01, 2026
Секретные скиллы
Tuesday, June 30, 2026
Бэкдоры сегодня
Атаки с использованием бэкдоров против нейронных сетей позволяют злоумышленникам внедрять скрытые модели поведения, которые активируются во время вывода, сохраняя при этом высокую производительность на чистых входных данных. Атаки с использованием бэкдоров с чистыми метками особенно скрытны, поскольку они отравляют обучающие данные, не изменяя истинные метки, что затрудняет обнаружение вредоносных образцов с помощью традиционной проверки данных. Эта угроза особенно актуальна, когда обучающие данные собираются из ненадежных, внешних или распределенных источников. В данной статье представлен систематический обзор атак с использованием бэкдоров с чистыми метками и отравлением данных в классификации изображений. Мы вводим единую двухуровневую таксономию, которая сначала различает атаки, содержащие триггеры, и атаки без триггеров, а затем организует каждую категорию в соответствии с лежащими в ее основе механизмами атаки. На основе этой таксономии мы анализируем 18 репрезентативных методов и сравниваем их с точки зрения эффективности атаки, скрытности и операционных предположений, используя общепринятые метрики, такие как частота успешных атак и точность на чистых данных. Мы также изучаем настройки знаний злоумышленников и практические сценарии развертывания, чтобы оценить реальную осуществимость этих атак. Кроме того, мы выявляем новые тенденции, включая адаптивные и специфичные для выборки триггеры, обсуждаем ограничения существующих стратегий защиты и описываем открытые проблемы в оценке и смягчении последствий. Наконец, мы предлагаем стандартизированную систему отчетности для повышения воспроизводимости, сопоставимости и согласованности между исследованиями. Этот обзор обеспечивает структурированное понимание атак с использованием бэкдоров с «чистой меткой» и предлагает рекомендации по разработке более надежных и безопасных систем машинного обучения. - Clean-Label Backdoor Attacks: A Survey
Атаки с использованием бэкдоров позволяют злоумышленникам внедрять вредоносное поведение в модели машинного обучения путем отравления обучающих данных триггерами. Исследователи в основном сосредоточивались на бэкдорах в одномодальных моделях. Однако появление многомодальных систем, например, моделей «зрение-язык» (VLM) и многомодальных больших языковых моделей (MLLM), значительно расширило поверхность атаки. Многомодальные бэкдоры могут использовать кросс-модальные триггеры, манипулирование на уровне представления, поведение, обусловленное инструкциями, и пути активации во время тестирования, которые недоступны в одномодальных моделях. Тем не менее, количественная оценка прогресса в этой области остается сложной задачей из-за фрагментированных наборов данных, непоследовательных моделей угроз, и отсутствия стандартизированных протоколов оценки. Эта методологическая непоследовательность ограничивает сравнительный анализ и препятствует систематическому пониманию устойчивости в многомодальных условиях. В данной статье представлено мета-исследование многомодальных атак с использованием бэкдоров и проанализировано, как методологическая фрагментация подрывает воспроизводимость и кумулятивное научное понимание. Мы утверждаем, что для надежного и систематического развития исследований многомодальных атак с использованием бэкдоров необходимы стандартизированные контрольные показатели и обратно совместимые протоколы оценки. - Meta-Research on Backdoors: Dataset and Threat Model Shifts in Multimodal Backdoor Attacks
См. также другие публикации по бэкдор атакам
Monday, June 29, 2026
AI SEO
О таксономии агентной безопасности
Интересная статистика о том, какие формы атак достигают наивысших ASR:
Мультимодальный. Каналы зрения и звука обходят текстоцентричные фильтры безопасности. FigStep преобразует запрещенные инструкции в типографические изображения, достигая в среднем 82,5% ASR на шести LVLM с открытым исходным кодом. HADES сообщает о 90,26% ASR на LLaVA-1.5. AudioJailbreak достигает ≥87% ASR в универсальных условиях сильного противника.
На основе кодирования. Преобразование запросов в нестандартные представления использует более слабое покрытие безопасности за пределами типичного естественного языка. CipherChat сообщает о почти 100% обходе безопасности GPT-4 с помощью кодирования шифра. Перевод на языки с ограниченными ресурсами увеличивает показатели обхода с 1% до 79%. ArtPrompt использует ASCII-графику, и в смежных работах показано, что другие нестандартные представления, такие как Base64, ROT13 и код Морзе, аналогичным образом
используют более слабое покрытие безопасности в этих кодирующих пространствах.
См. также другие публикации, посвященные агентам
Sunday, June 28, 2026
Что же такое безопасность агентов?
Несмотря на быстрый прогресс в механизмах защиты, не существует адекватного свойства корректности, определяющего, что означает «безопасность» для агентов LLM, а также принципиального способа оценки охвата существующих средств защиты. Мы отмечаем, что агенты LLM структурно аналогичны компиляторам, где нарушения безопасности соответствуют ошибочным выполнениям, которые не сохраняют намерения пользователя. Опираясь на эту аналогию, мы выявляем два фундаментальных источника проблем — ненадежный прием данных и ненадежное выполнение инструментов — и выводим четыре свойства целостности, которые должны выполняться одновременно: целостность инструментов, целостность инструкций, целостность суждений и целостность потока данных. Мы называем их конъюнкцию целостностью намерения и выполнения. Анализ существующих средств защиты агентов от этих свойств показывает, что текущие системы обеспечивают лишь частичное и некомпозиционное покрытие, оставляя фундаментальные пробелы в обеспечении безопасности современных агентов LLM. - Securing LLM Agents Need Intent-to-Execution Integrity
См. также другие публикации, посвященные агентам
Saturday, June 27, 2026
О развернутых диалогах
См. также другие публикации, посвященные LLM
Friday, June 26, 2026
Это не лечится
См. также другие публикации, посвященные агентам
Thursday, June 25, 2026
О доверенных агентных системах
См. также другие публикации, посвященные агентам
Wednesday, June 24, 2026
Сложное тестирование агентов
Для тестирования агентов (как и для тестирования LLM) нужны multi-turn тесты
См. также другие публикации, посвященные агентам
Tuesday, June 23, 2026
Перефразирование в состязательных атаках
С помощью LLM перефразируют состязательные запросы до тех пор, пока их не перестанут отвергать.
См. также другие публикации, посвященные LLM
Monday, June 22, 2026
Все об атаках на агенты
См. также другие публикации, посвященные агентам
Sunday, June 21, 2026
Переполнение подсказок
См. также другие публикации, посвященные LLM
Saturday, June 20, 2026
О безопасности ML
И даже такая базовая вещь, как внедрение уязвимостей с помощью инъекции подсказок все еще быстро растет. Это означает, что в сфере безопасности, вероятно, произойдёт смещение в сторону мониторинга, обнаружения вторжений и песочницы, как это было в начале 2000-х, сначала рассматривая LLM как «чёрный ящик», входы и выходы которого требуют строгого контроля. Этот сдвиг уже идёт полным ходом. Сколько продуктов для межсетевых экранов на основе ИИ уже представлено на рынке? Далее мы поймём, что нам нужно проникнуть внутрь «чёрного ящика» и разработать набор методов обеспечения безопасности, которые будут моральным эквивалентом анализа кода и архитектурного анализа. Мы пока не знаем, что это значит, но такие работы, как исследования трансформерных цепей Anthropic, открывают новые горизонты. - NO SECURITY METER FOR AI
Friday, June 19, 2026
Поет морзянка за стеной веселым дискантом
Thursday, June 18, 2026
Автоматизация косвенных инъекций
См. также другие публикации, посвященные LLM
Wednesday, June 17, 2026
Агенты данных под атакой
См. также другие публикации, посвященные агентам