AbavaNet technical corner
технические проблемы и идеи, родившиеся в бурных водах реки Abava (а равно как и на ее берегах, далеких и близких), выставленные на всеобщее обсуждение
Monday, June 29, 2026
AI SEO
О таксономии агентной безопасности
Интересная статистика о том, какие формы атак достигают наивысших ASR:
Мультимодальный. Каналы зрения и звука обходят текстоцентричные фильтры безопасности. FigStep преобразует запрещенные инструкции в типографические изображения, достигая в среднем 82,5% ASR на шести LVLM с открытым исходным кодом. HADES сообщает о 90,26% ASR на LLaVA-1.5. AudioJailbreak достигает ≥87% ASR в универсальных условиях сильного противника.
На основе кодирования. Преобразование запросов в нестандартные представления использует более слабое покрытие безопасности за пределами типичного естественного языка. CipherChat сообщает о почти 100% обходе безопасности GPT-4 с помощью кодирования шифра. Перевод на языки с ограниченными ресурсами увеличивает показатели обхода с 1% до 79%. ArtPrompt использует ASCII-графику, и в смежных работах показано, что другие нестандартные представления, такие как Base64, ROT13 и код Морзе, аналогичным образом
используют более слабое покрытие безопасности в этих кодирующих пространствах.
См. также другие публикации, посвященные агентам
Sunday, June 28, 2026
Что же такое безопасность агентов?
Несмотря на быстрый прогресс в механизмах защиты, не существует адекватного свойства корректности, определяющего, что означает «безопасность» для агентов LLM, а также принципиального способа оценки охвата существующих средств защиты. Мы отмечаем, что агенты LLM структурно аналогичны компиляторам, где нарушения безопасности соответствуют ошибочным выполнениям, которые не сохраняют намерения пользователя. Опираясь на эту аналогию, мы выявляем два фундаментальных источника проблем — ненадежный прием данных и ненадежное выполнение инструментов — и выводим четыре свойства целостности, которые должны выполняться одновременно: целостность инструментов, целостность инструкций, целостность суждений и целостность потока данных. Мы называем их конъюнкцию целостностью намерения и выполнения. Анализ существующих средств защиты агентов от этих свойств показывает, что текущие системы обеспечивают лишь частичное и некомпозиционное покрытие, оставляя фундаментальные пробелы в обеспечении безопасности современных агентов LLM. - Securing LLM Agents Need Intent-to-Execution Integrity
См. также другие публикации, посвященные агентам
Saturday, June 27, 2026
О развернутых диалогах
См. также другие публикации, посвященные LLM
Friday, June 26, 2026
Это не лечится
См. также другие публикации, посвященные агентам
Thursday, June 25, 2026
О доверенных агентных системах
См. также другие публикации, посвященные агентам
Wednesday, June 24, 2026
Сложное тестирование агентов
Для тестирования агентов (как и для тестирования LLM) нужны multi-turn тесты
См. также другие публикации, посвященные агентам
Tuesday, June 23, 2026
Перефразирование в состязательных атаках
С помощью LLM перефразируют состязательные запросы до тех пор, пока их не перестанут отвергать.
См. также другие публикации, посвященные LLM
Monday, June 22, 2026
Все об атаках на агенты
См. также другие публикации, посвященные агентам
Sunday, June 21, 2026
Переполнение подсказок
См. также другие публикации, посвященные LLM
Saturday, June 20, 2026
О безопасности ML
И даже такая базовая вещь, как внедрение уязвимостей с помощью инъекции подсказок все еще быстро растет. Это означает, что в сфере безопасности, вероятно, произойдёт смещение в сторону мониторинга, обнаружения вторжений и песочницы, как это было в начале 2000-х, сначала рассматривая LLM как «чёрный ящик», входы и выходы которого требуют строгого контроля. Этот сдвиг уже идёт полным ходом. Сколько продуктов для межсетевых экранов на основе ИИ уже представлено на рынке? Далее мы поймём, что нам нужно проникнуть внутрь «чёрного ящика» и разработать набор методов обеспечения безопасности, которые будут моральным эквивалентом анализа кода и архитектурного анализа. Мы пока не знаем, что это значит, но такие работы, как исследования трансформерных цепей Anthropic, открывают новые горизонты. - NO SECURITY METER FOR AI
Friday, June 19, 2026
Поет морзянка за стеной веселым дискантом
Thursday, June 18, 2026
Автоматизация косвенных инъекций
См. также другие публикации, посвященные LLM
Wednesday, June 17, 2026
Агенты данных под атакой
См. также другие публикации, посвященные агентам
