Sunday, June 28, 2026

Что же такое безопасность агентов?

В этом документе утверждается, что для обеспечения безопасности агентов LLM необходимо сначала определить сквозное свойство корректности, которое определяет, когда выполнение агента точно отражает намерение пользователя. Современные агенты LLM работают по конвейеру «намерение-выполнение», где инструкции на естественном языке преобразуются в конкретные системные операции, такие как вызовы инструментов, запросы API и выполнение кода. Хотя в последнее время средства защиты достигли прогресса в ограничении того, как агенты формируют вызовы инструментов, большинство существующих формулировок неявно предполагают, что инструментам можно доверять. Появление систем, таких как OpenClaw, с открытыми экосистемами сторонних специалистов и прямым доступом к пользовательской среде, нарушает это предположение и выявляет новые режимы сбоев, включая вредоносные или чрезмерно привилегированные компоненты в конвейере выполнения.

Несмотря на быстрый прогресс в механизмах защиты, не существует адекватного свойства корректности, определяющего, что означает «безопасность» для агентов LLM, а также принципиального способа оценки охвата существующих средств защиты. Мы отмечаем, что агенты LLM структурно аналогичны компиляторам, где нарушения безопасности соответствуют ошибочным выполнениям, которые не сохраняют намерения пользователя. Опираясь на эту аналогию, мы выявляем два фундаментальных источника проблем — ненадежный прием данных и ненадежное выполнение инструментов — и выводим четыре свойства целостности, которые должны выполняться одновременно: целостность инструментов, целостность инструкций, целостность суждений и целостность потока данных. Мы называем их конъюнкцию целостностью намерения и выполнения. Анализ существующих средств защиты агентов от этих свойств показывает, что текущие системы обеспечивают лишь частичное и некомпозиционное покрытие, оставляя фундаментальные пробелы в обеспечении безопасности современных агентов LLM. - Securing LLM Agents Need Intent-to-Execution Integrity

См. также другие публикации, посвященные агентам

Saturday, June 27, 2026

О развернутых диалогах

Мы представляем MultiBreak, масштабируемый и разнообразный бенчмарк для многошагового джейлбрейка, предназначенный для оценки безопасности больших языковых моделей (LLM). Многошаговые джейлбрейки имитируют естественные разговорные ситуации, что делает их более удобными для обхода LLM, соответствующих требованиям безопасности, чем одношаговые джейлбрейки. Существующие многошаговые бенчмарки ограничены по размеру или сильно зависят от шаблонов, что ограничивает их разнообразие. Чтобы устранить этот пробел, мы объединяем широкий спектр вредоносных интентов джейлбрейка и представляем конвейер активного обучения для расширения высококачественных многошаговых противодействий, где генератор итеративно дорабатывается для создания более сильных кандидатов на атаку, руководствуясь уточнением на основе неопределенности. Наш MultiBreak включает 10 389 многошаговых противодействий, охватывает 2665 различных вредоносных интентов и включает самый разнообразный набор тем на сегодняшний день. Эмпирическая оценка показывает, что наш бенчмарк обеспечивает до 54,0% и 34,6% более высокий уровень успешности атаки (ASR), чем второй лучший набор данных на DeepSeek-R1-7B и GPT-4.1-mini, соответственно. Что еще важнее, оценки безопасности показывают, что различные категории атак выявляют тонкие уязвимости LLM, и категории, которые кажутся безобидными при однократном воздействии, могут демонстрировать значительно более высокую эффективность в многократных сценариях. Эти результаты подчеркивают устойчивые уязвимости LLM в реалистичных условиях противодействия и подтверждают, что MultiBreak является масштабируемым ресурсом для повышения безопасности LLM. - MultiBreak: A Scalable and Diverse Multi-turn Jailbreak Benchmark for Evaluating LLM Safety

См. также другие публикации, посвященные LLM

Friday, June 26, 2026

Это не лечится

Внедрение подсказок является наиболее критической уязвимостью в развернутых агентах ИИ. Несмотря на недавний прогресс, мы показываем, что преобладающая парадигма защиты (разделение данных и инструкций) не только не обнаруживает атаки, которые действуют посредством контекстной манипуляции, но и ухудшает контекстно-адекватное поведение. Затем мы переосмысливаем внедрение подсказок с точки зрения контекстной целостности (КИ), теории конфиденциальности, которая оценивает соответствие потока информации контекстным нормам. Это объясняет типы атак, которые существующие средства защиты пытаются предотвратить, и предсказывает сложные атаки, с которыми столкнутся будущие агенты. Мы разрабатываем уникальные безобидные и атакующие сценарии, которые заставляют агента нарушать нормы путем (1) искажения потока, (2) манипулирования нормами или (3) смешивания нескольких потоков. Эта переформулировка предполагает результат невозможности: противник всегда может сконструировать контекст, в котором заблокированный поток кажется легитимным, или защитник, который ужесточает нормы, будет блокировать действительно легитимные потоки. Наши результаты показывают, что текущее исследование затрагивает все меньшую долю будущих поверхностей атаки. Вместо этого, с помощью CI мы предлагаем принципиальную основу для оценки контекстно-зависимых сбоев и разработки согласования с учетом CI для передовых автономных агентов. - AI Agents May Always Fall for Prompt Injections

См. также другие публикации, посвященные агентам

Thursday, June 25, 2026

О доверенных агентных системах

Агентные системы искусственного интеллекта — большие языковые модели (LLM), дополненные планированием, использованием инструментов, памятью и взаимодействием на долгосрочную перспективу — могут автономно выполнять сложные задачи, но их многоэтапные траектории приводят к новым режимам сбоев, которые ставят под сомнение надежность. Этот обзор представляет собой целенаправленное исследование надежного агентного ИИ по двум основным параметрам, которые имеют решающее значение для развертывания в условиях высокого риска: безопасность и надежность, а также конфиденциальность и безопасность системы. Для каждого параметра мы уточняем ключевые понятия, определяем, где возникают риски на протяжении рабочего процесса агента, и обобщаем стратегии смягчения рисков на каждом этапе. Другие аспекты надежности (согласование ценностей, прозрачность, справедливость и подотчетность) обсуждаются в качестве контекста, а не в отдельных главах. Для обеспечения согласованного сравнения и принятия решений о развертывании мы объединяем оценку в единый центр метрик и бенчмарков, уделяя особое внимание как результатам, так и сигналам процесса (например, нарушениям ограничений, полноте трассировки и показателям успешности противодействия) и предлагая рекомендации по преобразованию сценариев в метрики для управления процессом выпуска. В заключение мы описываем открытые проблемы, такие как саморазвивающиеся агенты, мониторинг и проверка в режиме реального времени, персонализация с сохранением конфиденциальности и компромисс между доверием и полезностью, а также представляем пример реальных сбоев безопасности в агентных системах с открытым исходным кодом (OpenClaw/Moltbook). Наша цель — служить практическим справочником для исследователей и практиков, создающих надежные агентные системы в условиях высокой ответственности. - Towards trustworthy agentic AI: a comprehensive survey of safety, robustness, privacy, and system security

См. также другие публикации, посвященные агентам

Wednesday, June 24, 2026

Сложное тестирование агентов

Мы проводим всесторонний анализ безопасности автономных агентов-помощников,выявляя угрозы, присущие их уникальным архитектурным свойствам. Во-первых, мы создаем систематическую таксономию, охватывающую 20 реальных рисков, классифицированных на нарушения границ, устойчивое искажение состояния и вредоносные операции. Для дальнейшего выявления уязвимостей автономных агентов в условиях этих угроз мы предлагаем три передовые стратегии атаки, обеспечивающие обход защиты во временном, пространственном и семантическом измерениях: (i) Кросс-поворотная фрагментация: фрагментация и распределение вредоносных полезных нагрузок по нескольким взаимодействиям в рамках одной сессии; (ii) Обход защиты в пределах области обнаружения: внедрение полезных нагрузок атаки в сложные внешние артефакты, которые трудно проверить с помощью LLM; и (iii) Сокрытие в благоприятном контексте: сокрытие вредоносных намерений в объемной, на первый взгляд безобидной информации в длительном контексте. Мы моделируем эти риски и стратегии в A3S-Bench, эталонной системе, включающей 2254 многоходовых диалога (1512 случаев атак, охватывающих 34 метода атак, и 742 безопасных диалога). Набор данных охватывает шесть сценариев использования и два уровня сложности, сгенерированных с помощью автоматизированного трехэтапного конвейера синтеза. Каждый случай выполняется в изолированной среде и оценивается с использованием метрик оценки на основе действий, которые совместно количественно определяют как безопасность, так и полезность. - Benchmarking Autonomous Agents against Temporal, Spatial, and Semantic Evasions

Для тестирования агентов (как и для тестирования LLM) нужны multi-turn тесты

См. также другие публикации, посвященные агентам

Tuesday, June 23, 2026

Перефразирование в состязательных атаках

Большие языковые модели (LLM) широко используются в различных реальных условиях, но остаются уязвимыми для взлома, где атаки на основе подсказок обходят фильтры безопасности. Мы представляем THREAT (Targeted Harmful generation via Reframing and Exploitation of Adversarial Tactics) — основанную на рассуждениях структуру, которая координирует работу нескольких LLM в итеративном цикле поиска для обнаружения текстовых подсказок для взлома. Мы формулируем задачу обнаружения подсказок как невыпуклую задачу оптимизации и предлагаем эффективное решение, которое сокращает время выполнения и повышает эффективность атаки. На различных наборах данных и архитектурах моделей THREAT обеспечивает более высокие показатели успешности атак при меньших вычислительных затратах, чем предыдущие методы. Созданные подсказки были помечены как вредоносные менее чем в 1% случаев, по сравнению с примерно 50% отказов для соответствующих неизмененных подсказок. Эти результаты выявляют ранее не обнаруженные уязвимости в выровненных LLM и позиционируют THREAT как практический инструмент для упреждающего повышения безопасности базовых моделей. Adversarial Reframing: A Framework for Targeted Generation in Language Models

С помощью LLM перефразируют состязательные запросы до тех пор, пока их не перестанут отвергать.

См. также другие публикации, посвященные LLM

Monday, June 22, 2026

Все об атаках на агенты

В реальных приложениях быстро появляются агенты ИИ, которые объединяют большие языковые модели с компонентами не-ИИ систем, предлагая беспрецедентную автоматизацию и гибкость. Однако эта беспрецедентная гибкость порождает сложные проблемы безопасности, которые отличаются от проблем, встречающихся в традиционных программных системах. В данной статье представлена первая всесторонняя систематизация знаний о безопасности агентов ИИ, включая анализ пространства проектирования агентов, ландшафта атак и механизмов защиты для безопасных систем агентов ИИ. Мы также выявляем открытые проблемы, указывающие на перспективные направления будущих исследований в этой новой области. Наша работа представляет собой первую систематическую структуру для понимания рисков безопасности и ландшафтов защиты агентов ИИ, служащую основой для создания как безопасных агентных систем, так и продвижения исследований в этой критически важной области.- SoK: Attack and Defense Landscape of Agentic AI Systems

См. также другие публикации, посвященные агентам

Устройство LLM

Хорошее описание основных компонент LLM

См. также другие публикации, посвященные LLM

Sunday, June 21, 2026

Переполнение подсказок

Модели-ограничители (Guardrail models - средства проверки безопасности) широко используются для проверки пользовательского ввода до того, как он попадет в большие языковые модели (LLM), служа в качестве основной защиты от атак с внедрением подсказок. Из-за строгих контекстных ограничений эти модели обрабатывают слишком длинные подсказки путем усечения или сегментации. Хотя предыдущие работы были сосредоточены на семантически враждебных входных данных, последствия для безопасности этих механизмов обработки длинных входных данных остаются в значительной степени неизученными. В этой статье мы выявляем критическое «слепое пятно», возникающее из-за несоответствия между ограниченными окнами проверки моделей-ограничителей и значительно большими окнами вывода контекста нижних LLM. Мы представляем новую атаку с переполнением подсказки, которая использует это несоответствие путем фрагментации вредоносных инструкций и перемешивания их с безобидным содержимым-заполнителем в слишком длинной подсказке, так что ни один отдельный проверяемый сегмент не кажется вредоносным, в то время как полный контекст остается доступным для LLM. В результате систематической оценки с использованием современных моделей защиты, включая Meta Llama Prompt Guard, IBM Granite Guardian и детекторы на основе DeBERTa, мы демонстрируем, что подсказки, надежно обнаруживаемые в условиях короткого контекста, могут обходить модели защиты после того, как они были изменены злонамеренно в результате преобразования во входные данные чрезмерной длины, но при этом остаются полностью пригодными для использования последующими LLM. Мы также предлагаем потенциальные стратегии защиты и описываем направления смягчения последствий для усиления моделей защиты. - Prompt Overflow: What the Guardrail Inspects Is Not What the Model Infers

См. также другие публикации, посвященные LLM

Saturday, June 20, 2026

О безопасности ML

Сегодняшний день — начало развития машинного обучения в сфере безопасности. Как в 1998 году все говорили о переполнении буфера, а тестирование на проникновение было настоящим безумием, так и в 2026 году все говорят о внедрении уязвимостей с помощью мгновенного запроса, а команды разработчиков, использующие ИИ, находятся на пике популярности.

И даже такая базовая вещь, как внедрение уязвимостей с помощью инъекции подсказок все еще быстро растет. Это означает, что в сфере безопасности, вероятно, произойдёт смещение в сторону мониторинга, обнаружения вторжений и песочницы, как это было в начале 2000-х, сначала рассматривая LLM как «чёрный ящик», входы и выходы которого требуют строгого контроля. Этот сдвиг уже идёт полным ходом. Сколько продуктов для межсетевых экранов на основе ИИ уже представлено на рынке? Далее мы поймём, что нам нужно проникнуть внутрь «чёрного ящика» и разработать набор методов обеспечения безопасности, которые будут моральным эквивалентом анализа кода и архитектурного анализа. Мы пока не знаем, что это значит, но такие работы, как исследования трансформерных цепей Anthropic, открывают новые горизонты. - NO SECURITY METER FOR AI

Friday, June 19, 2026

Поет морзянка за стеной веселым дискантом

Промпт инъекция в виде азбуки Морзе попросила о переводе биткоинов. LLM поняла запрос и исполнила перевод. Но только ты об этом лучше песню расспроси!

Thursday, June 18, 2026

Автоматизация косвенных инъекций

Внедрение подсказок косвенным путем представляет собой серьезную угрозу для агентов LLM, взаимодействующих с ненадежными внешними данными, однако автоматизированные методы атак, доказавшие свою эффективность при взломе систем, остаются недостаточно изученными, в реалистичных агентных условиях. Мы представляем всестороннюю эмпирическую оценку атак с внедрением подсказок автоматическим путем против агентов LLM, адаптируя как методы «белого ящика» (GCG), так и методы «черного ящика» (TAP) к агентной среде в рамках AgentDojo. Мы провели оценку на 80 парах задач, охватывающих четыре области и несколько моделей, и обнаружили, что оптимизация методом «черного ящика» существенно превосходит градиентные методы, что мы объясняем нестабильностью оптимизации GCG при разумных вычислительных затратах. Мы также обнаружили, что эффективность TAP зависит от модели злоумышленника, поскольку как общая производительность, так и настройка безопасности влияют на успех атаки — более сильные модели обеспечивают более эффективные внедрения, в то время как злоумышленники с настроенной безопасностью могут отказаться от генерации враждебных подсказок. Универсальные атаки на задачи эффективно переносятся на неизвестные задачи и внераспространенные области но атаки, оптимизированные для небольших моделей с открытым исходным кодом, не переносятся на передовые модели, такие как GPT-5. Эти результаты подчеркивают, что автоматическое внедрение подсказок представляет собой реальную, но зависящую от модели угрозу, при этом сохраняются значительные препятствия для эксплуатации, не зависящей от модели. - Assessing Automated Prompt Injection Attacks in Agentic Environments

См. также другие публикации, посвященные LLM

Wednesday, June 17, 2026

Агенты данных под атакой

Агенты данных интегрируют рассуждения, основанные на LLM, с доступом к реляционным данным, исполняемыми аналитическими инструментами и многоэтапной оркестровкой рабочих процессов, что делает их все более важными для корпоративной аналитики. Эта интеграция вносит новые уязвимости безопасности в ресурсы данных, выполнение баз данных и рассуждения агентов, объединяя проблемы безопасности баз данных и безопасности агентов LLM общего назначения в режимы сбоев, которые ни один из этих подходов не может выявить самостоятельно. Для решения этой проблемы мы представляем систематическое исследование безопасности агентов данных. Наш вклад состоит из трех частей. Во-первых, мы разрабатываем многоуровневую структуру уязвимостей, которая выявляет восемь рисков, специфичных для агентов данных, на уровнях интерпретации, выполнения и политики. Во-вторых, мы представляем таксономию атак, организованную по целям, тактике и методам противника, охватывающую три цели, семь тактик и четырнадцать методов, и сопоставляем ее с конвейером генерации полезной нагрузки, основанным на LLM и базирующимся на реальных схемах баз данных. В-третьих, мы оцениваем эти атаки на шести системах, включая четыре агента обработки данных с открытым исходным кодом и два производственных облачных сервиса аналитики. Наши эксперименты выявляют существенные уязвимости безопасности в существующих системах и дают четыре ключевых вывода. - Data Agents Under Attack: Vulnerabilities in LLM-Driven Analytical Systems

См. также другие публикации, посвященные агентам

Sunday, June 14, 2026

О дифференциальной приватности

В данной статье представлена ​​эмпирическая модель аудита утечки конфиденциальной информации в интерактивных системах баз данных (СБД), реализующих дифференциальную конфиденциальность (ДП). Без каких-либо предположений о формальных механизмах или параметрах ДП, мы моделируем работу аудитора с доступом «черного ящика» к результатам запросов и оцениваем утечку конфиденциальной информации с помощью атак на вывод принадлежности (MIA). Наша модель предоставляет эмпирические нижние границы параметра потери конфиденциальности ϵ, основанные на успехе атаки, обеспечивая сигнал о риске нарушения конфиденциальности даже в тех случаях, когда теоретический анализ недоступен или не поддается проверке. Мы реализуем эту модель в системе, смоделированной по образцу производственной среды крупной компании социальных сетей, и показываем, как такие факторы, как распределение данных, выбор цели и специфичность запроса, влияют на наблюдаемую конфиденциальность. Наша работа предлагает ценный и практичный инструмент для проверки и аудита конфиденциальности в крупномасштабных непрозрачных СБД - Auditing Differentially Private Interactive Database Systems