Monday, March 23, 2026

Состязательные атаки в партийной газете

Статья в газете Центральной партийной школы ЦК КПК "Сюэси Жибао" заместителя заведующего Отделом пропаганды ЦК КПК, руководителя Канцелярии по делам киберпространства ЦК КПК Чжуан Жунвэня, посвященная подведению итогов прошедшей пятилетки и анализу новых вызовов и задач в рамках новой. В тексте содежится описание основных инициатив Китая в сфере Интернет-пространства и технологий, описываются задачи защиты критической инфраструктуры, углубления работы с данными и развития управления ИИ.

Самое примечательное в тексте - это впервые упоминающиеся в официальном китайском дискурсе новые угрозы безопасности: 数据投毒 (атака типа "отравление данных" - внесение “плохих” данных, чтобы модель училась неправильно), 用户画像攻击 (атаки через профилирование пользователя и извлечение чувствительных выводов), 模型逆向推理 (обратный вывод из модели, попытки вытащить из нее скрытую информацию или свойства обучающих данных). Эти слова давно живут в китайской научной и экспертной среде, но здесь они впервые звучат в программном тексте уровня обсуждения пятилетки, что выводит технические задачи на уровень решения политических вопросов, про которые раньше в официальных текстах писали лишь в самом общем виде.

В США и ЕС похожая терминология используется давно, преимущественно в рекомендациях правового регулирования стандартов хранения и обработки данных (NIST, ENISA и другие), но такие документы остаются на уровне технической имплементации требований и рекомендаций по защите прав и инфраструктуры. В Китае упоминание терминологии новых угроз на уровне стратегического планирования пятилеток руководящими лицами может говорить о том, что за этим последует жесткое институциональное продолжение в виде требований, проверок и административных процедур на уровне обеспечения национальной безопасности.

/via Атлас Бойцзе

Thursday, March 19, 2026

Об основах государственного регулирования сфер применения технологий искусственного интеллекта в Российской Федерации

Генерацию незаконного контента - запретить. Опубликован черновик закона Об основах государственного регулирования сфер применения технологий искусственного интеллекта в Российской Федерации

"Разработчик модели искусственного интеллекта, оператор системы искусственного интеллекта, владелец сервиса искусственного интеллекта несут ответственность в соответствии с законодательством Российской Федерации за результат, полученный с использованием искусственного интеллекта, нарушающий законодательство Российской Федерации, при условии, что указанные лица заведомо знали или должны были знать о возможности получения такого результата с использованием модели, системы или сервиса искусственного интеллекта, разработчиком, оператором или владельцем которых они являются, если в результате следственных действий не будет доказано обратное." - о галлюцинациях (или о джелбрейках) точно все должны были знать ...

LLM Fuzzer

Большие языковые модели (LLM) получили широкое распространение в различных приложениях благодаря своей мощной способности генерировать текст, похожий на человеческий. Однако атаки с внедрением подсказок, которые включают перезапись исходных инструкций модели вредоносными подсказками для манипулирования сгенерированным текстом, вызвали серьезные опасения по поводу безопасности и надежности LLM. В этой статье мы предлагаем PROMPTFUZZ, новую тестовую среду, которая использует методы фаззинга для систематической оценки устойчивости LLM к атакам с внедрением подсказок. Вдохновленная программным фаззингом, PROMPTFUZZ выбирает перспективные начальные подсказки и генерирует разнообразный набор внедрений подсказок для оценки устойчивости целевой LLM. PROMPTFUZZ работает в два этапа: фаза подготовки, которая включает выбор перспективных начальных подсказок и сбор примеров с малым количеством примеров, и фаза фокусировки, которая использует собранные примеры для генерации разнообразных высококачественных внедрений подсказок. Используя сгенерированные PROMPTFUZZ подсказки для атаки в реальных условиях соревнований, мы достигли 7-го места среди более чем 4000 участников (в числе 0,14% лучших) в течение 2 часов, продемонстрировав эффективность PROMPTFUZZ по сравнению с опытными злоумышленниками. Кроме того, мы также протестировали сгенерированные подсказки для атаки на 50 популярных онлайн-приложениях, интегрированных с LLM, включая приложения от Coze и OpenAI, и обнаружили, что 92% из них могут быть использованы PROMPTFUZZ для взлома. Мы также запустили PROMPTFUZZ на 15 онлайн-приложениях для оценки резюме на основе LLM и обнаружили, что ответы 13 из этих приложений могут быть перехвачены PROMPTFUZZ. - PROMPTFUZZ: Harnessing Fuzzing Techniques for Robust Testing of Prompt Injection in LLMs

См. также другие публикации, посвященные LLM

Tuesday, March 17, 2026

LLM в атаке

Реальные операции по обеспечению безопасности в наступательных операциях по своей природе являются открытыми: злоумышленники исследуют неизвестные поверхности атаки, пересматривают гипотезы в условиях неопределенности и действуют без гарантированного успеха. Существующие оценки наступательных агентов на основе LLM основаны на закрытых средах с предопределенными целями и бинарными критериями успеха. Для решения этой проблемы мы представляем CyberExplorer, набор инструментов оценки, состоящий из двух основных компонентов: (1) открытого бенчмарка, построенного на виртуальной машине, на которой размещены 40 уязвимых веб-сервисов, полученных из реальных задач CTF, где агенты автономно выполняют разведку, выбор цели и эксплуатацию без предварительного знания местоположения уязвимостей; и (2) реактивной многоагентной структуры, поддерживающей динамическое исследование без предопределенных планов. CyberExplorer обеспечивает детальную оценку, выходящую за рамки восстановления флагов, фиксируя динамику взаимодействия, координационное поведение, режимы отказов и сигналы обнаружения уязвимостей, преодолевая разрыв между бенчмарками и реалистичными сценариями многоцелевых атак. - CyberExplorer: Benchmarking LLM Offensive Security Capabilities in a Real-World Attacking Simulation Environment

См. также другие публикации, посвященные LLM

Monday, March 16, 2026

MCP secure

Агенты языковых моделей, использующие встроенные инструменты, создают новые риски безопасности, поскольку их поведение развивается в рамках многоэтапных рабочих процессов, однако существующие средства защиты в основном полагаются на статические списки разрешенных или инфраструктурную изоляцию. В этой статье представлен MCP-Secure, облегченный уровень обеспечения на стороне хоста для протокола контекста модели (MCP), который применяет ограниченный доступ, настройки по умолчанию только для чтения и повышение привилегий с подтверждением во время выполнения. MCP-Secure отслеживает разрешения с помощью конечного автомата на уровне сессии и регулирует каждый вызов инструмента, не изменяя агенты или серверы MCP. Мы оцениваем работу фреймворка на 1080 выполнениях, охватывающих множество моделей, задач и симуляций враждебных действий. Результаты показывают, что ограниченный доступ сам по себе блокирует большинство небезопасных действий, обеспечение доступа только для чтения надежно нейтрализует все изменяющиеся векторы атак, а повышение привилегий с подтверждением поддерживает высокую безопасность, позволяя при этом контролируемые операции записи. В различных конфигурациях оболочка также формирует планирование работы агентов, уменьшая количество небезопасных попыток по мере ужесточения политик. Эти результаты демонстрируют, что MCP-Secure предоставляет практичный, воспроизводимый механизм для обеспечения соблюдения ограничений наименьших привилегий в системах LLM с поддержкой инструментов, предлагая сильную защиту от враждебного воздействия с интерпретируемым компромиссом между безопасностью и полезностью. - MCP-Secure: A Runtime Access Control Layer for Privilege-Aware LLM Agent Tooling

См. также другие публикации, посвященные MCP

Saturday, March 14, 2026

Зеленый щит

Крупные языковые модели (LLM) все чаще используются, однако их выходные данные могут быть нестабильными и чувствительными к обычным, неконфликтным изменениям в формулировке запросов пользователями, что является недостатком, недостаточно учитываемым существующими методами тестирования на проникновение. Мы предлагаем «Зеленую защиту» (Green Shielding) — ориентированную на пользователя исследовательскую программу для создания эмпирической основы для рекомендаций по внедрению путем характеристики того, как «безобидные» изменения входных данных влияют на поведение модели и выявляют практические компромиссы между релевантными задаче «целями». «Зеленая защита» реализуется с помощью трех компонентов: реалистичных эталонных показателей, «соответствующих задаче эталонных стандартов и метрик» и режимов возмущений, отражающих распространенные пользовательские «вариации». Мы применяем эту программу в медицинской диагностике. Во-первых, на обычных медицинских эталонных показателях с одним ответом мы показываем, что небольшие изменения в содержании, формате и тоне подсказки заметно влияют на правильность. Затем мы представляем HealthCareMagic-Diagnosis (HCM-Dx), новый эталонный показатель, полученный из набора данных HealthCareMagic-100K, состоящий из диагностических запросов, составленных пациентами и адаптированных для систематической оценки. Для этого тематического исследования мы создаем структурированные эталонные наборы диагнозов и клинически обоснованные метрики для оценки дифференциальных диагнозов, сохраняя при этом масштабируемость за счет построения эталонных данных с помощью LLM и автоматического сопоставления синонимичных диагнозов. В нескольких перспективных LLM мы обнаружили, что стандартные вариации подсказок демонстрируютпаретоподобные компромиссы между правдоподобностью, охватом высоковероятных и критически важных для безопасности состояний, и широтой дифференциальных диагнозов. В частности, нейтрализация подсказок, которая удаляет общие факторы на уровне пользователя, повышает правдоподобность и приводит к более кратким дифференциальным диагнозам, похожим на клинические, одновременно уменьшая охват высоковероятных и критически важных для безопасности состояний. В совокупности эти результаты показывают, что полезность и надежность зависят не только от возможностей модели, но и от выбора вариантов взаимодействия, и что Green Shielding помогает обосновать научно обоснованные, ориентированные на пользователя рекомендации для более безопасного внедрения в областях с высокими рисками. Тематическое исследование медицинской диагностики проводится в тесном сотрудничестве с клиницистами и руководствуется структурой PCS для достоверной науки о данных. Наши данные и код доступны по адресу https://github.com/aaron-jx-li/green-shielding. - Green Shielding: A User-Centric Approach Towards Trustworthy AI LLM-Assisted Medical Diagnosis as a Case Study

См. также другие публикации, посвященные LLM

Friday, March 13, 2026

Универсальный состязательный патч

Глубокие нейронные сети (DNN) значительно продвинулись в области компьютерного зрения и широко применяются в различных задачах. Однако эти модели остаются уязвимыми для атак с использованием состязательных элементов. Цель данного исследования — выявить угрозы, с которыми сталкиваются модели обнаружения в видимом и инфракрасном диапазонах в реальных условиях, и предложить унифицированный метод создания состязательных патчей, то есть единую конструкцию патча, эффективную как для видимого, так и для инфракрасного диапазонов, основанную на генетическом алгоритме. Этот метод позволяет проводить избирательные или сбалансированные атаки на детекторы видимого и инфракрасного диапазонов, обеспечивая углубленный анализ безопасности моделей в практических приложениях. Экспериментальные результаты показывают, что метод эффективно снижает точность модели обнаружения и демонстрирует эффекты атаки в смоделированных реальных условиях. Путем оптимизации формы состязательных патчей с использованием генетического алгоритма и адаптивной регулировки силы атаки в зависимости от модальности с помощью весовых коэффициентов, предлагаемый метод повышает гибкость и устойчивость к межмодальным атакам с использованием состязательных элементов. Кроме того, метод использует стратегию преобразования ожиданий (EOT), демонстрируя высокую устойчивость при различных точках зрения. Обширные эксперименты подтверждают эффективность метода, при этом показатель успешности атаки (ASR) превышает 89%. Данное исследование предоставляет теоретическую основу для повышения устойчивости и безопасности моделей и предлагает ценные идеи для критически важных приложений, таких как интеллектуальное видеонаблюдение. - Physical Multimodal Adversarial Attacks Against Object Detection Models in Industrial Monitoring Scenario

См. также другие публикации по теме физические атаки

Wednesday, March 11, 2026

Плохому не научит?

«Удачной (и безопасной) стрельбы!» - Чат-боты с искусственным интеллектом помогли подросткам планировать сцены насилия в сотнях тестов. Расследование CNN.

Универсальные атаки на LLM

Очередная попытка сделать универсальный атакующий фреймворк для LLM. В принципе, устройство у всех одинаковое. Берем словари известных атак и конструируем новые промпты по некоторым правилам. Вот, например: "В основе нашей структуры лежит широкая, основанная на политике таксономия категорий запросов высокого риска, включая насилие, хакерство, мошенничество, финансовые преступления, разжигание ненависти, нарушения конфиденциальности и многое другое. Каждая категория представлена подсказками, полученными как из общедоступных наборов данных, например, AdvBench, JailbreakBench, так и из проверенных экспертами синтетических примеров.
Для враждебного зондирования мы используем следующие основные методы:
  • Враждебные суффиксы: добавление компактной последовательности оптимизированных токенов или фраз к входной подсказке, которая систематически изменяет поведение модели при завершении запроса, чтобы получить определенные результаты.
  • Ролевая игра: представление запросов в виде вымышленного, гипотетического, или сценария, основанного на личности, чтобы побудить модель принять поведение или выдать результаты, которые в противном случае были бы ограничены.
  • Убеждение: Использование эмоциональных, социальных или авторитетных сигналов в запросе — таких как апелляции к экспертным знаниям, срочности или свидетельствам коллег — для того, чтобы склонить модель к выдаче более покладистых или разрешительных результатов.
  • Обфускация: Преобразование или сокрытие намерения запроса с помощью кодирования, нетипичной орфографии, перевода или других поверхностных искажений для обхода детекторов, основанных на шаблонах.
  • Многошаговое построение структуры запроса: Разбиение целевого запроса на последовательность промежуточных запросов или задач таким образом, что каждый шаг по отдельности является безопасным, но вся цепочка в целом дает запрещенный результат.
  • Предварительная подготовка в контексте: Предоставление выбранных примеров в запросе, которые неявно учат модель выдавать целевой тип (небезопасного) ответа.
  • Агрессивная токенизация: Агрессивная токенизация вредоносной строки для обхода ограничений безопасности и выравнивания моделей LLM.

Каждый запрос систематически сопоставляется с каждым методом атаки, генерируя детализированную сетку оценок действий противника. Наша структура разработана с учетом масштабируемости и расширяемости. Новые категории запросов и дополнительные методы исследования могут быть легко интегрированы, что позволяет постоянно адаптироваться к возникающим рискам и методам атак.

Вот схожие работы и похожий код

См. также другие публикации, посвященные LLM

Tuesday, March 10, 2026

Безопасность IoT

Быстрое распространение технологий Интернета вещей (IoT), число взаимосвязанных устройств которого, по прогнозам, к 2030 году превысит 30 миллиардов, значительно усложнило проблемы кибербезопасности. Цель данного обзора — предоставить всесторонний анализ уязвимостей, угроз и механизмов защиты, уделяя особое внимание интеграции сетевого и прикладного уровней в системы мониторинга и принятия решений в реальном времени. С использованием интегративной методологии обзора были отобраны 59 научных статей, опубликованных в период с 2009 по 2024 год, из таких баз данных, как IEEE Xplore, ScienceDirect и PubMed, с использованием ключевых слов, связанных с уязвимостями IoT и атаками на безопасность. Ключевые выводы определяют критически важные категории угроз, включая уязвимости датчиков, атаки типа «отказ в обслуживании» (DoS) и небезопасность публичных облачных сервисов. В свою очередь, исследование освещает передовые подходы к защите, использующие искусственный интеллект (ИИ) для обнаружения аномалий, блокчейн для децентрализованного доверия и архитектуру нулевого доверия (ZTA) для непрерывной проверки. В данной статье представлена новая пятиуровневая модель Интернета вещей и обозначены будущие направления исследований, связанные с квантовыми вычислениями и сетями 6G, для повышения устойчивости экосистемы Интернета вещей. - Cyberscurity Threats and Defense Mechanisms in IoT network

См. также другие публикации по теме IoT

Monday, March 09, 2026

MCP - щит

Протокол контекста модели (MCP) стандартизирует использование инструментов для агентов на основе LLM и позволяет использовать сторонние серверы. Эта открытость создает несоответствие в безопасности: агенты неявно доверяют инструментам, предоставляемым потенциально ненадежными серверами MCP. Однако, несмотря на свою превосходную полезность, существующие агенты обычно предлагают ограниченную проверку сторонних серверов MCP. В результате агенты остаются уязвимыми для атак на основе MCP, которые используют несоответствие между агентами и серверами на протяжении всего жизненного цикла вызова инструмента. В этой статье мы предлагаем MCPShield в качестве подключаемого уровня безопасности, обеспечивающего когнитивные функции, который смягчает это несоответствие, и гарантирует безопасность агентов при вызове инструментов на основе MCP. Вдохновленный человеческой проверкой инструментов на основе опыта, MCPShield помогает агентам формировать когнитивные функции безопасности с помощью проверки на основе метаданных перед вызовом. Наш метод ограничивает выполнение в контролируемых рамках при одновременном отслеживании событий во время выполнения и впоследствии обновляет понимание безопасности путем анализа исторических данных после вызова, опираясь на человеческое постэкспериментальное осмысление поведения инструмента. Эксперименты демонстрируют, что MCPShield демонстрирует высокую обобщающую способность при защите от шести новых сценариев атак на основе MCP в шести широко используемых агентных LLM, избегая ложных срабатываний на безопасных серверах и не требуя больших затрат на развертывание. В целом, наша работа обеспечивает практичную и надежную защиту от угроз безопасности при вызове инструментов на основе MCP в открытых агентских экосистемах. - MCPShield: A Security Cognition Layer for Adaptive Trust Calibration in Model Context Protocol Agents

См. другие публикации, посвященные MCP

Автоматизация атак на ИИ-агентов

Интересная магистерская диссертация из ETH: Automated Prompt Injection Attacks Against LLM Agents

Sunday, March 08, 2026

Быстрое переобучение

Длинные входные последовательности играют центральную роль в контекстном обучении, понимании документов и многошаговом рассуждении больших языковых моделей (LLM). Однако квадратичная стоимость внимания в трансформерах делает вывод ресурсоемким и медленным процессом с точки зрения памяти. Хотя дистилляция контекста (CD) может передавать информацию в параметры модели, дистилляция по каждому запросу непрактична из-за затрат на обучение и задержки. Для решения этих проблем мы предлагаем Doc-to-LoRA (D2L), легковесную гиперсеть, которая мета-обучается для выполнения приблизительной CD за один прямой проход. Получив неизвестный запрос, D2L генерирует адаптер LoRA для целевой LLM, позволяя отвечать на последующие запросы без повторного использования исходного контекста, уменьшая задержку и потребление памяти KV-кэша во время вывода целевой LLM. В задаче поиска иголки в стоге сена с длинным контекстом D2L успешно обучается сопоставлять контексты с адаптерами, которые хранят информацию об иголке, достигая почти идеальной точности без предварительного обучения при длине последовательности, превышающей собственное контекстное окно целевой LLM более чем в 4 раза. На реальных наборах данных для вопросов и ответов с ограниченными вычислительными ресурсами D2L превосходит стандартный CD, значительно снижая пиковое потребление памяти и задержку обновления. Мы предполагаем, что D2L может способствовать быстрой адаптации LLM, открывая возможность частого обновления знаний и персонализированного поведения в чате. - Doc-to-LoRA: Learning to Instantly Internalize Contexts

Очень интересно - это быстрая (за один проход) кастомизация LLM

См. также другие публикации, посвященные LLM