Monday, March 30, 2026

Ломоносовские чтения 2026

Сборник докладов

Киберразведка Google

Google Threat Intelligence Group (GTIG) выпустила очередной квартальный отчет о кибербезопасности.

"Google DeepMind и GTIG выявили рост попыток извлечения моделей или «дистилляционных атак» — метода кражи интеллектуальной собственности, нарушающего условия предоставления услуг Google. В этом отчете мы описали шаги, предпринятые нами для предотвращения вредоносной деятельности, включая обнаружение, пресечение и нейтрализацию Google попыток извлечения моделей. Хотя мы не наблюдали прямых атак на перспективные модели или продукты генеративного ИИ со стороны субъектов, использующих сложные целевые атаки (APT), мы наблюдали и нейтрализовали частые атаки по извлечению моделей со стороны частных компаний по всему миру и исследователей, стремящихся клонировать собственную логику.

Для поддерживаемых государством субъектов, занимающихся киберпреступностью, большие языковые модели (LLM) стали важными инструментами для технических исследований, таргетинга и быстрого создания сложных фишинговых приманок. В этом ежеквартальном отчете освещается, как субъекты угроз из Корейской Народной Республики (КНДР), Ирана, Китайской Народной Республики (КНР) и России внедрили ИИ в свою деятельность в конце 2025 года, и улучшается наше понимание того, как злоупотребление генеративным ИИ проявляется в кампаниях, которые мы пресекаем в реальных условиях. GTIG пока не наблюдала случаев, когда APT-группировки или субъекты информационных операций (IO) достигли бы прорывных возможностей, коренным образом меняющих ландшафт угроз." - отсюда

Sunday, March 29, 2026

О безопасной работе агентов

Безопасность на уровне выполнения для агентов ИИ: agentsh ("оболочка агента") — это шлюз выполнения, работающий на основе политик, который перехватывает активность файлов, сети и процессов во время выполнения — независимо от того, что говорит приглашение, вывод инструмента или пользователь.

См. также другие публикации, посвященные агентам

Friday, March 27, 2026

Мультимодальный RAG

Что если RAG - это не только про текст? Но и про графы, изображения и т.д. Рекламная публикация от одного производителя БД.

Thursday, March 26, 2026

Караул для агентов

Агенты, использующие большие языковые модели (LLM), все чаще полагаются на внешние инструменты и системы поиска для автономного выполнения сложных задач. Однако такая конструкция делает агентов уязвимыми для косвенного внедрения подсказок (IPI), когда контролируемый злоумышленником контекст, встроенный в выходные данные инструмента или полученный контент, незаметно направляет действия агента в сторону, противоположную намерениям пользователя. В отличие от атак на основе подсказок, IPI разворачивается на протяжении нескольких циклов, что затрудняет отделение вредоносного управления от легитимного выполнения задачи. Существующие средства защиты на этапе вывода в основном полагаются на эвристическое обнаружение и консервативную блокировку действий с высоким риском, что может преждевременно завершать рабочие процессы или в целом подавлять использование инструментов в неоднозначных многоцикловых сценариях. Мы предлагаем AgentSentry, новую структуру обнаружения и смягчения последствий на этапе вывода для агентов LLM, дополненных инструментами. Насколько нам известно, AgentSentry — это первая система защиты на этапе вывода, которая моделирует многоцикловое внедрение подсказок как временное причинно-следственное поглощение. Он локализует точки захвата посредством контролируемых контрфактических повторных выполнений на границах возврата инструмента и обеспечивает безопасное продолжение работы за счет причинно-следственной очистки контекста, которая устраняет отклонения, вызванные атакой, сохраняя при этом релевантные для задачи доказательства. Мы оцениваем AgentSentry на бенчмарке AgentDojo по четырем наборам задач, трем семействам атак IPI и нескольким моделям LLM типа «черный ящик». AgentSentry исключает успешные атаки и поддерживает высокую полезность при атаке, достигая средней полезности при атаке (UA) 74,55%, улучшая UA на 20,8–33,6 процентных пункта по сравнению с самыми сильными базовыми показателями без ухудшения производительности в условиях безопасной среды. - AgentSentry: Mitigating Indirect Prompt Injection in LLM Agents via Temporal Causal Diagnostics and Context Purification

См. также другие публикации, посвященные агентам

А поговорить?

Новый протокол для агентов - A2H: A Protocol for Agent-to-Human Communication

См. также другие публикации, посвященные агентам

Wednesday, March 25, 2026

Вакансия: программист Raspberry Pi

«Абсолютные Технологии» — официальный дистрибьютор ИБП KEHUA в России. Уже 26 лет компания реализует комплексные проекты по системам гарантированного электроснабжения.

Ищет программиста для разработки новых продуктов.

Основные задачи:

Разработка ПО под одноплатные компьютеры с ОС Linux;
Разработка, поддержка и развитие сервисов Интернета вещей/Промышленного интернета вещей на Python 3+.

Ожидания от кандидата:

Уверенное владение языком Python и Linux, Fast API, SQL, Git;
Общее понимание функционирования интерфейсов (Ethernet/USB);
Навыки работы с одноплатными компьютерами;
Опыт интеграции с железом/IoT: SNMP, Modbus (pymodbus), serial (pyserial-asyncio), GPIO/индикаторы;
Опыт работы с веб-стеком: HTTP/HTTPS, вебсокет соединения;
Желательно знание основ любого фронтенд - фреймворка (Vue.js, React.js и тд) и опыт настройки/администрирования VPN-соединений (OpenVPN).

Компания предлагает:

Работу в стабильной компании с 26-летней историей;
Официальное оформление;
Фиксированный доход (обсуждается индивидуально);
Зарплатный проект ВТБ или любой удобный банк;
График работы: 5/2, 9:30–18:30;
Оплату комплексных обедов на территории работодателя;
Офис в шаговой доступности от м. Аэропорт.

/via https://hh.ru/vacancy/131304441

Под атакой

Большие языковые модели (LLM) широко используются в реальных системах. Учитывая их более широкое применение, разработка подсказок стала эффективным инструментом для организаций с ограниченными ресурсами, позволяющим внедрять LLM в собственных целях. В то же время БЛМ уязвимы для атак, основанных на подсказках. Таким образом, анализ этого риска стал критически важным требованием безопасности. В данной работе оценивается уязвимость внедрения подсказок и взлома системы с использованием большого, вручную подобранного набора данных для нескольких LLM с открытым исходным кодом, включая Phi, Mistral, DeepSeek-R1, Llama 3.2, Qwen и Gemma. Мы наблюдаем значительные различия в поведении моделей, включая отказы и полное молчаливое отсутствие реакции, вызванное внутренними механизмами безопасности. Кроме того, мы оценили несколько легковесных механизмов защиты, работающих во время вывода, которые действуют как фильтры без переобучения или интенсивной тонкой настройки на графическом процессоре. Хотя эти средства защиты смягчают прямые атаки, их постоянно обходят длинные, требующие логического обоснования вопросы. - Analysis of LLMs Against Prompt Injection and Jailbreak Attacks

Статья интересна тем, что авторы собрали довольно большую коллекцию состязательных запросов

См. также другие публикации, посвященные LLM

Очеловечиватель

Как удалить следы написания с помощью ИИ. Интересно такое сделать для русского языка

Monday, March 23, 2026

Состязательные атаки в партийной газете

Статья в газете Центральной партийной школы ЦК КПК "Сюэси Жибао" заместителя заведующего Отделом пропаганды ЦК КПК, руководителя Канцелярии по делам киберпространства ЦК КПК Чжуан Жунвэня, посвященная подведению итогов прошедшей пятилетки и анализу новых вызовов и задач в рамках новой. В тексте содежится описание основных инициатив Китая в сфере Интернет-пространства и технологий, описываются задачи защиты критической инфраструктуры, углубления работы с данными и развития управления ИИ.

Самое примечательное в тексте - это впервые упоминающиеся в официальном китайском дискурсе новые угрозы безопасности: 数据投毒 (атака типа "отравление данных" - внесение “плохих” данных, чтобы модель училась неправильно), 用户画像攻击 (атаки через профилирование пользователя и извлечение чувствительных выводов), 模型逆向推理 (обратный вывод из модели, попытки вытащить из нее скрытую информацию или свойства обучающих данных). Эти слова давно живут в китайской научной и экспертной среде, но здесь они впервые звучат в программном тексте уровня обсуждения пятилетки, что выводит технические задачи на уровень решения политических вопросов, про которые раньше в официальных текстах писали лишь в самом общем виде.

В США и ЕС похожая терминология используется давно, преимущественно в рекомендациях правового регулирования стандартов хранения и обработки данных (NIST, ENISA и другие), но такие документы остаются на уровне технической имплементации требований и рекомендаций по защите прав и инфраструктуры. В Китае упоминание терминологии новых угроз на уровне стратегического планирования пятилеток руководящими лицами может говорить о том, что за этим последует жесткое институциональное продолжение в виде требований, проверок и административных процедур на уровне обеспечения национальной безопасности.

/via Атлас Бойцзе

Thursday, March 19, 2026

Об основах государственного регулирования сфер применения технологий искусственного интеллекта в Российской Федерации

Генерацию незаконного контента - запретить. Опубликован черновик закона Об основах государственного регулирования сфер применения технологий искусственного интеллекта в Российской Федерации

"Разработчик модели искусственного интеллекта, оператор системы искусственного интеллекта, владелец сервиса искусственного интеллекта несут ответственность в соответствии с законодательством Российской Федерации за результат, полученный с использованием искусственного интеллекта, нарушающий законодательство Российской Федерации, при условии, что указанные лица заведомо знали или должны были знать о возможности получения такого результата с использованием модели, системы или сервиса искусственного интеллекта, разработчиком, оператором или владельцем которых они являются, если в результате следственных действий не будет доказано обратное." - о галлюцинациях (или о джелбрейках) точно все должны были знать ...

LLM Fuzzer

Большие языковые модели (LLM) получили широкое распространение в различных приложениях благодаря своей мощной способности генерировать текст, похожий на человеческий. Однако атаки с внедрением подсказок, которые включают перезапись исходных инструкций модели вредоносными подсказками для манипулирования сгенерированным текстом, вызвали серьезные опасения по поводу безопасности и надежности LLM. В этой статье мы предлагаем PROMPTFUZZ, новую тестовую среду, которая использует методы фаззинга для систематической оценки устойчивости LLM к атакам с внедрением подсказок. Вдохновленная программным фаззингом, PROMPTFUZZ выбирает перспективные начальные подсказки и генерирует разнообразный набор внедрений подсказок для оценки устойчивости целевой LLM. PROMPTFUZZ работает в два этапа: фаза подготовки, которая включает выбор перспективных начальных подсказок и сбор примеров с малым количеством примеров, и фаза фокусировки, которая использует собранные примеры для генерации разнообразных высококачественных внедрений подсказок. Используя сгенерированные PROMPTFUZZ подсказки для атаки в реальных условиях соревнований, мы достигли 7-го места среди более чем 4000 участников (в числе 0,14% лучших) в течение 2 часов, продемонстрировав эффективность PROMPTFUZZ по сравнению с опытными злоумышленниками. Кроме того, мы также протестировали сгенерированные подсказки для атаки на 50 популярных онлайн-приложениях, интегрированных с LLM, включая приложения от Coze и OpenAI, и обнаружили, что 92% из них могут быть использованы PROMPTFUZZ для взлома. Мы также запустили PROMPTFUZZ на 15 онлайн-приложениях для оценки резюме на основе LLM и обнаружили, что ответы 13 из этих приложений могут быть перехвачены PROMPTFUZZ. - PROMPTFUZZ: Harnessing Fuzzing Techniques for Robust Testing of Prompt Injection in LLMs

См. также другие публикации, посвященные LLM

Tuesday, March 17, 2026

LLM в атаке

Реальные операции по обеспечению безопасности в наступательных операциях по своей природе являются открытыми: злоумышленники исследуют неизвестные поверхности атаки, пересматривают гипотезы в условиях неопределенности и действуют без гарантированного успеха. Существующие оценки наступательных агентов на основе LLM основаны на закрытых средах с предопределенными целями и бинарными критериями успеха. Для решения этой проблемы мы представляем CyberExplorer, набор инструментов оценки, состоящий из двух основных компонентов: (1) открытого бенчмарка, построенного на виртуальной машине, на которой размещены 40 уязвимых веб-сервисов, полученных из реальных задач CTF, где агенты автономно выполняют разведку, выбор цели и эксплуатацию без предварительного знания местоположения уязвимостей; и (2) реактивной многоагентной структуры, поддерживающей динамическое исследование без предопределенных планов. CyberExplorer обеспечивает детальную оценку, выходящую за рамки восстановления флагов, фиксируя динамику взаимодействия, координационное поведение, режимы отказов и сигналы обнаружения уязвимостей, преодолевая разрыв между бенчмарками и реалистичными сценариями многоцелевых атак. - CyberExplorer: Benchmarking LLM Offensive Security Capabilities in a Real-World Attacking Simulation Environment

См. также другие публикации, посвященные LLM

Monday, March 16, 2026

MCP secure

Агенты языковых моделей, использующие встроенные инструменты, создают новые риски безопасности, поскольку их поведение развивается в рамках многоэтапных рабочих процессов, однако существующие средства защиты в основном полагаются на статические списки разрешенных или инфраструктурную изоляцию. В этой статье представлен MCP-Secure, облегченный уровень обеспечения на стороне хоста для протокола контекста модели (MCP), который применяет ограниченный доступ, настройки по умолчанию только для чтения и повышение привилегий с подтверждением во время выполнения. MCP-Secure отслеживает разрешения с помощью конечного автомата на уровне сессии и регулирует каждый вызов инструмента, не изменяя агенты или серверы MCP. Мы оцениваем работу фреймворка на 1080 выполнениях, охватывающих множество моделей, задач и симуляций враждебных действий. Результаты показывают, что ограниченный доступ сам по себе блокирует большинство небезопасных действий, обеспечение доступа только для чтения надежно нейтрализует все изменяющиеся векторы атак, а повышение привилегий с подтверждением поддерживает высокую безопасность, позволяя при этом контролируемые операции записи. В различных конфигурациях оболочка также формирует планирование работы агентов, уменьшая количество небезопасных попыток по мере ужесточения политик. Эти результаты демонстрируют, что MCP-Secure предоставляет практичный, воспроизводимый механизм для обеспечения соблюдения ограничений наименьших привилегий в системах LLM с поддержкой инструментов, предлагая сильную защиту от враждебного воздействия с интерпретируемым компромиссом между безопасностью и полезностью. - MCP-Secure: A Runtime Access Control Layer for Privilege-Aware LLM Agent Tooling

См. также другие публикации, посвященные MCP