Friday, May 15, 2026

Публикации по теме Искусственный интеллект в кибербезопасности 15.05.2026

Вопросы безопасности систем ИИ рассматриваются в двух магистерских программах факультета ВМК МГУ имени М.В. Ломоносова: Искусственный интеллект в кибербезопасности и Кибербезопасность. Ниже приведен список публикаций, подготовленных в процессе реализации этих программ по состоянию на 05.04.2026

Ильюшин Е. А., Намиот Д. Е. An approach to the automatic enhancement of the robustness of ml models to external influences on the example of the problem of biometric speaker identification by voice // International Journal of Open Information Technologies. — 2021. — Vol. 9, no. 6. — P. 11–19.

Намиот Д. Е., Ильюшин Е. А., Чижов И. В. Текущие академические и индустриальные проекты, посвященные устойчивому машинному обучению // International Journal of Open Information Technologies. — 2021. — Т. 9, № 10. — С. 35–46.

Намиот Д. Е., Ильюшин Е. А., Чижов И. В. Основания для работ по устойчивому машинному обучению // International Journal of Open Information Technologies. — 2021. — Т. 9, № 11. — С. 68–74.

Намиот Д. Е., Ильшин Е. А., Чижов И. В. Военные применения машинного обучения // International Journal of Open Information Technologies. — 2022. — Т. 10, № 1. — С. 69–76.

Ильюшин Е. А., Намиот Д. Е., Чижов И. В. Атаки на системы машинного обучения – общие проблемы и методы // International Journal of Open Information Technologies. — 2022. — Т. 10, № 3. — С. 17–22.

Namiot D., Ilyushin E. On monitoring of machine learning models // Distributed Computer and Communication Networks: Control, Computation, Communications (DCCN-2022) : материалы XXV международной научной конференции: Москва, 26–30 сентября 2022 года / под общ. ред. В. М. Вишневского и К. Е. Самуйлова. — РУДН Москва: 2022. — P. 150–157.

Namiot D., Ilyushin E., Chizhov I. On a formal verification of machine learning systems // International Journal of Open Information Technologies. — 2022. — Vol. 10, no. 5. — P. 30–34.

Huayu L., Namiot D. A survey of adversarial attacks and defenses for image data on deep learning // International Journal of Open Information Technologies. — 2022. — Vol. 10, no. 5. — P. 9–16.

Намиот Д., Ильюшин Е., Пилипенко О. Доверенные платформы искусственного интеллекта // International Journal of Open Information Technologies. — 2022. — Т. 10, № 7. — С. 119–127.

Намиот Д., Ильюшин Е. Порождающие модели в машинном обучении // International Journal of Open Information Technologies. — 2022. — Т. 10, № 7. — С. 101–118.

Биджиев Т. М., Намиот Д. Е. Исследование существующих подходов к встраиванию вредоносного программного обеспечения в искусственные нейронные сети // International Journal of Open Information Technologies. — 2022. — Т. 10, № 9. — С. 21–31.

Намиот Д. Е., Ильюшин Е. А. Об устойчивости и безопасности систем искусственного интеллекта // International Journal of Open Information Technologies. — 2022. — Т. 10, № 9. — С. 126–134.

Намиот Д. Е., Ильюшин Е. А., Чижов И. В. Искусственный интеллект и кибербезопасность // International Journal of Open Information Technologies. — 2022. — Т. 10, № 9. — С. 135–147.

Stroeva E., Tonkikh A. Methods for formal verification of artificial neural networks: A review of existing approaches // International Journal of Open Information Technologies. — 2022. — Vol. 10, no. 10. — P. 3.

Намиот Д., Ильюшин Е. Мониторинг сдвига данных в моделях машинного обучения // International Journal of Open Information Technologies. — 2022. — Т. 10, № 12. — С. 84–93.

Костюмов, Василий Владимирович. "Обзор и систематизация атак уклонением на модели компьютерного зрения." International Journal of Open Information Technologies 10.10 (2022): 11-20.

Намиот Д. Е., Ильюшин Е. А. О причинах неудач проектов машинного обучения // International Journal of Open Information Technologies. — 2023. — Т. 11, № 1. — С. 60–69.

Намиот Д. Е. Введение в атаки отравлением на модели машинного обучения // International Journal of Open Information Technologies. — 2023. — Т. 11, № 3. — С. 58–68.

Namiot D. E., Ilyushin E., Chizhov I. On the practical generation of counterfactual examples // Труды Института системного анализа Российской академии наук. — 2023. — Vol. 73, no. 1. — P. 73–81.

Junzhe S., Namiot D. E. A survey of model inversion attacks and countermeasures // Труды Института системного анализа Российской академии наук. — 2023. — Vol. 73, no. 1. — P. 82–93.

Junzhe S., Namiot D. A survey of the implementations of model inversion attacks // Communications in Computer and Information Science. — 2023. — Vol. 1748. — P. 3–16.

Намиот Д. Е. Схемы атак на модели машинного обучения // International Journal of Open Information Technologies. — 2023. — Т. 11, № 5. — С. 68–86.

On the evasion attack detector / L. Huayui, V. Kostyumov, O. Pilipenko, D. Namiot // DCCN 2023. Материалы конференции. — ИПУ РАН Москва: 2023. — P. 183–188.

Junzhe S., Namiot D. On the machine learning models inversion attack detector // DCCN 2023. Материалы конференции. — ИПУ РАН Москва: 2023. — P. 194.

Lozinskii I., Kostyumov V., Stroeva E. Extraction of trigger and mask from poisoned data using modified activation clustering and neural cleanse methods // International Journal of Open Information Technologies. — 2023. — Vol. 11, no. 7. — P. 1

Чехонина, Екатерина Андреевна, and Василий Владимирович Костюмов. "ОБЗОР СОСТЯЗАТЕЛЬНЫХ АТАК И МЕТОДОВ ЗАЩИТЫ ДЛЯ ДЕТЕКТОРОВ ОБЪЕКТОВ." International Journal of Open Information Technologies 11.7 (2023): 11-20.

Пришлецов Д. Е., Пришлецов С. Е., Намиот Д. Е. Камуфляж как состязательные атаки на модели машинного обучения // International Journal of Open Information Technologies. — 2023. — Т. 11, № 9. — С. 41–49.

Намиот Д. Е., Зубарева Е. В. О работе ai red team // International Journal of Open Information Technologies. — 2023. — Т. 11, № 10. — С. 130–139.

Намиот Д. Е., Ильюшин Е. А. Доверенные платформы искусственного интеллекта: сертификация и аудит // International Journal of Open Information Technologies. — 2024. — Т. 12, № 1. — С. 43–60.

Киржинов Д. А., Ильюшин Е. А. Сравнительный анализ алгоритмов атак и защиты на графовые архитектуры ИНС // International Journal of Open Information Technologies. — 2024. — Т. 12, № 2.

Намиот Д. Е., Романов В. Ю. Об улучшении робастности моделей машинного обучения // International Journal of Open Information Technologies. — 2024. — Т. 12, № 3. — С. 88–98.

Junzhe S., Namiot D. On real-time model inversion attacks detection // Lecture Notes in Computer Science. — 2024. — Vol. 14123. — P. 56–67.

Мударова Р. М., Намиот Д. Е. Противодействие атакам типа инъекция подсказок на большие языковые модели // International Journal of Open Information Technologies. — 2024. — Т. 12, № 5. — С. 39–48.

Намиот Д. Е., Ильюшин Е. А. Искусственный интеллект в кибербезопасности: поиск вредоносного программного обеспечения // International Journal of Open Information Technologies. — 2024. — Т. 12, № 6. — С. 143–149.

Lebed, S. V., et al. "Large Language Models in Cyberattacks." Doklady Mathematics. Vol. 110. No. Suppl 2. Moscow: Pleiades Publishing, 2024.

Селевенко Р. М., Строева Е. Н. Исследование и разработка алгоритма формальной верификации и метрики оценки качества на основе методов понижения размерности ИНС // INJOIT. — 2024. — Т. 12, № 6. — С. 2.

Биджиев Т. М., Намиот Д. Е. Атаки на модели машинного обучения, основанные на фреймворке pytorch // Автоматика и телемеханика. — 2024. — № 3. — С. 38–50.

Намиот Д. Е., Ильюшин Е. А. О сертификации систем искусственного интеллекта // Физика элементарных частиц и атомного ядра. — 2024. — Т. 55, № 3. — С. 530–536.

Намиот Д. Е., Куприяновский В. П., Пичугов А. А. Состязательные атаки для автономных транспортных средств // International Journal of Open Information Technologies. — 2024. — Т. 12, № 7. — С. 139–149.

Намиот Д. Е. О кибератаках с помощью систем Искусственного интеллекта // International Journal of Open Information Technologies. — 2024. — Т. 12, № 9. — С. 132–141.

Воробьев, Егор Александрович. "Анализ состязательных атак на системы сегментации изображений." International Journal of Open Information Technologies 12.10 (2024): 1-25.

Намиот Д. Е., Ильюшин Е. А. О киберрисках генеративного Искусственного Интеллекта // International Journal of Open Information Technologies. — 2024. — Т. 12, № 10. — С. 109–119.

Порывай, Максим Викторович. "Сравнительное исследование методов естественной аугментации изображений." International Journal of Open Information Technologies 12.10 (2024): 26-33.

Герасименко, Денис Валерьевич, and Дмитрий Евгеньевич Намиот. "Извлечение тренировочных данных: Риски и решения в контексте безопасности LLM." International Journal of Open Information Technologies 12.11 (2024): 9-19.

Костиков, Егор Вячеславович. "Методы анализа логов Sysmon для обнаружения киберугроз." International Journal of Open Information Technologies 12.11 (2024): 25-34.

Намиот Д. Е., Ильюшин Е. А. Архитектура LLM агентов //International Journal of Open Information Technologies. – 2025. – Т. 13. – №. 1. – С. 67-74.

Воробьев Е. А., Намиот Д. Е. Состязательное тестирование моделей сегментации изображений // Программная инженерия. — 2025. — Т. 16, № 4. — С. 190–198.

Намиот, Д. Е., and Е. А. Ильюшин. "Об оценке доверия к системам Искусственного интеллекта." International Journal of Open Information Technologies 13.3 (2025): 75-90.

Хамзаева, М. А., and О. Р. Лапонина. "Повышение устойчивости к состязательным атакам моделей машинного обучения для обнаружения межсайтового выполнения сценариев." International Journal of Open Information Technologies 13.6 (2025): 25-33.

Бербер, Д. В., and О. Р. Лапонина. "Разработка подходов к увеличению устойчивости моделей машинного обучения для обнаружения распределенных атак отказа обслуживания." International Journal of Open Information Technologies 13.6 (2025): 16-24.

Егорова, Е. С., and О. Р. Лапонина. "Состязательное тестирование моделей машинного обучения, предназначенных для обнаружения SQL-инъекций." International Journal of Open Information Technologies 13.6 (2025): 34-41.

Лапонина, О. Р., and Р. Н. Костин. "Разработка программного обеспечения моделирования угроз для систем на базе LLM-агентов." International Journal of Open Information Technologies 13.6 (2025): 132-146.

Намиот, Д. Е. "Что LLM знает о кибербезопасности." International Journal of Open Information Technologies 13.7 (2025): 37-46.

Намиот, Д. Е. "Искусственный Интеллект в. Кибербезопасности. Хроника. Выпуск 1." International Journal of Open Information Technologies 13.9 (2025): 34-42.

Намиот, Д. Е., and Е. А. Ильюшин. "О кибербезопасности ИИ-агентов." International Journal of Open Information Technologies 13.9 (2025): 13-24.

Егоров, М. Э., et al. "Объяснения моделей машинного обучения и состязательные атаки." International Journal of Open Information Technologies 13.9 (2025): 50-59.

Намиот, Д. Е., and Е. А. Ильюшин. "Уязвимости экосистемы MCP." International Journal of Open Information Technologies 13.10 (2025): 74-82.

Намиот, Д. Е. "Искусственный Интеллект в Кибербезопасности. Хроника. Выпуск 2." International Journal of Open Information Technologies 13.10 (2025): 58-67.

Poryvai, Maxim, and Dmitry Namiot. "On Natural Image Augmentation to Increase Robustness of Machine Learning Models." 2025 International Russian Automation Conference (RusAutoCon). IEEE, 2025.

Namiot D., Zubareva E. On open datasets for llm adversarial testing // Communications in Computer and Information Science. — 2025. — Vol. 2641. — P. 137–148. 

Намиот, Д. Е. "Искусственный Интеллект в Кибербезопасности. Хроника. Выпуск 3." International Journal of Open Information Technologies 13.11 (2025): 169-179.

Maloyan, Narek, Bislan Ashinov, and Dmitry Namiot. "Investigating the Vulnerability of LLM-as-a-Judge Architectures to Prompt-Injection Attacks."  arXiv preprint arXiv:2505.13348 (2025).

Maloyan, Narek, and Dmitry Namiot. "Adversarial Attacks on LLM-as-a-Judge Systems: Insights from Prompt Injections." arXiv preprint arXiv:2504.18333 (2025).

Намиот, Д. Е. "Искусственный Интеллект в Кибербезопасности. Хроника. Выпуск 4." International Journal of Open Information Technologies 14.1 (2026): 81-94.

Maloyan, Narek, and Dmitry Namiot. "Prompt Injection Attacks on Agentic Coding Assistants: A Systematic Analysis of Vulnerabilities in Skills, Tools, and Protocol Ecosystems." arXiv preprint arXiv:2601.17548 (2026).

Намиот, Д. Е. "Искусственный Интеллект в Кибербезопасности. Хроника. Выпуск 5." International Journal of Open Information Technologies 14.2 (2026): 47-57.

Maloyan, Narek, and Dmitry Namiot. "Breaking the Protocol: Security Analysis of the Model Context Protocol Specification and Prompt Injection Vulnerabilities in Tool-Integrated LLM Agents." arXiv preprint arXiv:2601.17549 (2026).

Намиот, Д. Е. "Искусственный Интеллект в Кибербезопасности. Хроника. Выпуск 6." International Journal of Open Information Technologies 14.3 (2026): 76-86.

Намиот, Д. Е. "Искусственный Интеллект в Кибербезопасности. Хроника. Выпуск 7." International Journal of Open Information Technologies 14.5 (2026): 43-56.

Евграфов, Владимир Андреевич, Маратович Нутфуллин Булат, and Дмитрий Евгеньевич Намиот. "Методы атак и защиты в агентных системах на основе больших языковых моделей." International Journal of Open Information Technologies 14.5 (2026): 1-8.

Namiot, Dmitry. "On the AI Agents Audit Model." 2026 International Russian Smart Industry Conference (SmartIndustryCon). IEEE2026.

Архитектура безопасности рабочих процессов GitHub Agentic

Практика безопасности ИИ-агентов. Рабочие процессы GitHub Agentic построены с учетом изоляции, ограниченного вывода и всестороннего логирования. Узнайте, как модель угроз и архитектура безопасности помогают командам безопасно запускать агенты в GitHub Actions.

По мере того, как агенты ИИ становятся стандартом в инструментах разработки, вопрос сместится с необходимости создания песочницы на построение полноценной архитектуры безопасности. Четыре принципа GitHub предлагают универсальную структуру:
Эшелонированная защита с помощью независимых уровней.
Защита от доступа агентов к секретной информации с помощью архитектуры, а не политики.
Проверка каждого результата с помощью детерминированного анализа, прежде чем он повлияет на реальный мир.
Регистрация всего на каждом уровне доверия, потому что сегодняшняя наблюдаемость — это завтрашний уровень управления.

Thursday, May 14, 2026

О физических бэкдорах

Атаки с использованием бэкдоров направлены на внедрение скрытого бэкдора в глубокие нейронные сети (DNN), так что предсказания зараженных моделей будут злонамеренно изменены, если скрытый бэкдор будет активирован заданным злоумышленником шаблоном триггера. Поскольку зараженные модели ведут себя нормально при предсказании безобидных образцов, атака с использованием бэкдоров является скрытой и, следовательно, представляет серьезную угрозу для практического применения DNN. В настоящее время большинство существующих атак с использованием бэкдоров используют статический триггер, то есть триггеры на обучающих и тестовых изображениях имеют одинаковый внешний вид и расположены в одной и той же области. В этой статье мы пересматриваем эту парадигму атаки, анализируя характеристики триггеров. Мы демонстрируем, что эта парадигма атаки уязвима, когда триггер на тестовых изображениях не совпадает с триггером, используемым для обучения. Таким образом, эти атаки гораздо менее эффективны в физическом мире, где местоположение и внешний вид триггера в оцифрованных тестовых образцах могут отличаться от таковых на изображениях, используемых для обучения. Кроме того, мы вводим модуль усиления атаки во время обучения, вдохновленный методом ожидания над преобразованием (EOT), чтобы уменьшить уязвимость, связанную с такой несогласованностью. На основе этого модуля мы также показываем, что широко распространенное расширение данных может усугубить риски безопасности, связанные с атаками типа «бэкдор», хотя и может повысить производительность модели. Более того, мы оцениваем наши методы на нескольких эталонных наборах данных, чтобы проверить их эффективность. Мы надеемся, что наша работа вдохновит на дальнейшие исследования свойств атак типа «бэкдор», что облегчит разработку более надежных и безопасных нейронных сетей. - Rethinking the trigger of backdoor attacks: Towards physical backdoor threats

См. также другие публикации по теме физические атаки

Мировая закулиса ИИ

OpenAI выступает за создание глобальной структуры по управлению искусственным интеллектом и его регулированию под руководством США, а также с участием Китая. Об этом пишет агентство Bloomberg со ссылкой на вице-президента компании по глобальным вопросам Криса Лехейна.

«ИИ на определенном уровне выходит за рамки многих существующих или традиционных торговых вопросов. Есть возможность действительно начать строить что-то глобальное и привлечь к участию страны со всего мира, включая Китай», — заявил Лехейн журналистам в офисе компании в Вашингтоне в преддверии встречи американского лидера Дональда Трампа и председателя КНР Си Цзиньпина.

Он уточнил, что подобная организация могла бы по замыслу и функционалу напоминать Международное агентство по атомной энергии (МАГАТЭ), устанавливающее глобальные стандарты безопасности для развития ядерной энергетики с целью предотвращения распространения оружия. Как считает Лехейн, один из способов это сделать — установить контакты между Центром стандартов и инноваций в области ИИ Минторга США с учреждениями по безопасности ИИ в других странах мира.

Отсюда

Wednesday, May 13, 2026

Системы безопасности для высокопроизводительных вычислений (HPC)

Высокопроизводительные вычислительные системы (ВВП) обеспечивают фундаментальную вычислительную инфраструктуру для крупномасштабных и сложных симуляций, анализа больших данных и обучения моделей искусственного интеллекта (ИИ) и машинного обучения (МО), и все это с исключительной скоростью. Обеспечение безопасности систем ВВП имеет важное значение для защиты моделей ИИ, конфиденциальных данных и реализации всех преимуществ ВВП. Система ВВП использует специализированное оборудование, программное обеспечение и высокоскоростные сети в сложных пользовательских средах, и высокая производительность является фундаментальным требованием к системе. В этом специальном издании NIST представлено отображение мер безопасности для ВВП, разработанное для решения этих уникальных задач и требований безопасности. Основанное на базовом уровне, определенном в NIST SP 800-53B, наложение адаптирует 60 мер безопасности из NIST SP 800-53 с дополнительными рекомендациями и/или обсуждениями для повышения их применимости в контексте ВВП. Это отображение призвано предоставить практические, ориентированные на производительность рекомендации по безопасности, которые могут быть легко внедрены. Для многих организаций это обеспечивает надежную основу для защиты высокопроизводительных вычислительных сред, а также позволяет вносить дальнейшие изменения для удовлетворения конкретных оперативных или служебных потребностей. Данный документ предназначен для использования менеджерами по ИТ-безопасности, специалистами по соблюдению нормативных требований, системными администраторами высокопроизводительных вычислительных систем и руководителями программ в ведомствах, ответственными за обеспечение безопасности высокопроизводительных вычислительных сред. - NIST SP 800-234 High-Performance Computing (HPC) Security Overlay

Новый стандарт от NIST

Tuesday, May 12, 2026

Тестирование безопасности моделей ИИ

Центр стандартов и инноваций в области искусственного интеллекта (CAISI) при Национальном институте стандартов и технологий Министерства торговли объявил о новых соглашениях с Google DeepMind, Microsoft и xAI. Благодаря расширению отраслевых коллабораций CAISI будет проводить предварительные оценки и целевые исследования для лучшей оценки возможностей передового ИИ и повышения уровня безопасности ИИ. Эти соглашения основаны на ранее объявленных партнёрствах, которые были пересмотрены в соответствии с директивами CAISI министра торговли и Американским планом действий по искусственному интеллекту.

Под руководством госсекретаря Говарда Латника CAISI назначена в качестве основного контактного центра отрасли в правительстве США для содействия тестированию, совместным исследованиям и разработке лучших практик, связанных с коммерческими системами ИИ.

Соглашения CAISI с разработчиками передового ИИ позволяют государственным органам оценивать модели ИИ до их публичного доступа, а также проводить оценку и другие исследования после внедрения. На сегодняшний день CAISI провела более 40 подобных оценок, включая современные модели, которые до сих пор не были представлены.

«Независимая, строгая наука измерений необходима для понимания фронтирного ИИ и его последствий для национальной безопасности», — сказал директор CAISI Крис Фолл. «Эти расширенные отраслевые коллаборации помогают нам масштабировать нашу работу в интересах общества в критический момент.»

Эти соглашения поддерживают обмен информацией, стимулируют добровольные улучшения продуктов и обеспечивают чёткое понимание возможностей ИИ и состояния международной конкуренции в области ИИ. Для тщательной оценки возможностей и рисков, связанных с национальной безопасностью, разработчики часто предоставляют CAISI модели, которые уменьшили или убрали меры безопасности. Оценщики со всего правительства могут участвовать в оценках и регулярно предоставлять обратную связь через созванную CAISI Taskforce TRAINS — группу межведомственных экспертов, сосредоточенную на вопросах национальной безопасности ИИ. Соглашения поддерживают тестирование в засекреченных средах и были составлены с гибкостью, необходимой для быстрого реагирования на дальнейшие достижения ИИ.

Отсюда

См. также другие материалы, посвященные CAISI

LLM в картинках

Визуализация работы LLM

См. также другие публикации, посвященные LLM

Monday, May 11, 2026

Requests For Startups

Искусственный интеллект перестал быть просто функцией и стал основой. Мы рады новой волне стартапов, которые перестраивают программное обеспечение, сервисы и микросхемы, внедряя ИИ в физический мир. Несколько примеров — это рассказы основателей YC, которые делятся своими наблюдениями на переднем крае технологий.

Sunday, May 10, 2026

Формальная модель безопасности MCP

Протокол контекста модели (MCP), представленный Anthropic в ноябре 2024 года и теперь управляемый фондом Agentic AI Foundation при Linux Foundation, быстро стал стандартом де-факто для подключения агентов на основе больших языковых моделей (LLM) к внешним инструментам и источникам данных, с более чем 97 миллионами ежемесячных загрузок SDK и более чем 177 000 зарегистрированных инструментов. Однако это стремительное распространение выявило критический пробел: отсутствие единой, формальной структуры безопасности, способной систематически характеризовать, анализировать и смягчать разнообразные угрозы, с которыми сталкиваются экосистемы агентов на основе MCP. Существующие исследования в области безопасности остаются фрагментированными, охватывая отдельные статьи об атаках, изолированные бенчмарки и точечные механизмы защиты. В этой статье представлен MCPSHIELD, всеобъемлющая формальная структура безопасности для агентов ИИ на основе MCP. Мы вносим четыре основных вклада: (1) иерархическую таксономию угроз, включающую 7 категорий угроз и 23 различных вектора атак, организованных по четырем поверхностям атаки, основанную на анализе более 177 000 инструментов MCP; (2) формальную модель верификации, основанную на размеченных системах переходов с аннотациями границ доверия, которая позволяет проводить статический и анализ в реальном времени цепочек взаимодействия инструментов MCP; (3) систематическую сравнительную оценку 12 существующих механизмов защиты, выявляющую пробелы в охвате нашей таксономии угроз; и (4) эталонную архитектуру многоуровневой защиты, интегрирующую контроль доступа на основе возможностей, аттестацию криптографических инструментов, отслеживание потока информации и обеспечение соблюдения политик в реальном времени. Наш анализ показывает, что ни один из существующих механизмов защиты не охватывает более 34% выявленного ландшафта угроз, в то время как интегрированная архитектура MCPSHIELD достигает теоретического охвата в 91%. Мы также выделяем семь открытых исследовательских задач, которые необходимо решить для обеспечения безопасности следующего поколения агентных систем искусственного интеллекта. - A Formal Security Framework for MCP-Based AI Agents: Threat Taxonomy, Verification Models, and Defense Mechanisms

См. также другие публикации, посвященные агентам

Saturday, May 09, 2026

Аудит ИИ-агентов

Что должен проверить разработчик перед развертыванием агента LLM: модель, код инструмента, конфигурацию развертывания или все три? На практике многие сбои безопасности в агентских системах возникают не только из-за весов модели, но и из-за окружающего программного стека: функций инструмента, передающих ненадежные входные данные опасным операциям, раскрытых учетных данных в артефактах развертывания и чрезмерно привилегированных конфигураций протокола контекста модели (MCP). Мы представляем Agent Audit, систему анализа безопасности для приложений агентов LLM. Agent Audit анализирует код агента на Python и артефакты развертывания с помощью конвейера, учитывающего особенности агента, который объединяет анализ потока данных, обнаружение учетных данных, структурированный анализ конфигурации и проверки рисков привилегий. Система сообщает о результатах в форматах терминала, JSON и SARIF, что позволяет напрямую интегрировать систему с локальными рабочими процессами разработки и конвейерами CI/CD. На тестовой выборке из 22 образцов с 42 аннотированными уязвимостями Agent Audit обнаруживает 40 уязвимостей с 6 ложными срабатываниями, существенно улучшая полноту обнаружения по сравнению с распространенными базовыми показателями SAST, сохраняя при этом время сканирования менее секунды. Agent Audit является открытым исходным кодом и устанавливается через pip, что делает аудит безопасности доступным для агентских систем. В ходе живой демонстрации участники сканируют уязвимые репозитории агентов и наблюдают, как Agent Audit выявляет риски безопасности в функциях инструмента, подсказках и многом другом. Результаты связаны с местоположением исходного кода и путями конфигурации и могут быть экспортированы в VS Code и GitHub Code Scanning для интерактивного анализа. - Agent Audit: A Security Analysis System for LLM Agent Applications

См. также другие публикации, посвященные агентам

Friday, May 08, 2026

Проверка инструментов для ИИ-агентов

Большие языковые модели (LLM) все чаще полагаются на внешние инструменты для выполнения задач, чувствительных ко времени, и действий в реальном мире. Хотя интеграция инструментов расширяет возможности LLM, она также создает новую поверхность атаки с внедрением подсказок: атаки с отравлением инструментов (АО). Злоумышленники манипулируют описаниями инструментов, внедряя вредоносные инструкции (явные АО) или вводящие в заблуждение утверждения (неявные АО), чтобы повлиять на поведение модели и выбор инструмента. Существующие средства защиты в основном обнаруживают аномальные инструкции и остаются неэффективными против неявных АО. В этой статье мы представляем TRUSTDESC, первую структуру, предотвращающую отравление инструментов путем автоматической генерации доверенных описаний инструментов из реализаций. TRUSTDESC выводит описания, соответствующие реализации, с помощью трехэтапного конвейера. SliceMin выполняет статический анализ с учетом достижимости и удаление избыточного кода с помощью LLM для извлечения минимальных фрагментов кода, имеющих отношение к инструменту. DescGen синтезирует описания из этих фрагментов, одновременно уменьшая количество вводящих в заблуждение или враждебных артефактов кода. DynVer уточняет описания посредством динамической верификации, выполняя синтезированные задачи и проверяя поведенческие утверждения. Мы оцениваем TRUSTDESC на 52 реальных инструментах из различных экосистем инструментов. Результаты показывают, что TRUSTDESC создает точные описания инструментов, которые повышают показатели выполнения задач, одновременно уменьшая неявные ошибки TPA на уровне их первопричины, с минимальными временными и финансовыми затратами. - TRUSTDESC: Preventing Tool Poisoning in LLM Applications via Trusted Description Generation

См. также другие публикации, посвященные агентам

Thursday, May 07, 2026

Последовательные фейки

Контент типа «дипфейк» в социальных сетях все чаще создается путем многократных последовательных правок биометрических данных, таких как изображения лиц. В результате окончательный вид изображения часто отражает скрытую цепочку операций, а не единичную манипуляцию. Восстановление этих историй редактирования имеет важное значение для визуального анализа происхождения, аудита дезинформации и рабочих процессов криминалистической экспертизы или модерации платформ, которые должны отслеживать происхождение и эволюцию медиаконтента, созданного ИИ. Однако существующие наборы данных преимущественно фокусируются на одноэтапном редактировании и игнорируют кумулятивные артефакты, вносимые реалистичными многоэтапными конвейерами. Чтобы устранить этот пробел, мы представляем Sequential Editing in Diffusion (SEED), крупномасштабный бенчмарк для отслеживания последовательного происхождения изображений лиц. SEED содержит более 90 000 изображений, созданных с помощью одной-четырех последовательных редактирований атрибутов с использованием конвейеров редактирования на основе диффузии, с подробными аннотациями, включая порядок редактирования, текстовые инструкции, маски манипуляций и модели генерации. Эти метаданные позволяют проводить поэтапный анализ доказательств и поддерживают обнаружение подделок и прогнозирование последовательностей. Для оценки проблем, связанных с SEED, мы оцениваем репрезентативные стратегии анализа и отмечаем, что подходы, основанные только на пространственном анализе, испытывают трудности при наличии тонких и распределенных артефактов диффузии, особенно когда такие артефакты накапливаются в нескольких редактированиях. Руководствуясь этим наблюдением, мы дополнительно разрабатываем FAITH, частотно-ориентированную базовую модель Transformer, которая агрегирует пространственные и частотные сигналы для идентификации и упорядочивания скрытых событий редактирования. Результаты показывают, что высокочастотные сигналы, в частности вейвлет-компоненты, обеспечивают эффективные подсказки даже при ухудшении качества изображения. В целом, SEED облегчает систематическое изучение последовательного отслеживания происхождения и агрегирования доказательств для достоверного анализа визуального контента, созданного ИИ. - SEED: A Large-Scale Benchmark for Provenance Tracing in Sequential Deepfake Facial Edits

См. также другие публикации по теме deepfake

Wednesday, May 06, 2026

Учебник по RL

Reinforcement Learning: From Bandits to LLM Alignment. Есть русский перевод

Анализ кибербезопасности электрозарядной инфраструктуры

Быстрое распространение электромобилей привело к увеличению зависимости от зарядной инфраструктуры, тесно интегрированной с системами распределения энергии и цифровыми коммуникационными сетями. По мере того, как зарядные станции для электромобилей превращаются в сложные киберфизические системы, риски кибербезопасности представляют собой растущую угрозу для надежности энергосистемы и доверия пользователей. В данной статье представлена гибридная система поддержки принятия решений для оценки рисков кибербезопасности в зарядной инфраструктуре для электромобилей, которая выходит за рамки предыдущих многокритериальных подходов к принятию решений, сочетая интерпретируемость с проверкой на основе данных. В частности, система интегрирует метод аналитической иерархии (AHP) для экспертной оценки весовых коэффициентов атрибутов кибербезопасности с PROMETHEE для гибкой приоритизации угроз, обеспечивая прозрачное и проверяемое ранжирование рисков. Система классифицирует критерии кибербезопасности по четырем уровням инфраструктуры — передача, распределение, потребители и зарядные станции для электромобилей — и присваивает относительные веса посредством экспертных попарных сравнений. Затем PROMETHEE применяется для ранжирования потенциальных киберугроз на основе этих весов, что позволяет гибко приоритизировать меры по обеспечению кибербезопасности. Методология проверена с использованием реального набора данных WUSTL-IIoT-2018 SCADA, который включает имитацию разведки (сканирования сети), идентификации устройств и атак с целью эксплуатации уязвимостей. Хотя этот набор данных изначально не включает протоколы OCPP 2.0 или ISO 15118, экспериментальные результаты демонстрируют высокую разрешающую способность (AUC = 0,99, полнота = 95%) и обеспечивают основу для расширения до современных стандартов связи для зарядных станций для электромобилей. Результаты выявляют критически важные показатели, такие как аномальное поведение исходных пакетов и надежность шифрования, как ключевые маркеры уязвимости, что соответствует задокументированным сценариям атак на зарядные станции для электромобилей. Сочетая экспертную оценку с эмпирическими данными о трафике, предлагаемая структура обеспечивает как техническую надежность, так и объяснимость, поддерживая операторов сетей, группы SOC и планировщиков инфраструктуры в систематической оценке рисков, распределении ресурсов и повышении устойчивости экосистем зарядки электромобилей к развивающимся киберугрозам. - отсюда

Статья интересная практическим построением фреймворка для анализа кибербезопасности P.S. см. также следующую статью в INJOIT: О кибератаках на зарядные станции

Tuesday, May 05, 2026

Последние дни приема заявок на MoNeTec- 2026

В Московском государственном университете имени М.В. Ломоносова продлён срок подачи заявок на участие в Шестой международной научно-технической конференции «Современные сетевые технологии» (MoNeTec-2026). Приём материалов продлён до 12 мая 2026 года, сообщили организаторы.

Конференция посвящена современным направлениям развития сетевых технологий, распределённых вычислительных систем и облачных платформ, а также применению методов искусственного интеллекта для управления вычислительной инфраструктурой. Как отметил декан факультета вычислительной математики и кибернетики МГУ, академик РАН Игорь Соколов, развитие сетевых технологий напрямую связано с задачами современной науки и практики. «Современные сетевые технологии – один из столпов нашей цивилизации. Математика открывает новые перспективы, технологии формируют новые возможности, практика – новые требования. Конференция MoNeTec-2026 создаёт условия для того, чтобы соотнести возможности, которые открывает наука, с реалиями и требованиями практики», — сказал он.

В рамках конференции планируется обсуждение вопросов архитектуры сетей нового поколения, управления вычислительными ресурсами, масштабируемости инфраструктур, а также интеграции сетевых технологий с облачными и распределёнными вычислительными системами. Программа включает пленарные доклады, секционные заседания, а также образовательные школы и дискуссионные форматы с участием представителей научного сообщества и индустрии.

Конференция пройдёт с 24 по 30 октября 2026 года в Московском государственном университете имени М.В. Ломоносова. Подробная информация о требованиях к материалам и порядке подачи заявок опубликована на официальном сайте конференции monetec.ru

Как работают VLA модели

Как работают модели визуально-языково-действенные модели (Visual-Language-Action - VLA)? Математические основы моделей VLA для человекоподобных роботов и не только. Как роботы понимают разницу между изюмом, зеленым перцем и солонкой? И что еще важнее, как они могут понять, как сложить футболку? - хорошее введение

Monday, May 04, 2026

Диверсификация ответов LLM

"Если вы хотите понять, как общественность отреагирует на ваши предложения, большие языковые модели могут имитировать пользователей, отвечающих на вопросы о возможностях, функциях, акциях или ценах. Однако большие языковые модели не реагируют с таким же разнообразием, как люди. Исследователи разработали метод, который побуждает большие языковые модели принимать облик персон с настраиваемым набором взглядов.

Что нового: Давиде Пальери, Логан Кросс и их коллеги из Google предложили генераторы персон. Их подход создает код, который побуждает большую языковую модель составлять подсказки для 25 персон, охватывающих карту.

Ключевой вывод: Заставить большую языковую модель принять облик человека обычно сводится к составлению эффективной подсказки (например, «Ответьте на следующий вопрос так, как если бы в современной политике вы считали себя демократом…»). Однако такой подход, как правило, приводит к получению усредненных ответов, которые не отражают диапазон, характерный для человеческой популяции, — даже если запрос явно указывает модели LLM на необходимость учета определенных демографических характеристик. Альтернативный вариант — программно изменять запросы для описания персон до тех пор, пока они не будут выдавать результаты, охватывающие определенный диапазон мнений, взглядов или проблем. При наличии руководящих принципов, определяющих область охвата популяции персон (в частности, взгляды, ранжированные по степени согласия и несогласия), эволюционный алгоритм может подтолкнуть модель к созданию набора запросов, которые вызовут полный диапазон ответов.

Как это работает: Авторы использовали эволюционный метод AlphaEvolve для генерации кода, который (i) сгенерировал 25 запросов для персон и (ii) максимизировал разнообразие их взглядов на основе ответов на набор сгенерированных анкет.

Авторы начали с использования Gemini 2.5 Pro для генерации 30 анкет по различным темам, таким как здравоохранение, финансовая грамотность и теории заговора. Каждый опросник включал контекст (описание темы), набор «осей разнообразия» (таких как толерантность к риску или доверие к институциям) и вопросы, связанные с этими осями, на которые нужно было ответить по шкале от 1 (полностью согласен) до 5 (полностью не согласен).
Они создали код (первоначально написанный авторами, а затем итеративно обновленный AlphaEvolve) для генерации 25 вопросов для каждого опросника. Для автоматизации генерации ответов от респондентов авторы использовали Concordia, библиотеку для создания агентно-ориентированных симуляций, для ввода данных в опросник Gemma 3-27B-IT. LLM по очереди принимал каждого респондента и отвечал на соответствующий опросник. Для каждого респондента они преобразовывали его ответы в вектор. Для оценки разнообразия среди респондентов, ответивших на каждый опросник, они вычисляли шесть метрик, таких как среднее расстояние между любыми двумя векторами и степень, в которой совокупность респондентов охватывала все возможные ответы.

AlphaEvolve работала параллельно над 10 различными версиями кода, итеративно обновляя их для максимизации показателей разнообразия по всем персонам. После 500 итераций авторы выбрали код, который максимизировал среднее значение всех показателей разнообразия.На этапе вывода, имея контекст и набор осей разнообразия, система создала 25 разнообразных персон.
Результаты: При наличии нового контекста и осей разнообразия полученные персоны неизменно превосходили показатели разнообразия Nemotron Personas, большого набора данных подсказок для создания персон, основанных на демографической статистике США, и подсказок для создания персон, созданных генератором памяти Concordia на основе воспоминаний от детства до взрослости. При наличии набора тестовых анкет персоны авторов охватывали 82 процента возможных ответов, в то время как Nemotron Personas охватывали 76 процентов, а генератор памяти Concordia — 46 процентов.

Почему это важно: Организации, стремящиеся расширить свою аудиторию, могут извлечь выгоду из синтетических персон, которые в целом отражают общественное мнение, а те, кто создает синтетические персоны, соответствующие их реальной аудитории, могут получить ценные сведения от более разнообразной группы людей. Эта работа смещает цель с сопоставления обучающих данных (которые, как правило, генерируют наиболее вероятные результаты, а не выбросы) на охват всех желаемых возможностей. Оптимизация генератора персон, а не отдельных персон, открывает более широкое представление о вероятном поведении пользователей.

Мы считаем: Синтетические персоны предлагают интересную возможность для преодоления узкого места в управлении продуктом — сложности принятия решения о том, что создавать, когда это можно легко сделать, обратившись к представителю LLM." - via deeplarning.ai

См. также другие публикации, посвященные LLM

Friday, May 01, 2026

Кто это сделал?

Госдепартамент США распорядился о проведении глобальной кампании по привлечению внимания к широкомасштабным, по его словам, попыткам китайских компаний, включая стартап DeepSeek, занимающийся разработкой искусственного интеллекта, украсть интеллектуальную собственность из американских лабораторий искусственного интеллекта, говорится в дипломатической телеграмме, с которой ознакомилось агентство Reuters. В телеграмме, датированной пятницей и направленной в дипломатические и консульские представительства по всему миру, сотрудникам дипломатических ведомств предписывается обсудить со своими зарубежными коллегами «опасения по поводу извлечения и переработки противниками американских моделей искусственного интеллекта». - отсюда