Sunday, May 31, 2026

ИИ в кибербезопасности - хроника событий

Данная публикация представляет собой открывает очередной, восьмой по счёту, выпуск периодического аналитического обзора использования Искусственного интеллекта (ИИ) в кибербезопасности. Цикл этих материалов направлен на углублённое исследование стремительно эволюционирующей сферы, возникающей на стыке искусственного интеллекта и кибербезопасности. Ключевая цель данного проекта — планомерное отслеживание мировых тенденций и обобщение наиболее примечательных событий. Помимо сбора информации, в рамках инициативы проводится тщательный разбор законодательных инициатив, резонансных происшествий и передовых технологических новшеств, которые формируют контуры современной кибербезопасности под влиянием ИИ. Каждый номер серии имеет унифицированную структуру, состоящую из трёх разделов, что гарантирует всестороннее освещение рассматриваемой тематики. Первый раздел фокусируется на разборе базы инцидентов и существующих вызовов безопасности: здесь исследуются реальные сценарии атак, обнаруживаются свежие уязвимости и даётся оценка угрозам, порождаемым внедрением алгоритмов ИИ как в оборонительные механизмы, так и в арсенал злоумышленников. Второй раздел даёт характеристику текущему состоянию нормативно-правовой среды и векторам её изменений. Осознание этих процессов имеет первостепенное значение, поскольку именно они задают правовые и эксплуатационные рамки, в которых должны будут развиваться надёжные и безопасные системы на базе ИИ. Третий раздел освещает хронику научно-технологических достижений. Каждый выпуск включает в себя аннотированный перечень наиболее весомых — с точки зрения авторов — научных работ, экспертных докладов ведущих организаций и описаний новаторских разработок. - отсюда

Saturday, May 30, 2026

Китайский исследователь

Быстрое развитие базовых моделей катализировало сдвиг парадигмы от систем ИИ, которые помогают исследователям, к агентам, способным проводить исследования автономно. Однако этой новой области не хватает единой аналитической структуры: агенты, работающие с кодом, системы научных открытий и многоагентные исследовательские платформы развивались в значительной степени изолированно, с непоследовательной терминологией и несравнимой оценкой. Данный обзор восполняет этот пробел четырьмя важными вкладами. Во-первых, мы предлагаем пятиуровневую таксономию автономности (L1–L5) — от автозаполнения кода до полностью самоуправляемых исследовательских программ — которая предоставляет точный словарь для характеристики и сравнения систем. Во-вторых, мы выявляем и анализируем четыре доминирующих архитектурных шаблона (циклы с одним агентом, многоагентное сотрудничество, иерархическая оркестровка и выполнение с использованием инструментов) с помощью сравнительной структуры, оценивающей компромиссы между масштабируемостью, стоимостью, надежностью и человеческим контролем. В-третьих, мы проводим подробный анализ 17 основных систем в рамках шестимерной матрицы признаков, показывая, что современные передовые системы работают на уровне L4 (многоэтапное автономное выполнение в ограниченных областях), в то время как уровень L5 остается желаемым. В-четвертых, мы выявляем шесть фундаментальных открытых проблем — когнитивные циклы, ограничения контекста, оценка новизны, воспроизводимость, безопасность и стоимость — и предлагаем конкретные направления исследований для каждой из них. Наш анализ показывает, что наиболее критическими барьерами на пути к автономности уровня L5 являются не столько собственные возможности, сколько постоянное накопление знаний, надежная самооценка и принципиальное масштабирование архитектуры агентов. Мы рассматриваем более 95 статей в области машинного обучения, разработки программного обеспечения и научных открытий, предоставляя первое единое рассмотрение автономных исследовательских агентов как целостной области исследований. - From Copilots to Colleagues: A Survey of Autonomous Research Agents

Friday, May 29, 2026

INJOIT vol. 14, no. 6

Вышел шестой номер журнала INJOIT в 2026 году. И четырнадцатый год издания журнала.

Темы статей:

  • Sleeper Channels and Provenance Gates: Persistent Prompt Injection in Always-on Autonomous AI Agents
  • Метод слияния данных и фильтрации аномалий на основе расстояния Махаланобиса для обеспечения целостности информации в группах автономных транспортных средств
  • Эквивалентность порога метода Оцу решающему правилу MAP-классификатора в задаче обнаружения аномалий сетевого трафика
  • Повышение эффективности состязательных атак на модель прогнозирования трафика TGC-LSTM
  • Состязательные атаки на модели обнаружения фишинга на основе URL-адресов
  • Устойчивость сессионных рекомендательных систем к атакам отравления обучающей выборки
  • Искусственный Интеллект в Кибербезопасности. Хроника. Выпуск 8
  • No-Op-Aware Training and Quantization Framework for Outlier Robust Transformer based Language Models
  • Синтез арифметико-логических выражений с использованием SMT-решателя
  • Direct adaptive output-feedback control for unstable linear multidimensional systems with distinct input delays
  • Оценка распространения искажений в Data-продуктах реляционной архитектуры Data Mesh
  • Проблема полноты поиска в B2B-каталогах DIY-товаров: ограничения семантических эмбеддингов и сущностно-ориентированный подход
  • Исследование интерпретируемости моделей детектирования пешеходов на основе векторов активации концептов (TCAV): межархитектурный эмпирический анализ
  • Методология структурного синтеза хранилища гетерогенных данных технической диагностики высоковольтного оборудования объектов электроэнергетики
  • О некорректности ветвящейся программы и цикла
  • Методы синтеза промежуточных представлений программ для высокоуровневого проектирования специализированных вычислителей
  • Revolutionizing navigation: Deep Learning for lane detection in mobile robots
  • An easy way to boost home calculation performance with HGRID
  • Разработка механизма динамического доверия для защиты веб-сессий в архитектуре ZeroTrust
  • Реактивное управление идентификацией и контролем доступа в контейнерных средах на базе прокси-сервера Envoy
  • Использование геймификации и искусственного интеллекта в образовательном процессе при изучении логистики

Архив журнала находится здесь.

/via Лаборатория ОИТ

Еще о галлюцинациях

Библиографическая ссылка в статье: Куприяновский, В.П. Умные дома как основа умных городов / В.П. Куприяновский, С.А. Тищенко // International Journal of Open Information Technologies. - 2016. - Т. 4, № 2. - С. 16-23.

Такой статьи не существует. Работа, которая это "цитирует", была написана генеративной моделью. Библиотека Elibrary не проверяет мусор, который в нее загружают

Отсюда

См. также другие публикации по теме elibrary

Thursday, May 28, 2026

Контекстные атаки в агентах

Появление агентов на основе больших языковых моделей (LLM), дополненных использованием инструментов, навыками, и внешними знаниями, породило новые риски безопасности. Среди них основной угрозой стали атаки с внедрением подсказок, когда злоумышленники внедряют вредоносные инструкции в рабочий процесс агента. Однако существующие бенчмарки и средства защиты принципиально ограничены, поскольку они предполагают контекстно-независимые условия, в которых агент работает в соответствии с полностью заданной инструкцией пользователя, а атаки являются простыми и контекстно-независимыми. В результате они не позволяют оценить реальные условия эксплуатации, где поведение агента обычно зависит от динамического контекста, а не только от подсказки пользователя, и злоумышленники могут адаптировать свои атаки к различным контекстам. Аналогично, существующие средства защиты, построенные на этой узкой модели угроз, игнорируют природу реального делегирования агентам. В этой статье мы представляем AgentLure, бенчмарк, который позволяет выявлять контекстно-зависимые задачи и атаки с внедрением подсказок с учетом контекста. AgentLure охватывает четыре агентных домена и восемь векторов атак на различных поверхностях атаки. Наша оценка показывает, что существующие средства защиты часто испытывают трудности в этой среде, демонстрируя низкую эффективность против таких атак в агентных системах. Для решения этой проблемы мы предлагаем ARGUS, механизм защиты, который обеспечивает аудит решений с учетом происхождения информации для агентов LLM. ARGUS строит граф происхождения влияния, чтобы отслеживать, как недостоверный контекст распространяется на решения агентов, и проверяет, оправдано ли решение достоверными доказательствами до его выполнения. Наша оценка показывает, что ARGUS снижает вероятность успешной атаки до 3,8%, сохраняя при этом 87,5% полезности задачи, значительно превосходя существующие средства защиты и оставаясь устойчивым к адаптивным противникам типа «белый ящик». - ARGUS: Defending LLM Agents Against Context-Aware Prompt Injection

См. также другие публикации, посвященные агентам

Wednesday, May 27, 2026

Состязательное машинное обучение сегодня

Состязательное машинное обучение (СМО) представляет собой существенное препятствие для крупномасштабного внедрения искусственного интеллекта (ИИ) в критически важных с точки зрения безопасности средах. Хотя ранние исследования были сосредоточены на надежности алгоритмов, эта область превратилась в сложное пересечение вопросов безопасности, обеспечения и политики. В данной статье представлен всесторонний междисциплинарный обзор ландшафта СМО, охватывающий более 250 рецензируемых работ. Мы используем таксономию, ориентированную на жизненный цикл, которая сопоставляет векторы атак и механизмы защиты с конкретными этапами конвейера ИИ от сбора данных до развертывания, расширяя традиционную триаду конфиденциальности, целостности и доступности (CIA) за счет включения управления и регулирования. Мы выявляем критические пробелы в исследованиях, включая сертифицированную надежность для обработки естественного языка (NLP) и возникающие угрозы в генеративном ИИ. Для обоснования этих теоретических выводов на практике мы анализируем пять конкретных тематических исследований: автономные транспортные средства, медицинский ИИ, финансовые системы, обработка естественного языка (NLP) и Интернет вещей (IoT). Уникальность этого обзора заключается в том, что он преодолевает разрыв между академической литературой и промышленной практикой, сопоставляя технические результаты исследований в области противодействия отмыванию денег с новыми стандартами, включая структуру управления рисками в области ИИ NIST (RMF), MITRE ATLAS и ISO/IEC 42001. В заключение мы предлагаем дорожную карту для исследователей, практиков и регулирующих органов по созданию проверяемых, заслуживающих доверия и соответствующих требованиям систем ИИ. - Adversarial Machine Learning: A 20-Year Survey of Attacks, Defenses, and Standards

P.S. См. также другие публикации по теме adversarial, посвященные устойчивому машинному обучению

Tuesday, May 26, 2026

Архитектура безопасных ИИ-агентов

Агенты ИИ, преимущественно работающие на основе больших языковых моделей (LLM), уязвимы для косвенного внедрения подсказок, когда вредоносные инструкции, встроенные в недоверенные данные, могут запускать опасные действия агента. В этом документе излагается наше видение защиты на системном уровне от атак с косвенным внедрением подсказок. Мы формулируем три позиции: (1) динамическое перепланирование и обновление политики безопасности часто необходимы для динамических задач и реалистичных сред; (2) некоторые контекстно-зависимые решения в области безопасности по-прежнему потребуют использования LLM (или других обученных моделей), но должны приниматься только в рамках системных проектов, которые строго ограничивают то, что модель может наблюдать и решать; (3) в случаях с изначально неоднозначной ситуацией персонализация и взаимодействие с человеком должны рассматриваться как основные проектные соображения. В дополнение к нашим основным позициям мы обсуждаем ограничения существующих бенчмарков, которые могут создавать ложное ощущение полезности и безопасности. Мы также подчеркиваем ценность системной защиты, которая служит основой для агентных систем, структурируя и контролируя поведение агентов, интегрируя проверки безопасности на основе правил и моделей, а также позволяя проводить более целенаправленные исследования устойчивости моделей и взаимодействия с человеком. - Architecting Secure AI Agents: Perspectives on System-Level Defenses Against Indirect Prompt Injection Attacks

См. также другие публикации, посвященные агентам

Monday, May 25, 2026

ТГ каналы

Каналы в Telegram, посвященные безопасности ИИ

Подсудные галлюцинации

Компанию из Кемерово оштрафовали на 50 тысяч рублей за ссылки на несуществующую судебную практику — их могла сгенерировать нейросеть.

Решение принял Арбитражный суд Западно-Сибирского округа. Как следует из постановления, компания «ЦСС» была ответчиком в процессе о взыскании задолженности. В кассационной жалобе представители компании сделали несколько ссылок на судебные акты с цитатами, которых не существует и информации о них нет ни в одной базе. Однако впоследствии они попросили суд не принимать эти ссылки во внимание, признав, что таких решений нигде нет.

Суд посчитал, что компания предоставила ему заведомо ложные сведения и сфальсифицировала источники. Это посчитали неуважением к правосудию и надеждой на то, что аргументы будут изучаться поверхностно. В суде заявили, что оправданий этому быть не может — даже подготовка жалобы через нейросеть, поскольку в таком случае ответственность за достоверность сгенерированного текста несет лицо, которое использовало эту технологию. Компании выписали судебный штраф в 50 тысяч рублей.

Отсюда

Sunday, May 24, 2026

Публикации по теме Искусственный интеллект в кибербезопасности 24.05.2026

Вопросы безопасности систем ИИ рассматриваются в двух магистерских программах факультета ВМК МГУ имени М.В. Ломоносова: Искусственный интеллект в кибербезопасности и Кибербезопасность. Ниже приведен список публикаций, подготовленных в процессе реализации этих программ по состоянию на 24.05.2026

Ильюшин Е. А., Намиот Д. Е. An approach to the automatic enhancement of the robustness of ml models to external influences on the example of the problem of biometric speaker identification by voice // International Journal of Open Information Technologies. — 2021. — Vol. 9, no. 6. — P. 11–19.

Намиот Д. Е., Ильюшин Е. А., Чижов И. В. Текущие академические и индустриальные проекты, посвященные устойчивому машинному обучению // International Journal of Open Information Technologies. — 2021. — Т. 9, № 10. — С. 35–46.

Намиот Д. Е., Ильюшин Е. А., Чижов И. В. Основания для работ по устойчивому машинному обучению // International Journal of Open Information Technologies. — 2021. — Т. 9, № 11. — С. 68–74.

Намиот Д. Е., Ильшин Е. А., Чижов И. В. Военные применения машинного обучения // International Journal of Open Information Technologies. — 2022. — Т. 10, № 1. — С. 69–76.

Ильюшин Е. А., Намиот Д. Е., Чижов И. В. Атаки на системы машинного обучения – общие проблемы и методы // International Journal of Open Information Technologies. — 2022. — Т. 10, № 3. — С. 17–22.

Namiot D., Ilyushin E. On monitoring of machine learning models // Distributed Computer and Communication Networks: Control, Computation, Communications (DCCN-2022) : материалы XXV международной научной конференции: Москва, 26–30 сентября 2022 года / под общ. ред. В. М. Вишневского и К. Е. Самуйлова. — РУДН Москва: 2022. — P. 150–157.

Namiot D., Ilyushin E., Chizhov I. On a formal verification of machine learning systems // International Journal of Open Information Technologies. — 2022. — Vol. 10, no. 5. — P. 30–34.

Huayu L., Namiot D. A survey of adversarial attacks and defenses for image data on deep learning // International Journal of Open Information Technologies. — 2022. — Vol. 10, no. 5. — P. 9–16.

Намиот Д., Ильюшин Е., Пилипенко О. Доверенные платформы искусственного интеллекта // International Journal of Open Information Technologies. — 2022. — Т. 10, № 7. — С. 119–127.

Намиот Д., Ильюшин Е. Порождающие модели в машинном обучении // International Journal of Open Information Technologies. — 2022. — Т. 10, № 7. — С. 101–118.

Биджиев Т. М., Намиот Д. Е. Исследование существующих подходов к встраиванию вредоносного программного обеспечения в искусственные нейронные сети // International Journal of Open Information Technologies. — 2022. — Т. 10, № 9. — С. 21–31.

Намиот Д. Е., Ильюшин Е. А. Об устойчивости и безопасности систем искусственного интеллекта // International Journal of Open Information Technologies. — 2022. — Т. 10, № 9. — С. 126–134.

Намиот Д. Е., Ильюшин Е. А., Чижов И. В. Искусственный интеллект и кибербезопасность // International Journal of Open Information Technologies. — 2022. — Т. 10, № 9. — С. 135–147.

Stroeva E., Tonkikh A. Methods for formal verification of artificial neural networks: A review of existing approaches // International Journal of Open Information Technologies. — 2022. — Vol. 10, no. 10. — P. 3.

Намиот Д., Ильюшин Е. Мониторинг сдвига данных в моделях машинного обучения // International Journal of Open Information Technologies. — 2022. — Т. 10, № 12. — С. 84–93.

Костюмов, Василий Владимирович. "Обзор и систематизация атак уклонением на модели компьютерного зрения." International Journal of Open Information Technologies 10.10 (2022): 11-20.

Намиот Д. Е., Ильюшин Е. А. О причинах неудач проектов машинного обучения // International Journal of Open Information Technologies. — 2023. — Т. 11, № 1. — С. 60–69.

Намиот Д. Е. Введение в атаки отравлением на модели машинного обучения // International Journal of Open Information Technologies. — 2023. — Т. 11, № 3. — С. 58–68.

Namiot D. E., Ilyushin E., Chizhov I. On the practical generation of counterfactual examples // Труды Института системного анализа Российской академии наук. — 2023. — Vol. 73, no. 1. — P. 73–81.

Junzhe S., Namiot D. E. A survey of model inversion attacks and countermeasures // Труды Института системного анализа Российской академии наук. — 2023. — Vol. 73, no. 1. — P. 82–93.

Junzhe S., Namiot D. A survey of the implementations of model inversion attacks // Communications in Computer and Information Science. — 2023. — Vol. 1748. — P. 3–16.

Намиот Д. Е. Схемы атак на модели машинного обучения // International Journal of Open Information Technologies. — 2023. — Т. 11, № 5. — С. 68–86.

On the evasion attack detector / L. Huayui, V. Kostyumov, O. Pilipenko, D. Namiot // DCCN 2023. Материалы конференции. — ИПУ РАН Москва: 2023. — P. 183–188.

Junzhe S., Namiot D. On the machine learning models inversion attack detector // DCCN 2023. Материалы конференции. — ИПУ РАН Москва: 2023. — P. 194.

Lozinskii I., Kostyumov V., Stroeva E. Extraction of trigger and mask from poisoned data using modified activation clustering and neural cleanse methods // International Journal of Open Information Technologies. — 2023. — Vol. 11, no. 7. — P. 1

Чехонина, Екатерина Андреевна, and Василий Владимирович Костюмов. "ОБЗОР СОСТЯЗАТЕЛЬНЫХ АТАК И МЕТОДОВ ЗАЩИТЫ ДЛЯ ДЕТЕКТОРОВ ОБЪЕКТОВ." International Journal of Open Information Technologies 11.7 (2023): 11-20.

Пришлецов Д. Е., Пришлецов С. Е., Намиот Д. Е. Камуфляж как состязательные атаки на модели машинного обучения // International Journal of Open Information Technologies. — 2023. — Т. 11, № 9. — С. 41–49.

Намиот Д. Е., Зубарева Е. В. О работе ai red team // International Journal of Open Information Technologies. — 2023. — Т. 11, № 10. — С. 130–139.

Намиот Д. Е., Ильюшин Е. А. Доверенные платформы искусственного интеллекта: сертификация и аудит // International Journal of Open Information Technologies. — 2024. — Т. 12, № 1. — С. 43–60.

Киржинов Д. А., Ильюшин Е. А. Сравнительный анализ алгоритмов атак и защиты на графовые архитектуры ИНС // International Journal of Open Information Technologies. — 2024. — Т. 12, № 2.

Намиот Д. Е., Романов В. Ю. Об улучшении робастности моделей машинного обучения // International Journal of Open Information Technologies. — 2024. — Т. 12, № 3. — С. 88–98.

Junzhe S., Namiot D. On real-time model inversion attacks detection // Lecture Notes in Computer Science. — 2024. — Vol. 14123. — P. 56–67.

Мударова Р. М., Намиот Д. Е. Противодействие атакам типа инъекция подсказок на большие языковые модели // International Journal of Open Information Technologies. — 2024. — Т. 12, № 5. — С. 39–48.

Намиот Д. Е., Ильюшин Е. А. Искусственный интеллект в кибербезопасности: поиск вредоносного программного обеспечения // International Journal of Open Information Technologies. — 2024. — Т. 12, № 6. — С. 143–149.

Lebed, S. V., et al. "Large Language Models in Cyberattacks." Doklady Mathematics. Vol. 110. No. Suppl 2. Moscow: Pleiades Publishing, 2024.

Селевенко Р. М., Строева Е. Н. Исследование и разработка алгоритма формальной верификации и метрики оценки качества на основе методов понижения размерности ИНС // INJOIT. — 2024. — Т. 12, № 6. — С. 2.

Биджиев Т. М., Намиот Д. Е. Атаки на модели машинного обучения, основанные на фреймворке pytorch // Автоматика и телемеханика. — 2024. — № 3. — С. 38–50.

Намиот Д. Е., Ильюшин Е. А. О сертификации систем искусственного интеллекта // Физика элементарных частиц и атомного ядра. — 2024. — Т. 55, № 3. — С. 530–536.

Намиот Д. Е., Куприяновский В. П., Пичугов А. А. Состязательные атаки для автономных транспортных средств // International Journal of Open Information Technologies. — 2024. — Т. 12, № 7. — С. 139–149.

Намиот Д. Е. О кибератаках с помощью систем Искусственного интеллекта // International Journal of Open Information Technologies. — 2024. — Т. 12, № 9. — С. 132–141.

Воробьев, Егор Александрович. "Анализ состязательных атак на системы сегментации изображений." International Journal of Open Information Technologies 12.10 (2024): 1-25.

Намиот Д. Е., Ильюшин Е. А. О киберрисках генеративного Искусственного Интеллекта // International Journal of Open Information Technologies. — 2024. — Т. 12, № 10. — С. 109–119.

Порывай, Максим Викторович. "Сравнительное исследование методов естественной аугментации изображений." International Journal of Open Information Technologies 12.10 (2024): 26-33.

Герасименко, Денис Валерьевич, and Дмитрий Евгеньевич Намиот. "Извлечение тренировочных данных: Риски и решения в контексте безопасности LLM." International Journal of Open Information Technologies 12.11 (2024): 9-19.

Костиков, Егор Вячеславович. "Методы анализа логов Sysmon для обнаружения киберугроз." International Journal of Open Information Technologies 12.11 (2024): 25-34.

Намиот Д. Е., Ильюшин Е. А. Архитектура LLM агентов //International Journal of Open Information Technologies. – 2025. – Т. 13. – №. 1. – С. 67-74.

Воробьев Е. А., Намиот Д. Е. Состязательное тестирование моделей сегментации изображений // Программная инженерия. — 2025. — Т. 16, № 4. — С. 190–198.

Намиот, Д. Е., and Е. А. Ильюшин. "Об оценке доверия к системам Искусственного интеллекта." International Journal of Open Information Technologies 13.3 (2025): 75-90.

Хамзаева, М. А., and О. Р. Лапонина. "Повышение устойчивости к состязательным атакам моделей машинного обучения для обнаружения межсайтового выполнения сценариев." International Journal of Open Information Technologies 13.6 (2025): 25-33.

Бербер, Д. В., and О. Р. Лапонина. "Разработка подходов к увеличению устойчивости моделей машинного обучения для обнаружения распределенных атак отказа обслуживания." International Journal of Open Information Technologies 13.6 (2025): 16-24.

Егорова, Е. С., and О. Р. Лапонина. "Состязательное тестирование моделей машинного обучения, предназначенных для обнаружения SQL-инъекций." International Journal of Open Information Technologies 13.6 (2025): 34-41.

Лапонина, О. Р., and Р. Н. Костин. "Разработка программного обеспечения моделирования угроз для систем на базе LLM-агентов." International Journal of Open Information Technologies 13.6 (2025): 132-146.

Намиот, Д. Е. "Что LLM знает о кибербезопасности." International Journal of Open Information Technologies 13.7 (2025): 37-46.

Намиот, Д. Е. "Искусственный Интеллект в. Кибербезопасности. Хроника. Выпуск 1." International Journal of Open Information Technologies 13.9 (2025): 34-42.

Намиот, Д. Е., and Е. А. Ильюшин. "О кибербезопасности ИИ-агентов." International Journal of Open Information Technologies 13.9 (2025): 13-24.

Егоров, М. Э., et al. "Объяснения моделей машинного обучения и состязательные атаки." International Journal of Open Information Technologies 13.9 (2025): 50-59.

Намиот, Д. Е., and Е. А. Ильюшин. "Уязвимости экосистемы MCP." International Journal of Open Information Technologies 13.10 (2025): 74-82.

Намиот, Д. Е. "Искусственный Интеллект в Кибербезопасности. Хроника. Выпуск 2." International Journal of Open Information Technologies 13.10 (2025): 58-67.

Poryvai, Maxim, and Dmitry Namiot. "On Natural Image Augmentation to Increase Robustness of Machine Learning Models." 2025 International Russian Automation Conference (RusAutoCon). IEEE, 2025.

Namiot D., Zubareva E. On open datasets for llm adversarial testing // Communications in Computer and Information Science. — 2025. — Vol. 2641. — P. 137–148. 

Намиот, Д. Е. "Искусственный Интеллект в Кибербезопасности. Хроника. Выпуск 3." International Journal of Open Information Technologies 13.11 (2025): 169-179.

Maloyan, Narek, Bislan Ashinov, and Dmitry Namiot. "Investigating the Vulnerability of LLM-as-a-Judge Architectures to Prompt-Injection Attacks."  arXiv preprint arXiv:2505.13348 (2025).

Maloyan, Narek, and Dmitry Namiot. "Adversarial Attacks on LLM-as-a-Judge Systems: Insights from Prompt Injections." arXiv preprint arXiv:2504.18333 (2025).

Намиот, Д. Е. "Искусственный Интеллект в Кибербезопасности. Хроника. Выпуск 4." International Journal of Open Information Technologies 14.1 (2026): 81-94.

Maloyan, Narek, and Dmitry Namiot. "Prompt Injection Attacks on Agentic Coding Assistants: A Systematic Analysis of Vulnerabilities in Skills, Tools, and Protocol Ecosystems." arXiv preprint arXiv:2601.17548 (2026).

Намиот, Д. Е. "Искусственный Интеллект в Кибербезопасности. Хроника. Выпуск 5." International Journal of Open Information Technologies 14.2 (2026): 47-57.

Maloyan, Narek, and Dmitry Namiot. "Breaking the Protocol: Security Analysis of the Model Context Protocol Specification and Prompt Injection Vulnerabilities in Tool-Integrated LLM Agents." arXiv preprint arXiv:2601.17549 (2026).

Намиот, Д. Е. "Искусственный Интеллект в Кибербезопасности. Хроника. Выпуск 6." International Journal of Open Information Technologies 14.3 (2026): 76-86.

Намиот, Д. Е. "Искусственный Интеллект в Кибербезопасности. Хроника. Выпуск 7." International Journal of Open Information Technologies 14.5 (2026): 43-56.

Евграфов, Владимир Андреевич, Маратович Нутфуллин Булат, and Дмитрий Евгеньевич Намиот. "Методы атак и защиты в агентных системах на основе больших языковых моделей." International Journal of Open Information Technologies 14.5 (2026): 1-8.

Namiot, Dmitry. "On the AI Agents Audit Model." 2026 International Russian Smart Industry Conference (SmartIndustryCon). IEEE2026.

Namiot, Dmitry Evgenyevich, and Valery Alexandrovich Vasenin. "Осведомленность о фишинге–вопросы обучения." Современные информационные технологии и ИТ-образование 21.2 (2025): 221-229.

Kuzmenko, Ilya Dmitrievich, Dmitry Evgenyevich Namiot, and Valery Alexandrovich Vasenin.. "Методы обнаружения дипфейков в видеоконференциях в реальном времени." Современные информационные технологии и ИТ-образование 21.2 (2025): 204-220.

Saturday, May 23, 2026

Атаки на VLM

Модели визуально-языкового анализа (VLM) все чаще используются в качестве авторитетных источников информации — для проверки фактов на изображениях в социальных сетях, сравнения товаров и модерации контента. Пользователи неявно доверяют этим системам, полагая, что они воспринимают тот же визуальный контент, что и они. Мы показываем, что состязательные примеры нарушают это предположение, позволяя осуществлять «отмывание авторитета ИИ»: злоумышленник незаметно искажает изображение таким образом, чтобы VLM выдавала уверенные и авторитетные ответы о «неправильном» вводе. В отличие от взлома или внедрения подсказок, наши атаки не нарушают согласованность модели; атака действует исключительно на уровне восприятия. Мы демонстрируем, что стандартные атаки на общедоступные модели CLIP надежно переносятся на используемые в производстве VLM, включая GPT-5.4, Claude Opus~4.6, Gemini~3 и Grok~4.2. На четырех типах поверхностей атаки мы показываем, что «отмывание авторитета» может усиливать дезинформацию, дискредитировать отдельных лиц, обходить модерацию контента и манипулировать рекомендациями товаров. Наши атаки демонстрируют высокую вероятность успеха: в сотнях атак, направленных на манипулирование идентификацией и обход защиты от контента непристойного характера, мы измерили показатели успешности для шести моделей. Не требуется никаких новых алгоритмов атаки: достаточно базовых методов, известных более десяти лет, что устанавливает нижний предел возможностей злоумышленника, который должен вызывать беспокойство у защитников. Наши результаты показывают, что устойчивость к визуальному противодействию теперь является практической — и до сих пор во многом нерешенной — проблемой безопасности. - Laundering AI Authority with Adversarial Examples

См. также другие публикации, посвященные LLM

Friday, May 22, 2026

Агентские долги

Сегодня любой может создать локального агента с минимальными усилиями. С помощью нескольких вызовов LLM, командной строки и нескольких определений инструментов этот агент начнет выполнять реальную работу в течение нескольких минут. Но что произойдет, когда этого агента нужно будет запустить в производство и использовать всему инженерному отделу с реальными данными и реальными последствиями? - Скрытые технические долги агентов

См. также другие публикации, посвященные агентам

Wednesday, May 20, 2026

Состязательная устойчивость LLM

Большие языковые модели достигли замечательных успехов, но остаются крайне уязвимыми для атак типа «взлом системы», когда враждебные подсказки заставляют модели генерировать вредоносные, неэтичные или нарушающие правила выходные данные. Такие атаки представляют собой реальные риски, подрывая безопасность, доверие и соблюдение нормативных требований в приложениях с высокими ставками. Хотя было предложено множество методов атаки и защиты, существующие методы оценки неадекватны, часто опираясь на узкие метрики, такие как процент успешности атаки, которые не отражают многомерный характер безопасности LLM. В этой статье мы представляем систематическую таксономию атак и методов защиты типа «взлом системы» и представляем Security Cube — единую многомерную структуру для всесторонней оценки этих методов. Мы приводим подробные сравнительные таблицы существующих атак и методов защиты, выделяя ключевые выводы и открытые проблемы в литературе. Используя Security Cube, мы проводим сравнительные исследования 13 репрезентативных атак и 5 методов защиты, создавая четкое представление о текущей ситуации, охватывающей атаки типа «взлом системы», методы защиты, автоматизированные системы проверки и уязвимости БЛМ. На основе этих оценок мы обобщаем важные выводы, выявляем нерешенные проблемы и намечаем перспективные направления исследований для повышения устойчивости LLM к атакам с использованием джейлбрейка. Наш анализ призван проложить путь к созданию более надежных, интерпретируемых и заслуживающих доверия систем LLM. Наш код доступен на Code. - SoK: Robustness in Large Language Models against Jailbreak Attacks

См. также другие публикации, посвященные LLM

Tuesday, May 19, 2026

Об оценке ответов LLM

Как создать легковесную систему оценки, которая измеряет достоверность, выявляет галлюцинации и преобразует субъективные результаты LLM в воспроизводимые метрики — и всё это на чистом Python.

См. также другие публикации, посвященные LLM

Патчи с произвольной геометрией

Глубокие нейронные сети (DNN) уязвимы для атак с использованием состязательных патчей, что вызывает опасения по поводу безопасности систем распознавания лиц, использующих DNN. Предыдущие методы генерации состязательных патчей обычно оптимизируют возмущения в областях, которые максимально влияют на критически важные черты лица. Однако эти существующие методы в основном ограничены фиксированными формами, такими как прямоугольники или квадраты. Это ограничивает последующую оптимизацию текстуры патча этими четырехугольниками, что приводит к неоптимальной адаптации к сложным геометрическим формам критически важных черт лица, что может ограничить эффективность и переносимость состязательных атак. Для решения этой проблемы в данной статье предлагается метод генерации состязательных патчей (PAP) на основе алгоритма роевой оптимизации частиц (PSO) для создания динамического патча, который будет внедрен в лицо. В предлагаемом методе PAP, используя алгоритм роевой оптимизации частиц (PSO) с целью определения состязательного сходства, алгоритм осуществляет поиск внутри базового круга для определения оптимальной формы и положения предопределенного патча. Этот подход позволяет патчу демонстрировать экстраполяцию полигональных деформаций, обеспечивая оптимальный баланс местоположения, текстуры и геометрии, что повышает переносимость патча при атаках с использованием подмены личности. Для оценки уязвимости моделей распознавания лиц мы исследуем атаки с использованием подмены личности в условиях «черного ящика». Обширные эксперименты показывают, что предложенный PAP улучшает эффективность атак на различные модели распознавания лиц и наборы данных. Более того, PAP обеспечивает лучшую переносимость на коммерческих системах распознавания лиц, чем существующие методы. - PSO-based Black-box Adversarial Patch Attack against Face Recognition

P.S. См. также другие публикации по теме adversarial, посвященные устойчивому машинному обучению

Monday, May 18, 2026

Майские ресурсы: безопасность Gen AI

Top Agentic AI security resources — May 2026

Top MCP security resources — May 2026

Top GenAI security resources — May 2026

/via Adversa.ai

Систематизация знаний по безопасности ИИ-агентов

В реальных приложениях быстро появляются агенты ИИ, которые объединяют большие языковые модели с компонентами не-ИИ систем, предлагая беспрецедентную автоматизацию и гибкость. Однако эта беспрецедентная гибкость порождает сложные проблемы безопасности, которые отличаются от проблем, встречающихся в традиционных программных системах. В данной статье представлена первая всесторонняя систематизация знаний о безопасности агентов ИИ, включая анализ пространства проектирования агентов, ландшафта атак и механизмов защиты для безопасных систем агентов ИИ. Мы также выявляем открытые проблемы, указывающие на перспективные направления будущих исследований в этой новой области. Наша работа представляет собой первую систематическую структуру для понимания рисков безопасности и ландшафтов защиты агентов ИИ, служащую основой для создания как безопасных агентных систем, так и для продвижения исследований в этой критически важной области. - SoK: Attack and Defense Landscape of Agentic AI Systems

См. также другие публикации, посвященные агентам

Sunday, May 17, 2026

Дискретное моделирование времени до события

Discrete Time-To-Event Modeling – Predicting When Something Will Happen. Часть 1: Основы — дискретизация времени, цензура и таблица продолжительности жизни.