Friday, October 31, 2025

Thursday, October 30, 2025

Тихоновские чтения 2025

Конференция Тихоновские чтения 2025 - тезисы докладов

Публикации по теме Искусственный интеллект в кибербезопасности 30.10.2025

Вопросы безопасности систем ИИ рассматриваются в двух магистерских программах факультета ВМК МГУ имени М.В. Ломоносова: Искусственный интеллект в кибербезопасности и Кибербезопасность. Ниже приведен список публикаций, подготовленных в процессе реализации этих программ по состоянию на 28.09.2025

Ильюшин Е. А., Намиот Д. Е. An approach to the automatic enhancement of the robustness of ml models to external influences on the example of the problem of biometric speaker identification by voice // International Journal of Open Information Technologies. — 2021. — Vol. 9, no. 6. — P. 11–19.

Намиот Д. Е., Ильюшин Е. А., Чижов И. В. Текущие академические и индустриальные проекты, посвященные устойчивому машинному обучению // International Journal of Open Information Technologies. — 2021. — Т. 9, № 10. — С. 35–46.

Намиот Д. Е., Ильюшин Е. А., Чижов И. В. Основания для работ по устойчивому машинному обучению // International Journal of Open Information Technologies. — 2021. — Т. 9, № 11. — С. 68–74.

Намиот Д. Е., Ильшин Е. А., Чижов И. В. Военные применения машинного обучения // International Journal of Open Information Technologies. — 2022. — Т. 10, № 1. — С. 69–76.

Ильюшин Е. А., Намиот Д. Е., Чижов И. В. Атаки на системы машинного обучения – общие проблемы и методы // International Journal of Open Information Technologies. — 2022. — Т. 10, № 3. — С. 17–22.

Namiot D., Ilyushin E. On monitoring of machine learning models // Distributed Computer and Communication Networks: Control, Computation, Communications (DCCN-2022) : материалы XXV международной научной конференции: Москва, 26–30 сентября 2022 года / под общ. ред. В. М. Вишневского и К. Е. Самуйлова. — РУДН Москва: 2022. — P. 150–157.

Namiot D., Ilyushin E., Chizhov I. On a formal verification of machine learning systems // International Journal of Open Information Technologies. — 2022. — Vol. 10, no. 5. — P. 30–34.

Huayu L., Namiot D. A survey of adversarial attacks and defenses for image data on deep learning // International Journal of Open Information Technologies. — 2022. — Vol. 10, no. 5. — P. 9–16.

Намиот Д., Ильюшин Е., Пилипенко О. Доверенные платформы искусственного интеллекта // International Journal of Open Information Technologies. — 2022. — Т. 10, № 7. — С. 119–127.

Намиот Д., Ильюшин Е. Порождающие модели в машинном обучении // International Journal of Open Information Technologies. — 2022. — Т. 10, № 7. — С. 101–118.

Биджиев Т. М., Намиот Д. Е. Исследование существующих подходов к встраиванию вредоносного программного обеспечения в искусственные нейронные сети // International Journal of Open Information Technologies. — 2022. — Т. 10, № 9. — С. 21–31.

Намиот Д. Е., Ильюшин Е. А. Об устойчивости и безопасности систем искусственного интеллекта // International Journal of Open Information Technologies. — 2022. — Т. 10, № 9. — С. 126–134.

Намиот Д. Е., Ильюшин Е. А., Чижов И. В. Искусственный интеллект и кибербезопасность // International Journal of Open Information Technologies. — 2022. — Т. 10, № 9. — С. 135–147.

Stroeva E., Tonkikh A. Methods for formal verification of artificial neural networks: A review of existing approaches // International Journal of Open Information Technologies. — 2022. — Vol. 10, no. 10. — P. 3.

Намиот Д., Ильюшин Е. Мониторинг сдвига данных в моделях машинного обучения // International Journal of Open Information Technologies. — 2022. — Т. 10, № 12. — С. 84–93.

Костюмов, Василий Владимирович. "Обзор и систематизация атак уклонением на модели компьютерного зрения." International Journal of Open Information Technologies 10.10 (2022): 11-20.

Намиот Д. Е., Ильюшин Е. А. О причинах неудач проектов машинного обучения // International Journal of Open Information Technologies. — 2023. — Т. 11, № 1. — С. 60–69.

Намиот Д. Е. Введение в атаки отравлением на модели машинного обучения // International Journal of Open Information Technologies. — 2023. — Т. 11, № 3. — С. 58–68.

Namiot D. E., Ilyushin E., Chizhov I. On the practical generation of counterfactual examples // Труды Института системного анализа Российской академии наук. — 2023. — Vol. 73, no. 1. — P. 73–81.

Junzhe S., Namiot D. E. A survey of model inversion attacks and countermeasures // Труды Института системного анализа Российской академии наук. — 2023. — Vol. 73, no. 1. — P. 82–93.

Junzhe S., Namiot D. A survey of the implementations of model inversion attacks // Communications in Computer and Information Science. — 2023. — Vol. 1748. — P. 3–16.

Намиот Д. Е. Схемы атак на модели машинного обучения // International Journal of Open Information Technologies. — 2023. — Т. 11, № 5. — С. 68–86.

On the evasion attack detector / L. Huayui, V. Kostyumov, O. Pilipenko, D. Namiot // DCCN 2023. Материалы конференции. — ИПУ РАН Москва: 2023. — P. 183–188.

Junzhe S., Namiot D. On the machine learning models inversion attack detector // DCCN 2023. Материалы конференции. — ИПУ РАН Москва: 2023. — P. 194.

Lozinskii I., Kostyumov V., Stroeva E. Extraction of trigger and mask from poisoned data using modified activation clustering and neural cleanse methods // International Journal of Open Information Technologies. — 2023. — Vol. 11, no. 7. — P. 1

Чехонина, Екатерина Андреевна, and Василий Владимирович Костюмов. "ОБЗОР СОСТЯЗАТЕЛЬНЫХ АТАК И МЕТОДОВ ЗАЩИТЫ ДЛЯ ДЕТЕКТОРОВ ОБЪЕКТОВ." International Journal of Open Information Technologies 11.7 (2023): 11-20.

Пришлецов Д. Е., Пришлецов С. Е., Намиот Д. Е. Камуфляж как состязательные атаки на модели машинного обучения // International Journal of Open Information Technologies. — 2023. — Т. 11, № 9. — С. 41–49.

Намиот Д. Е., Зубарева Е. В. О работе ai red team // International Journal of Open Information Technologies. — 2023. — Т. 11, № 10. — С. 130–139.

Намиот Д. Е., Ильюшин Е. А. Доверенные платформы искусственного интеллекта: сертификация и аудит // International Journal of Open Information Technologies. — 2024. — Т. 12, № 1. — С. 43–60.

Киржинов Д. А., Ильюшин Е. А. Сравнительный анализ алгоритмов атак и защиты на графовые архитектуры ИНС // International Journal of Open Information Technologies. — 2024. — Т. 12, № 2.

Намиот Д. Е., Романов В. Ю. Об улучшении робастности моделей машинного обучения // International Journal of Open Information Technologies. — 2024. — Т. 12, № 3. — С. 88–98.

Junzhe S., Namiot D. On real-time model inversion attacks detection // Lecture Notes in Computer Science. — 2024. — Vol. 14123. — P. 56–67.

Мударова Р. М., Намиот Д. Е. Противодействие атакам типа инъекция подсказок на большие языковые модели // International Journal of Open Information Technologies. — 2024. — Т. 12, № 5. — С. 39–48.

Намиот Д. Е., Ильюшин Е. А. Искусственный интеллект в кибербезопасности: поиск вредоносного программного обеспечения // International Journal of Open Information Technologies. — 2024. — Т. 12, № 6. — С. 143–149.

Lebed, S. V., et al. "Large Language Models in Cyberattacks." Doklady Mathematics. Vol. 110. No. Suppl 2. Moscow: Pleiades Publishing, 2024.

Селевенко Р. М., Строева Е. Н. Исследование и разработка алгоритма формальной верификации и метрики оценки качества на основе методов понижения размерности ИНС // INJOIT. — 2024. — Т. 12, № 6. — С. 2.

Биджиев Т. М., Намиот Д. Е. Атаки на модели машинного обучения, основанные на фреймворке pytorch // Автоматика и телемеханика. — 2024. — № 3. — С. 38–50.

Намиот Д. Е., Ильюшин Е. А. О сертификации систем искусственного интеллекта // Физика элементарных частиц и атомного ядра. — 2024. — Т. 55, № 3. — С. 530–536.

Намиот Д. Е., Куприяновский В. П., Пичугов А. А. Состязательные атаки для автономных транспортных средств // International Journal of Open Information Technologies. — 2024. — Т. 12, № 7. — С. 139–149.

Намиот Д. Е. О кибератаках с помощью систем Искусственного интеллекта // International Journal of Open Information Technologies. — 2024. — Т. 12, № 9. — С. 132–141.

Воробьев, Егор Александрович. "Анализ состязательных атак на системы сегментации изображений." International Journal of Open Information Technologies 12.10 (2024): 1-25.

Намиот Д. Е., Ильюшин Е. А. О киберрисках генеративного Искусственного Интеллекта // International Journal of Open Information Technologies. — 2024. — Т. 12, № 10. — С. 109–119.

Порывай, Максим Викторович. "Сравнительное исследование методов естественной аугментации изображений." International Journal of Open Information Technologies 12.10 (2024): 26-33.

Герасименко, Денис Валерьевич, and Дмитрий Евгеньевич Намиот. "Извлечение тренировочных данных: Риски и решения в контексте безопасности LLM." International Journal of Open Information Technologies 12.11 (2024): 9-19.

Костиков, Егор Вячеславович. "Методы анализа логов Sysmon для обнаружения киберугроз." International Journal of Open Information Technologies 12.11 (2024): 25-34.

Намиот Д. Е., Ильюшин Е. А. Архитектура LLM агентов //International Journal of Open Information Technologies. – 2025. – Т. 13. – №. 1. – С. 67-74.

Воробьев Е. А., Намиот Д. Е. Состязательное тестирование моделей сегментации изображений // Программная инженерия. — 2025. — Т. 16, № 4. — С. 190–198.

Намиот, Д. Е., and Е. А. Ильюшин. "Об оценке доверия к системам Искусственного интеллекта." International Journal of Open Information Technologies 13.3 (2025): 75-90.

Хамзаева, М. А., and О. Р. Лапонина. "Повышение устойчивости к состязательным атакам моделей машинного обучения для обнаружения межсайтового выполнения сценариев." International Journal of Open Information Technologies 13.6 (2025): 25-33.

Бербер, Д. В., and О. Р. Лапонина. "Разработка подходов к увеличению устойчивости моделей машинного обучения для обнаружения распределенных атак отказа обслуживания." International Journal of Open Information Technologies 13.6 (2025): 16-24.

Егорова, Е. С., and О. Р. Лапонина. "Состязательное тестирование моделей машинного обучения, предназначенных для обнаружения SQL-инъекций." International Journal of Open Information Technologies 13.6 (2025): 34-41.

Лапонина, О. Р., and Р. Н. Костин. "Разработка программного обеспечения моделирования угроз для систем на базе LLM-агентов." International Journal of Open Information Technologies 13.6 (2025): 132-146.

Намиот, Д. Е. "Что LLM знает о кибербезопасности." International Journal of Open Information Technologies 13.7 (2025): 37-46.

Намиот, Д. Е. "Искусственный Интеллект в. Кибербезопасности. Хроника. Выпуск 1." International Journal of Open Information Technologies 13.9 (2025): 34-42.

Намиот, Д. Е., and Е. А. Ильюшин. "О кибербезопасности ИИ-агентов." International Journal of Open Information Technologies 13.9 (2025): 13-24.

Егоров, М. Э., et al. "Объяснения моделей машинного обучения и состязательные атаки." International Journal of Open Information Technologies 13.9 (2025): 50-59.

Намиот, Д. Е., and Е. А. Ильюшин. "Уязвимости экосистемы MCP." International Journal of Open Information Technologies 13.10 (2025): 74-82.

Намиот, Д. Е. "Искусственный Интеллект в Кибербезопасности. Хроника. Выпуск 2." International Journal of Open Information Technologies 13.10 (2025): 58-67.

Poryvai, Maxim, and Dmitry Namiot. "On Natural Image Augmentation to Increase Robustness of Machine Learning Models." 2025 International Russian Automation Conference (RusAutoCon). IEEE, 2025.

Namiot D., Zubareva E. On open datasets for llm adversarial testing // Communications in Computer and Information Science. — 2025. — Vol. 2641. — P. 137–148. 

Wednesday, October 29, 2025

Новая валюта в рекламе

На Неделе рекламы 2025 клики и показы были фоновым шумом. Главной темой обсуждения было внимание: как его измерить, купить и доказать. Внимание больше не второстепенный показатель. Это новая валюта маркетинга, которая пригодится, когда кто-то решит вложиться в него. - отсюда

Самогубство LLM

Мы представляем новый подход к атакам на большие языковые модели (LLM) типа «черный ящик», используя их способность выражать уверенность на естественном языке. Существующие атаки типа «черный ящик» требуют либо доступа к непрерывным выходным данным модели, таким как логиты или оценки уверенности (которые редко доступны на практике), либо полагаются на прокси-сигналы от других моделей. Вместо этого мы демонстрируем, как побудить LLM выражать свою внутреннюю уверенность способом, достаточно калиброванным для обеспечения эффективной состязательной оптимизации. Мы применяем наш общий метод к трём сценариям атак: состязательным примерам для Vision-LLM, джейлбрейкам и инъекциям подсказок. Наши атаки успешно генерируют вредоносные входные данные против систем, которые открывают только текстовые выходные данные, тем самым значительно расширяя поверхность атаки для развёрнутых LLM. Мы также обнаружили, что более качественные и более крупные модели демонстрируют превосходную калибровку при выражении уверенности, создавая тревожный парадокс безопасности, когда улучшение возможностей модели напрямую увеличивает уязвимость. - BLACK-BOX OPTIMIZATION OF LLM OUTPUTS BY ASKING FOR DIRECTIONS

Интересная идея - раз логиты недоступны, давайте спросим о них у самой модели. Демонстрируя свои знания, модель открывает новые поверхности атаки. Эта музыка будет вечной ...

См. также другие публикации, посвященные LLM

Tuesday, October 28, 2025

API Gateway

Кто бы мог подумать?

Скрытая атака показывает зараженные веб-страницы только агентам ИИ. Компания JFrog обнаружила, что агенты ИИ могут быть обмануты и скрытно выполнять вредоносные действия с помощью веб-сайтов, скрытых от обычных пользователей. Этот новый подход позволяет злоумышленникам внедрять подсказки/инструкции в этих автономных «помощников» на базе ИИ, что позволяет им использовать поведение агентов в своих вредоносных целях. Атаки с непрямым внедрением подсказок, когда скрытые вредоносные инструкции внедряются в ту же страницу, которую видит посетитель, редко обнаруживаются людьми, но всё же могут быть обнаружены системами безопасности. Эта новая атака с «параллельным отравлением веба» идёт на шаг дальше и предоставляет совершенно другую версию страницы только агентам ИИ.

Вообще, кажется что программирование агентов находится сейчас на уровне веб-программирования 10-ти летней давности или даже старше. Вот неожиданно открылось, что контент веб-страницы может формироваться динамически и настраиваться под запросы ...

См. также другие публикации, посвященные агентам

Monday, October 27, 2025

ИИ в кибербезопасности. Хроника. Выпуск 3

В этом документе мы представляем очередной (третий по счету) ежемесячный обзор текущих событий, связанных общим направлением – использование Искусственного интеллекта (ИИ) в кибербезопасности. Это регулярно публикуемый документ, который описывает регулирующие документы, события и новые разработки в этой области. В настоящее время, мы сосредоточены именно на этих трех аспектах. Во-первых, это инциденты, связанные с использованием ИИ к кибербезопасности. Например, ставшие известными новые атаки на модели машинного обучения, выявленные уязвимости и риски генеративного ИИ и т.п. Во-вторых, это регулирующие документы, новые глобальные и локальные стандарты, касающиеся разных аспектов направления ИИ в кибербезопасности. И в-третьих, каждый обзор включает новые интересные публикации по данному направлению. Безусловно, все отобранные для каждого выпуска материалы отражают взгляды и предпочтения авторов-составителей. В настоящей статье представлен третий выпуск хроники ИИ в кибербезопасности. - отсюда

Атака атак

Как оценить надежность защиты, основанной на языковых моделях? Текущие защиты от джейлбрейков и инъекций подсказок (которые направлены на то, чтобы помешать злоумышленнику извлечь вредоносные знания или удалённо запустить вредоносные действия соответственно) обычно оцениваются либо по статическому набору вредоносных строк атаки, либо против вычислительно слабых методов оптимизации, которые не были разработаны с учётом защиты. Мы утверждаем, что этот процесс оценки несовершенен. Вместо этого нам следует оценивать защиту от адаптивных злоумышленников, которые явно изменяют свою стратегию атаки, чтобы противостоять конструкции защиты, тратя при этом значительные ресурсы на оптимизацию своей цели. Систематически настраивая и масштабируя общие методы оптимизации — градиентный спуск, обучение с подкреплением, случайный поиск и исследование под руководством человека — мы обошли 12 последних защит (основанных на разнообразном наборе методов) с показателем успешности атак выше 90% для большинства; что важно, большинство защит изначально сообщали о почти нулевом показателе успешности атак. Мы считаем, что будущая работа по защите должна учитывать более сильные атаки, подобные тем,которые мы описываем, чтобы делать надежные и убедительные заявления об устойчивости. - The Attacker Moves Second: Stronger Adaptive Attacks Bypass Defenses Against Llm Jailbreaks and Prompt Injections

Композиционная атака на LLM.

P.S. См. также другие публикации, посвященные LLM

Sunday, October 26, 2025

MCP в опасности

Массивное исследование безопасности 280 доступных MCP серверов.

Для каждого сервера автор оценивал два свойства: будет ли он обрабатывать входные данные из небезопасных источников, которые невозможно полностью проверить или контролировать (например, электронные письма, чаты, сообщения Slack или скопированные веб-страницы), и позволит ли он выполнять мощные действия, такие как выполнение кода, доступ к файлам или вызов API. Он считал серверы, обладающие обоими свойствами, высокорискованными, поскольку они могли выполнять инструкции злоумышленника без одобрения пользователя.
Он оценил, как риск возрастает по мере того, как системы используют большее количество серверов. (Он не раскрыл формулу или метод, использованный для получения оценок.)
Он проверил свою модель риска, атакуя реальные конфигурации MCP, включая случаи, когда небезопасные входные данные с одного сервера приводили к автоматическому выполнению команд другим сервером

См. также другие публикации, посвященные агентам

Как тестировать AI

OWASP готовит интересное руководство по тестированию AI

Saturday, October 25, 2025

Бережные водяные знаки

Недавние достижения в области больших языковых моделей (LLM) вызвали растущую обеспокоенность по поводу потенциального злоупотребления. Одним из подходов к снижению этого риска является включение методов водяных знаков в LLM, что позволяет отслеживать и атрибуцию выходных данных модели. В данном исследовании рассматривается важный аспект водяных знаков: насколько сильно водяные знаки влияют на качество результатов, генерируемых моделью. Предыдущие исследования предполагали компромисс между силой водяного знака и качеством выходных данных. Однако наше исследование показывает, что при правильной реализации можно интегрировать водяные знаки, не влияя на распределение вероятностей выходных данных. Мы называем этот тип водяных знаков несмещенными водяными знаками. Это имеет существенные последствия для использования LLM, поскольку пользователи не могут определить, включил ли поставщик услуг водяные знаки или нет. Более того, наличие водяных знаков не снижает производительность модели в последующих задачах, гарантируя сохранение общей полезности языковой модели. Наши результаты вносят вклад в продолжающуюся дискуссию об ответственной разработке ИИ, предполагая, что непредвзятые водяные знаки могут служить эффективным средством отслеживания и атрибуции результатов модели без потери качества результатов. - https://openreview.net/forum?id=uWVC5FVidc

См. также другие публикации, посвященные LLM

Friday, October 24, 2025

Международный ИТ-конгресс МГУ

Приём докладов для участия в Международном конгрессе «Современные проблемы компьютерных и информационных наук» продлён до 1 ноября 2025 года. Конгресс состоится 20–22 ноября 2025 года на факультете вычислительной математики и кибернетики МГУ имени М.В. Ломоносова.

Международный ИТ-конгресс является одним из крупнейших научных мероприятий года, объединяющим ведущих российских и зарубежных учёных, представителей бизнеса, государственных структур и международного экспертного сообщества. Участники обсудят ключевые вызовы цифровой эпохи, развитие технологий искусственного интеллекта, вопросы цифровой трансформации и современные подходы к ИТ-образованию.

За годы проведения ИТ-конгресс стал признанной площадкой для обмена знаниями и формирования научных коллабораций в области компьютерных и информационных наук. Представленные работы демонстрируют высокий уровень компетенций участников и их вклад в развитие современной науки и технологий.

Программа Конгресса включает три крупных международных мероприятия: X Международную конференцию «Конвергентные когнитивно-информационные технологии», XX Международную научно-практическую конференцию «Современные информационные технологии и ИТ-образование» и XV Международную конференцию-конкурс «Инновационные информационно-педагогические технологии в системе ИТ-образования» (ИП-2025).

По итогам работы лучшие доклады, рекомендованные программным комитетом, будут опубликованы в журналах Перечня ВАК — Современные информационные технологии и ИТ-образование и International Journal of Open Information Technologies.

ИТ-конгресс проводится в рамках программы деятельности Федерального учебно-методического объединения в сфере высшего образования по укрупнённой группе специальностей 02.00.00 «Компьютерные и информационные науки».

Регистрация участников и приём докладов продлены до 1 ноября 2025 года.

Подробнее о Конгрессе — на официальном сайте: http://it-edu.oit.cmc.msu.ru

Заглянуть в данные LLM

Атаки на вывод членства (MIA) широко используются для оценки рисков конфиденциальности, связанных с моделями машинного обучения. Однако, когда эти атаки применяются к предобученным большим языковым моделям (LLM), они сталкиваются со значительными проблемами, включая неправильно размеченные выборки, сдвиги распределения и расхождения в размерах моделей между экспериментальными и реальными условиями. Чтобы устранить эти ограничения, мы вводим токенизаторы в качестве нового вектора атак для вывода членства. В частности, токенизатор преобразует необработанный текст в токены для LLM. В отличие от полных моделей, токенизаторы можно эффективно обучить с нуля, тем самым избегая вышеупомянутых проблем. Кроме того, обучающие данные токенизатора обычно репрезентативны для данных, используемых для предобучения LLM. Несмотря на эти преимущества, потенциал токенизаторов как вектора атак остается неисследованным. С этой целью мы представляем первое исследование утечки членства через токенизаторы и исследуем пять методов атак для вывода членства в наборе данных. Масштабные эксперименты на миллионах интернет-образцов выявили уязвимости токенизаторов современных LLM. Чтобы снизить этот новый риск, мы также предлагаем адаптивную защиту. Наши результаты показывают, что токенизаторы являются недооценённой, но критически важной угрозой конфиденциальности, что подчёркивает острую необходимость в механизмах сохранения конфиденциальности, специально разработанных для них. - Membership Inference Attacks on Tokenizers of Large Language Models

См. также другие публикации, посвященные LLM

Wednesday, October 22, 2025

Сбер AI R&D

Доклады конференции для исследователей AI и ML от Сбер

Иллюзия мышления

В последних поколениях передовых языковых моделей появились большие модели рассуждений (LRM), которые генерируют детальные мыслительные процессы перед выдачей ответов. Хотя эти модели демонстрируют улучшенную производительность на тестах рассуждений, их фундаментальные возможности, масштабируемые свойства и ограничения остаются недостаточно изученными. Текущие оценки в основном сосредоточены на устоявшихся математических и кодинговых тестах, делая акцент на точности окончательного ответа. Однако эта парадигма оценки часто страдает от загрязнения данных и не даёт понимания структуры и качества следов рассуждений. В данной работе мы систематически исследуем эти пробелы с помощью управляемых сред для головоломок, которые позволяют точно манипулировать сложностью композиции, сохраняя при этом согласованность логических структур. Такая конфигурация позволяет анализировать не только окончательные ответы, но и внутренние следы рассуждений, предоставляя представление о том, как «думают» LRM. Благодаря обширным экспериментам с различными головоломками мы показываем, что передовые LRM сталкиваются с полным падением точности за пределами определённых уровней сложности. Более того, они демонстрируют контринтуитивный предел масштабирования: их усилия по рассуждению возрастают со сложностью задачи до определённого момента, а затем снижаются, несмотря на наличие адекватного бюджета токенов. Сравнивая LRM с их стандартными аналогами LLM при эквивалентных вычислениях вывода, мы выделяем три режима производительности: (1) задачи низкой сложности, где стандартные модели неожиданно превосходят LRM, (2) задачи средней сложности, где дополнительное мышление в LRM демонстрирует преимущество, и (3) задачи высокой сложности, где обе модели полностью терпят крах. Мы обнаружили, что LRM имеют ограничения в точных вычислениях: они не используют явные алгоритмы и рассуждают непоследовательно при решении разных головоломок. Мы также более глубоко исследуем следы рассуждений, изучая закономерности исследуемых решений и анализируя вычислительное поведение моделей, проливая свет на их сильные и слабые стороны, и, в конечном счёте, поднимая важные вопросы об их истинных возможностях рассуждения. - The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity

Apple (Samy Bengio среди соавторов) о том, что LLM все-таки не очень копенгаген. Просто изощренный pattern matching.

Tuesday, October 21, 2025

На защите

Хорошая статья по защитным механизмам LLM (агентов)

P.S. см. также учебное пособие по безопасности ИИ-агентов

См. также другие публикации, посвященные агентам

Детектор, который не детектирует

Пара интересных работ по обходу детекторов дипфейковых изображений

В последние годы было разработано несколько методов обнаружения дипфейковых изображений, причём особым успехом пользуются подходы, использующие аналитические следы (например, признаки в частотной области), например, полученные с помощью дискретного косинусного преобразования (ДКП). Несмотря на свою эффективность, эти детекторы остаются уязвимыми для состязательных атак. В данной статье мы представляем новую состязательную атаку «серого ящика», специально разработанную для обхода детекторов дипфейков на основе ДКП. Наш метод точно настраивает статистику коэффициентов AC синтетических изображений, чтобы максимально приблизиться к реальным, сохраняя при этом высокое визуальное качество. Атака предполагает полное знание процесса извлечения признаков ДКП, но не доступ к внутренним параметрам классификаторов. Мы оцениваем предлагаемый метод на наборе детекторов на основе ДКП, используя дипфейки, сгенерированные как генеративно-состязательными сетями (ГСС), так и диффузионными моделями (ДМ). Экспериментальные результаты показывают значительное снижение эффективности обнаружения, выявляя критические недостатки систем, традиционно считающихся интерпретируемыми и надёжными. Эта работа поднимает важные вопросы относительно надежности детекторов частотной области в криминалистических приложениях и приложениях кибербезопасности. - A Novel Adversarial Gray-Box Attack on DCT-Based Face Deepfake Detectors

Несмотря на значительный прогресс в методологиях обнаружения дипфейков, они по-прежнему подвержены обходным методам, что является критической уязвимостью в криминалистических системах. Большинство подходов к обнаружению, основанных на артефактах, специфичных для генератора, или высокочастотных отпечатках, становятся уязвимыми для обхода при устранении этих отличительных признаков. Для выявления таких «слепых пятен» в современных криминалистических системах мы представляем GenPure – новую многоступенчатую платформу очистки, которая систематически удаляет как низкоуровневые, так и высокоуровневые синтетические сигналы, позволяя сгенерированным изображениям обходить различные детекторы в условиях строгого «черного ящика». В конвейере обходных методов обнаружения GenPure модуль реконструкции на базе U-Net с многомасштабными, пространственно адаптивными гауссовыми ядрами сначала ослабляет синтетические артефакты, сохраняя при этом перцепционную точность. Затем модель, основанная на зрительном восприятии, намеренно не предвзятая в отношении классификации «аутентичный-синтетический», сопоставляет ослабленные изображения с характеристиками аутентичных изображений, минимизируя расхождения в распределении в скрытом пространстве. Наконец, статистическая перекалибровка цвета, основанная на эталонных данных, восстанавливает естественный тон и дополнительно маскирует остаточные криминалистические сигналы. Эта платформа не требует знаний о детекторах или дополнительного обучения и распространяется на все типы генераторов, разрешения и области контента. Многочисленные эксперименты продемонстрировали передовые показатели уклонения от распознаваемых объектов при использовании множества невидимых источников генерации и систем обнаружения без ухудшения качества изображения. Результаты выявили устойчивые структурные недостатки современных криминалистических конвейеров и подчеркивают необходимость семантически обоснованных, инвариантных к манипуляциям защит. - GenPure: Foundation-Model-Guided Multi-Stage Purification Framework for Black-Box Evasion of Deepfake Detectors

P.S. "Нет у вас методов против Кости Сапрыкина" (с)

См. также другие публикации по теме deepfake

Monday, October 20, 2025

Sunday, October 19, 2025

Атаки на семантическую сегментацию

Глубокие нейронные сети продемонстрировали впечатляющую эффективность в широком спектре задач, таких как семантическая сегментация. Тем не менее, эти сети уязвимы к состязательным атакам, которые вносят незаметные возмущения во входное изображение, что приводит к ложным прогнозам. Эта уязвимость особенно опасна в критически важных для безопасности приложениях, таких как беспилотное вождение. Хотя примеры состязательных атак и стратегии защиты хорошо изучены в контексте классификации изображений, исследований, посвященных семантической сегментации, сравнительно меньше. Недавно мы предложили основанный на неопределенности метод обнаружения состязательных атак на нейронные сети для семантической сегментации. Мы наблюдали, что неопределенность, измеряемая энтропией выходного распределения, ведет себя по-разному на чистых и неблагоприятно искажённых изображениях, и мы используем это свойство для различения этих двух типов. В этой расширенной версии нашей работы мы проводим подробный анализ основанного на неопределенности обнаружения состязательных атак, включая разнообразный набор состязательных атак и различные современные нейронные сети. Наши численные эксперименты демонстрируют эффективность предлагаемого метода обнаружения, основанного на неопределенности, который является простым и работает как этап постобработки, т.е. не требует никаких модификаций модели или знания процесса генерации состязательных примеров. - Detecting Adversarial Attacks in Semantic Segmentation via Uncertainty Estimation: A Deep Analysis

См. также другие публикации по теме adversarial, посвященные устойчивому машинному обучению

Thursday, October 16, 2025

Протокол протоколов

Интеграция больших языковых моделей (LLM) с системами Интернета вещей (IoT) сталкивается со значительными проблемами, связанными с неоднородностью оборудования и сложностью управления. Протокол контекста модели (MCP) становится критически важным инструментом, обеспечивающим стандартизированное взаимодействие между LLM и физическими устройствами. Мы предлагаем IoT-MCP, новую платформу, реализующую MCP через периферийные серверы для соединения LLM и экосистем IoT. Для обеспечения строгой оценки мы представляем IoT-MCP Bench, первый бенчмарк, содержащий 114 базовых задач (например, «Какая сейчас температура?») и 1140 сложных задач (например, «Мне так жарко, есть идеи?») для LLM с поддержкой IoT. Экспериментальная проверка на 22 типах датчиков и 6 микроконтроллерах демонстрирует 100% успешность выполнения задач IoT-MCP по генерации вызовов инструментов, которые полностью соответствуют ожиданиям и обеспечивают абсолютно точные результаты, среднее время отклика 205 мс и пиковый объём памяти 74 КБ. В этой работе представлены как интеграционный фреймворк с открытым исходным кодом (https://github.com/Duke-CEI-Center/IoTMCP-Servers), так и стандартизированная методология оценки для систем LLM-IoT. - IoT-MCP: Bridging LLMs and IoT Systems Through Model Context Protocol

MCP движется к замене HTTP в роли основного протокола для прикладных задач ...

См. также другие публикации, посвященные агентам

Wednesday, October 15, 2025

Защита MCP

Агенты искусственного интеллекта становятся всё более функциональными и всё глубже интегрируются в повседневную жизнь, охватывая как корпоративные системы, так и персональные приложения. Однако их внедрение влечет за собой новые риски безопасности, в частности, утечку данных посредством атак с непрямым внедрением подсказок. Для решения этой проблемы мы представляем SAMOS — систему управления информационными потоками (IFC), разработанную для протокола контекста модели (MCP). SAMOS работает на уровне шлюза, перехватывая все вызовы инструментов MCP и применяя политики безопасности на основе аннотаций, предоставленных разработчиком агента или администратором развертывания. Отслеживая контекст на уровне сеанса, SAMOS гарантирует, что информационные потоки остаются в заданных границах, и обнаруживает нарушения политик в режиме реального времени. Мы подтверждаем эффективность SAMOS на примере недавней уязвимости на сервере GitHub MCP, демонстрируя, что SAMOS может успешно блокировать такие атаки, сохраняя исходную функциональность. - Securing MCP-based Agent Workflows

См. также нашу статью об уязвимостях системы MCP, а также учебник по безопасности ИИ-агентов

См. также другие публикации, посвященные агентам

Tuesday, October 14, 2025

Правда об ИИ-агентах

Две трети руководителей отделов данных (64%) утверждают, что агенты ИИ их компаний лучше автоматизируют операционные задачи, чем принимают аналитические бизнес-решения более высокого порядка. Это свидетельствует о серьёзном отставании в использовании ИИ для принятия критически важных бизнес-решений.

Почему? Руководители отделов данных признают повсеместное отсутствие уверенности в объяснимости и точности ответов, генерируемых их системами и приложениями ИИ, потому что они либо не требуют, либо просто не могут объяснить, как их ИИ генерирует свои результаты. Только каждый пятый (всего 19%) всегда требует от агентов «показывать свою работу», и подавляющее большинство, 95%, шокирующе признают, что не смогли бы полностью отследить решения ИИ от начала до конца, если бы их попросили предоставить такое обоснование регулирующим органам.

На самом деле, только 11% рассматривали бы агентов ИИ для любой бизнес-функции, включая конфиденциальные, высокорискованные функции, такие как найм, соблюдение нормативных требований или принятие этических решений.

Отсюда

См. также другие публикации, посвященные агентам

Дружно голосуем

Атаки с использованием инъекций подсказок представляют собой всеобъемлющую угрозу безопасности больших языковых моделей (LLM). Современные превентивные средства защиты обычно полагаются на тонкую настройку LLM для повышения его безопасности, но их эффективность против сильных атак ограничена. В данной работе мы предлагаем SecInfer — новую защиту от атак с использованием инъекций подсказок, основанную на масштабировании времени вывода — новой парадигме, которая повышает производительность LLM за счет выделения большего количества вычислительных ресурсов для рассуждений во время вывода. SecInfer состоит из двух ключевых этапов: выборки, управляемой системными подсказками, которая генерирует несколько ответов для заданных входных данных путем исследования различных путей рассуждений с помощью разнообразного набора системных подсказок, и агрегации, управляемой целевой задачей, которая выбирает ответ, наиболее вероятно выполняющий поставленную задачу. Обширные эксперименты показывают, что, используя дополнительные вычисления на этапе вывода, SecInfer эффективно противодействует как существующим, так и адаптивным атакам с использованием быстрых инъекций, превосходя современные средства защиты, а также существующие подходы к масштабированию времени вывода. - SecInfer: Preventing Prompt Injection via Inference-time Scaling

Идея для борьбы с инъекциями подсказок - параллельно запрашиваем LLM по модифицированным вариантам запроса. И выбираем наиболее подходящий ответ (по ее же мнению). Такой вот искусственный интеллект :). В форме когнитивного диссонанса.

Monday, October 13, 2025

Безопасность ИИ-агентов

Учебное пособие на русском языке. Подготовлено на кафедре ИБ факультета ВМК МГУ имени М.В. Ломоносова. В первую очередь - для слушателей курса Разработка агентов ИИ, который с осени 2025 читается на факультете. Охваченные вопросы:
  • Структура ИИ-агентов и шаблоны проектирования
  • Проблемы с безопасностью ИИ-агентов
  • Риски безопасности ИИ-агентов
  • Модель угроз
  • Уязвимости MCP
  • Вопросы безопасности во фреймворках разработки ИИ-агентов и практические рекомендации

Скачать пособие можно здесь

См. также другие публикации, посвященные агентам

Процесс разработки

Криминалистика дипфейков

DFF '25: Proceedings of the 1st on Deepfake Forensics Workshop: Detection, Attribution, Recognition, and Adversarial Challenges in the Era of AI-Generated Media

См. также другие публикации по теме deepfake

Sunday, October 12, 2025

Графовые модели данных

Интересное от Neo4J - готовые модели данных. В частности, описана модель для финансовых транзакций, которая предлагает использовать Cypher для поиска мошшенических паттернов

См. также другие публикации, посвященные Neo4J

Шаблонные ИИ-агенты

17 мгновений весны. 17 шаблонов для проектирования ИИ-агентов. С примерами

См. также другие публикации, посвященные агентам

Saturday, October 11, 2025

Еще о борьбе с дипфейками

Благодаря широкому применению технологий глубокого обучения, таких как свёрточные нейронные сети (CNN) и генеративно-состязательные сети (GAN), методы подделки лиц быстро развиваются, предлагая инновационные приложения в различных областях, одновременно создавая серьёзные проблемы безопасности. Для решения этой проблемы исследователи разработали различные детекторы дипфейков. Однако эти детекторы продемонстрировали значительные уязвимости при столкновении с соперничающими атаками. Целью данного исследования является систематическая оценка производительности детекторов дипфейков в условиях состязательных атак и проверка эффективности различных методов защиты. В ходе масштабных экспериментов мы проанализировали производительность различных типов детекторов в условиях различных состязательных атак и оценили эффективность существующих стратегий защиты. Результаты показывают, что, хотя некоторые методы защиты хорошо работают в определённых сценариях, общая надёжность детекторов всё ещё нуждается в улучшении. Это исследование не только углубляет наше понимание устойчивости к состязательным атакам при обнаружении дипфейков, но и предоставляет важные экспериментальные данные и теоретические рекомендации для разработки более эффективных стратегий защиты. - Adversarial Attacks and Defense for Deepfake Detection: A Comparative Research of Classical Classification Models

Не очень удачно, судя по экспериментам ...

См. также другие публикации по теме deepfake

Friday, October 10, 2025

Киберугроза с востока

Booz Allen: новая дорожная карта для опережения, переигрывания и срыва киберопераций Китая. Китай ускоряет свои кибероперации с использованием ИИ, проникает в глобальную инфраструктуру и использует доверительные отношения для подрыва безопасности США. В нашем последнем отчете освещаются новые тенденции в КНР и предлагаются практические шаги по укреплению устойчивости Америки перед лицом растущего кибердавления со стороны КНР. - отсюда

Публикации по теме Искусственный интеллект в кибербезопасности 10.10.2025

Вопросы безопасности систем ИИ рассматриваются в двух магистерских программах факультета ВМК МГУ имени М.В. Ломоносова: Искусственный интеллект в кибербезопасности и Кибербезопасность. Ниже приведен список публикаций, подготовленных в процессе реализации этих программ по состоянию на 28.09.2025

Ильюшин Е. А., Намиот Д. Е. An approach to the automatic enhancement of the robustness of ml models to external influences on the example of the problem of biometric speaker identification by voice // International Journal of Open Information Technologies. — 2021. — Vol. 9, no. 6. — P. 11–19.

Намиот Д. Е., Ильюшин Е. А., Чижов И. В. Текущие академические и индустриальные проекты, посвященные устойчивому машинному обучению // International Journal of Open Information Technologies. — 2021. — Т. 9, № 10. — С. 35–46.

Намиот Д. Е., Ильюшин Е. А., Чижов И. В. Основания для работ по устойчивому машинному обучению // International Journal of Open Information Technologies. — 2021. — Т. 9, № 11. — С. 68–74.

Намиот Д. Е., Ильшин Е. А., Чижов И. В. Военные применения машинного обучения // International Journal of Open Information Technologies. — 2022. — Т. 10, № 1. — С. 69–76.

Ильюшин Е. А., Намиот Д. Е., Чижов И. В. Атаки на системы машинного обучения – общие проблемы и методы // International Journal of Open Information Technologies. — 2022. — Т. 10, № 3. — С. 17–22.

Namiot D., Ilyushin E. On monitoring of machine learning models // Distributed Computer and Communication Networks: Control, Computation, Communications (DCCN-2022) : материалы XXV международной научной конференции: Москва, 26–30 сентября 2022 года / под общ. ред. В. М. Вишневского и К. Е. Самуйлова. — РУДН Москва: 2022. — P. 150–157.

Namiot D., Ilyushin E., Chizhov I. On a formal verification of machine learning systems // International Journal of Open Information Technologies. — 2022. — Vol. 10, no. 5. — P. 30–34.

Huayu L., Namiot D. A survey of adversarial attacks and defenses for image data on deep learning // International Journal of Open Information Technologies. — 2022. — Vol. 10, no. 5. — P. 9–16.

Намиот Д., Ильюшин Е., Пилипенко О. Доверенные платформы искусственного интеллекта // International Journal of Open Information Technologies. — 2022. — Т. 10, № 7. — С. 119–127.

Намиот Д., Ильюшин Е. Порождающие модели в машинном обучении // International Journal of Open Information Technologies. — 2022. — Т. 10, № 7. — С. 101–118.

Биджиев Т. М., Намиот Д. Е. Исследование существующих подходов к встраиванию вредоносного программного обеспечения в искусственные нейронные сети // International Journal of Open Information Technologies. — 2022. — Т. 10, № 9. — С. 21–31.

Намиот Д. Е., Ильюшин Е. А. Об устойчивости и безопасности систем искусственного интеллекта // International Journal of Open Information Technologies. — 2022. — Т. 10, № 9. — С. 126–134.

Намиот Д. Е., Ильюшин Е. А., Чижов И. В. Искусственный интеллект и кибербезопасность // International Journal of Open Information Technologies. — 2022. — Т. 10, № 9. — С. 135–147.

Stroeva E., Tonkikh A. Methods for formal verification of artificial neural networks: A review of existing approaches // International Journal of Open Information Technologies. — 2022. — Vol. 10, no. 10. — P. 3.

Намиот Д., Ильюшин Е. Мониторинг сдвига данных в моделях машинного обучения // International Journal of Open Information Technologies. — 2022. — Т. 10, № 12. — С. 84–93.

Костюмов, Василий Владимирович. "Обзор и систематизация атак уклонением на модели компьютерного зрения." International Journal of Open Information Technologies 10.10 (2022): 11-20.

Намиот Д. Е., Ильюшин Е. А. О причинах неудач проектов машинного обучения // International Journal of Open Information Technologies. — 2023. — Т. 11, № 1. — С. 60–69.

Намиот Д. Е. Введение в атаки отравлением на модели машинного обучения // International Journal of Open Information Technologies. — 2023. — Т. 11, № 3. — С. 58–68.

Namiot D. E., Ilyushin E., Chizhov I. On the practical generation of counterfactual examples // Труды Института системного анализа Российской академии наук. — 2023. — Vol. 73, no. 1. — P. 73–81.

Junzhe S., Namiot D. E. A survey of model inversion attacks and countermeasures // Труды Института системного анализа Российской академии наук. — 2023. — Vol. 73, no. 1. — P. 82–93.

Junzhe S., Namiot D. A survey of the implementations of model inversion attacks // Communications in Computer and Information Science. — 2023. — Vol. 1748. — P. 3–16.

Намиот Д. Е. Схемы атак на модели машинного обучения // International Journal of Open Information Technologies. — 2023. — Т. 11, № 5. — С. 68–86.

On the evasion attack detector / L. Huayui, V. Kostyumov, O. Pilipenko, D. Namiot // DCCN 2023. Материалы конференции. — ИПУ РАН Москва: 2023. — P. 183–188.

Junzhe S., Namiot D. On the machine learning models inversion attack detector // DCCN 2023. Материалы конференции. — ИПУ РАН Москва: 2023. — P. 194.

Lozinskii I., Kostyumov V., Stroeva E. Extraction of trigger and mask from poisoned data using modified activation clustering and neural cleanse methods // International Journal of Open Information Technologies. — 2023. — Vol. 11, no. 7. — P. 1

Чехонина, Екатерина Андреевна, and Василий Владимирович Костюмов. "ОБЗОР СОСТЯЗАТЕЛЬНЫХ АТАК И МЕТОДОВ ЗАЩИТЫ ДЛЯ ДЕТЕКТОРОВ ОБЪЕКТОВ." International Journal of Open Information Technologies 11.7 (2023): 11-20.

Пришлецов Д. Е., Пришлецов С. Е., Намиот Д. Е. Камуфляж как состязательные атаки на модели машинного обучения // International Journal of Open Information Technologies. — 2023. — Т. 11, № 9. — С. 41–49.

Намиот Д. Е., Зубарева Е. В. О работе ai red team // International Journal of Open Information Technologies. — 2023. — Т. 11, № 10. — С. 130–139.

Намиот Д. Е., Ильюшин Е. А. Доверенные платформы искусственного интеллекта: сертификация и аудит // International Journal of Open Information Technologies. — 2024. — Т. 12, № 1. — С. 43–60.

Киржинов Д. А., Ильюшин Е. А. Сравнительный анализ алгоритмов атак и защиты на графовые архитектуры ИНС // International Journal of Open Information Technologies. — 2024. — Т. 12, № 2.

Намиот Д. Е., Романов В. Ю. Об улучшении робастности моделей машинного обучения // International Journal of Open Information Technologies. — 2024. — Т. 12, № 3. — С. 88–98.

Junzhe S., Namiot D. On real-time model inversion attacks detection // Lecture Notes in Computer Science. — 2024. — Vol. 14123. — P. 56–67.

Мударова Р. М., Намиот Д. Е. Противодействие атакам типа инъекция подсказок на большие языковые модели // International Journal of Open Information Technologies. — 2024. — Т. 12, № 5. — С. 39–48.

Намиот Д. Е., Ильюшин Е. А. Искусственный интеллект в кибербезопасности: поиск вредоносного программного обеспечения // International Journal of Open Information Technologies. — 2024. — Т. 12, № 6. — С. 143–149.

Lebed, S. V., et al. "Large Language Models in Cyberattacks." Doklady Mathematics. Vol. 110. No. Suppl 2. Moscow: Pleiades Publishing, 2024.

Селевенко Р. М., Строева Е. Н. Исследование и разработка алгоритма формальной верификации и метрики оценки качества на основе методов понижения размерности ИНС // INJOIT. — 2024. — Т. 12, № 6. — С. 2.

Биджиев Т. М., Намиот Д. Е. Атаки на модели машинного обучения, основанные на фреймворке pytorch // Автоматика и телемеханика. — 2024. — № 3. — С. 38–50.

Намиот Д. Е., Ильюшин Е. А. О сертификации систем искусственного интеллекта // Физика элементарных частиц и атомного ядра. — 2024. — Т. 55, № 3. — С. 530–536.

Намиот Д. Е., Куприяновский В. П., Пичугов А. А. Состязательные атаки для автономных транспортных средств // International Journal of Open Information Technologies. — 2024. — Т. 12, № 7. — С. 139–149.

Намиот Д. Е. О кибератаках с помощью систем Искусственного интеллекта // International Journal of Open Information Technologies. — 2024. — Т. 12, № 9. — С. 132–141.

Воробьев, Егор Александрович. "Анализ состязательных атак на системы сегментации изображений." International Journal of Open Information Technologies 12.10 (2024): 1-25.

Намиот Д. Е., Ильюшин Е. А. О киберрисках генеративного Искусственного Интеллекта // International Journal of Open Information Technologies. — 2024. — Т. 12, № 10. — С. 109–119.

Порывай, Максим Викторович. "Сравнительное исследование методов естественной аугментации изображений." International Journal of Open Information Technologies 12.10 (2024): 26-33.

Герасименко, Денис Валерьевич, and Дмитрий Евгеньевич Намиот. "Извлечение тренировочных данных: Риски и решения в контексте безопасности LLM." International Journal of Open Information Technologies 12.11 (2024): 9-19.

Костиков, Егор Вячеславович. "Методы анализа логов Sysmon для обнаружения киберугроз." International Journal of Open Information Technologies 12.11 (2024): 25-34.

Намиот Д. Е., Ильюшин Е. А. Архитектура LLM агентов //International Journal of Open Information Technologies. – 2025. – Т. 13. – №. 1. – С. 67-74.

Воробьев Е. А., Намиот Д. Е. Состязательное тестирование моделей сегментации изображений // Программная инженерия. — 2025. — Т. 16, № 4. — С. 190–198.

Намиот, Д. Е., and Е. А. Ильюшин. "Об оценке доверия к системам Искусственного интеллекта." International Journal of Open Information Technologies 13.3 (2025): 75-90.

Хамзаева, М. А., and О. Р. Лапонина. "Повышение устойчивости к состязательным атакам моделей машинного обучения для обнаружения межсайтового выполнения сценариев." International Journal of Open Information Technologies 13.6 (2025): 25-33.

Бербер, Д. В., and О. Р. Лапонина. "Разработка подходов к увеличению устойчивости моделей машинного обучения для обнаружения распределенных атак отказа обслуживания." International Journal of Open Information Technologies 13.6 (2025): 16-24.

Егорова, Е. С., and О. Р. Лапонина. "Состязательное тестирование моделей машинного обучения, предназначенных для обнаружения SQL-инъекций." International Journal of Open Information Technologies 13.6 (2025): 34-41.

Лапонина, О. Р., and Р. Н. Костин. "Разработка программного обеспечения моделирования угроз для систем на базе LLM-агентов." International Journal of Open Information Technologies 13.6 (2025): 132-146.

Намиот, Д. Е. "Что LLM знает о кибербезопасности." International Journal of Open Information Technologies 13.7 (2025): 37-46.

Намиот, Д. Е. "Искусственный Интеллект в. Кибербезопасности. Хроника. Выпуск 1." International Journal of Open Information Technologies 13.9 (2025): 34-42.

Намиот, Д. Е., and Е. А. Ильюшин. "О кибербезопасности ИИ-агентов." International Journal of Open Information Technologies 13.9 (2025): 13-24.

Егоров, М. Э., et al. "Объяснения моделей машинного обучения и состязательные атаки." International Journal of Open Information Technologies 13.9 (2025): 50-59.

Намиот, Д. Е., and Е. А. Ильюшин. "Уязвимости экосистемы MCP." International Journal of Open Information Technologies 13.10 (2025): 74-82.

Намиот, Д. Е. "Искусственный Интеллект в Кибербезопасности. Хроника. Выпуск 2." International Journal of Open Information Technologies 13.10 (2025): 58-67.

Poryvai, Maxim, and Dmitry Namiot. "On Natural Image Augmentation to Increase Robustness of Machine Learning Models." 2025 International Russian Automation Conference (RusAutoCon). IEEE, 2025.

Что защищать от постоянных угроз?

Злоумышленники запускают атаки с использованием современных постоянных угроз (APT), разрабатывая их для конкретной цели и стремясь оставаться незамеченными в течение длительного времени. Злоумышленники используют множество методов для доставки и эксплуатации нескольких вредоносных программ вручную или автоматически. Поставщики решений для кибербезопасности публикуют технические отчеты, известные как отчеты о киберугрозах, о прошлых APT-атаках, которые являются богатым источником информации о вредоносных методах. Для защиты организаций необходимо определить распространенные методы, наблюдаемые во вредоносном ПО, используемом в APT-атаках, и их взаимосвязь.

Цель: Цель данного исследования — помочь специалистам по кибербезопасности в защите от APT-атак путем анализа методов вредоносного ПО, задокументированных в отчетах о киберугрозах.

Методология: Мы формируем курируемый набор из 798 отчетов о киберугрозах, а затем анализируем зарегистрированные методы вредоносного ПО с помощью MITRE ATT&CK — общеизвестного термина, обозначающего методы кибератак, киберпреступные группировки и кампании в APT-атаках. Мы анализируем частоту и тенденции применения методов, а затем проводим качественный анализ. Далее мы проводим анализ ассоциативных правил для выявления сопутствующих методов, после чего проводим качественный анализ.

Результаты: Мы установили, что получение информации об операционной системе и сетевой системе зараженной среды является наиболее распространённым методом и встречается в наибольшем количестве сопутствующих пар. Мы установили, что фишинг является наиболее распространённым способом первоначального заражения. Мы также выявили три распространённых способа злоупотребления системными функциями: макросы в документах Office, реестр Windows и планировщик задач. Мы рекомендуем организациям уделять первоочередное внимание защите от выявленных распространённых методов и активно выявлять потенциальные вредоносные вторжения на основе выявленных ассоциаций между методами вредоносного ПО. - SoK: An empirical investigation of malware techniques in advanced persistent threat attacks

Thursday, October 09, 2025

Смишинг

В последнее время во всем мире наблюдается всплеск SMS-фишинга, также известного как смишинг. Однако отсутствие обновленных наборов данных в открытом доступе затрудняет изучение этой глобальной проблемы исследователями. Операторы мобильной связи и государственные учреждения предоставляют пользователям специальные сервисы для сообщения о SMS-спаме. Хотя эти сервисы являются региональными, и пользователи в основном не осведомлены о них. Поэтому пользователи часто обращаются к публичным форумам, таким как Twitter или Reddit, чтобы сообщать о смишинге и обсуждать его. В данной статье представлен новый методологический подход к сбору обновленных данных о смишинге и оценке инфраструктуры, целей и стратегий, используемых злоумышленниками для заманивания жертв. Мы программно собираем сообщения пользователей о смишинге с пяти публичных форумов, собирая более 64,5% вложений изображений и отчетов, включая 28,6% идентификаторов отправителей и 25,9% URL-адресов, которые злоумышленники используют для проведения кампаний по смишингу на 66 языках. Мы раскрываем эксплуатируемую инфраструктуру, охватывающую операторов мобильной связи и домены. Мы классифицируем смишинг-тексты по семи типам мошенничества и объясняем, как преступники обманывают жертв, вынуждая их предоставить конфиденциальную/финансовую информацию. На примере исследования, основанного на измерениях в режиме реального времени на случайной выборке сообщений в Twitter, мы демонстрируем, как обнаружить вредоносное ПО для Android, распространяемое посредством смишинга. Мы предлагаем эффективные методы для предотвращения этого широко распространенного вида киберпреступности. - Fishing for Smishing: Understanding SMS Phishing Infrastructure and Strategies by Mining Public User Reports

Интересная работа. Важная тема, по которой не так-то просто собрать данные.

Обеспечение надежного и безопасного ИИ

Большое руководство от Google Cloud. Полезный набор ссылок в конце статьи

Сюда же можно отнести и Startup technical guide AI agents, который рписывает использование того же Google Cloud для создания ИИ-агентов

Wednesday, October 08, 2025

Частно-государственный бизнес

1. Государство заявляет новую единую платформу для научных журналов
2. Платформа объявляет требования к оформлению журналов, обязательные для присутствия на этой платформе
3. Чисто случайно эти требования совпадают с тем, что предлагает частная издательская система Эко-Вектор
4. Частная издательская система выкатывает расценки на поддержку других журналов в соответствии со своими требованиями

Бинго. Профит. И все совпадения случайны ...

P.S. В старой журнальной модели ВАК сотрудничал по такой же схеме с частным РИНЦ - условием присутствия журнала в списке ВАК (государство) было наполнение редакцией базы РИНЦ (частники - elibrary.ru). РИНЦ за деньги предлагал (предлагает :) починить цитирования журналов в их же системе, от которого зависили позиции в списке ВАК.

ВАК, как я понимаю, теперь в РАН. И у РАН (РЦНИ) - теперь свои частники. "Пусть век солдата быстротечен, Но — вечен Рим!" ...

Открытая наука том 13, номер 10

Очередной номер журнала INJOIT появился на сайте Киберленинка.

Это том 13, номер 10 за 2025 год. Новое пополнение для списка работ по теме Искусственный интеллект в кибербезопасности

/via Лаборатория ОИТ

Кибербезопасность в IoT

Стремительное развитие Интернета вещей (IoT) приводит к появлению миллионов устройств, подключаемых к сети для предоставления интеллектуальных услуг, таких как дистанционное зондирование, управление и мониторинг. Однако эта широкая связь и интеллектуальные функции также привели к появлению ряда уязвимостей кибербезопасности. Традиционные решения безопасности, основанные на машинном обучении (МО), неэффективны из-за динамической природы угроз кибермира. Новые типы вредоносных программ не обнаруживаются большинством решений безопасности на основе МО, поскольку они основаны на статическом извлечении признаков. Кроме того, некоторые методы требуют человеческого опыта и требуют много времени. Для решения этих проблем в данной статье предлагается динамический метод обнаружения и классификации вредоносных программ с использованием обучения признакам для кибербезопасности, ориентированной на Интернет вещей. Предлагаемая модель объединяет сверточные нейронные сети (CNN) для автоматического извлечения признаков и сети с долговременной краткосрочной памятью (LSTM) для последовательного анализа поведения. Предлагаемая модель обеспечивает адаптивное обучение и повышает точность обнаружения вредоносных программ. В отличие от традиционных подходов, наша модель не ограничена конкретными типами вредоносных программ. Эффективность предлагаемого подхода оценивается на основе набора данных MTA-KDD’19, который обеспечивает реалистичное представление легитимного и вредоносного сетевого трафика. Экспериментальные результаты демонстрируют превосходную производительность, достигая точности 99,83%, полноты 99,90%, достоверности 99,74% и оценки F1 99,87%. Эти результаты подтверждают, что предлагаемая динамическая система обнаружения вредоносных программ повышает эффективность противодействия киберугрозам и обеспечивает безопасность системы Интернета вещей. - A feature-learning-enabled malware analysis for enhanced IoT-centric cybersecurity

Tuesday, October 07, 2025

Открытая наука том 13, номер 9

Очередной номер журнала INJOIT появился на сайте Киберленинка.

Это том 13, номер 9 за 2025 год. Большое пополнение для списка работ по теме Искусственный интеллект в кибербезопасности

/via Лаборатория ОИТ

Атаки извлечения для LLM

Недавние исследования показали, что большие языковые модели (LLM) могут быть «обмануты» и выводить конфиденциальную информацию, включая данные для обучения, системные подсказки и персональные данные, под тщательно продуманными противодейственными подсказками. Существующие подходы к утечке конфиденциальной информации, основанные на «красных командах», либо основаны на ручных усилиях, либо сосредоточены исключительно на извлечении системных подсказок, что делает их неэффективными при серьёзных рисках утечки данных для обучения. Мы предлагаем LeakAgent, новый фреймворк «чёрного ящика» для «красных команд» для LLM. Наш фреймворк обучает LLM с открытым исходным кодом посредством обучения с подкреплением в качестве атакующего агента для генерации состязательных подсказок как для извлечения данных для обучения, так и для извлечения системных подсказок. Для достижения этого мы предлагаем новую функцию вознаграждения, обеспечивающую эффективное и детальное вознаграждение, и разрабатываем новые механизмы для баланса между исследованием и эксплуатацией в процессе обучения и повышения разнообразия состязательных подсказок. В ходе обширных исследований мы сначала показали, что LeakAgent значительно превосходит существующие подходы, основанные на правилах, при извлечении обучающих данных и автоматизированные методы в случае утечки системных подсказок. Мы также демонстрируем эффективность LeakAgent при извлечении системных подсказок из реальных приложений в хранилище GPT OpenAI. Мы также демонстрируем эффективность LeakAgent в обходе существующей защиты ограждений и его полезность для обеспечения лучшего выравнивания безопасности. Наконец, мы проверяем наши индивидуальные разработки посредством подробного исследования абляции. Мы публикуем наш код здесь https://github.com/rucnyz/LeakAgent. - LeakAgent: RL-based Red-teaming Agent for LLM Privacy Leakage

См. также другие публикации, посвященные LLM

Monday, October 06, 2025

MCP vs API

API (интерфейс прикладного программирования):

  • Назначение: Обеспечивает взаимодействие между программами.
  • Обнаружение: Требуется документация.
  • Стандартизация: Различная — REST, GraphQL, gRPC и т. д.

MCP (протокол контекста модели):

  • Назначение: Обеспечивает взаимодействие между клиентами (агентами, IDE, LLM) и серверами, встроенное в ИИ.
  • Обнаружение: Самоописание (внешняя документация не требуется).
  • Стандартизация: Единый единый протокол для ресурсов, инструментов и подсказок.

Сюрреалистичная БД

Интересная база данных, в том числе - в контексте обучения

Масштабируемая, распределенная база данных с графами документов для веб-приложений в режиме реального времени - surrealdb

Защита от атак патчами

Разработка надежных средств защиты от атак с использованием патчей на детекторы объектов привлекает все больший интерес. Однако мы обнаружили, что существующие оценки защиты не имеют единой и всеобъемлющей структуры, что приводит к непоследовательным и неполным оценкам текущих методов. Чтобы решить эту проблему, мы пересматриваем 11 репрезентативных средств защиты и представляем первый бенчмарк защиты с использованием патчей, включающий 2 цели атаки, 13 атак с использованием патчей, 11 детекторов объектов и 4 различных метрики. Это приводит к получению масштабного состязательного набора данных с патчами, содержащего 94 типа патчей и 94 000 изображений. Наш комплексный анализ открывает новые возможности: (1) Сложность защиты от натуралистичных патчей заключается в распределении данных, а не в общепринятых высоких частотах. Наш новый набор данных с разнообразным распределением патчей может быть использован для улучшения существующих средств защиты на 15,09% AP@0,5. (2) Средняя точность обнаружения атакуемого объекта, а не обычно требуемая точность обнаружения патчей, демонстрирует высокую согласованность с эффективностью защиты. (3) Адаптивные атаки могут существенно обходить существующие защиты, а защиты с сложными/стохастическими моделями или универсальными свойствами патча относительно надёжны. Мы надеемся, что наш анализ послужит руководством по правильной оценке атак/защит с использованием патча и совершенствованию их конструкции. Код и набор данных доступны по адресу https://github.com/Gandolfczjh/APDE, где мы продолжим интегрировать новые атаки/защиты. - Revisiting Adversarial Patch Defenses on Object Detectors: Unified Evaluation, Large-Scale Dataset, and New Insights

Sunday, October 05, 2025

Генератор физических атак

Методы восприятия, основанные на глубоком обучении, чрезвычайно уязвимы к состязательным образцам, что приводит к нарушениям безопасности. Генерация эффективных состязательных образцов в физическом мире и оценка систем обнаружения объектов представляет собой сложную задачу. В данном исследовании мы предлагаем унифицированную совместную структуру состязательного обучения для двухмерных и трёхмерных областей, которая одновременно оптимизирует текстурные карты в пространствах двумерных изображений и трёхмерных сеток для лучшего учёта внутриклассового разнообразия и вариаций окружающей среды в реальном мире. Структура включает в себя новый реалистичный улучшенный состязательный модуль с конвейером картографирования времени и пространства и переосвещённости, который регулирует согласованность освещения между состязательными участками и целевыми предметами одежды при различных точках обзора. Основываясь на этом, мы разрабатываем механизм повышения реализма, который включает моделирование нежёстких деформаций и переназначение текстур, чтобы обеспечить соответствие нежёстким поверхностям человеческого тела в трёхмерных сценах. Результаты обширных экспериментов в цифровых и физических средах показывают, что состязательные текстуры, генерируемые нашим методом, могут эффективно вводить в заблуждение модель обнаружения целей. В частности, наш метод достигает среднего показателя успешности атак (ASR) 70,13% на YOLOv12 в физических сценариях, значительно превосходя существующие методы, такие как TSEA (21,65%) и AdvTexture (19,70%). Более того, предлагаемый метод поддерживает стабильный ASR при различных точках обзора и расстояниях, при этом средний показатель успешности атак превышает 90% как при фронтальном, так и при наклонном виде на расстоянии 4 метров. Это подтверждает высокую надежность метода и его применимость при многоракурсных атаках, меняющихся условиях освещения и реальных расстояниях. Демонстрационное видео и код доступны по адресу https://github.com/Huangyh98/AdvReal.git. - AdvReal: Physical adversarial patch generation framework for security evaluation of object detection systems

См. также другие публикации по теме физические атаки

Saturday, October 04, 2025

Кибербезопасность гуманоидов

Гуманоиды постепенно приближаются к практическому применению в здравоохранении, промышленности, обороне и сфере услуг. Хотя обычно их рассматривают как киберфизические системы (CPS), их зависимость от традиционных сетевых программных стеков (например, операционных систем Linux), промежуточного программного обеспечения операционной системы робота (ROS) и беспроводных каналов обновления создает особый профиль безопасности, подвергая их уязвимостям, которые традиционные модели КФС не в полной мере учитывают. Предыдущие исследования в основном изучали конкретные угрозы, такие как подмена данных LiDAR или состязательное машинное обучение (AML). Этот узкий подход упускает из виду, как атака, направленная на один компонент, может нанести каскадный ущерб всем взаимосвязанным системам робота. Мы устраняем этот пробел посредством систематизации знаний (SoK), которая использует комплексный подход, консолидируя разрозненные исследования в области робототехники, CPS и сетевой безопасности. Мы представляем семиуровневую модель безопасности для гуманоидных роботов, объединяющую 39 известных атак и 35 защитных мер в экосистеме гуманоидов – от аппаратного обеспечения до взаимодействия человека с роботом. Основываясь на этой модели безопасности, мы разрабатываем количественную матрицу атак и защиты размером 39×35 с оценкой, взвешенной по риску, которая была подтверждена с помощью анализа Монте-Карло. Мы демонстрируем наш метод, оценивая три реальных робота: Pepper, G1 EDU и Digit. Анализ оценок выявил различные уровни зрелости безопасности от 39,9% до 79,5% на разных платформах. В данной работе представлен структурированный, основанный на фактах метод оценки, который позволяет проводить систематическую оценку безопасности, поддерживает кроссплатформенный бенчмаркинг и определяет приоритетность инвестиций в безопасность гуманоидной робототехники. - SoK: Cybersecurity Assessment of Humanoid Ecosystem

Теперь и такая кибербезопасность ...

Friday, October 03, 2025

Атаки на code-review

Большим языковым моделям (LLM) всё чаще доверяют выполнение автоматизированного обзора кода и статического анализа в масштабах, поддерживая такие задачи, как обнаружение уязвимостей, суммирование и рефакторинг. В этой статье мы выявляем и используем критическую уязвимость в анализе кода на основе LLM: смещение абстракции, которое заставляет модели чрезмерно обобщать знакомые шаблоны программирования и упускать из виду небольшие, но значимые ошибки. Злоумышленники могут использовать эту слепую зону, чтобы перехватить поток управления интерпретацией LLM, внося минимальные правки и не влияя на фактическое поведение во время выполнения. Мы называем эту атаку атакой по знакомому шаблону (FPA). Мы разрабатываем полностью автоматизированный алгоритм «чёрного ящика», который обнаруживает и внедряет FPA в целевой код. Наша оценка показывает, что FPA не только эффективны, но и переносимы между моделями (GPT-4o, Claude 3.5, Gemini 2.0) и универсальны для языков программирования (Python, C, Rust, Go). Более того, FPA остаются эффективными даже когда модели явно предупреждены об атаке посредством надежных системных подсказок. Наконец, мы исследуем позитивное, защитное использование FPA и обсуждаем их более широкое влияние на надежность и безопасность кодо-ориентированных LLM. - Trust Me, I Know This Function: Hijacking LLM Static Analysis using Bias

Инетересно тем, что атака явно использует семантическую информацию, а не формально манипулирует градиентами.

Thursday, October 02, 2025

Ваши агенты раскрыты

Почему я не верю в ИИ-агентов? Три жесткие истины об AI-агентах:

Ошибки накапливаются экспоненциально в многоступенчатых рабочих процессах. 95% надежности на каждом шаге = 36% успешности за 20 шагов. В продакшн-системах нужно 99,9%+.

Окна контекста создают квадратичные затраты на токены. Долгие разговоры становятся слишком дорогими при масштабировании.

Реальная проблема — не в возможностях ИИ, а в проектировании инструментов и систем обратной связи, которые агенты могут эффективно использовать.

Отсюда (есть русский перевод)

См. также другие публикации, посвященные агентам

Изучаем линейную алгебру

Книга и нотебук в открытом доступе

Wednesday, October 01, 2025

Искусственный интеллект в кибербезопасности. Хроника. Выпуск 2

В этом документе мы представляем очередной ежемесячный обзор текущих событий, связанных общим направлением – использование Искусственного интеллекта (ИИ) в кибербезопасности. Это регулярно публикуемый документ, который описывает новые разработки, события и регуляции в этой области. В настоящее время мы сосредоточены на трех аспектах. Во-первых, это инциденты, связанные с использованием ИИ к кибербезопасности. Например, ставшие известными атаки на модели машинного обучения, выявленные проблемы и риски генеративного ИИ и т.п. Во-вторых, это новые глобальные и локальные стандарты, регулирующие документы, касающиеся разных аспектов использовании ИИ в кибербезопасности. И в-третьих, обзор будет включать интересные публикации по данному направлению. Безусловно, все отобранные для каждого выпуска материалы отражают взгляды и предпочтения авторов-составителей. В настоящей статье представлен второй выпуск хроники ИИ в кибербезопасности. - отсюда