Wednesday, April 15, 2026

Модели выживания

Хороший технический материал - руководство по анализу выживаемости с использованием Python: применение моделей «время до события» для прогнозирования продолжительности жизни клиента Как рассчитать вероятности времени до события и коэффициенты риска для абонентов телекоммуникационных услуг.

Tuesday, April 14, 2026

Супербезопасник

"Сегодня мы объявляем о запуске проекта Glasswing, новой инициативы, объединяющей Amazon Web Services, Anthropic, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, Linux Foundation, Microsoft, NVIDIA и Palo Alto Networks в стремлении обеспечить безопасность наиболее важного программного обеспечения в мире. Мы создали проект Glasswing из-за возможностей, которые мы наблюдали в новой перспективной модели, обученной Anthropic, и которые, по нашему мнению, могут изменить кибербезопасность. Claude Mythos2 Preview — это универсальная, еще не выпущенная перспективная модель, которая демонстрирует поразительный факт: модели ИИ достигли такого уровня мастерства программирования, что могут превзойти всех, кроме самых опытных людей, в поиске и использовании уязвимостей программного обеспечения.

Mythos Preview уже обнаружил тысячи серьезных уязвимостей, в том числе во всех основных операционных системах и веб-браузерах. Учитывая темпы развития ИИ, вскоре подобные возможности начнут распространяться, потенциально выходя за рамки возможностей тех, кто стремится к их безопасному внедрению. Последствия — для экономики, общественной безопасности и национальной безопасности — могут быть серьезными. Проект Glasswing — это срочная попытка использовать эти возможности в целях защиты.

В рамках проекта Glasswing партнеры, перечисленные выше, будут использовать Mythos Preview в своей работе по обеспечению безопасности; Anthropic поделится полученными знаниями, чтобы вся отрасль могла извлечь из этого пользу. Мы также предоставили доступ группе из более чем 40 дополнительных организаций, которые создают или поддерживают критически важную программную инфраструктуру, чтобы они могли использовать модель для сканирования и защиты как собственных, так и открытых систем. Anthropic выделяет до 100 миллионов долларов в виде кредитов на использование Mythos Preview в рамках этих усилий, а также 4 миллиона долларов в виде прямых пожертвований организациям, занимающимся безопасностью открытого исходного кода.

Проект Glasswing — это отправная точка. Ни одна организация не может решить эти проблемы кибербезопасности в одиночку: разработчики передовых решений в области ИИ, другие компании-разработчики программного обеспечения, исследователи в области безопасности, разработчики открытого исходного кода и правительства по всему миру — все они играют важную роль. Работа по защите мировой кибер-инфраструктуры может занять годы; возможности передовых решений в области ИИ, вероятно, существенно улучшатся уже в ближайшие несколько месяцев. Чтобы киберзащитники добились успеха, нам нужно действовать сейчас." - отсюда

P.S. где кибезащита, там ведь и кибернападение ...

Monday, April 13, 2026

Порча от дипфейков

Дипфейки представляют собой растущую угрозу для надежности цифровых медиа, и для идентификации манипулированного контента разработано несколько алгоритмов обнаружения. Хотя подходы к обнаружению продолжают совершенствоваться, проактивные методы защиты, которые защищают изображения путем внедрения незаметных враждебных возмущений до распространения, предотвращая тем самым генерацию дипфейков в источнике, предлагают более надежное дополнительное решение. Однако существующие проактивные методы защиты от генераторов дипфейков страдают от трех ключевых ограничений: низкой незаметности, ограниченного воздействия на уровне текстуры и отсутствия контроля над низкоуровневыми структурными возмущениями. Для решения этой проблемы предлагается новая атака с учетом текстуры на уровне фрагментов изображения в качестве проактивного метода защиты, который нарушает генерацию дипфейков. Это связано с тем, что враждебные изображения генерируются путем добавления возмущений к исходным изображениям лиц, поэтому поддержание визуальной незаметности является критически важным требованием; таким образом, наша защита явно фокусируется на ограничении возмущений низкоэнергетическими аспектами текстуры, которые не оказывают существенного влияния на человеческое восприятие. Предложенный метод использует сингулярные векторы хвостовой моды, извлеченные с помощью пошагового сингулярного разложения (SVD), для усиления низкоэнергетических текстурных компонентов, т. е., создавая враждебные возмущения, которые остаются визуально незаметными, но ухудшают качество сгенерированных изображений дипфейков. Кроме того, мы вводим вариант, который выполняет проекцию градиента в подпространство хвостовой моды SVD, гарантируя, что обновления остаются ограниченными тонкими текстурными паттернами и избегают высокочастотного шума. Результаты показывают, что предложенный метод представляет собой более скрытую атаку, которая нарушает генерацию дипфейков. Экспериментальные результаты показывают, что предложенный метод достигает высоких показателей успешности атаки, сохраняя при этом перцептивное сходство, превосходя базовые методы по незаметности и эффективности. Эта работа демонстрирует новый путь к проактивной и незаметной защите от генерации дипфейков. - A Texture-Guided Adversarial Defense Framework Against Deepfake Generation

См. также другие публикации по теме deepfake

Sunday, April 12, 2026

Какая ваша роль?

Языковые модели остаются уязвимыми для атак с внедрением подсказок, несмотря на обширное обучение технике безопасности. Мы связываем эту неудачу с путаницей ролей: модели определяют роли по тому, как написан текст, а не по тому, откуда он взят. Мы разработали новые методы проверки ролей, чтобы понять, как модели внутренне определяют «кто говорит». Это показывает, почему внедрение подсказок работает: ненадежный текст, имитирующий роль, наследует авторитет этой роли. Мы проверяем это понимание, внедряя поддельные рассуждения в пользовательские подсказки и выходные данные инструмента, достигая средних показателей успеха 60% на StrongREJECT и 61% при извлечении данных агентом, в нескольких моделях с открытыми и закрытыми весами, с почти нулевыми базовыми показателями. Примечательно, что степень внутренней путаницы ролей сильно предсказывает успех атаки еще до начала генерации. Наши результаты выявляют фундаментальный пробел: безопасность определяется на интерфейсе, но авторитет назначается в латентном пространстве. В более широком смысле, мы представляем единую механистическую основу для внедрения мгновенных данных, демонстрируя, что различные атаки с внедрением мгновенных данных используют один и тот же базовый механизм путаницы ролей. - Prompt Injection as Role Confusion

См. также другие публикации, посвященные LLM

Saturday, April 11, 2026

LLM как пентестер

"Агенты на основе LLM демонстрируют перспективность в автоматизации тестирования на проникновение, однако сообщаемая производительность сильно различается в зависимости от системы и бенчмарков. Мы анализируем 28 систем тестирования на проникновение на основе LLM и оцениваем пять репрезентативных реализаций на трех бенчмарках возрастающей сложности. Наш анализ выявляет два различных режима отказов: отказы типа А возникают из-за пробелов в возможностях (отсутствие инструментов, неадекватные подсказки), которые инженеры легко устраняют, в то время как отказы типа В сохраняются независимо от инструментов из-за ограничений планирования и управления состоянием. Мы показываем, что отказы типа В имеют общую первопричину, которая в значительной степени инвариантна для базового LLM: агентам не хватает оценки сложности задачи в реальном времени. В результате агенты неправильно распределяют усилия, чрезмерно концентрируются на малоценных ветвях, и исчерпывают контекст до завершения цепочек атак. Основываясь на этом понимании, мы представляем PENTESTGPT V2, агент тестирования на проникновение, который сочетает в себе мощные инструменты с планированием с учетом сложности. Слой инструментов и навыков устраняет ошибки типа А за счет типизированных интерфейсов и знаний, дополненных механизмом поиска. Механизм оценки сложности задачи (TDA) устраняет ошибки типа B, оценивая выполнимость по четырем измеримым параметрам (оценка горизонта, достоверность доказательств, контекстная нагрузка и исторический успех) и используя эти оценки для принятия решений об исследовании и эксплуатации в рамках поиска по дереву атак с учетом доказательств (EGATS). PENTESTGPT V2 достигает до 91% выполнения задач на бенчмарках CTF с использованием передовых моделей (относительное улучшение на 39–49% по сравнению с базовыми показателями) и компрометирует 4 из 5 хостов в среде Active Directory GOAD против 2 в предыдущих системах. Эти результаты показывают, что планирование с учетом сложности обеспечивает стабильные сквозные улучшения для всех моделей и устраняет ограничение, которое не устраняется одним лишь масштабированием модели."- What Makes a Good LLM Agent for Real-world Penetration Testing?

См. также другие публикации, посвященные LLM

Friday, April 10, 2026

Тестируем отравление инструментов MCP

"Предоставляя стандартизированный интерфейс для взаимодействия агентов LLM с внешними инструментами, протокол контекста модели (MCP) быстро становится краеугольным камнем современной экосистемы автономных агентов. Однако он создает новые уязвимости из-за ненадежных внешних инструментов. В то время как предыдущие работы были сосредоточены на атаках, внедряемых через выходные данные внешних инструментов, мы исследуем более фундаментальную уязвимость: отравление инструментов (Tool Poisoning), когда вредоносные инструкции внедряются в метаданные инструмента без выполнения. До настоящего времени эта угроза демонстрировалась в основном на отдельных случаях, без систематической крупномасштабной оценки. Мы представляем MCPTox, первый бенчмарк для систематической оценки устойчивости агентов к отравлению инструментов в реалистичных условиях MCP. MCPTox построен на основе 45 действующих серверов MCP и 353 аутентичных инструментов. Для этого мы разработали три различных шаблона атак для генерации полного набора из 1312 вредоносных тестовых случаев с помощью обучения с малым количеством примеров, охватывающих 10 категорий потенциальных рисков. Наша оценка на 20 известных агентах LLM выявила широко распространенную уязвимость к отравлению инструментов (Tool Poisoning), при этом o1-mini достиг показателя успешности атаки в 72,8%. Мы обнаружили, что более совершенные модели часто более подвержены атаке, поскольку она использует их превосходные способности к выполнению инструкций. Наконец, анализ случаев неудачи показывает, что агенты редко отказываются от этих атак, при этом самый высокий показатель отказов (Claude-3.7-Sonnet) составляет менее 3%, что демонстрирует неэффективность существующих механизмов обеспечения безопасности против вредоносных действий, использующих легитимные инструменты для несанкционированной работы. Наши результаты создают важную эмпирическую основу для понимания и смягчения этой широко распространенной угрозы, и мы выпускаем MCPTox для разработки проверяемо более безопасных агентов ИИ. Наш набор данных доступен в анонимизированном репозитории." - MCPTox: A Benchmark for Tool Poisoning Attack on Real-World MCP Servers

Thursday, April 09, 2026

За человечный ИИ

"Пока компании соревнуются в разработке и внедрении систем искусственного интеллекта, человечество стоит на распутье. Один путь — это гонка за замену: людей заменяют в качестве создателей, советников, опекунов и компаньонов, а затем и в большинстве профессий и ролях принятия решений, концентрируя всё больше власти в руках неподотчётных институтов и их машин. Влиятельная группа даже выступает за изменение или замену самого человечества. Эта гонка за замену представляет угрозу для стабильности общества, национальной безопасности, экономического процветания, гражданских свобод, неприкосновенности частной жизни и демократического управления. Она также ставит под угрозу человеческий опыт детства и семьи, веры и сообщества.

Замечательно широкая коалиция отвергает этот путь, объединённая простым убеждением: искусственный интеллект должен служить человечеству, а не наоборот. Существует лучший путь, где надёжные и управляемые инструменты ИИ усиливают, а не уменьшают человеческий потенциал, расширяют возможности людей, повышают человеческое достоинство, защищают индивидуальную свободу, укрепляют семьи и сообщества, сохраняют самоуправление и способствуют созданию беспрецедентного здоровья и процветания. Этот путь требует, чтобы те, кто обладает технологической мощью, были подотчетны человеческим ценностям и потребностям, поддерживая процветание человечества." - humanstatement.org

/via Future of Life Institute

Символ за символом

По-символьное извлечение конфиденциальной информации из ChatGPT

Wednesday, April 08, 2026

DRL в кибербезопасности

Глубокое обучение с подкреплением (DRL) достигло замечательных успехов в областях, требующих последовательного принятия решений, что мотивирует его применение к проблемам кибербезопасности. Однако переход от лабораторных симуляций к специализированным киберсредам может привести к многочисленным проблемам. Это еще больше усугубляется часто враждебным, нестационарным и частично наблюдаемым характером большинства задач кибербезопасности. В этой статье мы выявляем и систематизируем 11 методологических ошибок, которые часто встречаются в литературе по DRL для кибербезопасности (DRL4SEC) на этапах моделирования среды, обучения агентов, оценки производительности и развертывания системы. Проанализировав 66 значимых статей по DRL4SEC (2018-2025 гг.), мы количественно оцениваем распространенность каждой ошибки и обнаруживаем в среднем более пяти ошибок на статью. Мы демонстрируем практическое влияние этих ошибок, используя контролируемые эксперименты в (i) автономной киберзащите, (ii) создании враждебного вредоносного ПО и (iii) средах тестирования веб-безопасности. В заключение мы предлагаем практические рекомендации по каждой проблеме, чтобы поддержать разработку более строгих и пригодных для внедрения систем безопасности на основе DRL. - SoK: The Pitfalls of Deep Reinforcement Learning for Cybersecurity

Monday, April 06, 2026

Осведомленность о фишинге

Фишинг уже в течение довольно длительного времени остается одной из самых опасных кибератак. Будучи технически простым подходом в реализации для атакующих, будучи довольно хорошо распознаваемым инструментальными средствами, обладая явно распознаваемыми признаками, этот способ атаки все равно остается работающим. Причина – это пользователи, которые продолжают переходить по подготовленным вредоносным ссылкам. Именно люди оказываются слабым звеном, которое и обеспечивает успех фишинга. Отсюда большое внимание, которое уделяется в мире образованию (уведомлению) пользователей об опасности и характерных признаках фишинга. В настоящей статье мы хотим остановиться на существующих в мире программах обучения противодействия фишингу. Такие программы существуют на разных уровнях: национальных, академических, в частных компаниях. Основа таких тренировок – это определение учащимися фишинговых сообщений среди реальных текстов (почтовых сообщений). Особый интерес представляет собой шкала фишинга от NIST, которая позволяет оценивать сложность таких тренировочных примеров. - Осведомленность о фишинге - статья в журнале Современные информационные технологии и ИТ-образование

Sunday, April 05, 2026

Публикации по теме Искусственный интеллект в кибербезопасности 05.04.2026

Вопросы безопасности систем ИИ рассматриваются в двух магистерских программах факультета ВМК МГУ имени М.В. Ломоносова: Искусственный интеллект в кибербезопасности и Кибербезопасность. Ниже приведен список публикаций, подготовленных в процессе реализации этих программ по состоянию на 05.04.2026

Ильюшин Е. А., Намиот Д. Е. An approach to the automatic enhancement of the robustness of ml models to external influences on the example of the problem of biometric speaker identification by voice // International Journal of Open Information Technologies. — 2021. — Vol. 9, no. 6. — P. 11–19.

Намиот Д. Е., Ильюшин Е. А., Чижов И. В. Текущие академические и индустриальные проекты, посвященные устойчивому машинному обучению // International Journal of Open Information Technologies. — 2021. — Т. 9, № 10. — С. 35–46.

Намиот Д. Е., Ильюшин Е. А., Чижов И. В. Основания для работ по устойчивому машинному обучению // International Journal of Open Information Technologies. — 2021. — Т. 9, № 11. — С. 68–74.

Намиот Д. Е., Ильшин Е. А., Чижов И. В. Военные применения машинного обучения // International Journal of Open Information Technologies. — 2022. — Т. 10, № 1. — С. 69–76.

Ильюшин Е. А., Намиот Д. Е., Чижов И. В. Атаки на системы машинного обучения – общие проблемы и методы // International Journal of Open Information Technologies. — 2022. — Т. 10, № 3. — С. 17–22.

Namiot D., Ilyushin E. On monitoring of machine learning models // Distributed Computer and Communication Networks: Control, Computation, Communications (DCCN-2022) : материалы XXV международной научной конференции: Москва, 26–30 сентября 2022 года / под общ. ред. В. М. Вишневского и К. Е. Самуйлова. — РУДН Москва: 2022. — P. 150–157.

Namiot D., Ilyushin E., Chizhov I. On a formal verification of machine learning systems // International Journal of Open Information Technologies. — 2022. — Vol. 10, no. 5. — P. 30–34.

Huayu L., Namiot D. A survey of adversarial attacks and defenses for image data on deep learning // International Journal of Open Information Technologies. — 2022. — Vol. 10, no. 5. — P. 9–16.

Намиот Д., Ильюшин Е., Пилипенко О. Доверенные платформы искусственного интеллекта // International Journal of Open Information Technologies. — 2022. — Т. 10, № 7. — С. 119–127.

Намиот Д., Ильюшин Е. Порождающие модели в машинном обучении // International Journal of Open Information Technologies. — 2022. — Т. 10, № 7. — С. 101–118.

Биджиев Т. М., Намиот Д. Е. Исследование существующих подходов к встраиванию вредоносного программного обеспечения в искусственные нейронные сети // International Journal of Open Information Technologies. — 2022. — Т. 10, № 9. — С. 21–31.

Намиот Д. Е., Ильюшин Е. А. Об устойчивости и безопасности систем искусственного интеллекта // International Journal of Open Information Technologies. — 2022. — Т. 10, № 9. — С. 126–134.

Намиот Д. Е., Ильюшин Е. А., Чижов И. В. Искусственный интеллект и кибербезопасность // International Journal of Open Information Technologies. — 2022. — Т. 10, № 9. — С. 135–147.

Stroeva E., Tonkikh A. Methods for formal verification of artificial neural networks: A review of existing approaches // International Journal of Open Information Technologies. — 2022. — Vol. 10, no. 10. — P. 3.

Намиот Д., Ильюшин Е. Мониторинг сдвига данных в моделях машинного обучения // International Journal of Open Information Technologies. — 2022. — Т. 10, № 12. — С. 84–93.

Костюмов, Василий Владимирович. "Обзор и систематизация атак уклонением на модели компьютерного зрения." International Journal of Open Information Technologies 10.10 (2022): 11-20.

Намиот Д. Е., Ильюшин Е. А. О причинах неудач проектов машинного обучения // International Journal of Open Information Technologies. — 2023. — Т. 11, № 1. — С. 60–69.

Намиот Д. Е. Введение в атаки отравлением на модели машинного обучения // International Journal of Open Information Technologies. — 2023. — Т. 11, № 3. — С. 58–68.

Namiot D. E., Ilyushin E., Chizhov I. On the practical generation of counterfactual examples // Труды Института системного анализа Российской академии наук. — 2023. — Vol. 73, no. 1. — P. 73–81.

Junzhe S., Namiot D. E. A survey of model inversion attacks and countermeasures // Труды Института системного анализа Российской академии наук. — 2023. — Vol. 73, no. 1. — P. 82–93.

Junzhe S., Namiot D. A survey of the implementations of model inversion attacks // Communications in Computer and Information Science. — 2023. — Vol. 1748. — P. 3–16.

Намиот Д. Е. Схемы атак на модели машинного обучения // International Journal of Open Information Technologies. — 2023. — Т. 11, № 5. — С. 68–86.

On the evasion attack detector / L. Huayui, V. Kostyumov, O. Pilipenko, D. Namiot // DCCN 2023. Материалы конференции. — ИПУ РАН Москва: 2023. — P. 183–188.

Junzhe S., Namiot D. On the machine learning models inversion attack detector // DCCN 2023. Материалы конференции. — ИПУ РАН Москва: 2023. — P. 194.

Lozinskii I., Kostyumov V., Stroeva E. Extraction of trigger and mask from poisoned data using modified activation clustering and neural cleanse methods // International Journal of Open Information Technologies. — 2023. — Vol. 11, no. 7. — P. 1

Чехонина, Екатерина Андреевна, and Василий Владимирович Костюмов. "ОБЗОР СОСТЯЗАТЕЛЬНЫХ АТАК И МЕТОДОВ ЗАЩИТЫ ДЛЯ ДЕТЕКТОРОВ ОБЪЕКТОВ." International Journal of Open Information Technologies 11.7 (2023): 11-20.

Пришлецов Д. Е., Пришлецов С. Е., Намиот Д. Е. Камуфляж как состязательные атаки на модели машинного обучения // International Journal of Open Information Technologies. — 2023. — Т. 11, № 9. — С. 41–49.

Намиот Д. Е., Зубарева Е. В. О работе ai red team // International Journal of Open Information Technologies. — 2023. — Т. 11, № 10. — С. 130–139.

Намиот Д. Е., Ильюшин Е. А. Доверенные платформы искусственного интеллекта: сертификация и аудит // International Journal of Open Information Technologies. — 2024. — Т. 12, № 1. — С. 43–60.

Киржинов Д. А., Ильюшин Е. А. Сравнительный анализ алгоритмов атак и защиты на графовые архитектуры ИНС // International Journal of Open Information Technologies. — 2024. — Т. 12, № 2.

Намиот Д. Е., Романов В. Ю. Об улучшении робастности моделей машинного обучения // International Journal of Open Information Technologies. — 2024. — Т. 12, № 3. — С. 88–98.

Junzhe S., Namiot D. On real-time model inversion attacks detection // Lecture Notes in Computer Science. — 2024. — Vol. 14123. — P. 56–67.

Мударова Р. М., Намиот Д. Е. Противодействие атакам типа инъекция подсказок на большие языковые модели // International Journal of Open Information Technologies. — 2024. — Т. 12, № 5. — С. 39–48.

Намиот Д. Е., Ильюшин Е. А. Искусственный интеллект в кибербезопасности: поиск вредоносного программного обеспечения // International Journal of Open Information Technologies. — 2024. — Т. 12, № 6. — С. 143–149.

Lebed, S. V., et al. "Large Language Models in Cyberattacks." Doklady Mathematics. Vol. 110. No. Suppl 2. Moscow: Pleiades Publishing, 2024.

Селевенко Р. М., Строева Е. Н. Исследование и разработка алгоритма формальной верификации и метрики оценки качества на основе методов понижения размерности ИНС // INJOIT. — 2024. — Т. 12, № 6. — С. 2.

Биджиев Т. М., Намиот Д. Е. Атаки на модели машинного обучения, основанные на фреймворке pytorch // Автоматика и телемеханика. — 2024. — № 3. — С. 38–50.

Намиот Д. Е., Ильюшин Е. А. О сертификации систем искусственного интеллекта // Физика элементарных частиц и атомного ядра. — 2024. — Т. 55, № 3. — С. 530–536.

Намиот Д. Е., Куприяновский В. П., Пичугов А. А. Состязательные атаки для автономных транспортных средств // International Journal of Open Information Technologies. — 2024. — Т. 12, № 7. — С. 139–149.

Намиот Д. Е. О кибератаках с помощью систем Искусственного интеллекта // International Journal of Open Information Technologies. — 2024. — Т. 12, № 9. — С. 132–141.

Воробьев, Егор Александрович. "Анализ состязательных атак на системы сегментации изображений." International Journal of Open Information Technologies 12.10 (2024): 1-25.

Намиот Д. Е., Ильюшин Е. А. О киберрисках генеративного Искусственного Интеллекта // International Journal of Open Information Technologies. — 2024. — Т. 12, № 10. — С. 109–119.

Порывай, Максим Викторович. "Сравнительное исследование методов естественной аугментации изображений." International Journal of Open Information Technologies 12.10 (2024): 26-33.

Герасименко, Денис Валерьевич, and Дмитрий Евгеньевич Намиот. "Извлечение тренировочных данных: Риски и решения в контексте безопасности LLM." International Journal of Open Information Technologies 12.11 (2024): 9-19.

Костиков, Егор Вячеславович. "Методы анализа логов Sysmon для обнаружения киберугроз." International Journal of Open Information Technologies 12.11 (2024): 25-34.

Намиот Д. Е., Ильюшин Е. А. Архитектура LLM агентов //International Journal of Open Information Technologies. – 2025. – Т. 13. – №. 1. – С. 67-74.

Воробьев Е. А., Намиот Д. Е. Состязательное тестирование моделей сегментации изображений // Программная инженерия. — 2025. — Т. 16, № 4. — С. 190–198.

Намиот, Д. Е., and Е. А. Ильюшин. "Об оценке доверия к системам Искусственного интеллекта." International Journal of Open Information Technologies 13.3 (2025): 75-90.

Хамзаева, М. А., and О. Р. Лапонина. "Повышение устойчивости к состязательным атакам моделей машинного обучения для обнаружения межсайтового выполнения сценариев." International Journal of Open Information Technologies 13.6 (2025): 25-33.

Бербер, Д. В., and О. Р. Лапонина. "Разработка подходов к увеличению устойчивости моделей машинного обучения для обнаружения распределенных атак отказа обслуживания." International Journal of Open Information Technologies 13.6 (2025): 16-24.

Егорова, Е. С., and О. Р. Лапонина. "Состязательное тестирование моделей машинного обучения, предназначенных для обнаружения SQL-инъекций." International Journal of Open Information Technologies 13.6 (2025): 34-41.

Лапонина, О. Р., and Р. Н. Костин. "Разработка программного обеспечения моделирования угроз для систем на базе LLM-агентов." International Journal of Open Information Technologies 13.6 (2025): 132-146.

Намиот, Д. Е. "Что LLM знает о кибербезопасности." International Journal of Open Information Technologies 13.7 (2025): 37-46.

Намиот, Д. Е. "Искусственный Интеллект в. Кибербезопасности. Хроника. Выпуск 1." International Journal of Open Information Technologies 13.9 (2025): 34-42.

Намиот, Д. Е., and Е. А. Ильюшин. "О кибербезопасности ИИ-агентов." International Journal of Open Information Technologies 13.9 (2025): 13-24.

Егоров, М. Э., et al. "Объяснения моделей машинного обучения и состязательные атаки." International Journal of Open Information Technologies 13.9 (2025): 50-59.

Намиот, Д. Е., and Е. А. Ильюшин. "Уязвимости экосистемы MCP." International Journal of Open Information Technologies 13.10 (2025): 74-82.

Намиот, Д. Е. "Искусственный Интеллект в Кибербезопасности. Хроника. Выпуск 2." International Journal of Open Information Technologies 13.10 (2025): 58-67.

Poryvai, Maxim, and Dmitry Namiot. "On Natural Image Augmentation to Increase Robustness of Machine Learning Models." 2025 International Russian Automation Conference (RusAutoCon). IEEE, 2025.

Namiot D., Zubareva E. On open datasets for llm adversarial testing // Communications in Computer and Information Science. — 2025. — Vol. 2641. — P. 137–148. 

Намиот, Д. Е. "Искусственный Интеллект в Кибербезопасности. Хроника. Выпуск 3." International Journal of Open Information Technologies 13.11 (2025): 169-179.

Maloyan, Narek, Bislan Ashinov, and Dmitry Namiot. "Investigating the Vulnerability of LLM-as-a-Judge Architectures to Prompt-Injection Attacks."  arXiv preprint arXiv:2505.13348 (2025).

Maloyan, Narek, and Dmitry Namiot. "Adversarial Attacks on LLM-as-a-Judge Systems: Insights from Prompt Injections." arXiv preprint arXiv:2504.18333 (2025).

Намиот, Д. Е. "Искусственный Интеллект в Кибербезопасности. Хроника. Выпуск 4." International Journal of Open Information Technologies 14.1 (2026): 81-94.

Maloyan, Narek, and Dmitry Namiot. "Prompt Injection Attacks on Agentic Coding Assistants: A Systematic Analysis of Vulnerabilities in Skills, Tools, and Protocol Ecosystems." arXiv preprint arXiv:2601.17548 (2026).

Намиот, Д. Е. "Искусственный Интеллект в Кибербезопасности. Хроника. Выпуск 5." International Journal of Open Information Technologies 14.2 (2026): 47-57.

Maloyan, Narek, and Dmitry Namiot. "Breaking the Protocol: Security Analysis of the Model Context Protocol Specification and Prompt Injection Vulnerabilities in Tool-Integrated LLM Agents." arXiv preprint arXiv:2601.17549 (2026).

Намиот, Д. Е. "Искусственный Интеллект в Кибербезопасности. Хроника. Выпуск 6." International Journal of Open Information Technologies 14.3 (2026): 76-86.

Saturday, April 04, 2026

Контекстная безопасность агентов

Безопасность агентов LLM по своей природе контекстуальна. Например, одно и то же действие, предпринятое агентом, может представлять собой легитимное поведение или нарушение безопасности в зависимости от того, чья инструкция привела к действию, какая цель преследуется и служит ли действие этой цели. В этой работе мы представляем структуру, которая систематизирует существующие атаки и средства защиты с точки зрения контекстной безопасности. С этой целью мы предлагаем четыре свойства безопасности, которые отражают контекстную безопасность для агентов LLM: согласование задач (преследование авторизованных целей), согласование действий (отдельные действия, служатщие этим целям), авторизация источника (выполнение команд из аутентифицированных источников) и изоляция данных (обеспечение соблюдения границ привилегий в потоках информации). Мы также вводим набор функций оракула, которые позволяют проверять, нарушаются ли эти свойства безопасности при выполнении агентом пользовательской задачи. Используя эту структуру, мы переформулируем существующие атаки, такие как непрямая инъекция подсказок, прямая инъекция подсказок, взлом системы, дрейф задач и отравление памяти, как нарушения одного или нескольких свойств безопасности, тем самым предоставляя точные и контекстуальные определения этих атак. Аналогичным образом, мы переформулируем средства защиты как механизмы, которые усиливают функции оракула или выполняют проверки свойств безопасности. Наконец, мы обсуждаем несколько важных направлений будущих исследований, которые станут возможными благодаря нашей структуре. - A Framework for Formalizing LLM Agent Security

См. также другие публикации, посвященные агентам

Thursday, April 02, 2026

Универсальная атака на LLM

Агенты LLM, такие как Claude Code, могут не только писать код, но и использоваться для автономных исследований и разработок в области ИИ. Мы показываем, что конвейер в стиле автоматического исследования (Karpathy, 2026), работающий на базе Claude Code, обнаруживает новые алгоритмы атак типа «белый ящик», которые значительно превосходят все существующие (более 30) методы в оценках взлома и внедрения подсказок. Начиная с существующих реализаций атак, таких как GCG, агент итеративно создает новые алгоритмы, достигающие до 40% успешности атак на запросы CBRN против GPT-OSSSafeguard-20B, по сравнению с ≤10% для существующих алгоритмов. Обнаруженные алгоритмы обобщают: атаки, оптимизированные на суррогатных моделях, напрямую переносятся на отложенные модели, достигая 100% ASR против Meta-SecAlign-70B по сравнению с 56% для лучшего базового варианта . Расширяя результаты Carlini et al., 2025, наши результаты являются ранней демонстрацией того, что инкрементальные исследования в области безопасности могут быть автоматизированы с использованием агентов LLM. Метод «белого ящика» для противодействия угрозам особенно хорошо подходит для этого: существующие методы обеспечивают сильные отправные точки, а цель оптимизации дает плотную количественную обратную связь. Мы публикуем все обнаруженные атаки вместе с базовыми реализациями и кодом оценки по адресу https://github.com/romovpa/claudini - Claudini: Autoresearch Discovers State-of-the-Art Adversarial Attack Algorithms for LLMs

См. также другие публикации, посвященные LLM

Wednesday, April 01, 2026

Обнаружение дипфейков в реальном времени

В последние годы видеоконференции приобретают все более широкий размах, став неотъемлемым инструментом для проведения деловых совещаний, образовательных мероприятий и даже официальных правительственных встреч. Стремительное развитие технологий интернет-связи и доступность платформ видеоконференций (таких как Zoom, Microsoft Teams и Google Meet) способствуют переходу множества организаций на гибридные и дистанционные форматы работы. В результате глобальная аудитория пользователей онлайн-встреч исчисляется сотнями миллионов, и это число продолжает расти. Одновременно с расширением сферы применения видеоконференций возникает новая волна угроз, связанных с безопасностью и доверием участников. Среди таких угроз особенно выделяется феномен "дипфейков" (от англ. deepfakes), то есть синтетически сгенерированных или модифицированных аудио- и видеозаписей, которые практически невозможно отличить от оригинала невооруженным глазом. В работе рассматривается вопрос детектирования дипфейков в реальном времени в видеоконференциях. - Методы обнаружения дипфейков в видеоконференциях в реальном времени - статья в журнале Современные информационные технологии и ИТ-образование

Детектор AI-контента

Pangram. Последнее время, до 90% статей, поданных в журнал INJOIT, написаны нечеловеческим языком :(

Monday, March 30, 2026

Ломоносовские чтения 2026

Сборник докладов

Киберразведка Google

Google Threat Intelligence Group (GTIG) выпустила очередной квартальный отчет о кибербезопасности.

"Google DeepMind и GTIG выявили рост попыток извлечения моделей или «дистилляционных атак» — метода кражи интеллектуальной собственности, нарушающего условия предоставления услуг Google. В этом отчете мы описали шаги, предпринятые нами для предотвращения вредоносной деятельности, включая обнаружение, пресечение и нейтрализацию Google попыток извлечения моделей. Хотя мы не наблюдали прямых атак на перспективные модели или продукты генеративного ИИ со стороны субъектов, использующих сложные целевые атаки (APT), мы наблюдали и нейтрализовали частые атаки по извлечению моделей со стороны частных компаний по всему миру и исследователей, стремящихся клонировать собственную логику.

Для поддерживаемых государством субъектов, занимающихся киберпреступностью, большие языковые модели (LLM) стали важными инструментами для технических исследований, таргетинга и быстрого создания сложных фишинговых приманок. В этом ежеквартальном отчете освещается, как субъекты угроз из Корейской Народной Республики (КНДР), Ирана, Китайской Народной Республики (КНР) и России внедрили ИИ в свою деятельность в конце 2025 года, и улучшается наше понимание того, как злоупотребление генеративным ИИ проявляется в кампаниях, которые мы пресекаем в реальных условиях. GTIG пока не наблюдала случаев, когда APT-группировки или субъекты информационных операций (IO) достигли бы прорывных возможностей, коренным образом меняющих ландшафт угроз." - отсюда

Sunday, March 29, 2026

О безопасной работе агентов

Безопасность на уровне выполнения для агентов ИИ: agentsh ("оболочка агента") — это шлюз выполнения, работающий на основе политик, который перехватывает активность файлов, сети и процессов во время выполнения — независимо от того, что говорит приглашение, вывод инструмента или пользователь.

См. также другие публикации, посвященные агентам

Friday, March 27, 2026

Мультимодальный RAG

Что если RAG - это не только про текст? Но и про графы, изображения и т.д. Рекламная публикация от одного производителя БД.

Thursday, March 26, 2026

Караул для агентов

Агенты, использующие большие языковые модели (LLM), все чаще полагаются на внешние инструменты и системы поиска для автономного выполнения сложных задач. Однако такая конструкция делает агентов уязвимыми для косвенного внедрения подсказок (IPI), когда контролируемый злоумышленником контекст, встроенный в выходные данные инструмента или полученный контент, незаметно направляет действия агента в сторону, противоположную намерениям пользователя. В отличие от атак на основе подсказок, IPI разворачивается на протяжении нескольких циклов, что затрудняет отделение вредоносного управления от легитимного выполнения задачи. Существующие средства защиты на этапе вывода в основном полагаются на эвристическое обнаружение и консервативную блокировку действий с высоким риском, что может преждевременно завершать рабочие процессы или в целом подавлять использование инструментов в неоднозначных многоцикловых сценариях. Мы предлагаем AgentSentry, новую структуру обнаружения и смягчения последствий на этапе вывода для агентов LLM, дополненных инструментами. Насколько нам известно, AgentSentry — это первая система защиты на этапе вывода, которая моделирует многоцикловое внедрение подсказок как временное причинно-следственное поглощение. Он локализует точки захвата посредством контролируемых контрфактических повторных выполнений на границах возврата инструмента и обеспечивает безопасное продолжение работы за счет причинно-следственной очистки контекста, которая устраняет отклонения, вызванные атакой, сохраняя при этом релевантные для задачи доказательства. Мы оцениваем AgentSentry на бенчмарке AgentDojo по четырем наборам задач, трем семействам атак IPI и нескольким моделям LLM типа «черный ящик». AgentSentry исключает успешные атаки и поддерживает высокую полезность при атаке, достигая средней полезности при атаке (UA) 74,55%, улучшая UA на 20,8–33,6 процентных пункта по сравнению с самыми сильными базовыми показателями без ухудшения производительности в условиях безопасной среды. - AgentSentry: Mitigating Indirect Prompt Injection in LLM Agents via Temporal Causal Diagnostics and Context Purification

См. также другие публикации, посвященные агентам

А поговорить?

Новый протокол для агентов - A2H: A Protocol for Agent-to-Human Communication

См. также другие публикации, посвященные агентам

Wednesday, March 25, 2026

Вакансия: программист Raspberry Pi

«Абсолютные Технологии» — официальный дистрибьютор ИБП KEHUA в России. Уже 26 лет компания реализует комплексные проекты по системам гарантированного электроснабжения.

Ищет программиста для разработки новых продуктов.

Основные задачи:

Разработка ПО под одноплатные компьютеры с ОС Linux;
Разработка, поддержка и развитие сервисов Интернета вещей/Промышленного интернета вещей на Python 3+.

Ожидания от кандидата:

Уверенное владение языком Python и Linux, Fast API, SQL, Git;
Общее понимание функционирования интерфейсов (Ethernet/USB);
Навыки работы с одноплатными компьютерами;
Опыт интеграции с железом/IoT: SNMP, Modbus (pymodbus), serial (pyserial-asyncio), GPIO/индикаторы;
Опыт работы с веб-стеком: HTTP/HTTPS, вебсокет соединения;
Желательно знание основ любого фронтенд - фреймворка (Vue.js, React.js и тд) и опыт настройки/администрирования VPN-соединений (OpenVPN).

Компания предлагает:

Работу в стабильной компании с 26-летней историей;
Официальное оформление;
Фиксированный доход (обсуждается индивидуально);
Зарплатный проект ВТБ или любой удобный банк;
График работы: 5/2, 9:30–18:30;
Оплату комплексных обедов на территории работодателя;
Офис в шаговой доступности от м. Аэропорт.

/via https://hh.ru/vacancy/131304441

Под атакой

Большие языковые модели (LLM) широко используются в реальных системах. Учитывая их более широкое применение, разработка подсказок стала эффективным инструментом для организаций с ограниченными ресурсами, позволяющим внедрять LLM в собственных целях. В то же время БЛМ уязвимы для атак, основанных на подсказках. Таким образом, анализ этого риска стал критически важным требованием безопасности. В данной работе оценивается уязвимость внедрения подсказок и взлома системы с использованием большого, вручную подобранного набора данных для нескольких LLM с открытым исходным кодом, включая Phi, Mistral, DeepSeek-R1, Llama 3.2, Qwen и Gemma. Мы наблюдаем значительные различия в поведении моделей, включая отказы и полное молчаливое отсутствие реакции, вызванное внутренними механизмами безопасности. Кроме того, мы оценили несколько легковесных механизмов защиты, работающих во время вывода, которые действуют как фильтры без переобучения или интенсивной тонкой настройки на графическом процессоре. Хотя эти средства защиты смягчают прямые атаки, их постоянно обходят длинные, требующие логического обоснования вопросы. - Analysis of LLMs Against Prompt Injection and Jailbreak Attacks

Статья интересна тем, что авторы собрали довольно большую коллекцию состязательных запросов

См. также другие публикации, посвященные LLM

Очеловечиватель

Как удалить следы написания с помощью ИИ. Интересно такое сделать для русского языка

Monday, March 23, 2026

Состязательные атаки в партийной газете

Статья в газете Центральной партийной школы ЦК КПК "Сюэси Жибао" заместителя заведующего Отделом пропаганды ЦК КПК, руководителя Канцелярии по делам киберпространства ЦК КПК Чжуан Жунвэня, посвященная подведению итогов прошедшей пятилетки и анализу новых вызовов и задач в рамках новой. В тексте содежится описание основных инициатив Китая в сфере Интернет-пространства и технологий, описываются задачи защиты критической инфраструктуры, углубления работы с данными и развития управления ИИ.

Самое примечательное в тексте - это впервые упоминающиеся в официальном китайском дискурсе новые угрозы безопасности: 数据投毒 (атака типа "отравление данных" - внесение “плохих” данных, чтобы модель училась неправильно), 用户画像攻击 (атаки через профилирование пользователя и извлечение чувствительных выводов), 模型逆向推理 (обратный вывод из модели, попытки вытащить из нее скрытую информацию или свойства обучающих данных). Эти слова давно живут в китайской научной и экспертной среде, но здесь они впервые звучат в программном тексте уровня обсуждения пятилетки, что выводит технические задачи на уровень решения политических вопросов, про которые раньше в официальных текстах писали лишь в самом общем виде.

В США и ЕС похожая терминология используется давно, преимущественно в рекомендациях правового регулирования стандартов хранения и обработки данных (NIST, ENISA и другие), но такие документы остаются на уровне технической имплементации требований и рекомендаций по защите прав и инфраструктуры. В Китае упоминание терминологии новых угроз на уровне стратегического планирования пятилеток руководящими лицами может говорить о том, что за этим последует жесткое институциональное продолжение в виде требований, проверок и административных процедур на уровне обеспечения национальной безопасности.

/via Атлас Бойцзе

Thursday, March 19, 2026

Об основах государственного регулирования сфер применения технологий искусственного интеллекта в Российской Федерации

Генерацию незаконного контента - запретить. Опубликован черновик закона Об основах государственного регулирования сфер применения технологий искусственного интеллекта в Российской Федерации

"Разработчик модели искусственного интеллекта, оператор системы искусственного интеллекта, владелец сервиса искусственного интеллекта несут ответственность в соответствии с законодательством Российской Федерации за результат, полученный с использованием искусственного интеллекта, нарушающий законодательство Российской Федерации, при условии, что указанные лица заведомо знали или должны были знать о возможности получения такого результата с использованием модели, системы или сервиса искусственного интеллекта, разработчиком, оператором или владельцем которых они являются, если в результате следственных действий не будет доказано обратное." - о галлюцинациях (или о джелбрейках) точно все должны были знать ...

LLM Fuzzer

Большие языковые модели (LLM) получили широкое распространение в различных приложениях благодаря своей мощной способности генерировать текст, похожий на человеческий. Однако атаки с внедрением подсказок, которые включают перезапись исходных инструкций модели вредоносными подсказками для манипулирования сгенерированным текстом, вызвали серьезные опасения по поводу безопасности и надежности LLM. В этой статье мы предлагаем PROMPTFUZZ, новую тестовую среду, которая использует методы фаззинга для систематической оценки устойчивости LLM к атакам с внедрением подсказок. Вдохновленная программным фаззингом, PROMPTFUZZ выбирает перспективные начальные подсказки и генерирует разнообразный набор внедрений подсказок для оценки устойчивости целевой LLM. PROMPTFUZZ работает в два этапа: фаза подготовки, которая включает выбор перспективных начальных подсказок и сбор примеров с малым количеством примеров, и фаза фокусировки, которая использует собранные примеры для генерации разнообразных высококачественных внедрений подсказок. Используя сгенерированные PROMPTFUZZ подсказки для атаки в реальных условиях соревнований, мы достигли 7-го места среди более чем 4000 участников (в числе 0,14% лучших) в течение 2 часов, продемонстрировав эффективность PROMPTFUZZ по сравнению с опытными злоумышленниками. Кроме того, мы также протестировали сгенерированные подсказки для атаки на 50 популярных онлайн-приложениях, интегрированных с LLM, включая приложения от Coze и OpenAI, и обнаружили, что 92% из них могут быть использованы PROMPTFUZZ для взлома. Мы также запустили PROMPTFUZZ на 15 онлайн-приложениях для оценки резюме на основе LLM и обнаружили, что ответы 13 из этих приложений могут быть перехвачены PROMPTFUZZ. - PROMPTFUZZ: Harnessing Fuzzing Techniques for Robust Testing of Prompt Injection in LLMs

См. также другие публикации, посвященные LLM

Tuesday, March 17, 2026

LLM в атаке

Реальные операции по обеспечению безопасности в наступательных операциях по своей природе являются открытыми: злоумышленники исследуют неизвестные поверхности атаки, пересматривают гипотезы в условиях неопределенности и действуют без гарантированного успеха. Существующие оценки наступательных агентов на основе LLM основаны на закрытых средах с предопределенными целями и бинарными критериями успеха. Для решения этой проблемы мы представляем CyberExplorer, набор инструментов оценки, состоящий из двух основных компонентов: (1) открытого бенчмарка, построенного на виртуальной машине, на которой размещены 40 уязвимых веб-сервисов, полученных из реальных задач CTF, где агенты автономно выполняют разведку, выбор цели и эксплуатацию без предварительного знания местоположения уязвимостей; и (2) реактивной многоагентной структуры, поддерживающей динамическое исследование без предопределенных планов. CyberExplorer обеспечивает детальную оценку, выходящую за рамки восстановления флагов, фиксируя динамику взаимодействия, координационное поведение, режимы отказов и сигналы обнаружения уязвимостей, преодолевая разрыв между бенчмарками и реалистичными сценариями многоцелевых атак. - CyberExplorer: Benchmarking LLM Offensive Security Capabilities in a Real-World Attacking Simulation Environment

См. также другие публикации, посвященные LLM

Monday, March 16, 2026

MCP secure

Агенты языковых моделей, использующие встроенные инструменты, создают новые риски безопасности, поскольку их поведение развивается в рамках многоэтапных рабочих процессов, однако существующие средства защиты в основном полагаются на статические списки разрешенных или инфраструктурную изоляцию. В этой статье представлен MCP-Secure, облегченный уровень обеспечения на стороне хоста для протокола контекста модели (MCP), который применяет ограниченный доступ, настройки по умолчанию только для чтения и повышение привилегий с подтверждением во время выполнения. MCP-Secure отслеживает разрешения с помощью конечного автомата на уровне сессии и регулирует каждый вызов инструмента, не изменяя агенты или серверы MCP. Мы оцениваем работу фреймворка на 1080 выполнениях, охватывающих множество моделей, задач и симуляций враждебных действий. Результаты показывают, что ограниченный доступ сам по себе блокирует большинство небезопасных действий, обеспечение доступа только для чтения надежно нейтрализует все изменяющиеся векторы атак, а повышение привилегий с подтверждением поддерживает высокую безопасность, позволяя при этом контролируемые операции записи. В различных конфигурациях оболочка также формирует планирование работы агентов, уменьшая количество небезопасных попыток по мере ужесточения политик. Эти результаты демонстрируют, что MCP-Secure предоставляет практичный, воспроизводимый механизм для обеспечения соблюдения ограничений наименьших привилегий в системах LLM с поддержкой инструментов, предлагая сильную защиту от враждебного воздействия с интерпретируемым компромиссом между безопасностью и полезностью. - MCP-Secure: A Runtime Access Control Layer for Privilege-Aware LLM Agent Tooling

См. также другие публикации, посвященные MCP

Saturday, March 14, 2026

Зеленый щит

Крупные языковые модели (LLM) все чаще используются, однако их выходные данные могут быть нестабильными и чувствительными к обычным, неконфликтным изменениям в формулировке запросов пользователями, что является недостатком, недостаточно учитываемым существующими методами тестирования на проникновение. Мы предлагаем «Зеленую защиту» (Green Shielding) — ориентированную на пользователя исследовательскую программу для создания эмпирической основы для рекомендаций по внедрению путем характеристики того, как «безобидные» изменения входных данных влияют на поведение модели и выявляют практические компромиссы между релевантными задаче «целями». «Зеленая защита» реализуется с помощью трех компонентов: реалистичных эталонных показателей, «соответствующих задаче эталонных стандартов и метрик» и режимов возмущений, отражающих распространенные пользовательские «вариации». Мы применяем эту программу в медицинской диагностике. Во-первых, на обычных медицинских эталонных показателях с одним ответом мы показываем, что небольшие изменения в содержании, формате и тоне подсказки заметно влияют на правильность. Затем мы представляем HealthCareMagic-Diagnosis (HCM-Dx), новый эталонный показатель, полученный из набора данных HealthCareMagic-100K, состоящий из диагностических запросов, составленных пациентами и адаптированных для систематической оценки. Для этого тематического исследования мы создаем структурированные эталонные наборы диагнозов и клинически обоснованные метрики для оценки дифференциальных диагнозов, сохраняя при этом масштабируемость за счет построения эталонных данных с помощью LLM и автоматического сопоставления синонимичных диагнозов. В нескольких перспективных LLM мы обнаружили, что стандартные вариации подсказок демонстрируютпаретоподобные компромиссы между правдоподобностью, охватом высоковероятных и критически важных для безопасности состояний, и широтой дифференциальных диагнозов. В частности, нейтрализация подсказок, которая удаляет общие факторы на уровне пользователя, повышает правдоподобность и приводит к более кратким дифференциальным диагнозам, похожим на клинические, одновременно уменьшая охват высоковероятных и критически важных для безопасности состояний. В совокупности эти результаты показывают, что полезность и надежность зависят не только от возможностей модели, но и от выбора вариантов взаимодействия, и что Green Shielding помогает обосновать научно обоснованные, ориентированные на пользователя рекомендации для более безопасного внедрения в областях с высокими рисками. Тематическое исследование медицинской диагностики проводится в тесном сотрудничестве с клиницистами и руководствуется структурой PCS для достоверной науки о данных. Наши данные и код доступны по адресу https://github.com/aaron-jx-li/green-shielding. - Green Shielding: A User-Centric Approach Towards Trustworthy AI LLM-Assisted Medical Diagnosis as a Case Study

См. также другие публикации, посвященные LLM

Friday, March 13, 2026

Универсальный состязательный патч

Глубокие нейронные сети (DNN) значительно продвинулись в области компьютерного зрения и широко применяются в различных задачах. Однако эти модели остаются уязвимыми для атак с использованием состязательных элементов. Цель данного исследования — выявить угрозы, с которыми сталкиваются модели обнаружения в видимом и инфракрасном диапазонах в реальных условиях, и предложить унифицированный метод создания состязательных патчей, то есть единую конструкцию патча, эффективную как для видимого, так и для инфракрасного диапазонов, основанную на генетическом алгоритме. Этот метод позволяет проводить избирательные или сбалансированные атаки на детекторы видимого и инфракрасного диапазонов, обеспечивая углубленный анализ безопасности моделей в практических приложениях. Экспериментальные результаты показывают, что метод эффективно снижает точность модели обнаружения и демонстрирует эффекты атаки в смоделированных реальных условиях. Путем оптимизации формы состязательных патчей с использованием генетического алгоритма и адаптивной регулировки силы атаки в зависимости от модальности с помощью весовых коэффициентов, предлагаемый метод повышает гибкость и устойчивость к межмодальным атакам с использованием состязательных элементов. Кроме того, метод использует стратегию преобразования ожиданий (EOT), демонстрируя высокую устойчивость при различных точках зрения. Обширные эксперименты подтверждают эффективность метода, при этом показатель успешности атаки (ASR) превышает 89%. Данное исследование предоставляет теоретическую основу для повышения устойчивости и безопасности моделей и предлагает ценные идеи для критически важных приложений, таких как интеллектуальное видеонаблюдение. - Physical Multimodal Adversarial Attacks Against Object Detection Models in Industrial Monitoring Scenario

См. также другие публикации по теме физические атаки

Wednesday, March 11, 2026

Плохому не научит?

«Удачной (и безопасной) стрельбы!» - Чат-боты с искусственным интеллектом помогли подросткам планировать сцены насилия в сотнях тестов. Расследование CNN.

Универсальные атаки на LLM

Очередная попытка сделать универсальный атакующий фреймворк для LLM. В принципе, устройство у всех одинаковое. Берем словари известных атак и конструируем новые промпты по некоторым правилам. Вот, например: "В основе нашей структуры лежит широкая, основанная на политике таксономия категорий запросов высокого риска, включая насилие, хакерство, мошенничество, финансовые преступления, разжигание ненависти, нарушения конфиденциальности и многое другое. Каждая категория представлена подсказками, полученными как из общедоступных наборов данных, например, AdvBench, JailbreakBench, так и из проверенных экспертами синтетических примеров.
Для враждебного зондирования мы используем следующие основные методы:
  • Враждебные суффиксы: добавление компактной последовательности оптимизированных токенов или фраз к входной подсказке, которая систематически изменяет поведение модели при завершении запроса, чтобы получить определенные результаты.
  • Ролевая игра: представление запросов в виде вымышленного, гипотетического, или сценария, основанного на личности, чтобы побудить модель принять поведение или выдать результаты, которые в противном случае были бы ограничены.
  • Убеждение: Использование эмоциональных, социальных или авторитетных сигналов в запросе — таких как апелляции к экспертным знаниям, срочности или свидетельствам коллег — для того, чтобы склонить модель к выдаче более покладистых или разрешительных результатов.
  • Обфускация: Преобразование или сокрытие намерения запроса с помощью кодирования, нетипичной орфографии, перевода или других поверхностных искажений для обхода детекторов, основанных на шаблонах.
  • Многошаговое построение структуры запроса: Разбиение целевого запроса на последовательность промежуточных запросов или задач таким образом, что каждый шаг по отдельности является безопасным, но вся цепочка в целом дает запрещенный результат.
  • Предварительная подготовка в контексте: Предоставление выбранных примеров в запросе, которые неявно учат модель выдавать целевой тип (небезопасного) ответа.
  • Агрессивная токенизация: Агрессивная токенизация вредоносной строки для обхода ограничений безопасности и выравнивания моделей LLM.

Каждый запрос систематически сопоставляется с каждым методом атаки, генерируя детализированную сетку оценок действий противника. Наша структура разработана с учетом масштабируемости и расширяемости. Новые категории запросов и дополнительные методы исследования могут быть легко интегрированы, что позволяет постоянно адаптироваться к возникающим рискам и методам атак.

Вот схожие работы и похожий код

См. также другие публикации, посвященные LLM

Tuesday, March 10, 2026

Безопасность IoT

Быстрое распространение технологий Интернета вещей (IoT), число взаимосвязанных устройств которого, по прогнозам, к 2030 году превысит 30 миллиардов, значительно усложнило проблемы кибербезопасности. Цель данного обзора — предоставить всесторонний анализ уязвимостей, угроз и механизмов защиты, уделяя особое внимание интеграции сетевого и прикладного уровней в системы мониторинга и принятия решений в реальном времени. С использованием интегративной методологии обзора были отобраны 59 научных статей, опубликованных в период с 2009 по 2024 год, из таких баз данных, как IEEE Xplore, ScienceDirect и PubMed, с использованием ключевых слов, связанных с уязвимостями IoT и атаками на безопасность. Ключевые выводы определяют критически важные категории угроз, включая уязвимости датчиков, атаки типа «отказ в обслуживании» (DoS) и небезопасность публичных облачных сервисов. В свою очередь, исследование освещает передовые подходы к защите, использующие искусственный интеллект (ИИ) для обнаружения аномалий, блокчейн для децентрализованного доверия и архитектуру нулевого доверия (ZTA) для непрерывной проверки. В данной статье представлена новая пятиуровневая модель Интернета вещей и обозначены будущие направления исследований, связанные с квантовыми вычислениями и сетями 6G, для повышения устойчивости экосистемы Интернета вещей. - Cyberscurity Threats and Defense Mechanisms in IoT network

См. также другие публикации по теме IoT

Monday, March 09, 2026

MCP - щит

Протокол контекста модели (MCP) стандартизирует использование инструментов для агентов на основе LLM и позволяет использовать сторонние серверы. Эта открытость создает несоответствие в безопасности: агенты неявно доверяют инструментам, предоставляемым потенциально ненадежными серверами MCP. Однако, несмотря на свою превосходную полезность, существующие агенты обычно предлагают ограниченную проверку сторонних серверов MCP. В результате агенты остаются уязвимыми для атак на основе MCP, которые используют несоответствие между агентами и серверами на протяжении всего жизненного цикла вызова инструмента. В этой статье мы предлагаем MCPShield в качестве подключаемого уровня безопасности, обеспечивающего когнитивные функции, который смягчает это несоответствие, и гарантирует безопасность агентов при вызове инструментов на основе MCP. Вдохновленный человеческой проверкой инструментов на основе опыта, MCPShield помогает агентам формировать когнитивные функции безопасности с помощью проверки на основе метаданных перед вызовом. Наш метод ограничивает выполнение в контролируемых рамках при одновременном отслеживании событий во время выполнения и впоследствии обновляет понимание безопасности путем анализа исторических данных после вызова, опираясь на человеческое постэкспериментальное осмысление поведения инструмента. Эксперименты демонстрируют, что MCPShield демонстрирует высокую обобщающую способность при защите от шести новых сценариев атак на основе MCP в шести широко используемых агентных LLM, избегая ложных срабатываний на безопасных серверах и не требуя больших затрат на развертывание. В целом, наша работа обеспечивает практичную и надежную защиту от угроз безопасности при вызове инструментов на основе MCP в открытых агентских экосистемах. - MCPShield: A Security Cognition Layer for Adaptive Trust Calibration in Model Context Protocol Agents

См. другие публикации, посвященные MCP

Автоматизация атак на ИИ-агентов

Интересная магистерская диссертация из ETH: Automated Prompt Injection Attacks Against LLM Agents

Sunday, March 08, 2026

Быстрое переобучение

Длинные входные последовательности играют центральную роль в контекстном обучении, понимании документов и многошаговом рассуждении больших языковых моделей (LLM). Однако квадратичная стоимость внимания в трансформерах делает вывод ресурсоемким и медленным процессом с точки зрения памяти. Хотя дистилляция контекста (CD) может передавать информацию в параметры модели, дистилляция по каждому запросу непрактична из-за затрат на обучение и задержки. Для решения этих проблем мы предлагаем Doc-to-LoRA (D2L), легковесную гиперсеть, которая мета-обучается для выполнения приблизительной CD за один прямой проход. Получив неизвестный запрос, D2L генерирует адаптер LoRA для целевой LLM, позволяя отвечать на последующие запросы без повторного использования исходного контекста, уменьшая задержку и потребление памяти KV-кэша во время вывода целевой LLM. В задаче поиска иголки в стоге сена с длинным контекстом D2L успешно обучается сопоставлять контексты с адаптерами, которые хранят информацию об иголке, достигая почти идеальной точности без предварительного обучения при длине последовательности, превышающей собственное контекстное окно целевой LLM более чем в 4 раза. На реальных наборах данных для вопросов и ответов с ограниченными вычислительными ресурсами D2L превосходит стандартный CD, значительно снижая пиковое потребление памяти и задержку обновления. Мы предполагаем, что D2L может способствовать быстрой адаптации LLM, открывая возможность частого обновления знаний и персонализированного поведения в чате. - Doc-to-LoRA: Learning to Instantly Internalize Contexts

Очень интересно - это быстрая (за один проход) кастомизация LLM

См. также другие публикации, посвященные LLM

Saturday, March 07, 2026

Атаки губки для LLM

Атаки типа «губка» все чаще представляют угрозу для систем LLM, вызывая чрезмерные вычисления и DoS-атаки. Существующие средства защиты либо полагаются на статистические фильтры, которые не справляются с семантически значимыми атаками, либо используют статические детекторы на основе LLM, которые с трудом адаптируются по мере развития стратегий атак. Мы представляем SHIELD, многоагентную систему защиты с автоматическим восстановлением, основанную на трехэтапном агенте защиты, который интегрирует поиск семантического сходства, сопоставление шаблонов и рассуждения на основе LLM. Два вспомогательных агента — агент обновления знаний и агент оптимизации подсказок — образуют замкнутый цикл самовосстановления: когда атака обходит обнаружение, система обновляет развивающуюся базу знаний и уточняет инструкции защиты. Обширные эксперименты показывают, что SHIELD неизменно превосходит системы защиты на основе перплексии и автономные системы защиты LLM, достигая высоких показателей F1 как при несемантических, так и при семантических атаках типа «губка», демонстрируя эффективность агентного самовосстановления против развивающихся угроз истощения ресурсов. - SHIELD: An Auto-Healing Agentic Defense Framework for LLM Resource Exhaustion Attacks

См. также другие публикации, посвященные LLM

Friday, March 06, 2026

Глубокое обучение в детекции атак на LLM

Быстрое внедрение больших языковых моделей (LLM) в корпоративные и государственные системы вызвало серьезные проблемы безопасности, в частности, атаки с внедрением подсказок, использующие неспособность LLM различать управляющие инструкции от ненадежных пользовательских входных данных. В этом исследовании систематически сравниваются архитектуры нейронных сетей для обнаружения вредоносных подсказок, с акцентом на устойчивость к состязательным возмущениям на уровне символов — аспект, который остается сравнительно малоизученным в конкретном контексте обнаружения внедрения подсказок, несмотря на его признанную значимость в общей состязательной обработке естественного языка. Используя набор данных для обнаружения вредоносных подсказок (MPDD), содержащий 39 234 размеченных экземпляра, были оценены восемь архитектур — Dense DNN, CNN, BiLSTM, BiGRU, Transformer, ResNet и варианты CNN и BiLSTM на уровне символов — на основе стандартных метрик производительности (точность, F1-мера и AUC-ROC), коэффициентов устойчивости к состязательным возмущениям, связанным с интервалами и омоглифами, а также задержки вывода. Результаты показывают, что BiLSTM на уровне слов (3_Word_BiLSTM) показала наилучшие результаты на чистых образцах (точность = 0,9681, F1 = 0,9681), в то время как Transformer продемонстрировал более низкую точность (0,9190) и значительную уязвимость к атакам с использованием пробелов (устойчивость к атакам ρ𝑠𝑝𝑎𝑐𝑖𝑛𝑔=0,61). Напротив, BiLSTM на уровне символов продемонстрировала превосходную устойчивость (ρ𝑠𝑝𝑎𝑐𝑖𝑛𝑔=1,0, ρℎ𝑜𝑚𝑜𝑔𝑙𝑦𝑝ℎ=0,98 ), сохраняя высокую точность (0,9599) и обобщающую способность на внешних наборах данных с падением производительности всего на 2–4%. Эти результаты подчеркивают, что представления на уровне символов обеспечивают внутреннюю устойчивость к атакам обфускации, что позволяет рассматривать Char_BiLSTM как надежный компонент в стратегиях многоуровневой защиты для систем, интегрированных с LLM. - Comparative Benchmarking of Deep Learning Architectures for Detecting Adversarial Attacks on Large Language Models

См. также другие публикации, посвященные LLM

Thursday, March 05, 2026

Агенты и безопасность - совместимы ли эти понятия?

Современные архитектуры агентного ИИ принципиально несовместимы с требованиями безопасности и эпистемологическими требованиями научных рабочих процессов, имеющих высокую значимость. Проблема заключается не в недостаточном согласовании или недостаточных механизмах защиты, а в архитектуре: авторегрессивные языковые модели обрабатывают все токены единообразно, что делает детерминированное разделение команд и данных недостижимым только за счет обучения. Мы утверждаем, что детерминированное, архитектурное обеспечение, а не вероятностно изученное поведение, является необходимым условием для надежной науки с использованием ИИ. Мы представляем архитектуру защиты «Тринити», которая обеспечивает безопасность с помощью трех механизмов: управление действиями посредством конечного исчисления действий с обеспечением контроля с помощью монитора ссылок, управление потоком информации с помощью обязательных меток доступа, предотвращающих утечку информации между областями видимости, и разделение привилегий, изолирующее восприятие от выполнения. Мы показываем, что без неподделываемой информации о происхождении и детерминированного посредничества «Смертельная триада» (ненадежные входные данные, привилегированный доступ к данным, возможность внешних действий) превращает безопасность авторизации в проблему обнаружения уязвимостей: основанные на обучении средства защиты могут снизить эмпирические показатели атак, но не могут обеспечить детерминированные гарантии. Сообщество машинного обучения должно признать, что согласование недостаточно для обеспечения безопасности авторизации, и что архитектурное посредничество необходимо, прежде чем агентный ИИ сможет быть безопасно развернут в важных научных областях. - Trustworthy Agentic AI Requires Deterministic Architectural Boundaries

См. также другие публикации, посвященные агентам

Wednesday, March 04, 2026

Детекция косвенных инъекций подсказок

Большие языковые модели (LLM) уязвимы для атак с внедрением вредоносных инструкций (IPIA), когда вредоносные инструкции внедряются во внешний контент, а не напрямую вводятся пользователем. В этом исследовании представлен подход к обнаружению на основе встраивания, который анализирует семантическую связь между намерением пользователя и внешним контентом, что позволяет на ранней стадии выявлять IPIA, которые упускают из виду традиционные средства защиты. Мы также предоставляем набор данных из 70 000 образцов, созданный с использованием 35 000 вредоносных экземпляров из набора данных BIPIA (Benchmark for Indirect Prompt Injection Attacks) и 35 000 безопасных экземпляров, сгенерированных с помощью ChatGPT-4o-mini. Кроме того, мы провели сравнительный анализ трех моделей встраивания, а именно OpenAI text-embedding-3-small, GTE-large и MiniLM-L6-v2, оцененных в сочетании с классификаторами XGBoost, LightGBM и Random Forest. Наилучшая конфигурация, использующая эмбеддинги OpenAI с XGBoost, достигла точности 97,7% и F1-меры 0,977, что соответствует или превосходит производительность существующих методов обнаружения IPIA, предлагая при этом практические преимущества развертывания. В отличие от подходов, ориентированных на предотвращение, которые требуют модификации базовой архитектуры LLM, предлагаемый метод работает как независимый от модели внешний слой обнаружения со средним временем вывода 0,001 мс на образец. Этот подход, основанный на обнаружении, дополняет существующие механизмы предотвращения, предоставляя легковесное, масштабируемое решение, которое может быть интегрировано в конвейеры LLM без необходимости архитектурных изменений. - Embedding-Based Detection of Indirect Prompt Injection Attacks in Large Language Models Using Semantic Context Analysis

См. также другие публикации, посвященные LLM

Tuesday, March 03, 2026

Конференция "Искусственный интеллект: практическое приложение, вопросы доверия и информационной безопасности" 2026

Материалы выступлений:

Пленарное заседание. РАЗВИТИЕ ИИ В ОТРАСЛЯХ И РЕГИОНАХ. ПРОГНОЗЫ И ПЕРСПЕКТИВЫ


Евгений Хасин, Минцифры РФ: Искусственный интеллект. Вопросы доверия и безопасности
Василий Елистратов, Управление Президента РФ по государственной политике в сфере оборонно-промышленного комплекса: Применение технологий искусственного интеллекта в интересах обеспечения обороноспособности страны
Эдуард Шантаев, ФГАУ "ЦИТ": Развитие и перспективы внедрения в промышленность передовых технологий ИИ
Евгений Бурнаев, Сколтех: ИИ под контролем: риски в агентных системах и методы их управления
Вячеслав Береснев, Ассоциация лабораторий по развитию искусственного интеллекта: Проблема доверия в рынке ИИ. Методы решения

Секция. Применение искусственного интеллекта в различных секторах экономики


Евгений Осадчук, АНО "Цифровая экономика": Тренды применения ИИ в отраслях
Андрей Королев, Госкорпорация "Росатом": Об опыте использования искусственного интеллекта (ИИ) в корпорации Росатом
Дмитрий Вандышев, СберТех: Комплексная защита AI в СберТехе
Алексей Парфентьев, Сёрчинформ: Технологии ИИ для защиты конфиденциальной информации
Владислав Тушканов, Лаборатория Касперского: ИИ в SOC: желания и возможности
Дмитрий Узлов, Мобиус Безопасность: ИИ как серая зона ИБ: по секрету всему свету
Пётр Метёлкин, ФГУП "ЗащитаИнфоТранс": Искусственный интеллект в отрасли транспорта и логистики. Актуальные вызовы и возможности
Алексей Титов, ГК ФСК: Проектирование цифровых решений с ИИ: подходы и практика
Алексей Остроушко, Сеть клиник "Будь здоров": Практический опыт использования ИИ в сети клиник Будь Здоров

Круглый стол. ИИ-разработка сегодня: требования, стандарты, риски, вопросы безопасности


Евгений Бурнаев, Сколтех: Инженерный ИИ: интеллектуальная автоматизация сложных циклов проектирования и управления инженерными системами
Сергей Денисов, Альфа-Банк: Автономные агенты и автоматизация бизнес-процессов
Евгений Колесников, Яндекс: Создание кодового ассистента
Михаил Куляскин, X5 Tech: От слов к данным: строим Text2SQL ассистента для бизнеса
Алексей Щербаков, СберТех: "Свой Copilot" — свои уязвимости: почему локальная LLM для разработки не панацея безопасности

Оценка рисков для агентов

Агентные системы быстро переходят в производство, где они считывают ненадежные входные данные, вызывают инструменты с реальными правами доступа и действуют автономно, расширяя поверхность безопасности за пределы моделей, основанных на общении. Однако стандартные оценки остаются одноэтапными и не позволяют выявить многоступенчатые уязвимости агентов. Мы представляем систематическую структуру «черного ящика» для оценки агентов с учетом рисков, требующую только базового описания системы. Наш подход вводит: (1) семидоменную таксономию, сопоставляющую наблюдаемое поведение с категориями риска, (2) полностью автоматизированную работу SAGE-RT red команд, создающую 120 сценариев противодействия для каждого домена, и (3) оценку, проверенную людьми с использованием экспертов LLM. Эмпирическая проверка на двух архитектурах агентов (CrewAI и AutoGen) с четырьмя базовыми моделями выявляет тревожные закономерности: 56,25% среднего риска управления, 65% риска конфиденциальности в многоагентных конфигурациях и уязвимости поведения агентов, достигающие 85%. Наш подход «черного ящика» эффективно выявляет критические архитектурные уязвимости без привилегированного доступа, обеспечивая масштабируемый путь к более безопасному развертыванию агентов. - Black-Box Red Teaming of Agentic AI: A Taxonomy-Driven Framework for Automated Risk Discovery

См. также другие публикации, посвященные агентам

Monday, March 02, 2026

О содержательном тестировании ИИ-агентов

ИИ-агенты, автономно взаимодействующие с внешними инструментами и средами, демонстрируют большие перспективы в реальных приложениях. Однако внешние данные, которые потребляет агент, также приводят к риску атак с непрямым внедрением подсказок, когда вредоносные инструкции, встроенные в сторонний контент, перехватывают поведение агента. Опираясь на такие бенчмарки, как AgentDojo, был достигнут значительный прогресс в разработке защиты от указанных атак. По мере развития технологии и все большего использования агентов для решения более сложных задач, возникает все более острая необходимость в развитии бенчмарка, чтобы он отражал угрозы, с которыми сталкиваются новые агентные системы. В этой работе мы выявляем три фундаментальных недостатка в существующих бенчмарках и продвигаем границы в этих направлениях: (i) отсутствие динамических задач с открытым концом, (ii) отсутствие полезных инструкций и (iii) упрощенные задачи для пользователей. Чтобы преодолеть этот разрыв, мы представляем AgentDyn, разработанный вручную бенчмарк, включающий 60 сложных задач с открытым концом и 560 тестовых случаев внедрения кода в сферах покупок, GitHub и повседневной жизни. В отличие от предыдущих статических бенчмарков, AgentDyn требует динамического планирования и включает полезные инструкции от сторонних разработчиков. Наша оценка десяти передовых средств защиты показывает, что почти все существующие средства защиты либо недостаточно безопасны, либо страдают от значительной избыточной защиты, что свидетельствует о том, что существующие средства защиты все еще далеки от реального применения. Наш бенчмарк доступен по адресу https://github.com/leolee99/AgentDyn - AgentDyn: A Dynamic Open-Ended Benchmark for Evaluating Prompt Injection Attacks of Real-World Agent Security System

См. также другие публикации, посвященные агентам

INJOIT vol. 14, no. 3

Вышел третий номер журнала INJOIT в 2026 году. И четырнадцатый год издания журнала.

Темы статей:

  • Mathematical Modeling of Geo-thermo-mechanical Processes in Lithospheric-asthenospheric Subduction Systems using Numerical Methods
  • Математическое моделирование восстановления глубины расположения заряда в уплотняемых гидровзрывом лёссах
  • Оптимизация периодичности тестирования памяти вычислительных систем
  • Сравнение методов векторизации названий товаров: Компромисс между точностью и вычислительной эффективностью в e-commerce
  • Сравнение нейросетевых архитектур для распознавания русской речи с иностранным акцентом
  • Выбор целевых признаков для классификации и кластерного анализа структур отношений объектов
  • Метод объяснимости трансформера BERT при решении задачи классификации текстов
  • Statistical Analysis of Subproblems Bound Distributions in the Branch-and-Bound Algorithm for Random Traveling Salesman Instances
  • RESC: Relation Extraction by Sequence Compression
  • Математическое и алгоритмическое обеспечение для поддержки принятия решений при составлении расписания
  • Deep Learning Approach Towards Plant Disease Detection
  • Искусственный Интеллект в Кибербезопасности. Хроника. Выпуск 6
  • Математическая модель гибридной системы противодействия угрозам нарушения информационной безопасности в информационных системах на основе квантового распределения ключей и постквантовой криптографии
  • LLM4CodeSec: A Framework for Evaluating the Effectiveness of Large Language Models in Source Code Vulnerability Detection
  • RISC-V и приложения Искусственного Интеллекта

Архив журнала находится здесь.

/via Лаборатория ОИТ

Sunday, March 01, 2026

Искусственный интеллект в кибербезопасности. Хроника. Выпуск 6

В настоящей статье представлен очередной, уже шестой по счёту, выпуск нашего регулярного аналитического дайджеста. Эта серия материалов посвящена всестороннему изучению динамично развивающейся области, находящейся на пересечении технологий искусственного интеллекта (ИИ) и кибербезопасности. Основная задача, которую мы ставим перед собой в рамках данной инициативы, заключается в последовательном мониторинге глобальной повестки и глубоком структурировании наиболее значимых событий. Мы стремимся не просто собирать информацию, но и тщательно анализировать законодательные новации, ключевые инциденты, а также прорывные технологические решения, формирующие ландшафт современной кибербезопасности в контексте развития ИИ.

Архитектура каждого выпуска нашей серии неизменна и включает в себя три тематических блока, позволяющих комплексно охватить предметную область. Первый блок посвящен разбору инцидентной базы и анализу актуальных угроз. Здесь мы детально рассматриваем реальные практические кейсы, выявляем новые уязвимости и оцениваем возникающие риски, напрямую связанные с интеграцией алгоритмов искусственного интеллекта в защитные контуры и атакующие инструментарии. Второе направление нашей работы - это детальный обзор текущего состояния и динамики нормативно-правового поля. Понимание этих процессов крайне важно, поскольку именно они формируют те правовые и операционные рамки, в которых предстоит развиваться безопасным системам искусственного интеллекта в ближайшем будущем. Наконец, третий блок нашей аналитики - это научно-технологическая хроника. Каждый выпуск содержит тщательно составленный аннотированный перечень наиболее значимых, по нашему мнению, научных статей, исследовательских отчетов авторитетных центров и описаний инновационных разработок. - отсюда