Tuesday, September 30, 2025

Фишинг будущего

Довольно подробное исследование современного фишинга

см. также другие публикации по теме фишинг

Учебный курс по LLM

ETH - Large Language Models, Spring 2025.

/via Florian Tramèr. На странице лаборатории в ETH есть и другие интересные курсы

P.S. См. также другие публикации, посвященные LLM

Удар автоматизацией по фишингу

В 2024 году рабочая группа по борьбе с фишингом выявила более миллиона фишинговых страниц. Фишеры достигают такого масштаба, используя фишинговые наборы — готовые к использованию фишинговые веб-сайты — для быстрого развертывания фишинговых кампаний с использованием специфических методов извлечения данных, уклонения от их обнаружения или мимикрии. В отличие от этого, исследователи и защитники прав потребителей продолжают бороться с фишингом на постраничной основе и полагаются на ручной анализ для распознавания статических признаков, при идентификации наборов. Цель данной статьи — помочь исследователям и аналитикам, автоматически дифференцируя группы фишинговых страниц на основе лежащего набора, автоматизируя ранее выполняемый вручную процесс и позволяя нам измерять популярность различных клиентских методов в этих группах. Для обнаружения наборов наша система обеспечивает точность 97% на основе набора данных из 548 семейств наборов, развернутых на 4562 фишинговых URL-адресах. На немаркированном наборе данных мы используем сложность JavaScript-логики 434 050 фишинговых страниц, чтобы сгруппировать их в 11 377 кластеров, аннотируя кластеры с указанием фишинговых техник, которые они используют. Мы обнаружили, что интерактивность пользовательского интерфейса и базовая идентификация являются универсальными методами, присутствующими в 90% и 80% кластеров соответственно. С другой стороны, обнаружение мыши с помощью интерфейса мыши браузера является одним из самых редких видов поведения, несмотря на то, что оно использовалось при развертывании 7-летнего открытого фишингового набора. Наши методы и результаты предоставляют исследователям и аналитикам новые способы борьбы с большим количеством фишинговых страниц. - Characterizing Phishing Pages by JavaScript Capabilities

см. также другие публикации по теме фишинг

Monday, September 29, 2025

Яндекс Neuro Scale 2025

Презентации конференции

Записи докладов

Многослойная защита агентов ИИ

Атаки с использованием инъекций подсказок представляют собой серьёзную уязвимость в развёртываниях на основе больших языковых моделей (LLM), где вредоносные инструкции, встроенные в пользовательские вводимые данные, могут переопределять системные подсказки и вызывать непреднамеренное поведение. В данной статье представлена новая многоагентная структура защиты, которая использует специализированные агенты LLM в скоординированных конвейерах для обнаружения и нейтрализации атак с использованием инъекций подсказок в режиме реального времени. Мы оцениваем наш подход, используя две различные архитектуры: последовательный конвейер с цепочкой агентов и иерархическую систему на основе координатора. Наша комплексная оценка 55 уникальных атак с использованием инъекций подсказок, сгруппированных в 8 категорий и в общей сложности охватывающая 400 случаев атак на двух платформах LLM (ChatGLM и Llama2), демонстрирует значительное повышение безопасности. Без использования механизмов защиты базовый показатель успешности атак (ASR) достигал 30% для ChatGLM и 20% для Llama2. Наш многоагентный конвейер достиг 100%-ного снижения риска, снизив показатель ASR до 0% во всех протестированных сценариях. Фреймворк демонстрирует устойчивость к различным категориям атак, включая прямое переопределение, попытки выполнения кода, кражу данных и методы обфускации, сохраняя при этом функциональность системы для легитимных запросов. - A Multi-Agent LLM Defense Pipeline Against Prompt Injection Attacks

Результаты каждого действия проверяет другая LLM

См. также другие публикации, посвященные LLM

P.P.S. См. также другие публикации, посвященные агентам

Sunday, September 28, 2025

Публикации по теме Искусственный интеллект в кибербезопасности 28.09.2025

Вопросы безопасности систем ИИ рассматриваются в двух магистерских программах факультета ВМК МГУ имени М.В. Ломоносова: Искусственный интеллект в кибербезопасности и Кибербезопасность. Ниже приведен список публикаций, подготовленных в процессе реализации этих программ по состоянию на 28.09.2025

Ильюшин Е. А., Намиот Д. Е. An approach to the automatic enhancement of the robustness of ml models to external influences on the example of the problem of biometric speaker identification by voice // International Journal of Open Information Technologies. — 2021. — Vol. 9, no. 6. — P. 11–19.

Намиот Д. Е., Ильюшин Е. А., Чижов И. В. Текущие академические и индустриальные проекты, посвященные устойчивому машинному обучению // International Journal of Open Information Technologies. — 2021. — Т. 9, № 10. — С. 35–46.

Намиот Д. Е., Ильюшин Е. А., Чижов И. В. Основания для работ по устойчивому машинному обучению // International Journal of Open Information Technologies. — 2021. — Т. 9, № 11. — С. 68–74.

Намиот Д. Е., Ильшин Е. А., Чижов И. В. Военные применения машинного обучения // International Journal of Open Information Technologies. — 2022. — Т. 10, № 1. — С. 69–76.

Ильюшин Е. А., Намиот Д. Е., Чижов И. В. Атаки на системы машинного обучения – общие проблемы и методы // International Journal of Open Information Technologies. — 2022. — Т. 10, № 3. — С. 17–22.

Namiot D., Ilyushin E. On monitoring of machine learning models // Distributed Computer and Communication Networks: Control, Computation, Communications (DCCN-2022) : материалы XXV международной научной конференции: Москва, 26–30 сентября 2022 года / под общ. ред. В. М. Вишневского и К. Е. Самуйлова. — РУДН Москва: 2022. — P. 150–157.

Namiot D., Ilyushin E., Chizhov I. On a formal verification of machine learning systems // International Journal of Open Information Technologies. — 2022. — Vol. 10, no. 5. — P. 30–34.

Huayu L., Namiot D. A survey of adversarial attacks and defenses for image data on deep learning // International Journal of Open Information Technologies. — 2022. — Vol. 10, no. 5. — P. 9–16.

Намиот Д., Ильюшин Е., Пилипенко О. Доверенные платформы искусственного интеллекта // International Journal of Open Information Technologies. — 2022. — Т. 10, № 7. — С. 119–127.

Намиот Д., Ильюшин Е. Порождающие модели в машинном обучении // International Journal of Open Information Technologies. — 2022. — Т. 10, № 7. — С. 101–118.

Биджиев Т. М., Намиот Д. Е. Исследование существующих подходов к встраиванию вредоносного программного обеспечения в искусственные нейронные сети // International Journal of Open Information Technologies. — 2022. — Т. 10, № 9. — С. 21–31.

Намиот Д. Е., Ильюшин Е. А. Об устойчивости и безопасности систем искусственного интеллекта // International Journal of Open Information Technologies. — 2022. — Т. 10, № 9. — С. 126–134.

Намиот Д. Е., Ильюшин Е. А., Чижов И. В. Искусственный интеллект и кибербезопасность // International Journal of Open Information Technologies. — 2022. — Т. 10, № 9. — С. 135–147.

Stroeva E., Tonkikh A. Methods for formal verification of artificial neural networks: A review of existing approaches // International Journal of Open Information Technologies. — 2022. — Vol. 10, no. 10. — P. 3.

Намиот Д., Ильюшин Е. Мониторинг сдвига данных в моделях машинного обучения // International Journal of Open Information Technologies. — 2022. — Т. 10, № 12. — С. 84–93.

Костюмов, Василий Владимирович. "Обзор и систематизация атак уклонением на модели компьютерного зрения." International Journal of Open Information Technologies 10.10 (2022): 11-20.

Намиот Д. Е., Ильюшин Е. А. О причинах неудач проектов машинного обучения // International Journal of Open Information Technologies. — 2023. — Т. 11, № 1. — С. 60–69.

Намиот Д. Е. Введение в атаки отравлением на модели машинного обучения // International Journal of Open Information Technologies. — 2023. — Т. 11, № 3. — С. 58–68.

Namiot D. E., Ilyushin E., Chizhov I. On the practical generation of counterfactual examples // Труды Института системного анализа Российской академии наук. — 2023. — Vol. 73, no. 1. — P. 73–81.

Junzhe S., Namiot D. E. A survey of model inversion attacks and countermeasures // Труды Института системного анализа Российской академии наук. — 2023. — Vol. 73, no. 1. — P. 82–93.

Junzhe S., Namiot D. A survey of the implementations of model inversion attacks // Communications in Computer and Information Science. — 2023. — Vol. 1748. — P. 3–16.

Намиот Д. Е. Схемы атак на модели машинного обучения // International Journal of Open Information Technologies. — 2023. — Т. 11, № 5. — С. 68–86.

On the evasion attack detector / L. Huayui, V. Kostyumov, O. Pilipenko, D. Namiot // DCCN 2023. Материалы конференции. — ИПУ РАН Москва: 2023. — P. 183–188.

Junzhe S., Namiot D. On the machine learning models inversion attack detector // DCCN 2023. Материалы конференции. — ИПУ РАН Москва: 2023. — P. 194.

Lozinskii I., Kostyumov V., Stroeva E. Extraction of trigger and mask from poisoned data using modified activation clustering and neural cleanse methods // International Journal of Open Information Technologies. — 2023. — Vol. 11, no. 7. — P. 1

Чехонина, Екатерина Андреевна, and Василий Владимирович Костюмов. "ОБЗОР СОСТЯЗАТЕЛЬНЫХ АТАК И МЕТОДОВ ЗАЩИТЫ ДЛЯ ДЕТЕКТОРОВ ОБЪЕКТОВ." International Journal of Open Information Technologies 11.7 (2023): 11-20.

Пришлецов Д. Е., Пришлецов С. Е., Намиот Д. Е. Камуфляж как состязательные атаки на модели машинного обучения // International Journal of Open Information Technologies. — 2023. — Т. 11, № 9. — С. 41–49.

Намиот Д. Е., Зубарева Е. В. О работе ai red team // International Journal of Open Information Technologies. — 2023. — Т. 11, № 10. — С. 130–139.

Намиот Д. Е., Ильюшин Е. А. Доверенные платформы искусственного интеллекта: сертификация и аудит // International Journal of Open Information Technologies. — 2024. — Т. 12, № 1. — С. 43–60.

Киржинов Д. А., Ильюшин Е. А. Сравнительный анализ алгоритмов атак и защиты на графовые архитектуры ИНС // International Journal of Open Information Technologies. — 2024. — Т. 12, № 2.

Намиот Д. Е., Романов В. Ю. Об улучшении робастности моделей машинного обучения // International Journal of Open Information Technologies. — 2024. — Т. 12, № 3. — С. 88–98.

Junzhe S., Namiot D. On real-time model inversion attacks detection // Lecture Notes in Computer Science. — 2024. — Vol. 14123. — P. 56–67.

Мударова Р. М., Намиот Д. Е. Противодействие атакам типа инъекция подсказок на большие языковые модели // International Journal of Open Information Technologies. — 2024. — Т. 12, № 5. — С. 39–48.

Намиот Д. Е., Ильюшин Е. А. Искусственный интеллект в кибербезопасности: поиск вредоносного программного обеспечения // International Journal of Open Information Technologies. — 2024. — Т. 12, № 6. — С. 143–149.

Lebed, S. V., et al. "Large Language Models in Cyberattacks." Doklady Mathematics. Vol. 110. No. Suppl 2. Moscow: Pleiades Publishing, 2024.

Селевенко Р. М., Строева Е. Н. Исследование и разработка алгоритма формальной верификации и метрики оценки качества на основе методов понижения размерности ИНС // INJOIT. — 2024. — Т. 12, № 6. — С. 2.

Биджиев Т. М., Намиот Д. Е. Атаки на модели машинного обучения, основанные на фреймворке pytorch // Автоматика и телемеханика. — 2024. — № 3. — С. 38–50.

Намиот Д. Е., Ильюшин Е. А. О сертификации систем искусственного интеллекта // Физика элементарных частиц и атомного ядра. — 2024. — Т. 55, № 3. — С. 530–536.

Намиот Д. Е., Куприяновский В. П., Пичугов А. А. Состязательные атаки для автономных транспортных средств // International Journal of Open Information Technologies. — 2024. — Т. 12, № 7. — С. 139–149.

Намиот Д. Е. О кибератаках с помощью систем Искусственного интеллекта // International Journal of Open Information Technologies. — 2024. — Т. 12, № 9. — С. 132–141.

Воробьев, Егор Александрович. "Анализ состязательных атак на системы сегментации изображений." International Journal of Open Information Technologies 12.10 (2024): 1-25.

Намиот Д. Е., Ильюшин Е. А. О киберрисках генеративного Искусственного Интеллекта // International Journal of Open Information Technologies. — 2024. — Т. 12, № 10. — С. 109–119.

Порывай, Максим Викторович. "Сравнительное исследование методов естественной аугментации изображений." International Journal of Open Information Technologies 12.10 (2024): 26-33.

Герасименко, Денис Валерьевич, and Дмитрий Евгеньевич Намиот. "Извлечение тренировочных данных: Риски и решения в контексте безопасности LLM." International Journal of Open Information Technologies 12.11 (2024): 9-19.

Костиков, Егор Вячеславович. "Методы анализа логов Sysmon для обнаружения киберугроз." International Journal of Open Information Technologies 12.11 (2024): 25-34.

Намиот Д. Е., Ильюшин Е. А. Архитектура LLM агентов //International Journal of Open Information Technologies. – 2025. – Т. 13. – №. 1. – С. 67-74.

Воробьев Е. А., Намиот Д. Е. Состязательное тестирование моделей сегментации изображений // Программная инженерия. — 2025. — Т. 16, № 4. — С. 190–198.

Намиот, Д. Е., and Е. А. Ильюшин. "Об оценке доверия к системам Искусственного интеллекта." International Journal of Open Information Technologies 13.3 (2025): 75-90.

Хамзаева, М. А., and О. Р. Лапонина. "Повышение устойчивости к состязательным атакам моделей машинного обучения для обнаружения межсайтового выполнения сценариев." International Journal of Open Information Technologies 13.6 (2025): 25-33.

Бербер, Д. В., and О. Р. Лапонина. "Разработка подходов к увеличению устойчивости моделей машинного обучения для обнаружения распределенных атак отказа обслуживания." International Journal of Open Information Technologies 13.6 (2025): 16-24.

Егорова, Е. С., and О. Р. Лапонина. "Состязательное тестирование моделей машинного обучения, предназначенных для обнаружения SQL-инъекций." International Journal of Open Information Technologies 13.6 (2025): 34-41.

Лапонина, О. Р., and Р. Н. Костин. "Разработка программного обеспечения моделирования угроз для систем на базе LLM-агентов." International Journal of Open Information Technologies 13.6 (2025): 132-146.

Намиот, Д. Е. "Что LLM знает о кибербезопасности." International Journal of Open Information Technologies 13.7 (2025): 37-46.

Намиот, Д. Е. "Искусственный Интеллект в. Кибербезопасности. Хроника. Выпуск 1." International Journal of Open Information Technologies 13.9 (2025): 34-42.

Как защищаться

Состязательные явления широко наблюдаются в системах машинного обучения (МО), особенно в тех, которые используют глубокие нейронные сети. Эти явления описывают ситуации, когда системы МО могут выдавать прогнозы, которые являются непоследовательными и непонятными для человека в определенных конкретных случаях. Такое поведение представляет серьезную угрозу безопасности для практического применения систем МО. Для эксплуатации этой уязвимости было разработано несколько продвинутых парадигм атак, в основном включающих атаки через бэкдоры, атаки с использованием весов и состязательные примеры. Для каждой отдельной парадигмы атаки были предложены различные механизмы защиты для повышения устойчивости моделей к соответствующим атакам. Однако из-за независимости и разнообразия этих парадигм защиты сложно оценить общую устойчивость системы МО к различным парадигмам атак. Цель данного обзора – систематический обзор всех существующих парадигм защиты с точки зрения единого жизненного цикла. В частности, мы разлагаем полную систему машинного обучения на пять этапов: предварительное обучение, обучение, постобучение, развертывание и вывод. Затем мы представляем чёткую таксономию для классификации репрезентативных методов защиты на каждом этапе. Единая перспектива и таксономия не только помогают нам анализировать механизмы защиты, но и позволяют понять связи и различия между различными парадигмами защиты. Это вдохновляет будущие исследования на разработку более продвинутых и комплексных стратегий защиты. - Defenses in Adversarial Machine Learning: A Systematic Survey from the Lifecycle Perspective

Один из лучших обзоров защит от состязательных атак.

P.S. См. также другие публикации по теме adversarial, посвященные устойчивому машинному обучению

Способы авторизации

Saturday, September 27, 2025

Нельзя так просто ответить на вопрос из кибербезопасности

Большие языковые модели (LLM) недавно продемонстрировали высокий потенциал для решения вопросов и ответов (QA) в области кибербезопасности, поддерживая принятие решений в рабочих процессах обнаружения и реагирования на угрозы в режиме реального времени. Однако их значительные вычислительные требования создают серьёзные проблемы для развертывания на периферийных устройствах с ограниченными ресурсами. Квантование, широко распространённый метод сжатия моделей, может смягчить эти ограничения. Тем не менее, квантование может снизить точность модели и повысить уязвимость к атакам злоумышленников. Тонкая настройка предлагает потенциальный способ смягчить эти ограничения, но её эффективность в сочетании с квантованием остаётся недостаточно изученной. Следовательно, важно понимать компромиссы между точностью, эффективностью и надёжностью. Мы предлагаем AQUA-LLM, оценочную платформу, разработанную для сравнительного анализа нескольких современных малых LLM в четырёх различных конфигурациях: базовой, только квантованной, тонкой настройки и тонкой настройки в сочетании с квантованием, специально для обеспечения качества кибербезопасности. Наши результаты показывают, что квантование само по себе обеспечивает наименьшую точность и надёжность, несмотря на повышение эффективности. Напротив, сочетание квантования с тонкой настройкой повышает как надёжность LLM, так и предсказательную производительность, достигая оптимального баланса точности, надёжности и эффективности. Эти результаты подчеркивают критическую необходимость в методологиях тонкой настройки, учитывающих квантование и сохраняющих надёжность, для обеспечения надёжного и эффективного развертывания LLM для обеспечения качества кибербезопасности. - AQUA-LLM: Evaluating Accuracy, Quantization, and Adversarial Robustness Trade-offs in LLMs for Cybersecurity Question Answering

См. в этой связи статью - Что LLM знают о кибербезопасности

Thursday, September 25, 2025

Экспертиза журналов РАН

Cтало хоть как-то возможным оценить экспертизу РАН для журналов по разделу Автоматика и вычислительная техника. Журналы расположены по уменьшению значимости в ЕГПНИ (Едином государственном перечне научных изданий) - от лучших к худшим:

Q2: https://www.elibrary.ru/title_profile.asp?id=168039

Q3: https://www.elibrary.ru/title_profile.asp?id=74484

Q4: https://www.elibrary.ru/title_profile.asp?id=41045

Как первый журнал вообще был отнесен к Computer Science? Нет ответа ...

Умные джейлбрейки

Оценка атак с использованием джейлбрейка представляет собой сложную задачу, когда запросы не являются явно вредоносными или не приводят к вредоносным результатам. К сожалению, многие существующие наборы данных Red Team содержат такие неподходящие запросы. Для точной оценки атак эти наборы данных необходимо оценить и очистить на предмет вредоносности. Однако существующие методы обнаружения вредоносного контента основаны либо на ручной аннотации, что является трудоемким процессом, либо на больших языковых моделях (LLM), которые имеют нестабильную точность для вредоносных типов. Чтобы сбалансировать точность и эффективность, мы предлагаем гибридную структуру оценки под названием MDH (обнаружение вредоносного контента на основе LLM с помощью человека), которая сочетает аннотацию на основе LLM с минимальным человеческим контролем, и применяем ее для очистки наборов данных и обнаружения ответов, полученных с помощью джейлбрейка. Более того, мы обнаружили, что грамотно составленные сообщения разработчика могут значительно повысить успешность джейлбрейка, что побудило нас предложить две новые стратегии: D-Attack, использующую моделирование контекста, и DH-CoT, которая использует перехваченные цепочки мыслей. Коды, наборы данных, суждения и результаты обнаружения будут опубликованы в репозитории GitHub: https://github.com/AlienZhang1996/DH-CoT. - Jailbreaking Commercial Black-Box LLMs with Explicitly Harmful Prompts

Новый подход к формированию вредоносных подсказок. Кстати, это должно быть локализовано

См. также другие публикации, посвященные LLM

Wednesday, September 24, 2025

Агенты кибербезопасности

Поскольку кибератаки быстро развиваются на уровнях коммуникаций, инфраструктуры и данных, традиционные решения безопасности, такие как системы обнаружения вторжений (IDS) на основе правил или антивирусные программы на основе сигнатур, эффективны в обнаружении известных угроз, но им часто не хватает контекстного понимания и семантической интерпретации, необходимых для обнаружения сложных или развивающихся атак. Например, фишинговые кампании, сложные постоянные угрозы (APT) и многоэтапные атаки часто не поддаются обнаружению из-за своей тонкой и контекстно-зависимой природы. Это ограничение создает критический пробел в обнаружении скоординированных или скрытых шаблонов атак, охватывающих несколько систем и доменов. Необходимость семантического понимания, кросс-доменной видимости и адаптивного обнаружения становится все более актуальной, особенно в связи с тем, что субъекты угроз используют полиморфные и основанные на искусственном интеллекте стратегии, которые традиционные системы не могут эффективно интерпретировать или коррелировать. В данной статье представлена модульная многоагентная архитектура, которая интегрирует известные инструменты анализа кибербезопасности с большими языковыми моделями (LLM) для достижения интеллектуального, объяснимого и высокоточного обнаружения угроз в различных типах данных. Три специализированных агента: 1) проверка электронной почты, 2) анализ журналов и 3) сканирование IP-адресов, каждый из которых работает независимо, используя адаптированные конвейеры обнаружения, которые сочетают в себе инструменты, специфичные для предметной области, и компоненты семантического анализа на основе LLM для выявления, характеристики и сообщения об угрозах, специфичных для его области. В основе системы лежит система контекстных рекомендаций, которая обрабатывает и перекрестно анализирует выходные данные всех специализированных агентов для обнаружения сложных шаблонов угроз, таких как многовекторные, временные или скрытые атаки, которые в противном случае не были бы обнаружены изолированными механизмами обнаружения. Оценка на эталонных наборах данных, включая CIC-IDS 2017, SpamAssassin и пользовательские смоделированные сетевые среды, демонстрирует точность обнаружения угроз 93,6%, точность многоагентной корреляции 87% и снижение ложноположительных срабатываний на 41,3% по сравнению с традиционными подходами. Использование LLM как для структурированных объяснений, так и для цепочек мыслей отчетов дополнительно повышает уверенность аналитиков и сокращает время сортировки. - A Multi-Agent System for Cybersecurity Threat Detection and Correlation Using Large Language Models

Хороший обзор использования LLM в кибербезопасности

Tuesday, September 23, 2025

Monday, September 22, 2025

Бэкдоры для роботов

Политики роботизированной манипуляции всё больше расширяются за счёт больших языковых моделей (LLM) и моделей визуального языка (VLM), которые используют их возможности понимания и восприятия. В последнее время безопасность задач роботизированной манипуляции широко изучается, при этом атаки с использованием бэкдоров привлекают значительное внимание из-за их скрытности и потенциального вреда. Однако существующие попытки внедрения бэкдоров ограничиваются симуляторами и сталкиваются с трудностями при попытке отравить сторонние коммерческие реализации на основе VLM в реальных роботизированных манипуляциях. Для решения этой проблемы мы предлагаем TrojanRobot, встраивающий модуль бэкдора в модульную политику роботизированной манипуляции посредством бэкдор-связей для манипулирования путем LLM-VLM и компрометации системы, при этом наша ванильная версия использует в качестве модуля тонко настроенный бэкдор VLM. Для повышения эффективности атак мы также предлагаем базовую схему, введя концепцию LVLM-как-бэкдора, которая использует контекстное обучение инструкциям (ICIL) для управления поведением большой модели зрительного восприятия. Более того, мы разрабатываем три типа базовых атак — перестановку, стагнацию и преднамеренную — достигая гибких эффектов атак бэкдора. Обширные эксперименты в физическом мире и симуляторах на 18 задачах манипуляции реальным миром и 4 VLM подтверждают превосходство предлагаемого TrojanRobot, с видеодемонстрациями, доступными на веб-сайте ссылка https://trojanrobot.github.io. - TrojanRobot: Physical-world Backdoor Attacks Against VLM-based Robotic Manipulation

Sunday, September 21, 2025

Федеративная аналитика

Растущий приток данных, генерируемых сетевыми периферийными устройствами, в сочетании с растущим пониманием важности конфиденциальности данных способствовали радикальному переходу в вычислительных парадигмах от централизованной обработки данных к распределенной обработке данных с сохранением конфиденциальности. Федеративная аналитика (ФА) – это новая технология, поддерживающая совместную аналитику данных между различными владельцами данных без централизации исходных данных. Несмотря на широкое применение ФА в промышленности и академических кругах, комплексный анализ существующих исследований в этой области, очевидно, отсутствует. Цель данного исследования – восполнить этот пробел, сначала представив обзор ФА, прояснив ключевые концепции и обсудив его взаимосвязь с аналогичными концепциями. Затем мы проводим тщательное исследование ФА, включая его таксономию, ключевые проблемы и методы реализации. Затем мы тщательно рассматриваем различные приложения ФА, включая статистические метрики, вычисления множеств, приложения, связанные с частотами, операции запросов к базам данных, приложения на основе моделей, задачи ФА, поддерживающие FL, и другие приложения беспроводных сетей. Мы завершаем исследование несколькими открытыми исследовательскими вопросами и будущими направлениями. Целью данного исследования является обеспечение целостного понимания новых методов FA и содействие дальнейшему развитию распределенной обработки данных с сохранением конфиденциальности в развивающемся сетевом обществе. - A Survey on Federated Analytics: Taxonomy, Enabling Techniques, Applications and Open Issues

Thursday, September 18, 2025

О безопасности агентов

Агентские приложения — системы искусственного интеллекта, способные выполнять автономные действия, вызывая внешние инструменты, — в настоящее время в разработке программного обеспечения на пике популярности. Они обещают эффективность, удобство и сокращение человеческого вмешательства. Однако предоставление автономным агентам доступа к инструментам с потенциально необратимыми побочными эффектами сопряжено со значительными рисками. Эти опасности могут исходить от враждебных моделей, которые пытаются буквально оптимизировать свои цели (например, максимизировать количество скрепок ценой человеческих жизней), или от моделей, которые иным образом подвергаются давлению, направленному на хакерство с целью получения вознаграждения, используя лазейки вместо решения поставленной задачи. Кроме того, злоумышленники могут пытаться принудить модели к выполнению вредоносных действий, манипулируя их инструкциями посредством атак с мгновенным внедрением, используя неспособность существующих моделей надежно различать инструкции и данные. Некоторые критики утверждают, что эти риски передачи управления автономным агентам достаточно опасны, чтобы их использование было полностью запрещено.

Чтобы снизить риски, присущие агентским приложениям, мы предлагаем парадигму безопасности, основанную на проверке математических доказательств. В этом шаблоне проектирования от ИИ-агента требуется сгенерировать формальные доказательства, демонстрирующие безопасность запланированных действий, прежде чем ему будет разрешено их выполнить. - Guardians of the Agents. Formal verification of AI workflows

См. также другие публикации, посвященные агентам

Tuesday, September 16, 2025

Косвенные инъекции

Большие языковые модели (LLM), настроенные на выполнение инструкций, достигли прорывных результатов, открывая бесчисленные новые возможности для множества практических приложений. Однако в LLM отсутствуют элементарные функции безопасности, которые являются устоявшимися нормами в других областях компьютерной науки, такие как разделение инструкций и данных, что приводит к их сбоям или делает их уязвимыми для манипуляций и вмешательства третьих лиц, например, посредством косвенного введения подсказок/команд. Хуже того, до сих пор не существует даже общепринятого определения того, что именно означает такое разделение и как можно проверить его нарушение. В данной работе мы стремимся восполнить этот пробел. Мы вводим формальную меру для количественной оценки феномена разделения инструкций и данных, а также эмпирический вариант этой меры, который можно вычислить на основе выходных данных модели, полученных в режиме «черного ящика». Мы также вводим новый набор данных SEP (Should it be Executed or Processed?), позволяющий оценить эту меру, и сообщаем результаты по нескольким современным LLM с открытым и закрытым исходным кодом. Наконец, мы количественно продемонстрировали, что все оцененные LLM не достигают высокой степени разделения, согласно нашим измерениям. Исходный код и набор данных SEP доступны в открытом доступе по адресу https://github.com/egozverev/Shold-It-Be-Executed-Or-Processed. - Can LLMs Separate Instructions From Data? And What Do We Even Mean By That?

См. также другие публикации, посвященные LLM

Friday, September 12, 2025

Защитник агентов

Кибербезопасность для агентов

Автономные агенты, построенные на больших языковых моделях, представляют собой особые проблемы безопасности. Исследователи разработали систему для защиты агентов от распространённых уязвимостей.

Сахана Ченнабасаппа и её коллеги выпустили LlamaFirewall — систему с открытым исходным кодом, предназначенную для противодействия трём видам атак: (i) джейлбрейку (запросы, обходящие встроенные защитные механизмы LLM), (ii) перехвату цели (входные данные, направленные на изменение заданной LLM цели) и (iii) эксплуатации уязвимостей в сгенерированном коде. Код и модели доступны бесплатно для проектов с ежемесячной аудиторией до 700 миллионов активных пользователей.

Ключевое замечание: безопасность LLM обычно фокусируется на фильтрации входных данных и тонкой настройке выходных данных. Однако агентские LLM сохраняют уязвимости, которые не устраняются этими методами, а также создают новые. Получение инструкций делает их уязвимыми для взлома, использование инструментов делает их уязвимыми для перехвата цели (например, когда агент выполняет веб-поиск и обнаруживает вредоносные данные), а выходной код может создавать уязвимости безопасности за пределами самого агента. Для защиты от этих уязвимостей система безопасности может фильтровать вредоносные запросы, отслеживать цепочки мыслей на предмет отклонений от заданных целей и проверять сгенерированный код на наличие ошибок.

Как это работает: LlamaFirewall объединяет три модуля:

PromptGuard 2: Для блокировки вредоносного ввода DeBERTa, преобразователь с 86 миллионами параметров, настроенный на классификацию запросов на безопасные и вредоносные, классифицирует входящий текст от пользователей или внешних инструментов.

AlignmentCheck: Для обнаружения перехвата цели Llama 4 Maverick сравнивает цепочки рассуждений, вызовы инструментов и выходные данные с целью пользователя, указанной в исходном запросе. Если сгенерированный текст или вызовы инструментов отклоняются от предполагаемой цели пользователя, LlamaFirewall останавливает генерацию.

CodeShield: Для проверки сгенерированного кода на наличие уязвимостей этот модуль использует правила для выявления небезопасных шаблонов в сгенерированном коде, таких как уязвимость к SQL-инъекциям (например, «SELECT * FROM users WHERE email LIKE '» + domain + «'», что позволяет выполнять SQL-инъекции через несанкционированный входной параметр «domain»). Модуль предотвращает передачу небезопасного кода пользователям до тех пор, пока агент не исправит код и он не пройдет проверку. Результаты: Авторы оценили LlamaFirewall с помощью AgentDojo, среды, которая оценивает атаки на 10 агентов (10 различных LLM в сочетании с агентской платформой авторов).

С LlamaFirewall атаки были успешными в 1,7% случаев. Без LlamaFirewall — в 17,6%. AlignmentCheck обнаружил 83% атак в проприетарном наборе данных с частотой ложноположительных срабатываний 2,5%. Авторы настроили порог классификации PromptGuard 2 так, чтобы достичь уровня ложноположительных срабатываний в 1%. При таком уровне PromptGuard 2 обнаружил 97,5% атак в проприетарном наборе данных. Авторы также сравнили производительность PromptGuard 2 с конкурирующими классификаторами подсказок, использующими AgentDojo. С PromptGuard 2 3,3% попыток взлома были успешными. При использовании следующего по эффективности конкурента, ProtectAI (код - здесь), 13,7% попыток были успешными.

Почему это важно: Рост популярности агентных систем открывает новые векторы кибератак, а риски безопасности, вероятно, возрастут, поскольку агенты работают с большей автономностью и выполняют более важные задачи. LlamaFirewall решает широкий спектр потенциальных проблем безопасности с помощью инструментария с открытым исходным кодом.

Мы думаем: Эта работа служит полезным напоминанием о том, что, хотя генеративные LLM сейчас в моде, классификаторы в стиле BERT остаются полезными, когда приложению требуется быстро классифицировать текст.

/via deeplearning.ai

Thursday, September 11, 2025

Шаблоны ИИ-агентов

Книга в открытом доступе: Agentic Design Patterns

См. также другие публикации, посвященные агентам

Wednesday, September 10, 2025

Лабы безопасного ИИ

Полезные ссылки

Security and Privacy Research Lab - Paul G. Allen School of Computer Science & Engineering, University of Washington

Secure Learning Lab - University of Illinois at Urbana–Champaign

Tuesday, September 09, 2025

Защита LLM приложений

"Предварительно обученные генеративные модели, особенно большие языковые модели, предоставляют пользователям новые способы взаимодействия с компьютерами. Хотя исследования и приложения генеративной обработки естественного языка ранее были направлены на решения, ориентированные на узкую предметную область или задачи, современные LLM и приложения (например, диалоговые системы, агенты) универсальны и подходят для множества задач и областей. Несмотря на то, что LLM обучены быть полезными и соответствовать предпочтениям человека (например, безвредности), обеспечение надёжных защитных барьеров для LLM остаётся сложной задачей. И даже будучи защищёнными от элементарных атак, как и другое сложное программное обеспечение, LLM могут быть уязвимы для атак с использованием сложных вредоносных входных данных.

В этом руководстве представлен всесторонний обзор ключевых защитных механизмов, разработанных для LLM, а также методологий оценки и подробный протокол оценки безопасности, включая автоматическое объединение приложений на основе LLM. Наша цель — выйти за рамки обсуждения атак с использованием одиночных подсказок и фреймворков оценки и рассмотреть, как можно реализовать защиту в сложных диалоговых системах, использующих LLM.

Мы стремимся предоставить актуальный и полный обзор рисков развертывания, связанных с LLM в производственных средах. Основное внимание будет уделено эффективной защите от угроз безопасности, но мы также рассмотрим более актуальную тему обеспечения диалога и актуальных рельсов, включая соблюдение пользовательских политик. Мы также рассмотрим новые векторы атак, создаваемые диалоговыми системами с поддержкой LLM, например, методы обхода управления диалогом." - Защитные барьеры и безопасность для LLM: Безопасное, надежное и контролируемое управление LLM приложениями. Учебный материал с конференции ACL 2025

См. также другие публикации, посвященные LLM

Monday, September 08, 2025

Аномалии временных рядов

Обнаружение аномалий в кибербезопасности промышленных систем критически важно для обеспечения автоматизированного принятия решений. Существующие подходы часто не справляются с обработкой сложных, неизвестных топологических временных рядов, что требует повышения точности обнаружения аномалий. В данной статье представлена новая двухуровневая структура обнаружения аномалий, сочетающая обобщенный лапласиан графа (GGL), вейвлет-разложение (WAVE) и усовершенствованную сверточную нейронную сеть (CNN). На первом уровне предлагаемый метод использует GGL для эффективного выявления аномальных окон в промышленных временных рядах. На втором уровне разрабатывается точный метод обнаружения аномалий для анализа аномальных окон, выявленных GGL, с использованием вейвлет-разложения для извлечения признаков и усовершенствованной CNN для классификации. Эффективность предлагаемого подхода GGL-WAVE-CNN подтверждена на основе реального набора данных, содержащих сетевой трафик SCADA-системы на предприятии в Китае. Экспериментальные результаты демонстрируют истинно положительный процент (TPR) 97,54%, что подтверждает надежность и точность предлагаемого метода при решении сложных задач промышленной кибербезопасности. - An Anomaly Detection Method for Industrial System Cybersecurity Based on GGL-WAVE-CNN

Sunday, September 07, 2025

Архитектура сети и робастность

Состязательные атаки представляют собой проблему при классификации изображений с использованием нейронных сетей. Было создано множество методов для минимизации последствий атак, причём наилучшей защитой от них является состязательное обучение, которое на сегодняшний день зарекомендовало себя как наиболее успешный метод. В силу природы состязательных атак сложно оценить возможности сети по защите. Стандартный метод оценки производительности сети в задачах контролируемой классификации изображений основан на точности. Однако этот метод оценки, хотя и остаётся важным, оказывается недостаточным при учёте состязательных атак. Для оценки производительности сети при наличии возмущений выборок состязательным шумом используется новая метрика, называемая сертифицированной точностью. В данной статье сертифицированная точность дополняется показателем абсентеизма (показателем абсентеизма), чтобы дать более полное представление об устойчивости сети. Показатель абсентеизма измеряет процент сети, которая не смогла сохранить свой прогноз неизменным при увеличении силы возмущения от нуля до заданной. Исследование фокусируется на популярных и высокопроизводительных архитектурах на основе сверточных нейронных сетей (CNN), в частности EfficientNet-B7, ResNet-50, ResNet-101, Wide-ResNet-101 и архитектурах трансформаторов, таких как CaiT и ViT-B/16. Выбранные архитектуры обучаются состязательным и стандартным методам, а затем сертифицируются на наборах данных CIFAR-10, возмущенных гауссовыми шумами различной интенсивности. Наши результаты показывают, что трансформаторы значительно более устойчивы к состязательным атакам, чем архитектуры на основе CNN. Трансформаторы демонстрируют лучшую сертифицированную точность и устойчивость к более сильным шумам, чем архитектуры на основе CNN, демонстрируя хорошую устойчивость как с состязательным обучением, так и без него. Ширина и глубина сети мало влияют на достижение устойчивости к состязательным атакам, однако более эффективными являются методы, которые используются в сети, где, как было показано, механизмы внимания повышают устойчивость сети. - Certified Accuracy and Robustness: How different architectures stand up to adversarial attacks

P.S. См. также другие публикации по теме adversarial, посвященные устойчивому машинному обучению

Saturday, September 06, 2025

Простые атаки

Большие языковые модели (LLM) используются в различных приложениях, включая прямое взаимодействие с конечными пользователями. В идеале они должны стабильно генерировать как фактически точные, так и не оскорбительные ответы, и они специально обучены и защищены для соответствия этим стандартам. Однако в данной статье показано, что простые, ручные и обобщаемые атаки с целью взлома, такие как обратный вывод, могут эффективно обойти меры безопасности, реализованные в LLM, что потенциально может привести к пагубным последствиям. К ним относятся распространение дезинформации, усиление вредоносных рекомендаций и токсичные комментарии. Более того, было обнаружено, что эти атаки выявляют скрытые предубеждения в LLM, что вызывает опасения по поводу их этических и социальных последствий. В частности, уязвимости, выявляемые такими атаками, по-видимому, можно обобщить для различных LLM и языков. В данной статье также оценивается эффективность простой архитектурной структуры для смягчения воздействия атак с целью взлома на конечных пользователей. - The Dangerous Effects of a Frustratingly Easy LLMs Jailbreak Attack

См. также другие публикации, посвященные LLM

Friday, September 05, 2025

Атака по книжкам

Безопасность больших языковых моделей (LLM) привлекла значительное внимание исследователей. В данной статье мы утверждаем, что предыдущие эмпирические исследования демонстрируют, что LLM склонны доверять информации из авторитетных источников, таких как научные статьи, что подразумевает новые возможные уязвимости. Для проверки этой возможности был проведен предварительный анализ, иллюстрирующий два наших вывода. Основываясь на этом понимании, предлагается новый метод взлома, Paper Summary Attack (PSA). Он систематически синтезирует контент из документа безопасности LLM, ориентированного как на атаку, так и на защиту, для создания шаблона вредоносного запроса, стратегически заполняя вредоносные запросы в качестве вредоносной нагрузки в предопределенных подразделах. Масштабные эксперименты показывают значительные уязвимости не только в базовых LLM, но и в современных моделях рассуждений, таких как Deepseek-R1. PSA достигает 97% успеха атаки (ASR) на хорошо согласованных моделях, таких как Claude3.5-Sonnet, и ещё более 98% ASR на Deepseek-R1. Что ещё интереснее, наша работа выявила диаметрально противоположные смещения уязвимости между различными базовыми моделями и даже между разными версиями одной и той же модели при сопоставлении как с документами, ориентированными на атаку, так и с документами, ориентированными на защиту. Этот феномен потенциально указывает на будущие исследовательские подсказки как для состязательных методологий, так и для сопоставления безопасности. Код доступен по адресу https://github.com/233liang/Paper-SummaryAttack - Paper Summary Attack: Jailbreaking LLMs through LLM Safety Papers

См. также другие публикации, посвященные LLM

Thursday, September 04, 2025

Модель угроз для системы LLM агентов

Автономные агенты ИИ, работающие на основе больших языковых моделей (LLM) со структурированными интерфейсами вызова функций, значительно расширили возможности поиска данных в реальном времени, сложных вычислений и многоэтапной оркестровки. Однако взрывное распространение плагинов, коннекторов и межагентских протоколов опередило механизмы обнаружения и практики безопасности, что привело к хрупкой интеграции, уязвимой для различных угроз. В этом обзоре мы представляем первую унифицированную сквозную модель угроз для экосистем LLM-агентов, охватывающую взаимодействие хоста с инструментом и агента с агентом, формализуем возможности злоумышленника и цели злоумышленников, а также каталогизируем более тридцати методов атак. В частности, мы разделили модель угроз на четыре области: манипуляция входными данными (например, внедрение подсказок, перехват длинного контекста, многомодальные враждебные входные данные), компрометация модели (например, бэкдоры на уровне подсказок и параметров, составные и зашифрованные многобэкдоры, стратегии отравления), атаки на систему и конфиденциальность (например, спекулятивные побочные каналы, вывод членства, отравление поиска, моделирование социальной инженерии) и уязвимости протокола (например, эксплойты в протоколе контекста модели (MCP), протоколе связи агента (ACP), протоколе сети агента (ANP) и протоколе «агент-агент» (A2A)). Для каждой категории мы рассматриваем репрезентативные сценарии, оцениваем реальную осуществимость и существующие средства защиты. Опираясь на нашу таксономию угроз, мы определяем ключевые открытые проблемы и будущие направления исследований, такие как обеспечение безопасности развертываний MCP посредством динамического управления доверием и криптографического отслеживания происхождения; проектирование и усиление защиты агентских веб-интерфейсов; а также достижение устойчивости в многоагентных и федеративных средах. Наша работа представляет собой исчерпывающее руководство по разработке надежных механизмов защиты и разработке передовых методов для устойчивых рабочих процессов агентов LLM. - From Prompt Injections to Protocol Exploits: Threats in LLM-Powered AI Agents Workflows

См. также другие публикации, посвященные агентам

Wednesday, September 03, 2025

Искусственный Интеллект в Кибербезопасности - хроника

В этом документе мы представляем обзор текущих событий, связанных общим направлением – использование Искусственного интеллекта (ИИ) в кибербезопасности. Это будет регулярно публикуемый документ, который будет описывать новые разработки в этой области. В настоящее время мы сосредоточены на трех аспектах. Во-первых, это инциденты, связанные с использованием ИИ к кибербезопасности. Например, ставшие известными атаки на модели машинного обучения, выявленные проблемы генеративного ИИ и т.п. Во-вторых, это новые глобальные и локальные стандарты, регулирующие документы, касающиеся разных аспектов использовании ИИ в кибербезопасности. И в-третьих, обзор будет включать интересные публикации по данному направлению. Безусловно, все отобранные для каждого выпуска материалы отражают взгляды и предпочтения авторов-составителей. - Искусственный Интеллект в Кибербезопасности. Хроника. Выпуск 1

О предвзятости

Большие языковые модели (LLM) стали фундаментом взаимодействия человека и компьютера, демонстрируя выдающиеся лингвистические возможности при решении различных задач. Однако растет обеспокоенность их связью с социальными предубеждениями, присутствующими среди обучающих данных. В статье, которую мы приводим, всесторонне обсуждается уязвимость современных LLM к любым воздействиям на социальные предубеждения, включая инъекцию префикса, подавление отказа и выученные подсказки. Мы оцениваем популярные модели, такие как LLaMA-2, GPT-3.5 и GPT-4, с учетом национальных, расовых и других предубеждений. Наши результаты показывают, что модели, как правило, более в чувствительности к атакам на географические предубеждения, чем расовые или отдаленные. Мы также согласовываем Новые аспекты, такие как усиление перекрестных и множественных предубеждений, обнаруживают различную степень переносимости между типами предубеждений. Кроме того, наши результаты показывают, что более крупные и предобученные модели базовые модели часто работают более высоко в чувствительности к атакам на предубеждения. Эти идеи защищают разработку более инклюзивных и этих ответственных программ, включающих в себя понимание и минимизацию уязвимостей, связанных с предвзятостью. Мы предлагаем рекомендации для разработчиков и пользователей моделей, которые повышают устойчивость программ к атакам с социальной предвзятостью. - Understanding Large Language Model Vulnerabilities to Social Bias Attacks

См. также другие публикации, посвященные LLM

Tuesday, September 02, 2025

Откуда что берется

На какие домены чаще всего ссылаются ChatGPT и Perplexity

См. также другие публикации, посвященные LLM

Агенты под атакой

Большинство обсуждений безопасности больших языковых моделей (LLM) фокусировались на одноагентных системах, но многоагентные LLM-системы теперь создают новые риски соперничества, поскольку их поведение зависит от коммуникации между агентами и децентрализованного мышления. В этой работе мы инновационно фокусируемся на атаках на прагматичные системы с такими ограничениями, как ограниченная пропускная способность токенов, задержка между доставкой сообщений и защитные механизмы. Мы разрабатываем инвариантную к перестановкам состязательную атаку, которая оптимизирует распределение подсказок по топологиям сетей с ограничениями по задержке и пропускной способности, чтобы обойти распределенные механизмы безопасности внутри системы. Формулируя путь атаки как задачу максимального потока и минимальной стоимости в сочетании с новым методом потерь с инвариантностью к перестановкам (PIEL), мы используем оптимизацию на основе графов для максимизации вероятности успеха атаки при минимизации риска обнаружения. Оценивая различные модели, включая Llama, Mistral, Gemma, DeepSeek и другие варианты, на различных наборах данных, таких как JailBreakBench и AdversarialBench, наш метод превосходит традиционные атаки до 7 раз, выявляя критические уязвимости в многоагентных системах. Более того, мы демонстрируем, что существующие средства защиты, включая варианты Llama-Guard и PromptGuard, не способны предотвратить нашу атаку, что подчеркивает острую необходимость в механизмах безопасности, специфичных для многоагентных систем. - Agents Under Siege: Breaking Pragmatic Multi-Agent LLM Systems with Optimized Prompt Attacks

Одна из первых работ, посвященных атакам многоагентных систем.

См. также другие публикации, посвященные агентам

Monday, September 01, 2025

INJOIT vol.13, no. 9

Вышел девятый номер журнала INJOIT в 2025 году. И тринадцатый год издания журнала. В номере много работ по кибербезопасности.

Темы статей:

  • Investigating the Vulnerability of LLM-as-a-Judge Architectures to Prompt-Injection Attacks
  • Pipelining of modular multiplication operations for efficient trust computation in decentralized cyber-physical environments
  • О кибербезопасности ИИ-агентов
  • Обзор методов выявления аномалий при аудите системных вызовов в ОС
  • Искусственный Интеллект в Кибербезопасности. Хроника. Выпуск 1
  • Системный подход к безопасности пользовательских файлов: от первичной валидации до изоляции в Docker
  • Machine Learning Models Explanations and Adversarial Attacks
  • Convergence of the ARMA-GARCH Implied Calibration Algorithm
  • Разработка математического и программного обеспечения для сопоставления изображений
  • Оценка плотностных свойств уплотняемой гидровзрывом геологической системы средствами численного моделирования
  • Пространственно-распределенная модель Ланчестера с учетом нелинейной динамик
  • Обзор методов решения задачи о приёмке и доставке с временными ограничениями. Часть II: эвристический подход
  • Архитектура доверенной системы искусственного интеллекта в задачах прогнозирования временных рядов в электроэнергетике
  • Automation of processing the results of Laboratory studies of frozen and thawed soils soil research
  • Introduction to Formal Methods Using Interactive Proof Assistant Rocq
  • Designing a Multi-Factor Quality Evaluation Protocol for Speaker Verification Systems
  • Accelerating Latency-Critical Applications with AI-Powered Semi-Automatic Fine-Grained Parallelization on SMT Processors
  • Вероятностные методы линейной алгебры и большие данные

Архив журнала находится здесь.

/via Лаборатория ОИТ

Конкурс агентов

AstaBench — это оценочная платформа для измерения научно-исследовательских способностей агентов ИИ. Она предоставляет более 2400 примеров в 11 тестах, которые проверяют весь спектр исследовательских навыков: от поиска литературы и выполнения кода до анализа данных и сквозного поиска информации. AstaBench также предоставляет стандартизированные инструменты и среды выполнения, позволяющие объективно сравнивать производительность и вычислительную эффективность.

Код для агентов также открыт