см. также другие публикации по теме фишинг
технические проблемы и идеи, родившиеся в бурных водах реки Abava (а равно как и на ее берегах, далеких и близких), выставленные на всеобщее обсуждение
Tuesday, September 30, 2025
Учебный курс по LLM
/via Florian Tramèr. На странице лаборатории в ETH есть и другие интересные курсы
P.S. См. также другие публикации, посвященные LLM
Удар автоматизацией по фишингу
см. также другие публикации по теме фишинг
Monday, September 29, 2025
Многослойная защита агентов ИИ
Результаты каждого действия проверяет другая LLM
См. также другие публикации, посвященные LLM
P.P.S. См. также другие публикации, посвященные агентам
Sunday, September 28, 2025
Публикации по теме Искусственный интеллект в кибербезопасности 28.09.2025
Ильюшин Е. А., Намиот Д. Е. An approach to the automatic enhancement of the robustness of ml models to external influences on the example of the problem of biometric speaker identification by voice // International Journal of Open Information Technologies. — 2021. — Vol. 9, no. 6. — P. 11–19.
Намиот Д. Е., Ильюшин Е. А., Чижов И. В. Текущие академические и индустриальные проекты, посвященные устойчивому машинному обучению // International Journal of Open Information Technologies. — 2021. — Т. 9, № 10. — С. 35–46.
Намиот Д. Е., Ильюшин Е. А., Чижов И. В. Основания для работ по устойчивому машинному обучению // International Journal of Open Information Technologies. — 2021. — Т. 9, № 11. — С. 68–74.
Намиот Д. Е., Ильшин Е. А., Чижов И. В. Военные применения машинного обучения // International Journal of Open Information Technologies. — 2022. — Т. 10, № 1. — С. 69–76.
Ильюшин Е. А., Намиот Д. Е., Чижов И. В. Атаки на системы машинного обучения – общие проблемы и методы // International Journal of Open Information Technologies. — 2022. — Т. 10, № 3. — С. 17–22.
Namiot D., Ilyushin E. On monitoring of machine learning models // Distributed Computer and Communication Networks: Control, Computation, Communications (DCCN-2022) : материалы XXV международной научной конференции: Москва, 26–30 сентября 2022 года / под общ. ред. В. М. Вишневского и К. Е. Самуйлова. — РУДН Москва: 2022. — P. 150–157.
Namiot D., Ilyushin E., Chizhov I. On a formal verification of machine learning systems // International Journal of Open Information Technologies. — 2022. — Vol. 10, no. 5. — P. 30–34.
Huayu L., Namiot D. A survey of adversarial attacks and defenses for image data on deep learning // International Journal of Open Information Technologies. — 2022. — Vol. 10, no. 5. — P. 9–16.
Намиот Д., Ильюшин Е., Пилипенко О. Доверенные платформы искусственного интеллекта // International Journal of Open Information Technologies. — 2022. — Т. 10, № 7. — С. 119–127.
Намиот Д., Ильюшин Е. Порождающие модели в машинном обучении // International Journal of Open Information Technologies. — 2022. — Т. 10, № 7. — С. 101–118.
Биджиев Т. М., Намиот Д. Е. Исследование существующих подходов к встраиванию вредоносного программного обеспечения в искусственные нейронные сети // International Journal of Open Information Technologies. — 2022. — Т. 10, № 9. — С. 21–31.
Намиот Д. Е., Ильюшин Е. А. Об устойчивости и безопасности систем искусственного интеллекта // International Journal of Open Information Technologies. — 2022. — Т. 10, № 9. — С. 126–134.
Намиот Д. Е., Ильюшин Е. А., Чижов И. В. Искусственный интеллект и кибербезопасность // International Journal of Open Information Technologies. — 2022. — Т. 10, № 9. — С. 135–147.
Stroeva E., Tonkikh A. Methods for formal verification of artificial neural networks: A review of existing approaches // International Journal of Open Information Technologies. — 2022. — Vol. 10, no. 10. — P. 3.
Намиот Д., Ильюшин Е. Мониторинг сдвига данных в моделях машинного обучения // International Journal of Open Information Technologies. — 2022. — Т. 10, № 12. — С. 84–93.
Костюмов, Василий Владимирович. "Обзор и систематизация атак уклонением на модели компьютерного зрения." International Journal of Open Information Technologies 10.10 (2022): 11-20.
Намиот Д. Е., Ильюшин Е. А. О причинах неудач проектов машинного обучения // International Journal of Open Information Technologies. — 2023. — Т. 11, № 1. — С. 60–69.
Намиот Д. Е. Введение в атаки отравлением на модели машинного обучения // International Journal of Open Information Technologies. — 2023. — Т. 11, № 3. — С. 58–68.
Namiot D. E., Ilyushin E., Chizhov I. On the practical generation of counterfactual examples // Труды Института системного анализа Российской академии наук. — 2023. — Vol. 73, no. 1. — P. 73–81.
Junzhe S., Namiot D. E. A survey of model inversion attacks and countermeasures // Труды Института системного анализа Российской академии наук. — 2023. — Vol. 73, no. 1. — P. 82–93.
Junzhe S., Namiot D. A survey of the implementations of model inversion attacks // Communications in Computer and Information Science. — 2023. — Vol. 1748. — P. 3–16.
Намиот Д. Е. Схемы атак на модели машинного обучения // International Journal of Open Information Technologies. — 2023. — Т. 11, № 5. — С. 68–86.
On the evasion attack detector / L. Huayui, V. Kostyumov, O. Pilipenko, D. Namiot // DCCN 2023. Материалы конференции. — ИПУ РАН Москва: 2023. — P. 183–188.
Junzhe S., Namiot D. On the machine learning models inversion attack detector // DCCN 2023. Материалы конференции. — ИПУ РАН Москва: 2023. — P. 194.
Lozinskii I., Kostyumov V., Stroeva E. Extraction of trigger and mask from poisoned data using modified activation clustering and neural cleanse methods // International Journal of Open Information Technologies. — 2023. — Vol. 11, no. 7. — P. 1
Чехонина, Екатерина Андреевна, and Василий Владимирович Костюмов. "ОБЗОР СОСТЯЗАТЕЛЬНЫХ АТАК И МЕТОДОВ ЗАЩИТЫ ДЛЯ ДЕТЕКТОРОВ ОБЪЕКТОВ." International Journal of Open Information Technologies 11.7 (2023): 11-20.
Пришлецов Д. Е., Пришлецов С. Е., Намиот Д. Е. Камуфляж как состязательные атаки на модели машинного обучения // International Journal of Open Information Technologies. — 2023. — Т. 11, № 9. — С. 41–49.
Намиот Д. Е., Зубарева Е. В. О работе ai red team // International Journal of Open Information Technologies. — 2023. — Т. 11, № 10. — С. 130–139.
Намиот Д. Е., Ильюшин Е. А. Доверенные платформы искусственного интеллекта: сертификация и аудит // International Journal of Open Information Technologies. — 2024. — Т. 12, № 1. — С. 43–60.
Киржинов Д. А., Ильюшин Е. А. Сравнительный анализ алгоритмов атак и защиты на графовые архитектуры ИНС // International Journal of Open Information Technologies. — 2024. — Т. 12, № 2.
Намиот Д. Е., Романов В. Ю. Об улучшении робастности моделей машинного обучения // International Journal of Open Information Technologies. — 2024. — Т. 12, № 3. — С. 88–98.
Junzhe S., Namiot D. On real-time model inversion attacks detection // Lecture Notes in Computer Science. — 2024. — Vol. 14123. — P. 56–67.
Мударова Р. М., Намиот Д. Е. Противодействие атакам типа инъекция подсказок на большие языковые модели // International Journal of Open Information Technologies. — 2024. — Т. 12, № 5. — С. 39–48.
Намиот Д. Е., Ильюшин Е. А. Искусственный интеллект в кибербезопасности: поиск вредоносного программного обеспечения // International Journal of Open Information Technologies. — 2024. — Т. 12, № 6. — С. 143–149.
Lebed, S. V., et al. "Large Language Models in Cyberattacks." Doklady Mathematics. Vol. 110. No. Suppl 2. Moscow: Pleiades Publishing, 2024.
Селевенко Р. М., Строева Е. Н. Исследование и разработка алгоритма формальной верификации и метрики оценки качества на основе методов понижения размерности ИНС // INJOIT. — 2024. — Т. 12, № 6. — С. 2.
Биджиев Т. М., Намиот Д. Е. Атаки на модели машинного обучения, основанные на фреймворке pytorch // Автоматика и телемеханика. — 2024. — № 3. — С. 38–50.
Намиот Д. Е., Ильюшин Е. А. О сертификации систем искусственного интеллекта // Физика элементарных частиц и атомного ядра. — 2024. — Т. 55, № 3. — С. 530–536.
Намиот Д. Е., Куприяновский В. П., Пичугов А. А. Состязательные атаки для автономных транспортных средств // International Journal of Open Information Technologies. — 2024. — Т. 12, № 7. — С. 139–149.
Намиот Д. Е. О кибератаках с помощью систем Искусственного интеллекта // International Journal of Open Information Technologies. — 2024. — Т. 12, № 9. — С. 132–141.
Воробьев, Егор Александрович. "Анализ состязательных атак на системы сегментации изображений." International Journal of Open Information Technologies 12.10 (2024): 1-25.
Намиот Д. Е., Ильюшин Е. А. О киберрисках генеративного Искусственного Интеллекта // International Journal of Open Information Technologies. — 2024. — Т. 12, № 10. — С. 109–119.
Порывай, Максим Викторович. "Сравнительное исследование методов естественной аугментации изображений." International Journal of Open Information Technologies 12.10 (2024): 26-33.
Герасименко, Денис Валерьевич, and Дмитрий Евгеньевич Намиот. "Извлечение тренировочных данных: Риски и решения в контексте безопасности LLM." International Journal of Open Information Technologies 12.11 (2024): 9-19.
Костиков, Егор Вячеславович. "Методы анализа логов Sysmon для обнаружения киберугроз." International Journal of Open Information Technologies 12.11 (2024): 25-34.
Намиот Д. Е., Ильюшин Е. А. Архитектура LLM агентов //International Journal of Open Information Technologies. – 2025. – Т. 13. – №. 1. – С. 67-74.
Воробьев Е. А., Намиот Д. Е. Состязательное тестирование моделей сегментации изображений // Программная инженерия. — 2025. — Т. 16, № 4. — С. 190–198.
Намиот, Д. Е., and Е. А. Ильюшин. "Об оценке доверия к системам Искусственного интеллекта." International Journal of Open Information Technologies 13.3 (2025): 75-90.
Хамзаева, М. А., and О. Р. Лапонина. "Повышение устойчивости к состязательным атакам моделей машинного обучения для обнаружения межсайтового выполнения сценариев." International Journal of Open Information Technologies 13.6 (2025): 25-33.
Бербер, Д. В., and О. Р. Лапонина. "Разработка подходов к увеличению устойчивости моделей машинного обучения для обнаружения распределенных атак отказа обслуживания." International Journal of Open Information Technologies 13.6 (2025): 16-24.
Егорова, Е. С., and О. Р. Лапонина. "Состязательное тестирование моделей машинного обучения, предназначенных для обнаружения SQL-инъекций." International Journal of Open Information Technologies 13.6 (2025): 34-41.
Лапонина, О. Р., and Р. Н. Костин. "Разработка программного обеспечения моделирования угроз для систем на базе LLM-агентов." International Journal of Open Information Technologies 13.6 (2025): 132-146.
Намиот, Д. Е. "Что LLM знает о кибербезопасности." International Journal of Open Information Technologies 13.7 (2025): 37-46.
Намиот, Д. Е. "Искусственный Интеллект в. Кибербезопасности. Хроника. Выпуск 1." International Journal of Open Information Technologies 13.9 (2025): 34-42.
Как защищаться
Один из лучших обзоров защит от состязательных атак.
P.S. См. также другие публикации по теме adversarial, посвященные устойчивому машинному обучению
Saturday, September 27, 2025
Нельзя так просто ответить на вопрос из кибербезопасности
См. в этой связи статью - Что LLM знают о кибербезопасности
Friday, September 26, 2025
Цитатник
Thursday, September 25, 2025
Экспертиза журналов РАН
Q2: https://www.elibrary.ru/title_profile.asp?id=168039
Q3: https://www.elibrary.ru/title_profile.asp?id=74484
Q4: https://www.elibrary.ru/title_profile.asp?id=41045
Как первый журнал вообще был отнесен к Computer Science? Нет ответа ...
Умные джейлбрейки
Новый подход к формированию вредоносных подсказок. Кстати, это должно быть локализовано
См. также другие публикации, посвященные LLM
Wednesday, September 24, 2025
Агенты кибербезопасности
Хороший обзор использования LLM в кибербезопасности
Tuesday, September 23, 2025
Monday, September 22, 2025
Бэкдоры для роботов
Sunday, September 21, 2025
Федеративная аналитика
Thursday, September 18, 2025
О безопасности агентов
Чтобы снизить риски, присущие агентским приложениям, мы предлагаем парадигму безопасности, основанную на проверке математических доказательств. В этом шаблоне проектирования от ИИ-агента требуется сгенерировать формальные доказательства, демонстрирующие безопасность запланированных действий, прежде чем ему будет разрешено их выполнить. - Guardians of the Agents. Formal verification of AI workflows
См. также другие публикации, посвященные агентам
Wednesday, September 17, 2025
Как делать правильных агентов
См. также другие публикации, посвященные агентам
Tuesday, September 16, 2025
Косвенные инъекции
См. также другие публикации, посвященные LLM
Monday, September 15, 2025
Обрусевшие агенты
См. также другие публикации, посвященные агентам
Sunday, September 14, 2025
Saturday, September 13, 2025
Friday, September 12, 2025
Защитник агентов
Автономные агенты, построенные на больших языковых моделях, представляют собой особые проблемы безопасности. Исследователи разработали систему для защиты агентов от распространённых уязвимостей.
Сахана Ченнабасаппа и её коллеги выпустили LlamaFirewall — систему с открытым исходным кодом, предназначенную для противодействия трём видам атак: (i) джейлбрейку (запросы, обходящие встроенные защитные механизмы LLM), (ii) перехвату цели (входные данные, направленные на изменение заданной LLM цели) и (iii) эксплуатации уязвимостей в сгенерированном коде. Код и модели доступны бесплатно для проектов с ежемесячной аудиторией до 700 миллионов активных пользователей.
Ключевое замечание: безопасность LLM обычно фокусируется на фильтрации входных данных и тонкой настройке выходных данных. Однако агентские LLM сохраняют уязвимости, которые не устраняются этими методами, а также создают новые. Получение инструкций делает их уязвимыми для взлома, использование инструментов делает их уязвимыми для перехвата цели (например, когда агент выполняет веб-поиск и обнаруживает вредоносные данные), а выходной код может создавать уязвимости безопасности за пределами самого агента. Для защиты от этих уязвимостей система безопасности может фильтровать вредоносные запросы, отслеживать цепочки мыслей на предмет отклонений от заданных целей и проверять сгенерированный код на наличие ошибок.
Как это работает: LlamaFirewall объединяет три модуля:
PromptGuard 2: Для блокировки вредоносного ввода DeBERTa, преобразователь с 86 миллионами параметров, настроенный на классификацию запросов на безопасные и вредоносные, классифицирует входящий текст от пользователей или внешних инструментов.
AlignmentCheck: Для обнаружения перехвата цели Llama 4 Maverick сравнивает цепочки рассуждений, вызовы инструментов и выходные данные с целью пользователя, указанной в исходном запросе. Если сгенерированный текст или вызовы инструментов отклоняются от предполагаемой цели пользователя, LlamaFirewall останавливает генерацию.
CodeShield: Для проверки сгенерированного кода на наличие уязвимостей этот модуль использует правила для выявления небезопасных шаблонов в сгенерированном коде, таких как уязвимость к SQL-инъекциям (например, «SELECT * FROM users WHERE email LIKE '» + domain + «'», что позволяет выполнять SQL-инъекции через несанкционированный входной параметр «domain»). Модуль предотвращает передачу небезопасного кода пользователям до тех пор, пока агент не исправит код и он не пройдет проверку. Результаты: Авторы оценили LlamaFirewall с помощью AgentDojo, среды, которая оценивает атаки на 10 агентов (10 различных LLM в сочетании с агентской платформой авторов).
С LlamaFirewall атаки были успешными в 1,7% случаев. Без LlamaFirewall — в 17,6%. AlignmentCheck обнаружил 83% атак в проприетарном наборе данных с частотой ложноположительных срабатываний 2,5%. Авторы настроили порог классификации PromptGuard 2 так, чтобы достичь уровня ложноположительных срабатываний в 1%. При таком уровне PromptGuard 2 обнаружил 97,5% атак в проприетарном наборе данных. Авторы также сравнили производительность PromptGuard 2 с конкурирующими классификаторами подсказок, использующими AgentDojo. С PromptGuard 2 3,3% попыток взлома были успешными. При использовании следующего по эффективности конкурента, ProtectAI (код - здесь), 13,7% попыток были успешными.
Почему это важно: Рост популярности агентных систем открывает новые векторы кибератак, а риски безопасности, вероятно, возрастут, поскольку агенты работают с большей автономностью и выполняют более важные задачи. LlamaFirewall решает широкий спектр потенциальных проблем безопасности с помощью инструментария с открытым исходным кодом.
Мы думаем: Эта работа служит полезным напоминанием о том, что, хотя генеративные LLM сейчас в моде, классификаторы в стиле BERT остаются полезными, когда приложению требуется быстро классифицировать текст.
/via deeplearning.ai
Thursday, September 11, 2025
Шаблоны ИИ-агентов
См. также другие публикации, посвященные агентам
Wednesday, September 10, 2025
Лабы безопасного ИИ
Security and Privacy Research Lab - Paul G. Allen School of Computer Science & Engineering, University of Washington
Secure Learning Lab - University of Illinois at Urbana–Champaign
Tuesday, September 09, 2025
Защита LLM приложений
В этом руководстве представлен всесторонний обзор ключевых защитных механизмов, разработанных для LLM, а также методологий оценки и подробный протокол оценки безопасности, включая автоматическое объединение приложений на основе LLM. Наша цель — выйти за рамки обсуждения атак с использованием одиночных подсказок и фреймворков оценки и рассмотреть, как можно реализовать защиту в сложных диалоговых системах, использующих LLM.
Мы стремимся предоставить актуальный и полный обзор рисков развертывания, связанных с LLM в производственных средах. Основное внимание будет уделено эффективной защите от угроз безопасности, но мы также рассмотрим более актуальную тему обеспечения диалога и актуальных рельсов, включая соблюдение пользовательских политик. Мы также рассмотрим новые векторы атак, создаваемые диалоговыми системами с поддержкой LLM, например, методы обхода управления диалогом." - Защитные барьеры и безопасность для LLM: Безопасное, надежное и контролируемое управление LLM приложениями. Учебный материал с конференции ACL 2025
См. также другие публикации, посвященные LLM
Monday, September 08, 2025
Аномалии временных рядов
Sunday, September 07, 2025
Архитектура сети и робастность
P.S. См. также другие публикации по теме adversarial, посвященные устойчивому машинному обучению
Saturday, September 06, 2025
Простые атаки
См. также другие публикации, посвященные LLM
Friday, September 05, 2025
Атака по книжкам
См. также другие публикации, посвященные LLM
Thursday, September 04, 2025
Модель угроз для системы LLM агентов
См. также другие публикации, посвященные агентам
Wednesday, September 03, 2025
Искусственный Интеллект в Кибербезопасности - хроника
О предвзятости
См. также другие публикации, посвященные LLM
Tuesday, September 02, 2025
Откуда что берется
См. также другие публикации, посвященные LLM
Агенты под атакой
Одна из первых работ, посвященных атакам многоагентных систем.
См. также другие публикации, посвященные агентам
Monday, September 01, 2025
INJOIT vol.13, no. 9
Темы статей:
- Investigating the Vulnerability of LLM-as-a-Judge Architectures to Prompt-Injection Attacks
- Pipelining of modular multiplication operations for efficient trust computation in decentralized cyber-physical environments
- О кибербезопасности ИИ-агентов
- Обзор методов выявления аномалий при аудите системных вызовов в ОС
- Искусственный Интеллект в Кибербезопасности. Хроника. Выпуск 1
- Системный подход к безопасности пользовательских файлов: от первичной валидации до изоляции в Docker
- Machine Learning Models Explanations and Adversarial Attacks
- Convergence of the ARMA-GARCH Implied Calibration Algorithm
- Разработка математического и программного обеспечения для сопоставления изображений
- Оценка плотностных свойств уплотняемой гидровзрывом геологической системы средствами численного моделирования
- Пространственно-распределенная модель Ланчестера с учетом нелинейной динамик
- Обзор методов решения задачи о приёмке и доставке с временными ограничениями. Часть II: эвристический подход
- Архитектура доверенной системы искусственного интеллекта в задачах прогнозирования временных рядов в электроэнергетике
- Automation of processing the results of Laboratory studies of frozen and thawed soils soil research
- Introduction to Formal Methods Using Interactive Proof Assistant Rocq
- Designing a Multi-Factor Quality Evaluation Protocol for Speaker Verification Systems
- Accelerating Latency-Critical Applications with AI-Powered Semi-Automatic Fine-Grained Parallelization on SMT Processors
- Вероятностные методы линейной алгебры и большие данные
Архив журнала находится здесь.
/via Лаборатория ОИТ
Конкурс агентов
Код для агентов также открыт



