Monday, April 06, 2026

Осведомленность о фишинге

Фишинг уже в течение довольно длительного времени остается одной из самых опасных кибератак. Будучи технически простым подходом в реализации для атакующих, будучи довольно хорошо распознаваемым инструментальными средствами, обладая явно распознаваемыми признаками, этот способ атаки все равно остается работающим. Причина – это пользователи, которые продолжают переходить по подготовленным вредоносным ссылкам. Именно люди оказываются слабым звеном, которое и обеспечивает успех фишинга. Отсюда большое внимание, которое уделяется в мире образованию (уведомлению) пользователей об опасности и характерных признаках фишинга. В настоящей статье мы хотим остановиться на существующих в мире программах обучения противодействия фишингу. Такие программы существуют на разных уровнях: национальных, академических, в частных компаниях. Основа таких тренировок – это определение учащимися фишинговых сообщений среди реальных текстов (почтовых сообщений). Особый интерес представляет собой шкала фишинга от NIST, которая позволяет оценивать сложность таких тренировочных примеров. - Методы обнаружения дипфейков в видеоконференциях в реальном времени - статья в журнале Современные информационные технологии и ИТ-образование

Sunday, April 05, 2026

Публикации по теме Искусственный интеллект в кибербезопасности 05.04.2026

Вопросы безопасности систем ИИ рассматриваются в двух магистерских программах факультета ВМК МГУ имени М.В. Ломоносова: Искусственный интеллект в кибербезопасности и Кибербезопасность. Ниже приведен список публикаций, подготовленных в процессе реализации этих программ по состоянию на 05.04.2026

Ильюшин Е. А., Намиот Д. Е. An approach to the automatic enhancement of the robustness of ml models to external influences on the example of the problem of biometric speaker identification by voice // International Journal of Open Information Technologies. — 2021. — Vol. 9, no. 6. — P. 11–19.

Намиот Д. Е., Ильюшин Е. А., Чижов И. В. Текущие академические и индустриальные проекты, посвященные устойчивому машинному обучению // International Journal of Open Information Technologies. — 2021. — Т. 9, № 10. — С. 35–46.

Намиот Д. Е., Ильюшин Е. А., Чижов И. В. Основания для работ по устойчивому машинному обучению // International Journal of Open Information Technologies. — 2021. — Т. 9, № 11. — С. 68–74.

Намиот Д. Е., Ильшин Е. А., Чижов И. В. Военные применения машинного обучения // International Journal of Open Information Technologies. — 2022. — Т. 10, № 1. — С. 69–76.

Ильюшин Е. А., Намиот Д. Е., Чижов И. В. Атаки на системы машинного обучения – общие проблемы и методы // International Journal of Open Information Technologies. — 2022. — Т. 10, № 3. — С. 17–22.

Namiot D., Ilyushin E. On monitoring of machine learning models // Distributed Computer and Communication Networks: Control, Computation, Communications (DCCN-2022) : материалы XXV международной научной конференции: Москва, 26–30 сентября 2022 года / под общ. ред. В. М. Вишневского и К. Е. Самуйлова. — РУДН Москва: 2022. — P. 150–157.

Namiot D., Ilyushin E., Chizhov I. On a formal verification of machine learning systems // International Journal of Open Information Technologies. — 2022. — Vol. 10, no. 5. — P. 30–34.

Huayu L., Namiot D. A survey of adversarial attacks and defenses for image data on deep learning // International Journal of Open Information Technologies. — 2022. — Vol. 10, no. 5. — P. 9–16.

Намиот Д., Ильюшин Е., Пилипенко О. Доверенные платформы искусственного интеллекта // International Journal of Open Information Technologies. — 2022. — Т. 10, № 7. — С. 119–127.

Намиот Д., Ильюшин Е. Порождающие модели в машинном обучении // International Journal of Open Information Technologies. — 2022. — Т. 10, № 7. — С. 101–118.

Биджиев Т. М., Намиот Д. Е. Исследование существующих подходов к встраиванию вредоносного программного обеспечения в искусственные нейронные сети // International Journal of Open Information Technologies. — 2022. — Т. 10, № 9. — С. 21–31.

Намиот Д. Е., Ильюшин Е. А. Об устойчивости и безопасности систем искусственного интеллекта // International Journal of Open Information Technologies. — 2022. — Т. 10, № 9. — С. 126–134.

Намиот Д. Е., Ильюшин Е. А., Чижов И. В. Искусственный интеллект и кибербезопасность // International Journal of Open Information Technologies. — 2022. — Т. 10, № 9. — С. 135–147.

Stroeva E., Tonkikh A. Methods for formal verification of artificial neural networks: A review of existing approaches // International Journal of Open Information Technologies. — 2022. — Vol. 10, no. 10. — P. 3.

Намиот Д., Ильюшин Е. Мониторинг сдвига данных в моделях машинного обучения // International Journal of Open Information Technologies. — 2022. — Т. 10, № 12. — С. 84–93.

Костюмов, Василий Владимирович. "Обзор и систематизация атак уклонением на модели компьютерного зрения." International Journal of Open Information Technologies 10.10 (2022): 11-20.

Намиот Д. Е., Ильюшин Е. А. О причинах неудач проектов машинного обучения // International Journal of Open Information Technologies. — 2023. — Т. 11, № 1. — С. 60–69.

Намиот Д. Е. Введение в атаки отравлением на модели машинного обучения // International Journal of Open Information Technologies. — 2023. — Т. 11, № 3. — С. 58–68.

Namiot D. E., Ilyushin E., Chizhov I. On the practical generation of counterfactual examples // Труды Института системного анализа Российской академии наук. — 2023. — Vol. 73, no. 1. — P. 73–81.

Junzhe S., Namiot D. E. A survey of model inversion attacks and countermeasures // Труды Института системного анализа Российской академии наук. — 2023. — Vol. 73, no. 1. — P. 82–93.

Junzhe S., Namiot D. A survey of the implementations of model inversion attacks // Communications in Computer and Information Science. — 2023. — Vol. 1748. — P. 3–16.

Намиот Д. Е. Схемы атак на модели машинного обучения // International Journal of Open Information Technologies. — 2023. — Т. 11, № 5. — С. 68–86.

On the evasion attack detector / L. Huayui, V. Kostyumov, O. Pilipenko, D. Namiot // DCCN 2023. Материалы конференции. — ИПУ РАН Москва: 2023. — P. 183–188.

Junzhe S., Namiot D. On the machine learning models inversion attack detector // DCCN 2023. Материалы конференции. — ИПУ РАН Москва: 2023. — P. 194.

Lozinskii I., Kostyumov V., Stroeva E. Extraction of trigger and mask from poisoned data using modified activation clustering and neural cleanse methods // International Journal of Open Information Technologies. — 2023. — Vol. 11, no. 7. — P. 1

Чехонина, Екатерина Андреевна, and Василий Владимирович Костюмов. "ОБЗОР СОСТЯЗАТЕЛЬНЫХ АТАК И МЕТОДОВ ЗАЩИТЫ ДЛЯ ДЕТЕКТОРОВ ОБЪЕКТОВ." International Journal of Open Information Technologies 11.7 (2023): 11-20.

Пришлецов Д. Е., Пришлецов С. Е., Намиот Д. Е. Камуфляж как состязательные атаки на модели машинного обучения // International Journal of Open Information Technologies. — 2023. — Т. 11, № 9. — С. 41–49.

Намиот Д. Е., Зубарева Е. В. О работе ai red team // International Journal of Open Information Technologies. — 2023. — Т. 11, № 10. — С. 130–139.

Намиот Д. Е., Ильюшин Е. А. Доверенные платформы искусственного интеллекта: сертификация и аудит // International Journal of Open Information Technologies. — 2024. — Т. 12, № 1. — С. 43–60.

Киржинов Д. А., Ильюшин Е. А. Сравнительный анализ алгоритмов атак и защиты на графовые архитектуры ИНС // International Journal of Open Information Technologies. — 2024. — Т. 12, № 2.

Намиот Д. Е., Романов В. Ю. Об улучшении робастности моделей машинного обучения // International Journal of Open Information Technologies. — 2024. — Т. 12, № 3. — С. 88–98.

Junzhe S., Namiot D. On real-time model inversion attacks detection // Lecture Notes in Computer Science. — 2024. — Vol. 14123. — P. 56–67.

Мударова Р. М., Намиот Д. Е. Противодействие атакам типа инъекция подсказок на большие языковые модели // International Journal of Open Information Technologies. — 2024. — Т. 12, № 5. — С. 39–48.

Намиот Д. Е., Ильюшин Е. А. Искусственный интеллект в кибербезопасности: поиск вредоносного программного обеспечения // International Journal of Open Information Technologies. — 2024. — Т. 12, № 6. — С. 143–149.

Lebed, S. V., et al. "Large Language Models in Cyberattacks." Doklady Mathematics. Vol. 110. No. Suppl 2. Moscow: Pleiades Publishing, 2024.

Селевенко Р. М., Строева Е. Н. Исследование и разработка алгоритма формальной верификации и метрики оценки качества на основе методов понижения размерности ИНС // INJOIT. — 2024. — Т. 12, № 6. — С. 2.

Биджиев Т. М., Намиот Д. Е. Атаки на модели машинного обучения, основанные на фреймворке pytorch // Автоматика и телемеханика. — 2024. — № 3. — С. 38–50.

Намиот Д. Е., Ильюшин Е. А. О сертификации систем искусственного интеллекта // Физика элементарных частиц и атомного ядра. — 2024. — Т. 55, № 3. — С. 530–536.

Намиот Д. Е., Куприяновский В. П., Пичугов А. А. Состязательные атаки для автономных транспортных средств // International Journal of Open Information Technologies. — 2024. — Т. 12, № 7. — С. 139–149.

Намиот Д. Е. О кибератаках с помощью систем Искусственного интеллекта // International Journal of Open Information Technologies. — 2024. — Т. 12, № 9. — С. 132–141.

Воробьев, Егор Александрович. "Анализ состязательных атак на системы сегментации изображений." International Journal of Open Information Technologies 12.10 (2024): 1-25.

Намиот Д. Е., Ильюшин Е. А. О киберрисках генеративного Искусственного Интеллекта // International Journal of Open Information Technologies. — 2024. — Т. 12, № 10. — С. 109–119.

Порывай, Максим Викторович. "Сравнительное исследование методов естественной аугментации изображений." International Journal of Open Information Technologies 12.10 (2024): 26-33.

Герасименко, Денис Валерьевич, and Дмитрий Евгеньевич Намиот. "Извлечение тренировочных данных: Риски и решения в контексте безопасности LLM." International Journal of Open Information Technologies 12.11 (2024): 9-19.

Костиков, Егор Вячеславович. "Методы анализа логов Sysmon для обнаружения киберугроз." International Journal of Open Information Technologies 12.11 (2024): 25-34.

Намиот Д. Е., Ильюшин Е. А. Архитектура LLM агентов //International Journal of Open Information Technologies. – 2025. – Т. 13. – №. 1. – С. 67-74.

Воробьев Е. А., Намиот Д. Е. Состязательное тестирование моделей сегментации изображений // Программная инженерия. — 2025. — Т. 16, № 4. — С. 190–198.

Намиот, Д. Е., and Е. А. Ильюшин. "Об оценке доверия к системам Искусственного интеллекта." International Journal of Open Information Technologies 13.3 (2025): 75-90.

Хамзаева, М. А., and О. Р. Лапонина. "Повышение устойчивости к состязательным атакам моделей машинного обучения для обнаружения межсайтового выполнения сценариев." International Journal of Open Information Technologies 13.6 (2025): 25-33.

Бербер, Д. В., and О. Р. Лапонина. "Разработка подходов к увеличению устойчивости моделей машинного обучения для обнаружения распределенных атак отказа обслуживания." International Journal of Open Information Technologies 13.6 (2025): 16-24.

Егорова, Е. С., and О. Р. Лапонина. "Состязательное тестирование моделей машинного обучения, предназначенных для обнаружения SQL-инъекций." International Journal of Open Information Technologies 13.6 (2025): 34-41.

Лапонина, О. Р., and Р. Н. Костин. "Разработка программного обеспечения моделирования угроз для систем на базе LLM-агентов." International Journal of Open Information Technologies 13.6 (2025): 132-146.

Намиот, Д. Е. "Что LLM знает о кибербезопасности." International Journal of Open Information Technologies 13.7 (2025): 37-46.

Намиот, Д. Е. "Искусственный Интеллект в. Кибербезопасности. Хроника. Выпуск 1." International Journal of Open Information Technologies 13.9 (2025): 34-42.

Намиот, Д. Е., and Е. А. Ильюшин. "О кибербезопасности ИИ-агентов." International Journal of Open Information Technologies 13.9 (2025): 13-24.

Егоров, М. Э., et al. "Объяснения моделей машинного обучения и состязательные атаки." International Journal of Open Information Technologies 13.9 (2025): 50-59.

Намиот, Д. Е., and Е. А. Ильюшин. "Уязвимости экосистемы MCP." International Journal of Open Information Technologies 13.10 (2025): 74-82.

Намиот, Д. Е. "Искусственный Интеллект в Кибербезопасности. Хроника. Выпуск 2." International Journal of Open Information Technologies 13.10 (2025): 58-67.

Poryvai, Maxim, and Dmitry Namiot. "On Natural Image Augmentation to Increase Robustness of Machine Learning Models." 2025 International Russian Automation Conference (RusAutoCon). IEEE, 2025.

Namiot D., Zubareva E. On open datasets for llm adversarial testing // Communications in Computer and Information Science. — 2025. — Vol. 2641. — P. 137–148. 

Намиот, Д. Е. "Искусственный Интеллект в Кибербезопасности. Хроника. Выпуск 3." International Journal of Open Information Technologies 13.11 (2025): 169-179.

Maloyan, Narek, Bislan Ashinov, and Dmitry Namiot. "Investigating the Vulnerability of LLM-as-a-Judge Architectures to Prompt-Injection Attacks."  arXiv preprint arXiv:2505.13348 (2025).

Maloyan, Narek, and Dmitry Namiot. "Adversarial Attacks on LLM-as-a-Judge Systems: Insights from Prompt Injections." arXiv preprint arXiv:2504.18333 (2025).

Намиот, Д. Е. "Искусственный Интеллект в Кибербезопасности. Хроника. Выпуск 4." International Journal of Open Information Technologies 14.1 (2026): 81-94.

Maloyan, Narek, and Dmitry Namiot. "Prompt Injection Attacks on Agentic Coding Assistants: A Systematic Analysis of Vulnerabilities in Skills, Tools, and Protocol Ecosystems." arXiv preprint arXiv:2601.17548 (2026).

Намиот, Д. Е. "Искусственный Интеллект в Кибербезопасности. Хроника. Выпуск 5." International Journal of Open Information Technologies 14.2 (2026): 47-57.

Maloyan, Narek, and Dmitry Namiot. "Breaking the Protocol: Security Analysis of the Model Context Protocol Specification and Prompt Injection Vulnerabilities in Tool-Integrated LLM Agents." arXiv preprint arXiv:2601.17549 (2026).

Намиот, Д. Е. "Искусственный Интеллект в Кибербезопасности. Хроника. Выпуск 6." International Journal of Open Information Technologies 14.3 (2026): 76-86.

Saturday, April 04, 2026

Контекстная безопасность агентов

Безопасность агентов LLM по своей природе контекстуальна. Например, одно и то же действие, предпринятое агентом, может представлять собой легитимное поведение или нарушение безопасности в зависимости от того, чья инструкция привела к действию, какая цель преследуется и служит ли действие этой цели. В этой работе мы представляем структуру, которая систематизирует существующие атаки и средства защиты с точки зрения контекстной безопасности. С этой целью мы предлагаем четыре свойства безопасности, которые отражают контекстную безопасность для агентов LLM: согласование задач (преследование авторизованных целей), согласование действий (отдельные действия, служатщие этим целям), авторизация источника (выполнение команд из аутентифицированных источников) и изоляция данных (обеспечение соблюдения границ привилегий в потоках информации). Мы также вводим набор функций оракула, которые позволяют проверять, нарушаются ли эти свойства безопасности при выполнении агентом пользовательской задачи. Используя эту структуру, мы переформулируем существующие атаки, такие как непрямая инъекция подсказок, прямая инъекция подсказок, взлом системы, дрейф задач и отравление памяти, как нарушения одного или нескольких свойств безопасности, тем самым предоставляя точные и контекстуальные определения этих атак. Аналогичным образом, мы переформулируем средства защиты как механизмы, которые усиливают функции оракула или выполняют проверки свойств безопасности. Наконец, мы обсуждаем несколько важных направлений будущих исследований, которые станут возможными благодаря нашей структуре. - A Framework for Formalizing LLM Agent Security

См. также другие публикации, посвященные агентам

Thursday, April 02, 2026

Универсальная атака на LLM

Агенты LLM, такие как Claude Code, могут не только писать код, но и использоваться для автономных исследований и разработок в области ИИ. Мы показываем, что конвейер в стиле автоматического исследования (Karpathy, 2026), работающий на базе Claude Code, обнаруживает новые алгоритмы атак типа «белый ящик», которые значительно превосходят все существующие (более 30) методы в оценках взлома и внедрения подсказок. Начиная с существующих реализаций атак, таких как GCG, агент итеративно создает новые алгоритмы, достигающие до 40% успешности атак на запросы CBRN против GPT-OSSSafeguard-20B, по сравнению с ≤10% для существующих алгоритмов. Обнаруженные алгоритмы обобщают: атаки, оптимизированные на суррогатных моделях, напрямую переносятся на отложенные модели, достигая 100% ASR против Meta-SecAlign-70B по сравнению с 56% для лучшего базового варианта . Расширяя результаты Carlini et al., 2025, наши результаты являются ранней демонстрацией того, что инкрементальные исследования в области безопасности могут быть автоматизированы с использованием агентов LLM. Метод «белого ящика» для противодействия угрозам особенно хорошо подходит для этого: существующие методы обеспечивают сильные отправные точки, а цель оптимизации дает плотную количественную обратную связь. Мы публикуем все обнаруженные атаки вместе с базовыми реализациями и кодом оценки по адресу https://github.com/romovpa/claudini - Claudini: Autoresearch Discovers State-of-the-Art Adversarial Attack Algorithms for LLMs

См. также другие публикации, посвященные LLM

Wednesday, April 01, 2026

Обнаружение дипфейков в реальном времени

В последние годы видеоконференции приобретают все более широкий размах, став неотъемлемым инструментом для проведения деловых совещаний, образовательных мероприятий и даже официальных правительственных встреч. Стремительное развитие технологий интернет-связи и доступность платформ видеоконференций (таких как Zoom, Microsoft Teams и Google Meet) способствуют переходу множества организаций на гибридные и дистанционные форматы работы. В результате глобальная аудитория пользователей онлайн-встреч исчисляется сотнями миллионов, и это число продолжает расти. Одновременно с расширением сферы применения видеоконференций возникает новая волна угроз, связанных с безопасностью и доверием участников. Среди таких угроз особенно выделяется феномен "дипфейков" (от англ. deepfakes), то есть синтетически сгенерированных или модифицированных аудио- и видеозаписей, которые практически невозможно отличить от оригинала невооруженным глазом. В работе рассматривается вопрос детектирования дипфейков в реальном времени в видеоконференциях. - Методы обнаружения дипфейков в видеоконференциях в реальном времени - статья в журнале Современные информационные технологии и ИТ-образование

Детектор AI-контента

Pangram. Последнее время, до 90% статей, поданных в журнал INJOIT, написаны нечеловеческим языком :(

Monday, March 30, 2026

Ломоносовские чтения 2026

Сборник докладов

Киберразведка Google

Google Threat Intelligence Group (GTIG) выпустила очередной квартальный отчет о кибербезопасности.

"Google DeepMind и GTIG выявили рост попыток извлечения моделей или «дистилляционных атак» — метода кражи интеллектуальной собственности, нарушающего условия предоставления услуг Google. В этом отчете мы описали шаги, предпринятые нами для предотвращения вредоносной деятельности, включая обнаружение, пресечение и нейтрализацию Google попыток извлечения моделей. Хотя мы не наблюдали прямых атак на перспективные модели или продукты генеративного ИИ со стороны субъектов, использующих сложные целевые атаки (APT), мы наблюдали и нейтрализовали частые атаки по извлечению моделей со стороны частных компаний по всему миру и исследователей, стремящихся клонировать собственную логику.

Для поддерживаемых государством субъектов, занимающихся киберпреступностью, большие языковые модели (LLM) стали важными инструментами для технических исследований, таргетинга и быстрого создания сложных фишинговых приманок. В этом ежеквартальном отчете освещается, как субъекты угроз из Корейской Народной Республики (КНДР), Ирана, Китайской Народной Республики (КНР) и России внедрили ИИ в свою деятельность в конце 2025 года, и улучшается наше понимание того, как злоупотребление генеративным ИИ проявляется в кампаниях, которые мы пресекаем в реальных условиях. GTIG пока не наблюдала случаев, когда APT-группировки или субъекты информационных операций (IO) достигли бы прорывных возможностей, коренным образом меняющих ландшафт угроз." - отсюда

Sunday, March 29, 2026

О безопасной работе агентов

Безопасность на уровне выполнения для агентов ИИ: agentsh ("оболочка агента") — это шлюз выполнения, работающий на основе политик, который перехватывает активность файлов, сети и процессов во время выполнения — независимо от того, что говорит приглашение, вывод инструмента или пользователь.

См. также другие публикации, посвященные агентам

Friday, March 27, 2026

Мультимодальный RAG

Что если RAG - это не только про текст? Но и про графы, изображения и т.д. Рекламная публикация от одного производителя БД.

Thursday, March 26, 2026

Караул для агентов

Агенты, использующие большие языковые модели (LLM), все чаще полагаются на внешние инструменты и системы поиска для автономного выполнения сложных задач. Однако такая конструкция делает агентов уязвимыми для косвенного внедрения подсказок (IPI), когда контролируемый злоумышленником контекст, встроенный в выходные данные инструмента или полученный контент, незаметно направляет действия агента в сторону, противоположную намерениям пользователя. В отличие от атак на основе подсказок, IPI разворачивается на протяжении нескольких циклов, что затрудняет отделение вредоносного управления от легитимного выполнения задачи. Существующие средства защиты на этапе вывода в основном полагаются на эвристическое обнаружение и консервативную блокировку действий с высоким риском, что может преждевременно завершать рабочие процессы или в целом подавлять использование инструментов в неоднозначных многоцикловых сценариях. Мы предлагаем AgentSentry, новую структуру обнаружения и смягчения последствий на этапе вывода для агентов LLM, дополненных инструментами. Насколько нам известно, AgentSentry — это первая система защиты на этапе вывода, которая моделирует многоцикловое внедрение подсказок как временное причинно-следственное поглощение. Он локализует точки захвата посредством контролируемых контрфактических повторных выполнений на границах возврата инструмента и обеспечивает безопасное продолжение работы за счет причинно-следственной очистки контекста, которая устраняет отклонения, вызванные атакой, сохраняя при этом релевантные для задачи доказательства. Мы оцениваем AgentSentry на бенчмарке AgentDojo по четырем наборам задач, трем семействам атак IPI и нескольким моделям LLM типа «черный ящик». AgentSentry исключает успешные атаки и поддерживает высокую полезность при атаке, достигая средней полезности при атаке (UA) 74,55%, улучшая UA на 20,8–33,6 процентных пункта по сравнению с самыми сильными базовыми показателями без ухудшения производительности в условиях безопасной среды. - AgentSentry: Mitigating Indirect Prompt Injection in LLM Agents via Temporal Causal Diagnostics and Context Purification

См. также другие публикации, посвященные агентам

А поговорить?

Новый протокол для агентов - A2H: A Protocol for Agent-to-Human Communication

См. также другие публикации, посвященные агентам

Wednesday, March 25, 2026

Вакансия: программист Raspberry Pi

«Абсолютные Технологии» — официальный дистрибьютор ИБП KEHUA в России. Уже 26 лет компания реализует комплексные проекты по системам гарантированного электроснабжения.

Ищет программиста для разработки новых продуктов.

Основные задачи:

Разработка ПО под одноплатные компьютеры с ОС Linux;
Разработка, поддержка и развитие сервисов Интернета вещей/Промышленного интернета вещей на Python 3+.

Ожидания от кандидата:

Уверенное владение языком Python и Linux, Fast API, SQL, Git;
Общее понимание функционирования интерфейсов (Ethernet/USB);
Навыки работы с одноплатными компьютерами;
Опыт интеграции с железом/IoT: SNMP, Modbus (pymodbus), serial (pyserial-asyncio), GPIO/индикаторы;
Опыт работы с веб-стеком: HTTP/HTTPS, вебсокет соединения;
Желательно знание основ любого фронтенд - фреймворка (Vue.js, React.js и тд) и опыт настройки/администрирования VPN-соединений (OpenVPN).

Компания предлагает:

Работу в стабильной компании с 26-летней историей;
Официальное оформление;
Фиксированный доход (обсуждается индивидуально);
Зарплатный проект ВТБ или любой удобный банк;
График работы: 5/2, 9:30–18:30;
Оплату комплексных обедов на территории работодателя;
Офис в шаговой доступности от м. Аэропорт.

/via https://hh.ru/vacancy/131304441

Под атакой

Большие языковые модели (LLM) широко используются в реальных системах. Учитывая их более широкое применение, разработка подсказок стала эффективным инструментом для организаций с ограниченными ресурсами, позволяющим внедрять LLM в собственных целях. В то же время БЛМ уязвимы для атак, основанных на подсказках. Таким образом, анализ этого риска стал критически важным требованием безопасности. В данной работе оценивается уязвимость внедрения подсказок и взлома системы с использованием большого, вручную подобранного набора данных для нескольких LLM с открытым исходным кодом, включая Phi, Mistral, DeepSeek-R1, Llama 3.2, Qwen и Gemma. Мы наблюдаем значительные различия в поведении моделей, включая отказы и полное молчаливое отсутствие реакции, вызванное внутренними механизмами безопасности. Кроме того, мы оценили несколько легковесных механизмов защиты, работающих во время вывода, которые действуют как фильтры без переобучения или интенсивной тонкой настройки на графическом процессоре. Хотя эти средства защиты смягчают прямые атаки, их постоянно обходят длинные, требующие логического обоснования вопросы. - Analysis of LLMs Against Prompt Injection and Jailbreak Attacks

Статья интересна тем, что авторы собрали довольно большую коллекцию состязательных запросов

См. также другие публикации, посвященные LLM

Очеловечиватель

Как удалить следы написания с помощью ИИ. Интересно такое сделать для русского языка

Monday, March 23, 2026

Состязательные атаки в партийной газете

Статья в газете Центральной партийной школы ЦК КПК "Сюэси Жибао" заместителя заведующего Отделом пропаганды ЦК КПК, руководителя Канцелярии по делам киберпространства ЦК КПК Чжуан Жунвэня, посвященная подведению итогов прошедшей пятилетки и анализу новых вызовов и задач в рамках новой. В тексте содежится описание основных инициатив Китая в сфере Интернет-пространства и технологий, описываются задачи защиты критической инфраструктуры, углубления работы с данными и развития управления ИИ.

Самое примечательное в тексте - это впервые упоминающиеся в официальном китайском дискурсе новые угрозы безопасности: 数据投毒 (атака типа "отравление данных" - внесение “плохих” данных, чтобы модель училась неправильно), 用户画像攻击 (атаки через профилирование пользователя и извлечение чувствительных выводов), 模型逆向推理 (обратный вывод из модели, попытки вытащить из нее скрытую информацию или свойства обучающих данных). Эти слова давно живут в китайской научной и экспертной среде, но здесь они впервые звучат в программном тексте уровня обсуждения пятилетки, что выводит технические задачи на уровень решения политических вопросов, про которые раньше в официальных текстах писали лишь в самом общем виде.

В США и ЕС похожая терминология используется давно, преимущественно в рекомендациях правового регулирования стандартов хранения и обработки данных (NIST, ENISA и другие), но такие документы остаются на уровне технической имплементации требований и рекомендаций по защите прав и инфраструктуры. В Китае упоминание терминологии новых угроз на уровне стратегического планирования пятилеток руководящими лицами может говорить о том, что за этим последует жесткое институциональное продолжение в виде требований, проверок и административных процедур на уровне обеспечения национальной безопасности.

/via Атлас Бойцзе