Thursday, December 18, 2025

Оценка агентов кибербезопасности

Кибербезопасность охватывает множество взаимосвязанных областей, что усложняет разработку значимых, актуальных для рынка труда эталонных показателей. Существующие эталонные показатели оценивают отдельные навыки, а не интегрированную производительность. Мы обнаружили, что предварительно обученные знания в области кибербезопасности в моделях LLM не подразумевают навыков атаки и защиты, что указывает на разрыв между знаниями и возможностями. Для решения этой проблемы мы представляем эталонный показатель кибербезопасности для ИИ (CAIBench), модульную мета-систему эталонных показателей, которая позволяет оценивать модели и агентов LLM в различных областях кибербезопасности, как наступательной, так и оборонительной, делая шаг к осмысленному измерению их актуальности для рынка труда. CAIBench объединяет пять категорий оценки, охватывающих более 10 000 примеров: CTF в стиле «Jeopardy», CTF по атаке и защите, упражнения на киберполигоне, эталонные показатели знаний и оценки конфиденциальности. Ключевые новые разработки включают систематическую одновременную оценку наступательных и оборонительных действий, задачи по кибербезопасности, ориентированные на робототехнику (RCTF2), и оценку производительности с сохранением конфиденциальности (CyberPII-Bench). Оценка современных моделей ИИ показывает насыщение метрик знаний в области безопасности (70% успеха), но существенное ухудшение в многоэтапных сценариях противодействия (20-40% успеха) или еще худшее в сценариях с роботизированными целями (22% успеха). Сочетание структуры фреймворка и выбора модели LLM значительно влияет на производительность; мы обнаружили, что правильные совпадения улучшают дисперсию до 2,6 раз в CTF-соревнованиях атаки и защиты. Эти результаты демонстрируют выраженный разрыв между концептуальными знаниями и адаптивными возможностями, подчеркивая необходимость мета-бенчмарка. - Cybersecurity AI Benchmark (CAIBench): A Meta-Benchmark for Evaluating Cybersecurity AI Agents

См. также другие публикации, посвященные агентам

Wednesday, December 17, 2025

Паттерны агентов

См. также другие публикации, посвященные агентам

ИБП для медицинского оборудования

ИБП для медицинского оборудования обеспечивают непрерывную работу аппаратуры, от которой зависит здоровье и жизни пациентов. Критически важные приборы — аппараты МРТ, КТ, УЗИ, системы жизнеобеспечения — требуют стабильного электропитания. Даже кратковременные сбои могут привести к прерыванию важных медицинских манипуляций, риску жизни для пациентов и поломке оборудования. Наши бесперебойники не только обеспечивают резервное питание, но и защищают технику от скачков напряжения, провалов, помех, что продлевает срок службы дорогостоящих устройств. - АО «Абсолютные Технологии» — официальный партнер ведущих мировых производителей энергетического оборудования

Медицинское оборудование требует стабильного электроснабжения для правильной работы. При отключении электричества или скачках напряжения возникает риск остановки диагностических процедур, потери данных пациентов и нарушения работы жизнеобеспечивающих систем.

Источники бесперебойного питания (ИБП) для медицинского оборудования решают эту проблему, автоматически переключаясь на резервное питание при сбоях в электросети. ИБП поддерживает работу медицинских приборов до восстановления основного питания или безопасного завершения процедур.

Медицинские ИБП отличаются от обычных источников питания повышенными требованиями к безопасности и надежности. Они соответствуют медицинским стандартам качества и обеспечивают защиту как оборудования, так и пациентов от электрических помех и перепадов напряжения.

Тесты защитников

Риск предоставления небезопасной информации системами генеративного ИИ вызывает серьезные опасения, подчеркивая необходимость в защитных механизмах. Для снижения этого риска все чаще используются модели защиты, которые обнаруживают небезопасный контент во взаимодействии человека и ИИ, дополняя безопасность больших языковых моделей. Несмотря на недавние усилия по оценке эффективности этих моделей, их устойчивость к изменениям входных данных и атакам с использованием состязательных элементов остается в значительной степени неизученной. В этой статье мы представляем всестороннюю оценку 15 современных моделей защиты, оценивая их устойчивость к: а) изменениям входных данных, таким как опечатки, маскировка ключевых слов, шифры и скрытые выражения, и б) атакам с использованием состязательных элементов, предназначенным для обхода защитных механизмов моделей. Эти атаки используют возможности больших языковых моделей, такие как следование инструкциям, ролевая игра, персонификация, рассуждения и кодирование, или вводят состязательные токены для вызывания некорректного поведения модели. Наши результаты показывают, что большинство моделей защитных механизмов можно обойти с помощью простых изменений входных данных, и они уязвимы для атак со стороны злоумышленников. Например, один злонамеренный токен может обмануть их в среднем в 44,5% случаев. Ограничения текущего поколения моделей защитных механизмов подчеркивают необходимость создания более надежных защитных механизмов. - On Guardrail Models’ Robustness to Mutations and Adversarial Attacks

См. также другие публикации, посвященные LLM

Tuesday, December 16, 2025

LLM и электричество

В данной статье представлен всесторонний обзор применений, проблем и перспектив развития больших языковых моделей (LLM) в области электроэнергетики (EPD). Используя архитектуры на основе трансформаторов, такие как GPT, BERT и LLaMA, LLM продемонстрировали потенциал трансформации в различных областях применения в энергосистемах, включая прогнозирование нагрузки, диагностику неисправностей, соблюдение нормативных требований, ответы на вопросы, оценку рисков и интеллектуальный анализ данных. Систематический анализ более 45 исследований выявил измеримые преимущества, такие как повышение точности прогнозирования нагрузки до 20%, сокращение времени оперативного реагирования на 30% и уменьшение ручной работы на 40% для задач, связанных с регулированием. LLM продемонстрировали высокую адаптивность благодаря обучению с нулевым и малым количеством примеров и способны обрабатывать многомодальные входные данные для принятия решений в реальном времени. Однако ограничения, такие как высокие вычислительные затраты, отсутствие специализированных наборов данных, ограниченная объяснимость и опасения по поводу соответствия нормативным требованиям, препятствуют широкому внедрению. Для устранения этих пробелов в статье изложены возможности для исследований, включая тонкую настройку в конкретных областях, масштабируемые стратегии развертывания, многомодальную интеграцию и разработку унифицированных эталонных тестов, таких как ElecBench. В целом, интеграция LLM в энергосистемы представляет собой значительный шаг на пути к более интеллектуальному, надежному и устойчивому управлению энергией. - Review of LLMs Applications in Electrical Power and Energy Systems

См. также другие публикации, посвященные LLM

ИИ-агенты - это просто

aisuite — это легковесная библиотека Python, предоставляющая унифицированный API для работы с различными поставщиками генеративного ИИ. Она предлагает согласованный интерфейс для моделей от OpenAI, Anthropic, Google, Hugging Face, AWS, Cohere, Mistral, Ollama и других, абстрагируя различия в SDK, деталях аутентификации и параметрах. Ее дизайн основан на стиле API OpenAI, что делает ее мгновенно знакомой и простой в освоении.

aisuite позволяет разработчикам создавать и запускать приложения на основе LLM или агентные приложения от разных поставщиков с минимальной настройкой. Хотя это не полноценная платформа для агентов, она включает в себя простые абстракции для создания автономных, легковесных агентов. Она разработана с учетом простоты освоения — поэтому вы можете сосредоточиться на создании систем ИИ, а не на интеграции API.

См. также другие публикации, посвященные агентам

Monday, December 15, 2025

О безопасности ИИ-агентов - открытые вопросы

Агентные системы искусственного интеллекта, работающие на основе больших языковых моделей (LLM) и обладающие функциями планирования, использования инструментов, памяти и автономности, становятся мощными и гибкими платформами для автоматизации. Их способность автономно выполнять задачи в веб-среде, программном обеспечении и физической среде создает новые и усиленные риски безопасности, отличающиеся как от традиционной безопасности ИИ, так и от обычной безопасности программного обеспечения. В этом обзоре представлена таксономия угроз, специфичных для агентного ИИ, рассмотрены последние сравнительные тесты и методологии оценки, а также обсуждаются стратегии защиты как с технической, так и с управленческой точек зрения. Мы обобщаем текущие исследования и выделяем открытые проблемы, стремясь поддержать разработку безопасных по умолчанию агентных систем. - Agentic AI Security: Threats, Defenses, Evaluation, and Open Challenges

См. также другие публикации, посвященные агентам

Примеры ИИ-агентов

Хакатоны по разработке агентов - большая коллекция примеров с исходным кодом

См. также другие публикации, посвященные агентам

Интернет агентов

Проект NANDA намерен создать инфраструктуру для децентрализованной сети агентов искусственного интеллекта. Они описывают её как глобальный децентрализованный реестр (подобный DNS), который можно использовать для обнаружения и аутентификации агентов с помощью MCP и A2A.

См. также другие публикации, посвященные агентам

Sunday, December 14, 2025

Покажем все

Институт Аллена запустил свою новейшую языковую модель с открытым исходным кодом — Olmo 3. Институт открыл весь процесс разработки, чтобы другие команды могли ознакомиться с его работой.

См. также другие публикации, посвященные LLM

Thursday, December 11, 2025

Безопасность ИИ-агентов

Учебное пособие на русском языке. Подготовлено на кафедре ИБ факультета ВМК МГУ имени М.В. Ломоносова. В первую очередь - для слушателей курса Разработка агентов ИИ, который с осени 2025 читается на факультете. Обновленный вариант на декабрь 2025. Охваченные вопросы:
  • Структура ИИ-агентов и шаблоны проектирования
  • Проблемы с безопасностью ИИ-агентов
  • Риски безопасности ИИ-агентов
  • Модель угроз
  • Уязвимости MCP
  • Вопросы безопасности во фреймворках разработки ИИ-агентов и практические рекомендации
  • Безопасные шаблоны для ИИ-агентов

Скачать пособие можно здесь

См. также другие публикации, посвященные агентам

AI-List 2025

AI-List 2025: новые решения российской индустрии ИИ

Wednesday, December 10, 2025

На злобу дня

— Вы использовали в работе искуственный интеллект?

— Что Вы, мы даже естественный не использовали.

Совсем взрослый язык

30 лет языку JavaScript. В мае 1995 года 33-летний Брендан Айх всего за десять дней создал первый прототип JavaScript, изначально имевший кодовое название Mocha (а затем LiveScript). 4 декабря 1995 года Netscape и Sun Microsystems официально представили JavaScript в пресс-релизе как «простой в использовании язык объектных сценариев, предназначенный для создания онлайн-приложений, связывающих объекты и ресурсы как на клиентах, так и на серверах».

Monday, December 08, 2025

Кибератаки на дроны

Беспилотные летательные аппараты (БПЛА), также известные как дроны, всё чаще используются в различных приложениях, и на них можно проводить различные кибератаки с использованием разных инструментов. Некоторые примеры этих атак включают разрыв соединения между дроном и контроллером с помощью атак деаутентификации, раскрытие пароля или криптографического ключа, используемого в протоколе связи, получение управления дроном посредством внедрения команд/кода и атаки типа «человек посередине» (MitM). В данной статье рассматриваются атаки с использованием дронов посредством анализа различных компонентов дрона, включая пульт дистанционного управления и протоколы связи. Основная цель — предоставить обзор возможных способов осуществления кибератак. В этом анализе сделан вывод о том, что дроны, предназначенные для различных целей, уязвимы для ряда кибератак. В статье также рассматриваются существующие методологии тестирования на проникновение для БПЛА, которые обеспечивают логическую основу для их реализации. В этом обзоре рассматриваются различные методы и инструменты кибератак, применяемые против БПЛА, с целью улучшения механизмов защиты. - Cyber Attacks on Commercial Drones: A Review

Sunday, December 07, 2025

Наши дипфейки - самые глубокие фейки

По мере того, как системы обнаружения дипфейков становятся всё более сложными, понимание их уязвимостей становится критически важным для разработки надёжной защиты. Мы представляем комплексное исследование конкурентных атак на детекторы дипфейков на основе изображений, предлагая новый подход, создающий «конкурентную реальность» — синтетические изображения, которые сохраняют визуальное сходство с оригинальными дипфейками, успешно обходя автоматизированные системы обнаружения. Наш метод использует генеративную структуру с архитектурой в стиле UNet для преобразования изображений, сгенерированных GAN, диффузионно-генерированных и обработанных лиц, в варианты, обманывающие детектор, сохраняя при этом визуальную точность. В отличие от традиционных подходов, основанных на возмущениях, которые добавляют шумовые паттерны, наш генеративный метод обучается преобразованиям, специфичным для изображений, без необходимости использования вручную созданных спектральных фильтров. Благодаря обширной оценке различных наборов данных, типов генераторов и архитектур детекторов мы демонстрируем, что наш подход достигает уровня ошибочной классификации до 98,83% на диффузных изображениях и 83,36% на контенте на основе GAN, сохраняя при этом высокое качество восприятия со средними баллами PSNR выше 35. Наши результаты выявляют критические уязвимости в существующих системах обнаружения и дают представление о разработке более надежных детекторов дипфейков. - Adversarial Reality for Evading Deepfake Image Detectors

См. также другие публикации по теме deepfake

Saturday, December 06, 2025

Двойной триггер

Детекторы объектов в реальном времени, широко используемые в реальных приложениях, уязвимы к атакам с использованием бэкдоров. Эта уязвимость возникает из-за того, что многие пользователи полагаются на наборы данных или предобученные модели, предоставляемые третьими лицами, из-за ограничений на данные и ресурсы. Однако большинство исследований атак с использованием бэкдоров было сосредоточено на классификации изображений, а обнаружение объектов в реальном времени изучено недостаточно. Более того, триггеры для большинства существующих атак с использованием бэкдоров генерируются вручную, что требует наличия предварительных знаний и наличия закономерностей между этапами обучения и вывода. Такой подход делает атаки либо легко обнаруживаемыми, либо сложно адаптируемыми к различным сценариям. Для устранения этих ограничений мы предлагаем новые генеративные сети с двойным триггером в частотной области для генерации невидимых триггеров для внедрения скрытых бэкдоров в модели во время обучения и видимых триггеров для постоянной активации во время вывода, что затрудняет отслеживание процесса атаки. В частности, для генеративной сети с невидимым триггером мы используем слой гауссовского сглаживания и высокочастотный классификатор артефактов для повышения скрытности внедрения бэкдоров в детекторы объектов. Для генеративной сети с видимыми триггерами мы разрабатываем новый алгоритм потери выравнивания, чтобы оптимизировать видимые триггеры таким образом, чтобы они отличались от исходных шаблонов, но при этом соответствовали вредоносному поведению активации невидимых триггеров. Обширные экспериментальные результаты и анализ подтверждают возможность использования различных триггеров на этапе обучения и этапе вывода, а также демонстрируют эффективность атак наших предлагаемых генеративных сетей с видимыми и невидимыми триггерами, значительно снижая эффективность детекторов объектов на 70,0% и 84,5%. - Twin trigger generative networks for backdoor attacks against real-time object detection

Принципиальный момент - исполюзуются разные триггеры при обучении и инференсе.

P.S. См. также другие публикации по теме adversarial, посвященные устойчивому машинному обучению

Friday, December 05, 2025

Состязательное тестирование LLM

Стремительное расширение исследований безопасности и надежности больших языковых моделей (LLM) привело к появлению разрозненной и зачастую содержащей ошибки экосистемы реализаций, наборов данных и методов оценки. Эта фрагментация затрудняет воспроизводимость и сопоставимость результатов различных исследований, препятствуя существенному прогрессу. Для решения этих проблем мы представляем ADVERSARIALLM, набор инструментов для проведения исследований надежности джейлбрейка LLM. Его дизайн ориентирован на воспроизводимость, корректность и расширяемость. Фреймворк реализует двенадцать алгоритмов состязательных атак, объединяет семь эталонных наборов данных, охватывающих оценку вредоносности, избыточного отказа и полезности, и предоставляет доступ к широкому спектру открытых LLM через Hugging Face. Реализация включает расширенные функции для обеспечения сопоставимости и воспроизводимости, такие как отслеживание ресурсов компьютера, детерминированные результаты и методы оценки распределения. ADVERSARIALLM также интегрирует систему оценки через сопутствующий пакет JUDGEZOO, который также может использоваться независимо. Вместе эти компоненты направлены на создание прочной основы для прозрачных, сравнимых и воспроизводимых исследований в области безопасности магистратуры по праву. Оба пакета доступны на GitHub - AdversariaLLM: A Unified and Modular Toolbox for LLM Robustness Research

См. также другие публикации, посвященные LLM