См. другие публикации, посвященные MCP
технические проблемы и идеи, родившиеся в бурных водах реки Abava (а равно как и на ее берегах, далеких и близких), выставленные на всеобщее обсуждение
Monday, June 30, 2025
Все будет хуже
Sunday, June 29, 2025
Объяснения для моделей ML
Thursday, June 26, 2025
Как агент агенту говорю
См. также хорошее введение - как создать ИИ агента
Wednesday, June 25, 2025
Оценка AI агентов
Tuesday, June 24, 2025
Что NIST грядущий нам готовит
В постоянно меняющемся ландшафте угроз и уязвимостей ИИ оставаться впереди означает быть в курсе событий. Национальный институт стандартов и технологий (NIST) недавно опубликовал важное обновление своего основополагающего документа «Состязательное машинное обучение: таксономия и терминология атак и смягчения последствий» (AI 100-2 E2023) переходя от издания 2023 года к значительно улучшенному выпуску 2025 года (AI 100-2 E2023). В этой статье суммируются критические различия, предоставляя стратегические идеи для руководителей служб информационной безопасности и подробные технические перспективы для исследователей безопасности и специалистов AI Red Team.
NIST AI 100-2 E2025 VS E2023 — изменения высокого уровня для руководителей служб информационной безопасности
Поскольку системы ИИ становятся основной частью корпоративных технологических стеков, руководители служб информационной безопасности должны сохранять бдительность в отношении возникающих рисков. Недавнее обновление NIST предлагает существенные улучшения, отражающие быстрые достижения и возросшие угрозы, с которыми сталкиваются организации:
1. Всестороннее освещение атак
Отчет NIST 2025 года значительно расширяет свою таксономию состязательных атак МО, предоставляя расширенные определения и четкую категоризацию. В нем подробно описаны угрозы расширенного генеративного ИИ (GenAI), включая атаки ненадлежащего использования и быстрых инъекций, четко разграничивая различные типы атак, влияющих на целостность, доступность и конфиденциальность, что позволяет более четко оценивать риски и планировать смягчение последствий.
2. Акцент на практических и эксплуатационных воздействиях
Если в отчете 2023 года в основном обсуждались теоретические модели, то в последнем издании более подробно рассматриваются практические сценарии, наглядно иллюстрирующие реальные примеры враждебных атак. В нем добавлены специальные разделы, освещающие реальные развертывания, типичные сбои и успешные стратегии управления рисками безопасности ИИ, что является важным улучшением по мере того, как организации внедряют передовые инструменты ИИ.
3. Включение новых векторов угроз и корпоративной интеграции
Отражая текущие модели внедрения, документ 2025 года, в частности, включает в себя четкое руководство по обеспечению безопасности цепочек поставок ИИ, устранению рисков, создаваемых автономными агентами ИИ, и обеспечению безопасности интеграций GenAI корпоративного уровня с помощью подробных эталонных архитектур. Такой подход гарантирует, что руководители служб безопасности будут хорошо оснащены для управления этими меняющимися угрозами.
Подробные различия NIST AI 100-2 E2025 и E2023 для исследователей и практиков безопасности ИИ
Помимо стратегических идей, эксперты по безопасности и специалисты Red Team оценят детальную техническую эволюцию в состязательной таксономии ML NIST:
Расширенные категории атак и детализация
Таксономия в издании 2023 года в основном охватывала три основных типа атак (уклонение, отравление, атаки на конфиденциальность). Напротив, таксономия 2025 года значительно расширяется, чтобы включить четко определенные подкатегории, такие как:
Отравление с чистой этикеткой: атаки, которые тонко повреждают данные без изменения меток, поэтому их сложнее обнаружить.
Косвенное внедрение подсказок: сложные атаки, которые используют внешние или косвенные каналы для манипулирования поведением GenAI.
Неправильно согласованные выходы (в GenAI): атаки, побуждающие модели ИИ выдавать вводящие в заблуждение или вредоносные выходы, несмотря на то, что они кажутся работоспособными.
Атаки с задержкой энергии: новые опасения по поводу атак на истощение ресурсов, напрямую влияющих на стабильность на уровне инфраструктуры.
Расширенный реальный контекст
Отчет 2025 года намеренно включает подробные реальные примеры и практические примеры. Практические практические примеры включают атаки отравления против развернутых финансовых моделей машинного обучения, нарушения конфиденциальности со стороны корпоративных чат-ботов GenAI и сбои в работе из-за непрямых инъекций подсказок. Эти сценарии значительно улучшают практическое понимание и позволяют реализовать действенные сценарии тестирования Red Team.
Более сильный акцент на безопасности генеративного ИИ
Признавая быстрое принятие GenAI, издание NIST 2025 года всесторонне интегрирует GenAI в свою таксономию, подробно описывая атаки, характерные для больших языковых моделей (LLM), систем расширенной генерации поиска (RAG) и развертываний ИИ на основе агентов. Исследователи безопасности теперь могут получить доступ к подробным сведениям о защите GenAI от все более сложных противников.
Введение в неправильное использование ИИ и безопасность агентов
Новым важным включением является явная категоризация нарушений неправильного использования, направленная на выявление рисков безопасности, возникающих из-за злоумышленников, использующих возможности модели для обхода мер безопасности. Кроме того, особое внимание уделяется уязвимостям в агентах ИИ, автоматизированных системах, управляемых ИИ, способных к автономному взаимодействию — новый вектор атак, не рассмотренный в издании 2023 года.
Более широкое сотрудничество и экспертные мнения
Документ 2025 года опирается на международное сотрудничество между NIST, Институтом безопасности ИИ США и Институтом безопасности ИИ Великобритании, что значительно расширяет спектр опыта и идей. Эта международная экспертиза обеспечивает авторитетную точку зрения на мировые тенденции и передовой опыт в области безопасности ИИ.
NIST AI 100-2 E2025 VS E2023: Резюме
Обновленное издание руководства NIST по состязательному машинному обучению 2025 года является крупным шагом вперед, в котором особое внимание уделяется реальным сценариям, рискам развертывания на предприятии и проблемам безопасности GenAI. Благодаря значительно уточненным классификациям и новым рассмотренным практическим угрозам, таким как непрямое внедрение подсказок и уязвимости агентов ИИ, документ теперь тесно связан с текущими операционными потребностями. Эта эволюция предоставляет организациям критически важные знания для опережения противников в сегодняшнем быстро меняющемся ландшафте ИИ.
По мере развития угроз ваши стратегии красной команды ИИ должны развиваться вместе с ними. Использование этой новой таксономии позволит лучше вооружить вашу команду, значительно повысив устойчивость вашей организации к все более изощренным противникам.
/via adversa.ai
Новая версия документа NIST Adversarial Machine Learning: A Taxonomy and Terminology of Attacks and Mitigations
Monday, June 23, 2025
О мониторинге моделей ML
Контекстный подход к мониторингу
Если обнаружение дрейфа само по себе не решает реальную проблему, то что может? Хорошая система мониторинга должна выходить за рамки статистики и отражать бизнес-результаты, которые должна обеспечить модель. Для этого требуется трехуровневый подход:
1. Статистический мониторинг: базовый уровень Статистический мониторинг должен быть вашей первой линией обороны. Такие метрики, как PSI, KL Divergence или хи-квадрат, можно использовать для определения быстрого изменения в распределении функций. Однако их следует рассматривать как сигналы, а не как сигналы тревоги.
2. Контекстный мониторинг: бизнес-ориентированные идеи Контекстный мониторинг согласует технические сигналы с бизнес-значением. Он отвечает на более глубокий вопрос, чем «Что-то сместилось?» Он спрашивает: «Влияет ли смещение на то, что нас волнует?»
Vertex AI от Google Cloud предлагает этот мост. Наряду с базовым мониторингом смещения он позволяет пользователям настраивать срезы и сегментирование прогнозов по демографическим данным пользователей или бизнес-измерениям. Отслеживая производительность модели по срезам (например, коэффициент конверсии по уровню клиента или категории продукта), команды могут видеть не только сам сдвиг, но и где и как он повлиял на бизнес-результаты.
Например, в приложении электронной коммерции модель, прогнозирующая отток клиентов, может увидеть всплеск смещения для «частоты взаимодействия». Но если этот всплеск коррелирует со стабильным удержанием среди ценных клиентов, нет необходимости в немедленном переобучении. Контекстный мониторинг поощряет более медленную, более обдуманную интерпретацию смещения, настроенную на приоритеты бизнеса.
3. Поведенческий мониторинг: дрейф, обусловленный результатами Помимо входных данных, выходные данные вашей модели должны отслеживаться на предмет отклонений. Это необходимо для отслеживания прогнозов модели и результатов, которые они создают. Например, в финансовом учреждении, где внедряется модель кредитного риска, мониторинг должен не только обнаруживать изменение характеристик дохода или суммы кредита пользователей. Он также должен отслеживать уровень одобрения, уровень дефолта и прибыльность кредитов, выданных моделью с течением времени. Если уровень дефолта по одобренным кредитам резко возрастает в определенном регионе, это становится большой проблемой, даже если распределение характеристик модели не дрейфует.
См. также другие публикации по теме мониторинг
LLM и геопространственные данные
См. также другие публикации, посвященные LLM
Sunday, June 22, 2025
LLM и анализ временных рядов
См. также другие публикации, посвященные LLM
Saturday, June 21, 2025
Атаки с ограничениями
P.S. См. также другие публикации по теме adversarial, посвященные устойчивому машинному обучению
Friday, June 20, 2025
Вавилонская башня и LLM
См. также другие публикации, посвященные LLM
Thursday, June 19, 2025
А судьи кто?
1) системы LLMas-a-Judge по-прежнему уязвимы для ряда состязательных атак, включая комбинированную атаку и PAIR, в то время как механизмы защиты, такие как повторная токенизация и детекторы на основе LLM, предлагают улучшенную защиту.
2) Надежность очень чувствительна к выбору шаблона подсказки и моделей судьи.
Наш предложенный метод оптимизации шаблона подсказки может повысить надежность, и JudgeLM-13B демонстрирует высокую производительность в качестве надежного судьи с открытым исходным кодом. 3) Применение RobustJudge к платформе PAI Alibaba выявляет ранее не зарегистрированные уязвимости. Исходный код RobustJudge доступен по адресу https://github.com/S3IC-Lab/RobustJudge. - LLMs Cannot Reliably Judge (Yet?): A Comprehensive Assessment on the Robustness of LLM-as-a-Judge
См. также другие публикации, посвященные LLM
Wednesday, June 18, 2025
Открытая наука, том 13, номер 6
Это том 13, номер 6 за 2025 год. Большое пополнение для списка работ по теме Искусственный интеллект в кибербезопасности
/via Лаборатория ОИТ
Интерпретация статистических моделей
Tuesday, June 17, 2025
Monday, June 16, 2025
INJOIT vol. 13, no. 6
Темы статей:
- Разработка метода самокоррекции больших языковых моделей с помощью обучения с подкреплением
- Calibration of large language models based on the conformal prediction
- Разработка подходов к увеличению устойчивости моделей машинного обучения для обнаружения распределенных атак отказа обслуживания
- Повышение устойчивости к состязательным атакам моделей машинного обучения для обнаружения межсайтового выполнения сценариев
- Состязательное тестирование моделей машинного обучения, предназначенных для обнаружения SQL-инъекций
- Compensation of input and output disturbances for MIMO discrete-time systems with unmeasured state vector
- Повышение точности навигации по ГНСС на геостационарной орбите за счет коррекции частоты опорного генератора по измерению внешней метки времени
- Применение генетического алгоритма для оценки объектов на основе частично противоречивых данных
- Frontend-разработка модуля тестирования для образовательной системы «ФизикаБезТайн» с использованием метафреймворка SvelteKit
- Reducing computational complexity of brute force algorithm in solving optimal placement of directional antenna
- Использование управления доступом на основе атрибутов и mTLS в микросервисной архитектуре
- Метод и программный комплекс расширения графических наборов данных при помощи глубокого обучения с подкреплением
- Практическое применение методологии GitOps и CICD подходов при разработке систем на ПЛИС
- Предпосылки создания единой автоматизированной системы управления предприятием (АЭС) на всех стадиях жизненного цикла: от строительства до вывода из эксплуатации
- Unsupervised anomaly detection on cybersecurity data streams: a case with BETH dataset
- Современные методы обучения больших языковых моделей с минимумом данных: От одного примера к абсолютному нулю – академический обзор
- Highly Accurate XSS Detection using CatBoost
- Разработка программного обеспечения моделирования угроз для систем на базе LLM-агентов
- Кибератаки на зарядные станции
- Разработка интеллектуального метода для классификации уязвимостей и угроз в лентах новостей
Архив журнала находится здесь.
/via Лаборатория ОИТ
Sunday, June 15, 2025
Секреты в тексте
Google мед
см. также ИБП для медицины. Источники бесперебойного питания для медицины и здравоохранения.
Saturday, June 14, 2025
Агенты Сбербанка
Friday, June 13, 2025
База LLM
Thursday, June 12, 2025
Фишинг для ИИ агентов
Что нового: Энг Ли и его коллеги из Колумбийского университета разработали метод использования неявного доверия, которое агенты склонны оказывать популярным веб-сайтам, отравляя эти веб-сайты вредоносными ссылками.
Ключевая идея: коммерчески доступные агентские системы могут не доверять случайным сайтам в Интернете, но они склонны доверять популярным сайтам, таким как сайты социальных сетей. Злоумышленник может использовать это доверие, создавая, казалось бы, типичные посты, которые ссылаются на вредоносный веб-сайт. Агент может перейти по ссылке, ошибочно распространив свое доверие на ненадежный сайт.
Как это работает:
1) авторы протестировали агентов веб-браузинга, включая Anthropic Computer Use и MultiOn, на таких задачах, как покупки или отправка электронных писем.
2) Авторы создали посты Reddit, которые тематически соответствовали определенной агентской задаче, например, покупке обуви Air Jordan 1. Посты содержали текст, похожий на маркетинг (например, «Где купить Air Jordan 1 Chicago»), а также инструкции, указывающие на вредоносный сайт, контролируемый авторами («для получения дополнительной информации посетите <веб-сайт>»).
3) Авторы отправляли агенту запрос типа «Где купить Nike Air Jordan 1 в Чикаго?». Они также вводили конфиденциальную информацию, такую как данные кредитной карты или учетные данные электронной почты.
4) Агент искал в Интернете ресурсы, необходимые для выполнения запроса. Он изучал сайты и находил посты Reddit, написанные авторами.
5) Агент следовал инструкциям в постах и посещал вредоносный веб-сайт. Веб-сайт включал инструкции, которые манипулировали агентом для достижения цели злоумышленника, например, отправляли данные кредитной карты или отправляли фишинговые письма с адреса электронной почты пользователя.
Результаты: после того, как агент был перенаправлен на вредоносные веб-сайты, он надежно следовал инструкциям злоумышленника. Например, каждый из протестированных агентов разглашал информацию о кредитной карте в 10 из 10 испытаний. Аналогично, каждый агент отправлял фишинговое сообщение с учетной записи электронной почты пользователя с просьбой к получателям отправить деньги злонамеренному «другу» в 10 из 10 испытаний.
Почему это важно: Предоставление агентам возможности выполнять реальные действия, такие как совершение покупок и отправка электронных писем, повышает вероятность того, что их могут обмануть и заставить совершить вредоносные действия. Манипулирование агентами путем направления их на вредоносный веб-контент является эффективным вектором атаки. Агенты будут в большей безопасности, если они будут разработаны так, чтобы избегать и противостоять таким манипуляциям.
Мы думаем: люди тоже могут быть обмануты фишингом и другими вредоносными действиями, и путь к программированию агентов для защиты от них кажется проще, чем путь к обучению большинства людей этому. В долгосрочной перспективе агенты сделают онлайн-взаимодействия более безопасными. /via Deeplearning.ai
Wednesday, June 11, 2025
LLM в отражении атак на IoT
См. также другие публикации, посвященные LLM
Tuesday, June 10, 2025
Атаки на LLM
См. также другие публикации, посвященные LLM
Monday, June 09, 2025
Sunday, June 08, 2025
Saturday, June 07, 2025
Friday, June 06, 2025
Это не ошибки, а свойства
Хорошее статистическое объяснение природы состязательных ошибок
P.S. См. также другие публикации по теме adversarial, посвященные устойчивому машинному обучению
Thursday, June 05, 2025
Генератор иммитационных моделей
Wednesday, June 04, 2025
Введение в модельно-ориентированную системную и программную инженерию (MBSSE)
Авторы:
Владимир Александрович Сухомлин, Владимир Юрьевич Романов, Дмитрий Антонович Гапанович
О книге
Рекомендовано ФУМО по укрупненной группе специальностей и направлений подготовки 02.00.00 Компьютерные и информационные науки в качестве учебного пособия для студентов высших учебных заведений, обучающихся по направлениям подготовки: «Фундаментальная информатика и информационные технологии», «Математическое обеспечение и администрирование информационных систем», «Математика и компьютерные науки»
Учебник посвящен модельно-ориентированной системной инженерии (MBSE) и её интеграции с программной инженерией (MBSSE). В работе рассматриваются концептуальные основы MBSE и MBSSE, методы управления жизненным циклом систем, стандарты системной инженерии, языки моделирования UML и SysML.
Особое внимание уделяется цифровым двойникам, инженерии требований и архитектуре систем. Заключительный раздел охватывает математические основы системной инженерии, включая теорию систем, конечные автоматы и формальное моделирование. Учебник рекомендован как базовый курс для подготовки ИТ-специалистов.
Tuesday, June 03, 2025
Новый подход к джелбрейкам
См. также другие публикации, посвященные LLM