Wednesday, July 09, 2025

SHAP для LLM

В этой статье мы предлагаем новый подход к созданию целевых состязательных примеров (атак) с использованием объяснимых методов искусственного интеллекта (XAI). Наш метод использует XAI для определения ключевых входных элементов, которые при изменении могут ввести в заблуждение модели NLP, такие как BERT и большие языковые модели (LLM), и выдавать определенные неверные результаты. Мы демонстрируем эффективность наших целевых атак в ряде задач и моделей NLP, даже в сценариях, где доступ к внутренней модели ограничен. Наш подход особенно эффективен в условиях обучения с нулевым выстрелом, подчеркивая его адаптивность и переносимость как в традиционные, так и в разговорные системы ИИ. Кроме того, мы описываем стратегии смягчения, демонстрируя, что состязательное обучение и тонкая настройка могут усилить защиту моделей от таких атак. Хотя наша работа подчеркивает уязвимости моделей LLM и BERT к состязательным манипуляциям, она также закладывает основу для разработки более надежных моделей, продвигая двойную цель понимания и обеспечения безопасности систем NLP с черным ящиком. Используя целенаправленные состязательные примеры и методы на основе SHAP, мы не только выявляем слабые стороны существующих моделей, но и предлагаем стратегии повышения устойчивости ИИ к вводящим в заблуждение языковым данным.- Precise Language Deception: XAI Driven Targeted Adversarial Examples with Restricted Knowledge

Интересная идея - построение состязательных примеров для LLM с использованием SHAP

P.S. См. также другие публикации по теме adversarial, посвященные устойчивому машинному обучению

Monday, July 07, 2025

О безопасности ИИ агентов

Большие языковые модели (LLM) быстро превращаются в автономных агентов, которые сотрудничают через организационные границы, обеспечивая совместное реагирование на стихийные бедствия, оптимизацию цепочки поставок и другие задачи, требующие децентрализованной экспертизы без передачи права собственности на данные. Тем не менее, междоменное сотрудничество разрушает унифицированные допущения доверия, лежащие в основе текущих методов согласования и сдерживания. Агент, безопасный в изоляции, может, получая сообщения от ненадежного партнера, выдавать секреты или нарушать политику, создавая риски, обусловленные возникающей многоагентной динамикой, а не классическими ошибками программного обеспечения. В этом позиционном документе описывается повестка дня безопасности для междоменных многоагентных систем LLM. Мы представляем семь категорий новых проблем безопасности, для каждой из которых мы также представляем возможные атаки, метрики оценки безопасности и будущие рекомендации по исследованиям. - Seven Security Challenges That Must be Solved in Cross-domain Multi-agent LLM Systems

P.S. см. также другие публикации по тегу агент

Sunday, July 06, 2025

Состязательное тестирование моделей сегментации изображений

Сегментация изображений — одна из наиболее часто решаемых задач в обработке изображений. При этом модели сегментации изображений, как и любые другие модели глубокого обучения, подвержены состязательным атакам — специальным модификациям данных на разных этапах стандартного конвейера машинного обучения, которые препятствуют правильной работе модели и являются проблемным вопросом для практического использования моделей глубокого обучения. Рассмотрены так называемые атаки уклонения, когда модифицируются входные данные на этапе исполнения (вывода). Представлено оригинальное инструментальное средство — Segmentation Robustness Framework (SRF), предназначенное для тестирования устойчивости моделей сегментации к цифровым состязательным атакам. - статья в журнале Программная инженерия

P.S. См. также другие публикации по теме adversarial, посвященные устойчивому машинному обучению

INJOIT vol. 13, no. 7

Вышел седьмой номер журнала INJOIT в 2025 году. И тринадцатый год издания журнала.

Темы статей:

  • Программная реализация алгоритма Думера декодирования двоичных линейных кодов в различных моделях параллельных вычислений
  • Геометрическая параметризация p-адического соленоида и её применение в квантовой криптографии
  • Автоматизация метаморфизма кода Go с использованием больших языковых моделей
  • Modern technologies for marking network flows: from classical methods to innovations
  • Возможности и ограничения классификации атак в зашифрованном трафике методами машинного обучения
  • Что LLM знает о кибербезопасности
  • Application of MATLAB in the design of automatic control systems in the state space
  • Многокритериальная оценка требований к высокотехнологичной продукции в интеллектуальных системах поддержки принятия решений
  • Обзор методов решения задачи о приёмке и доставке с временными ограничениями. Часть I: точный подход
  • Fast Terminal Sliding Mode Control based on Super-twisting Algorithm for Trajectory Tracking Control of Uncertain Nonlinear Systems
  • A Deep Learning Framework for Unraveling Toxicokinetic-Neuropsychiatric Interactions
  • Program Generation Methods: Types and Instances
  • Creating the First Bengali-Russian Sign Language Dictionary for Inclusive Multilingual Communication
  • Диаграммы многомерно-матричных сетей
  • Процесс выявления и обработки критических сценариев дорожных ситуаций в формате OpenX
  • Спортивная аналитика: понятие, значение, особенности, направления
  • Оценка преимуществ и недостатков обучения с использованием дистанционных технологий с точки зрения обучающихся
  • Перспективы использования ASCII в различных сферах деятельности

Архив журнала находится здесь.

/via Лаборатория ОИТ

Saturday, July 05, 2025

Перекрашивание AI Red Team

Защитные меры Large Language Model (LLM), реализующие отказы в запросах, стали широко принятой стратегией смягчения последствий ненадлежащего использования. На стыке состязательного машинного обучения и безопасности ИИ защитная красная команда эффективно выявила критические уязвимости в современных обученных отказам LLM. Однако, по нашему мнению, многочисленные материалы конференций по красной команде LLM в совокупности не расставляют приоритеты в отношении правильных исследовательских проблем. Во-первых, тестирование на соответствие четким спецификациям безопасности продукта должно иметь более высокий приоритет, чем абстрактные социальные предубеждения или этические принципы. Во-вторых, красная команда должна отдавать приоритет реалистичным моделям угроз, которые представляют расширяющийся ландшафт рисков и то, что могут сделать реальные злоумышленники. Наконец, мы утверждаем, что безопасность на уровне системы является необходимым шагом для продвижения исследований красной команды вперед, поскольку модели ИИ представляют новые угрозы, а также возможности для смягчения угроз (например, обнаружение и блокировка злонамеренных пользователей) после помещения в контекст развертывания. Принятие этих приоритетов будет необходимо для того, чтобы исследовательская группа Red Team могла адекватно реагировать на ряд новых угроз, которые стремительное развитие ИИ представляет сегодня и будет представлять в самом ближайшем будущем. - A Red Teaming Roadmap Towards System-Level Safety

См. также другие публикации по теме Red Team

Friday, July 04, 2025

Проектирование и защита API

Конференция 17.06.2025: Проектирование и защита API. Лучшие практики, проверенные инструменты и вопросы соблюдения нормативных требований - презентации

Thursday, July 03, 2025

А что случилось?

"НСПК и банки могут внедрить ПИН-код для платежей по биометрии. Он должен защитить от оплаты чужого чека и мошенничества с дипфейками. Но платить лицом станет сложнее — просто посмотреть в камеру уже может быть недостаточно, особенно для крупных покупок" - РБК

А что случилось с биометрией ? :) Читайте наши работы по теме ИИ в кибербезопасности

Wednesday, July 02, 2025

Все не слава богу

Обеспечение безопасности и согласованности больших языковых моделей (LLM) является серьезной проблемой в связи с их растущей интеграцией в критически важные приложения и общественные функции. В то время как предыдущие исследования были в основном сосредоточены на атаках с джейлбрейком, меньше внимания уделялось несостязательным сбоям, которые незаметно возникают во время безобидных взаимодействий. Мы вводим вторичные риски — новый класс режимов сбоев, отмеченных вредоносным или вводящим в заблуждение поведением во время безобидных подсказок. В отличие от состязательных атак, эти риски возникают из-за несовершенного обобщения и часто обходят стандартные механизмы безопасности. Чтобы обеспечить систематическую оценку, мы вводим два примитива риска — подробный ответ и спекулятивный совет, — которые охватывают основные шаблоны сбоев. Основываясь на этих определениях, мы предлагаем SecLens, многоцелевую поисковую структуру черного ящика, которая эффективно выявляет поведение вторичного риска путем оптимизации релевантности задачи, активации риска и лингвистической правдоподобности. Для поддержки воспроизводимой оценки мы выпускаем SecRiskBench, эталонный набор данных из 650 подсказок, охватывающих восемь различных категорий реальных рисков. Экспериментальные результаты обширных оценок на 16 популярных моделях показывают, что вторичные риски широко распространены, переносимы между моделями и не зависят от модальности, что подчеркивает настоятельную необходимость в усовершенствованных механизмах безопасности для устранения правильного, но вредного поведения LLM в реальных развертываниях. - Exploring the Secondary Risks of Large Language Models

См. также другие публикации, посвященные LLM

Tuesday, July 01, 2025

Реалистичный черный ящик

Системы глубокого обучения, критически важные в таких областях, как автономные транспортные средства, уязвимы для состязательных примеров (созданных входных данных, предназначенных для введения в заблуждение классификаторов). В этом исследовании изучаются состязательные атаки черного ящика в компьютерном зрении. Это реалистичный сценарий, в котором злоумышленники имеют доступ только к запросу целевой модели. Для оценки осуществимости атаки вводятся три свойства: устойчивость к сжатию, скрытность к автоматическому обнаружению и скрытность к человеческому контролю. Современные методы, как правило, отдают приоритет одному критерию за счет других. Мы предлагаем ECLIPSE, новый метод атаки, использующий гауссово размытие на выборочных градиентах и ​​локальную суррогатную модель. Комплексные эксперименты на общедоступном наборе данных подчеркивают преимущества ECLIPSE, демонстрируя его вклад в компромисс между тремя свойствами. - How Stealthy is Stealthy? Studying the Efficacy of Black-Box Adversarial Attacks in the Real World

P.S. См. также другие публикации по теме adversarial, посвященные устойчивому машинному обучению

Monday, June 30, 2025

Все будет хуже

Протокол контекста модели (MCP) — это новый стандарт, разработанный для обеспечения бесперебойного взаимодействия между приложениями Large Language Model (LLM) и внешними инструментами или ресурсами. За короткий период уже были разработаны и развернуты тысячи служб MCP. Однако архитектура клиент-серверной интеграции, присущая MCP, может расширить поверхность атаки на системы агентов LLM, представляя новые уязвимости, которые позволяют злоумышленникам использовать, разрабатывая вредоносные серверы MCP. В этой статье мы представляем первое систематическое исследование векторов атак, нацеленных на экосистему MCP. Наш анализ выделяет четыре категории атак, а именно: атаки отравления инструментов, атаки марионеток, атаки вытягивания коврика и эксплуатация через вредоносные внешние ресурсы. Чтобы оценить осуществимость этих атак, мы проводим эксперименты, следуя типичным шагам запуска атаки через вредоносные серверы MCP: загрузка → загрузка → атака. В частности, мы сначала создаем вредоносные серверы MCP и успешно загружаем их на три широко используемые платформы агрегации MCP. Результаты показывают, что текущие механизмы аудита недостаточны для выявления и предотвращения предлагаемых методов атаки.Затем, посредством изучения пользователей и интервью с 20 участниками, мы демонстрируем, что пользователи испытывают трудности с выявлением вредоносных серверов MCP и часто неосознанно устанавливают их с платформ агрегаторов. Наконец, мы демонстрируем, что эти атаки могут вызывать вредное поведение в локальной среде пользователя, например, доступ к личным файлам или управление устройствами для передачи цифровых активов, путем развертывания фреймворка доказательства концепции (PoC) против пяти ведущих LLM. Кроме того, на основе результатов интервью, мы обсуждаем четыре ключевые проблемы, с которыми сталкивается текущая экосистема безопасности, окружающая серверы MCP. Эти результаты подчеркивают острую необходимость в надежных механизмах безопасности для защиты от вредоносных серверов MCP и обеспечения безопасного развертывания все более автономных агентов LLM - Beyond the Protocol: Unveiling Attack Vectors in the Model Context Protocol Ecosystem

См. другие публикации, посвященные MCP

Sunday, June 29, 2025

Объяснения для моделей ML

Настоящее исследование посвящено сравнительному анализу ансамбля глубоких нейронных сетей (DNNW) с различными ансамблевыми методами, такими как RUSBoost, Random Forest, Subspace, AdaBoost и BagTree, для наилучшего прогнозирования по данным вредоносных программ на основе изображений. Оно определяет наиболее эффективную модель, ансамбль DNNW, для которой обеспечивается объяснимость. Было проведено относительно мало исследований объяснимости, особенно при работе с данными вредоносных программ на основе изображений, независимо от того, что алгоритмы DL/ML произвели революцию в обнаружении вредоносных программ. Методы объяснимости, такие как подходы SHAP, LIME и Grad-CAM, используются для представления полного понимания значимости признаков и локального или глобального предсказательного поведения модели по различным категориям вредоносных программ. Всестороннее исследование значимых характеристик и их влияния на процесс принятия решений модели и визуализации множественных точек запроса являются некоторыми из вкладов. Эта стратегия способствует повышению прозрачности и надежности приложений кибербезопасности за счет улучшения понимания методов обнаружения вредоносных программ и интеграции объяснимых наблюдений ИИ со знаниями, специфичными для предметной области. - Advancing malware imagery classification with explainable deep learning: A state-of-the-art approach using SHAP, LIME and Grad-CAM

Thursday, June 26, 2025

Как агент агенту говорю

MCP описывает взаимодействие агентов и инструментов (например, поиска в веб). А есть еще протокол Agent2Agent от Google - уто уже про взаимодействие агентов между собой.

См. также хорошее введение - как создать ИИ агента

Wednesday, June 25, 2025

Оценка AI агентов

GAIA означает General AI Assistants benchmark. Этот бенчмарк был введен специально для оценки агентов LLM на предмет их способности выступать в качестве универсальных помощников ИИ. Он является результатом совместных усилий исследователей из Meta-FAIR, Meta-GenAI, Hugging Face и других, связанных с инициативой AutoGPT. - GAIA: The LLM Agent Benchmark Everyone’s Talking About

Tuesday, June 24, 2025

Что NIST грядущий нам готовит

Новая таксономия состязательного машинного обучения от NIST: ключевые изменения в рекомендациях по безопасности ИИ (2023 и 2025 гг.)

В постоянно меняющемся ландшафте угроз и уязвимостей ИИ оставаться впереди означает быть в курсе событий. Национальный институт стандартов и технологий (NIST) недавно опубликовал важное обновление своего основополагающего документа «Состязательное машинное обучение: таксономия и терминология атак и смягчения последствий» (AI 100-2 E2023) переходя от издания 2023 года к значительно улучшенному выпуску 2025 года (AI 100-2 E2023). В этой статье суммируются критические различия, предоставляя стратегические идеи для руководителей служб информационной безопасности и подробные технические перспективы для исследователей безопасности и специалистов AI Red Team.

NIST AI 100-2 E2025 VS E2023 — изменения высокого уровня для руководителей служб информационной безопасности

Поскольку системы ИИ становятся основной частью корпоративных технологических стеков, руководители служб информационной безопасности должны сохранять бдительность в отношении возникающих рисков. Недавнее обновление NIST предлагает существенные улучшения, отражающие быстрые достижения и возросшие угрозы, с которыми сталкиваются организации:

1. Всестороннее освещение атак

Отчет NIST 2025 года значительно расширяет свою таксономию состязательных атак МО, предоставляя расширенные определения и четкую категоризацию. В нем подробно описаны угрозы расширенного генеративного ИИ (GenAI), включая атаки ненадлежащего использования и быстрых инъекций, четко разграничивая различные типы атак, влияющих на целостность, доступность и конфиденциальность, что позволяет более четко оценивать риски и планировать смягчение последствий.

2. Акцент на практических и эксплуатационных воздействиях

Если в отчете 2023 года в основном обсуждались теоретические модели, то в последнем издании более подробно рассматриваются практические сценарии, наглядно иллюстрирующие реальные примеры враждебных атак. В нем добавлены специальные разделы, освещающие реальные развертывания, типичные сбои и успешные стратегии управления рисками безопасности ИИ, что является важным улучшением по мере того, как организации внедряют передовые инструменты ИИ.

3. Включение новых векторов угроз и корпоративной интеграции

Отражая текущие модели внедрения, документ 2025 года, в частности, включает в себя четкое руководство по обеспечению безопасности цепочек поставок ИИ, устранению рисков, создаваемых автономными агентами ИИ, и обеспечению безопасности интеграций GenAI корпоративного уровня с помощью подробных эталонных архитектур. Такой подход гарантирует, что руководители служб безопасности будут хорошо оснащены для управления этими меняющимися угрозами.

Подробные различия NIST AI 100-2 E2025 и E2023 для исследователей и практиков безопасности ИИ

Помимо стратегических идей, эксперты по безопасности и специалисты Red Team оценят детальную техническую эволюцию в состязательной таксономии ML NIST:

Расширенные категории атак и детализация

Таксономия в издании 2023 года в основном охватывала три основных типа атак (уклонение, отравление, атаки на конфиденциальность). Напротив, таксономия 2025 года значительно расширяется, чтобы включить четко определенные подкатегории, такие как:


Отравление с чистой этикеткой: атаки, которые тонко повреждают данные без изменения меток, поэтому их сложнее обнаружить.
Косвенное внедрение подсказок: сложные атаки, которые используют внешние или косвенные каналы для манипулирования поведением GenAI.
Неправильно согласованные выходы (в GenAI): атаки, побуждающие модели ИИ выдавать вводящие в заблуждение или вредоносные выходы, несмотря на то, что они кажутся работоспособными.
Атаки с задержкой энергии: новые опасения по поводу атак на истощение ресурсов, напрямую влияющих на стабильность на уровне инфраструктуры.

Расширенный реальный контекст

Отчет 2025 года намеренно включает подробные реальные примеры и практические примеры. Практические практические примеры включают атаки отравления против развернутых финансовых моделей машинного обучения, нарушения конфиденциальности со стороны корпоративных чат-ботов GenAI и сбои в работе из-за непрямых инъекций подсказок. Эти сценарии значительно улучшают практическое понимание и позволяют реализовать действенные сценарии тестирования Red Team.

Более сильный акцент на безопасности генеративного ИИ

Признавая быстрое принятие GenAI, издание NIST 2025 года всесторонне интегрирует GenAI в свою таксономию, подробно описывая атаки, характерные для больших языковых моделей (LLM), систем расширенной генерации поиска (RAG) и развертываний ИИ на основе агентов. Исследователи безопасности теперь могут получить доступ к подробным сведениям о защите GenAI от все более сложных противников.

Введение в неправильное использование ИИ и безопасность агентов

Новым важным включением является явная категоризация нарушений неправильного использования, направленная на выявление рисков безопасности, возникающих из-за злоумышленников, использующих возможности модели для обхода мер безопасности. Кроме того, особое внимание уделяется уязвимостям в агентах ИИ, автоматизированных системах, управляемых ИИ, способных к автономному взаимодействию — новый вектор атак, не рассмотренный в издании 2023 года.

Более широкое сотрудничество и экспертные мнения

Документ 2025 года опирается на международное сотрудничество между NIST, Институтом безопасности ИИ США и Институтом безопасности ИИ Великобритании, что значительно расширяет спектр опыта и идей. Эта международная экспертиза обеспечивает авторитетную точку зрения на мировые тенденции и передовой опыт в области безопасности ИИ.

NIST AI 100-2 E2025 VS E2023: Резюме

Обновленное издание руководства NIST по состязательному машинному обучению 2025 года является крупным шагом вперед, в котором особое внимание уделяется реальным сценариям, рискам развертывания на предприятии и проблемам безопасности GenAI. Благодаря значительно уточненным классификациям и новым рассмотренным практическим угрозам, таким как непрямое внедрение подсказок и уязвимости агентов ИИ, документ теперь тесно связан с текущими операционными потребностями. Эта эволюция предоставляет организациям критически важные знания для опережения противников в сегодняшнем быстро меняющемся ландшафте ИИ.

По мере развития угроз ваши стратегии красной команды ИИ должны развиваться вместе с ними. Использование этой новой таксономии позволит лучше вооружить вашу команду, значительно повысив устойчивость вашей организации к все более изощренным противникам.

/via adversa.ai

Новая версия документа NIST Adversarial Machine Learning: A Taxonomy and Terminology of Attacks and Mitigations

Monday, June 23, 2025

О мониторинге моделей ML

Хорошая статья о построении системы мониторинга для моделей машинного обучения:

Контекстный подход к мониторингу

Если обнаружение дрейфа само по себе не решает реальную проблему, то что может? Хорошая система мониторинга должна выходить за рамки статистики и отражать бизнес-результаты, которые должна обеспечить модель. Для этого требуется трехуровневый подход:

1. Статистический мониторинг: базовый уровень Статистический мониторинг должен быть вашей первой линией обороны. Такие метрики, как PSI, KL Divergence или хи-квадрат, можно использовать для определения быстрого изменения в распределении функций. Однако их следует рассматривать как сигналы, а не как сигналы тревоги.

2. Контекстный мониторинг: бизнес-ориентированные идеи Контекстный мониторинг согласует технические сигналы с бизнес-значением. Он отвечает на более глубокий вопрос, чем «Что-то сместилось?» Он спрашивает: «Влияет ли смещение на то, что нас волнует?»

Vertex AI от Google Cloud предлагает этот мост. Наряду с базовым мониторингом смещения он позволяет пользователям настраивать срезы и сегментирование прогнозов по демографическим данным пользователей или бизнес-измерениям. Отслеживая производительность модели по срезам (например, коэффициент конверсии по уровню клиента или категории продукта), команды могут видеть не только сам сдвиг, но и где и как он повлиял на бизнес-результаты.

Например, в приложении электронной коммерции модель, прогнозирующая отток клиентов, может увидеть всплеск смещения для «частоты взаимодействия». Но если этот всплеск коррелирует со стабильным удержанием среди ценных клиентов, нет необходимости в немедленном переобучении. Контекстный мониторинг поощряет более медленную, более обдуманную интерпретацию смещения, настроенную на приоритеты бизнеса.

3. Поведенческий мониторинг: дрейф, обусловленный результатами Помимо входных данных, выходные данные вашей модели должны отслеживаться на предмет отклонений. Это необходимо для отслеживания прогнозов модели и результатов, которые они создают. Например, в финансовом учреждении, где внедряется модель кредитного риска, мониторинг должен не только обнаруживать изменение характеристик дохода или суммы кредита пользователей. Он также должен отслеживать уровень одобрения, уровень дефолта и прибыльность кредитов, выданных моделью с течением времени. Если уровень дефолта по одобренным кредитам резко возрастает в определенном регионе, это становится большой проблемой, даже если распределение характеристик модели не дрейфует.

См. также другие публикации по теме мониторинг

LLM и геопространственные данные

Широкое внедрение услуг на основе определения местоположения привело к генерации огромных объемов данных о мобильности, что обеспечивает значительные возможности для моделирования динамики перемещения пользователей в городской среде. Последние достижения были сосредоточены на адаптации больших языковых моделей (LLM) для аналитики мобильности. Однако существующие методы сталкиваются с двумя основными ограничениями: неадекватное семантическое представление местоположений (т. е. дискретные идентификаторы) и недостаточное моделирование сигналов мобильности в LLM (т. е. тонкая настройка одной шаблонной инструкции). Для решения этих проблем мы предлагаем QT-Mob, новую структуру, которая значительно улучшает LLM для аналитики мобильности. QT-Mob представляет модуль токенизации местоположения, который изучает компактные, семантически насыщенные токены для представления местоположений, сохраняя контекстную информацию и обеспечивая совместимость с LLM. Кроме того, QT-Mob включает ряд дополнительных целей тонкой настройки, которые согласовывают изученные токены с внутренними представлениями в LLM, улучшая понимание моделью последовательных шаблонов движения и семантики местоположения. Предлагаемая структура QT-Mob не только расширяет возможности LLM интерпретировать данные о мобильности, но и обеспечивает более обобщаемый подход для различных задач аналитики мобильности. Эксперименты на трех реальных наборах данных демонстрируют превосходную производительность как в задачах прогнозирования следующего местоположения, так и в задачах восстановления мобильности, превосходя существующие методы глубокого обучения и LLM. - Enhancing Large Language Models for Mobility Analytics with Semantic Location Tokenization

См. также другие публикации, посвященные LLM