AbavaNet technical corner: June 2025

Monday, June 30, 2025

Все будет хуже

Протокол контекста модели (MCP) — это новый стандарт, разработанный для обеспечения бесперебойного взаимодействия между приложениями Large Language Model (LLM) и внешними инструментами или ресурсами. За короткий период уже были разработаны и развернуты тысячи служб MCP. Однако архитектура клиент-серверной интеграции, присущая MCP, может расширить поверхность атаки на системы агентов LLM, представляя новые уязвимости, которые позволяют злоумышленникам использовать, разрабатывая вредоносные серверы MCP. В этой статье мы представляем первое систематическое исследование векторов атак, нацеленных на экосистему MCP. Наш анализ выделяет четыре категории атак, а именно: атаки отравления инструментов, атаки марионеток, атаки вытягивания коврика и эксплуатация через вредоносные внешние ресурсы. Чтобы оценить осуществимость этих атак, мы проводим эксперименты, следуя типичным шагам запуска атаки через вредоносные серверы MCP: загрузка → загрузка → атака. В частности, мы сначала создаем вредоносные серверы MCP и успешно загружаем их на три широко используемые платформы агрегации MCP. Результаты показывают, что текущие механизмы аудита недостаточны для выявления и предотвращения предлагаемых методов атаки.Затем, посредством изучения пользователей и интервью с 20 участниками, мы демонстрируем, что пользователи испытывают трудности с выявлением вредоносных серверов MCP и часто неосознанно устанавливают их с платформ агрегаторов. Наконец, мы демонстрируем, что эти атаки могут вызывать вредное поведение в локальной среде пользователя, например, доступ к личным файлам или управление устройствами для передачи цифровых активов, путем развертывания фреймворка доказательства концепции (PoC) против пяти ведущих LLM. Кроме того, на основе результатов интервью, мы обсуждаем четыре ключевые проблемы, с которыми сталкивается текущая экосистема безопасности, окружающая серверы MCP. Эти результаты подчеркивают острую необходимость в надежных механизмах безопасности для защиты от вредоносных серверов MCP и обеспечения безопасного развертывания все более автономных агентов LLM - Beyond the Protocol: Unveiling Attack Vectors in the Model Context Protocol Ecosystem

См. другие публикации, посвященные MCP

Sunday, June 29, 2025

Объяснения для моделей ML

Настоящее исследование посвящено сравнительному анализу ансамбля глубоких нейронных сетей (DNNW) с различными ансамблевыми методами, такими как RUSBoost, Random Forest, Subspace, AdaBoost и BagTree, для наилучшего прогнозирования по данным вредоносных программ на основе изображений. Оно определяет наиболее эффективную модель, ансамбль DNNW, для которой обеспечивается объяснимость. Было проведено относительно мало исследований объяснимости, особенно при работе с данными вредоносных программ на основе изображений, независимо от того, что алгоритмы DL/ML произвели революцию в обнаружении вредоносных программ. Методы объяснимости, такие как подходы SHAP, LIME и Grad-CAM, используются для представления полного понимания значимости признаков и локального или глобального предсказательного поведения модели по различным категориям вредоносных программ. Всестороннее исследование значимых характеристик и их влияния на процесс принятия решений модели и визуализации множественных точек запроса являются некоторыми из вкладов. Эта стратегия способствует повышению прозрачности и надежности приложений кибербезопасности за счет улучшения понимания методов обнаружения вредоносных программ и интеграции объяснимых наблюдений ИИ со знаниями, специфичными для предметной области. - Advancing malware imagery classification with explainable deep learning: A state-of-the-art approach using SHAP, LIME and Grad-CAM

Thursday, June 26, 2025

Как агент агенту говорю

MCP описывает взаимодействие агентов и инструментов (например, поиска в веб). А есть еще протокол Agent2Agent от Google - уто уже про взаимодействие агентов между собой.

См. также хорошее введение - как создать ИИ агента

Wednesday, June 25, 2025

Оценка AI агентов

GAIA означает General AI Assistants benchmark. Этот бенчмарк был введен специально для оценки агентов LLM на предмет их способности выступать в качестве универсальных помощников ИИ. Он является результатом совместных усилий исследователей из Hugging Face и других компаний, связанных с инициативой AutoGPT. - GAIA: The LLM Agent Benchmark Everyone’s Talking About

Tuesday, June 24, 2025

Что NIST грядущий нам готовит

Новая таксономия состязательного машинного обучения от NIST: ключевые изменения в рекомендациях по безопасности ИИ (2023 и 2025 гг.)

В постоянно меняющемся ландшафте угроз и уязвимостей ИИ оставаться впереди означает быть в курсе событий. Национальный институт стандартов и технологий (NIST) недавно опубликовал важное обновление своего основополагающего документа «Состязательное машинное обучение: таксономия и терминология атак и смягчения последствий» (AI 100-2 E2023) переходя от издания 2023 года к значительно улучшенному выпуску 2025 года (AI 100-2 E2023). В этой статье суммируются критические различия, предоставляя стратегические идеи для руководителей служб информационной безопасности и подробные технические перспективы для исследователей безопасности и специалистов AI Red Team.

NIST AI 100-2 E2025 VS E2023 — изменения высокого уровня для руководителей служб информационной безопасности

Поскольку системы ИИ становятся основной частью корпоративных технологических стеков, руководители служб информационной безопасности должны сохранять бдительность в отношении возникающих рисков. Недавнее обновление NIST предлагает существенные улучшения, отражающие быстрые достижения и возросшие угрозы, с которыми сталкиваются организации:

1. Всестороннее освещение атак

Отчет NIST 2025 года значительно расширяет свою таксономию состязательных атак МО, предоставляя расширенные определения и четкую категоризацию. В нем подробно описаны угрозы расширенного генеративного ИИ (GenAI), включая атаки ненадлежащего использования и быстрых инъекций, четко разграничивая различные типы атак, влияющих на целостность, доступность и конфиденциальность, что позволяет более четко оценивать риски и планировать смягчение последствий.

2. Акцент на практических и эксплуатационных воздействиях

Если в отчете 2023 года в основном обсуждались теоретические модели, то в последнем издании более подробно рассматриваются практические сценарии, наглядно иллюстрирующие реальные примеры враждебных атак. В нем добавлены специальные разделы, освещающие реальные развертывания, типичные сбои и успешные стратегии управления рисками безопасности ИИ, что является важным улучшением по мере того, как организации внедряют передовые инструменты ИИ.

3. Включение новых векторов угроз и корпоративной интеграции

Отражая текущие модели внедрения, документ 2025 года, в частности, включает в себя четкое руководство по обеспечению безопасности цепочек поставок ИИ, устранению рисков, создаваемых автономными агентами ИИ, и обеспечению безопасности интеграций GenAI корпоративного уровня с помощью подробных эталонных архитектур. Такой подход гарантирует, что руководители служб безопасности будут хорошо оснащены для управления этими меняющимися угрозами.

Подробные различия NIST AI 100-2 E2025 и E2023 для исследователей и практиков безопасности ИИ

Помимо стратегических идей, эксперты по безопасности и специалисты Red Team оценят детальную техническую эволюцию в состязательной таксономии ML NIST:

Расширенные категории атак и детализация

Таксономия в издании 2023 года в основном охватывала три основных типа атак (уклонение, отравление, атаки на конфиденциальность). Напротив, таксономия 2025 года значительно расширяется, чтобы включить четко определенные подкатегории, такие как:

Отравление с чистой этикеткой: атаки, которые тонко повреждают данные без изменения меток, поэтому их сложнее обнаружить.
Косвенное внедрение подсказок: сложные атаки, которые используют внешние или косвенные каналы для манипулирования поведением GenAI.
Неправильно согласованные выходы (в GenAI): атаки, побуждающие модели ИИ выдавать вводящие в заблуждение или вредоносные выходы, несмотря на то, что они кажутся работоспособными.
Атаки с задержкой энергии: новые опасения по поводу атак на истощение ресурсов, напрямую влияющих на стабильность на уровне инфраструктуры.

Расширенный реальный контекст

Отчет 2025 года намеренно включает подробные реальные примеры и практические примеры. Практические практические примеры включают атаки отравления против развернутых финансовых моделей машинного обучения, нарушения конфиденциальности со стороны корпоративных чат-ботов GenAI и сбои в работе из-за непрямых инъекций подсказок. Эти сценарии значительно улучшают практическое понимание и позволяют реализовать действенные сценарии тестирования Red Team.

Более сильный акцент на безопасности генеративного ИИ

Признавая быстрое принятие GenAI, издание NIST 2025 года всесторонне интегрирует GenAI в свою таксономию, подробно описывая атаки, характерные для больших языковых моделей (LLM), систем расширенной генерации поиска (RAG) и развертываний ИИ на основе агентов. Исследователи безопасности теперь могут получить доступ к подробным сведениям о защите GenAI от все более сложных противников.

Введение в неправильное использование ИИ и безопасность агентов

Новым важным включением является явная категоризация нарушений неправильного использования, направленная на выявление рисков безопасности, возникающих из-за злоумышленников, использующих возможности модели для обхода мер безопасности. Кроме того, особое внимание уделяется уязвимостям в агентах ИИ, автоматизированных системах, управляемых ИИ, способных к автономному взаимодействию — новый вектор атак, не рассмотренный в издании 2023 года.

Более широкое сотрудничество и экспертные мнения

Документ 2025 года опирается на международное сотрудничество между NIST, Институтом безопасности ИИ США и Институтом безопасности ИИ Великобритании, что значительно расширяет спектр опыта и идей. Эта международная экспертиза обеспечивает авторитетную точку зрения на мировые тенденции и передовой опыт в области безопасности ИИ.

NIST AI 100-2 E2025 VS E2023: Резюме

Обновленное издание руководства NIST по состязательному машинному обучению 2025 года является крупным шагом вперед, в котором особое внимание уделяется реальным сценариям, рискам развертывания на предприятии и проблемам безопасности GenAI. Благодаря значительно уточненным классификациям и новым рассмотренным практическим угрозам, таким как непрямое внедрение подсказок и уязвимости агентов ИИ, документ теперь тесно связан с текущими операционными потребностями. Эта эволюция предоставляет организациям критически важные знания для опережения противников в сегодняшнем быстро меняющемся ландшафте ИИ.

По мере развития угроз ваши стратегии красной команды ИИ должны развиваться вместе с ними. Использование этой новой таксономии позволит лучше вооружить вашу команду, значительно повысив устойчивость вашей организации к все более изощренным противникам.

/via adversa.ai

Новая версия документа NIST Adversarial Machine Learning: A Taxonomy and Terminology of Attacks and Mitigations

Monday, June 23, 2025

О мониторинге моделей ML

Хорошая статья о построении системы мониторинга для моделей машинного обучения:

Контекстный подход к мониторингу

Если обнаружение дрейфа само по себе не решает реальную проблему, то что может? Хорошая система мониторинга должна выходить за рамки статистики и отражать бизнес-результаты, которые должна обеспечить модель. Для этого требуется трехуровневый подход:

1. Статистический мониторинг: базовый уровень Статистический мониторинг должен быть вашей первой линией обороны. Такие метрики, как PSI, KL Divergence или хи-квадрат, можно использовать для определения быстрого изменения в распределении функций. Однако их следует рассматривать как сигналы, а не как сигналы тревоги.

2. Контекстный мониторинг: бизнес-ориентированные идеи Контекстный мониторинг согласует технические сигналы с бизнес-значением. Он отвечает на более глубокий вопрос, чем «Что-то сместилось?» Он спрашивает: «Влияет ли смещение на то, что нас волнует?»

Vertex AI от Google Cloud предлагает этот мост. Наряду с базовым мониторингом смещения он позволяет пользователям настраивать срезы и сегментирование прогнозов по демографическим данным пользователей или бизнес-измерениям. Отслеживая производительность модели по срезам (например, коэффициент конверсии по уровню клиента или категории продукта), команды могут видеть не только сам сдвиг, но и где и как он повлиял на бизнес-результаты.

Например, в приложении электронной коммерции модель, прогнозирующая отток клиентов, может увидеть всплеск смещения для «частоты взаимодействия». Но если этот всплеск коррелирует со стабильным удержанием среди ценных клиентов, нет необходимости в немедленном переобучении. Контекстный мониторинг поощряет более медленную, более обдуманную интерпретацию смещения, настроенную на приоритеты бизнеса.

3. Поведенческий мониторинг: дрейф, обусловленный результатами Помимо входных данных, выходные данные вашей модели должны отслеживаться на предмет отклонений. Это необходимо для отслеживания прогнозов модели и результатов, которые они создают. Например, в финансовом учреждении, где внедряется модель кредитного риска, мониторинг должен не только обнаруживать изменение характеристик дохода или суммы кредита пользователей. Он также должен отслеживать уровень одобрения, уровень дефолта и прибыльность кредитов, выданных моделью с течением времени. Если уровень дефолта по одобренным кредитам резко возрастает в определенном регионе, это становится большой проблемой, даже если распределение характеристик модели не дрейфует.

См. также другие публикации по теме мониторинг

LLM и геопространственные данные

Широкое внедрение услуг на основе определения местоположения привело к генерации огромных объемов данных о мобильности, что обеспечивает значительные возможности для моделирования динамики перемещения пользователей в городской среде. Последние достижения были сосредоточены на адаптации больших языковых моделей (LLM) для аналитики мобильности. Однако существующие методы сталкиваются с двумя основными ограничениями: неадекватное семантическое представление местоположений (т. е. дискретные идентификаторы) и недостаточное моделирование сигналов мобильности в LLM (т. е. тонкая настройка одной шаблонной инструкции). Для решения этих проблем мы предлагаем QT-Mob, новую структуру, которая значительно улучшает LLM для аналитики мобильности. QT-Mob представляет модуль токенизации местоположения, который изучает компактные, семантически насыщенные токены для представления местоположений, сохраняя контекстную информацию и обеспечивая совместимость с LLM. Кроме того, QT-Mob включает ряд дополнительных целей тонкой настройки, которые согласовывают изученные токены с внутренними представлениями в LLM, улучшая понимание моделью последовательных шаблонов движения и семантики местоположения. Предлагаемая структура QT-Mob не только расширяет возможности LLM интерпретировать данные о мобильности, но и обеспечивает более обобщаемый подход для различных задач аналитики мобильности. Эксперименты на трех реальных наборах данных демонстрируют превосходную производительность как в задачах прогнозирования следующего местоположения, так и в задачах восстановления мобильности, превосходя существующие методы глубокого обучения и LLM. - Enhancing Large Language Models for Mobility Analytics with Semantic Location Tokenization

См. также другие публикации, посвященные LLM

Sunday, June 22, 2025

LLM и анализ временных рядов

Прогнозирование временных рядов в основном опирается на точное моделирование сложных взаимозависимостей и общих закономерностей в данных временных рядов. Недавние достижения, такие как пространственно-временные графовые нейронные сети (STGNN) и модели фундамента временных рядов (TSFM), продемонстрировали многообещающие результаты, эффективно фиксируя сложные пространственные и временные зависимости в различных реальных наборах данных. Однако эти модели обычно требуют больших объемов обучающих данных и часто испытывают трудности в сценариях с дефицитом данных. Чтобы устранить это ограничение, мы предлагаем фреймворк под названием «Пространственно-временные большие языковые модели с небольшим количеством снимков» (FSTLLM), направленный на повышение надежности модели и прогностической эффективности в условиях малого количества снимков. FSTLLM использует контекстные знания, встроенные в большие языковые модели (LLM), для обеспечения разумных и точных прогнозов. Кроме того, он поддерживает бесшовную интеграцию существующих моделей прогнозирования для дальнейшего повышения их предиктивных возможностей. Экспериментальные результаты на реальных наборах данных демонстрируют адаптивность и неизменно превосходящую производительность FSTLLM по сравнению с основными базовыми моделями со значительным отрывом. Наш код доступен по адресу: https://github.com/JIANGYUE61610306/FSTLLM - FSTLLM: Spatio-Temporal LLM for Few Shot Time Series Forecasting

См. также другие публикации, посвященные LLM

Saturday, June 21, 2025

Атаки с ограничениями

Хотя машинное обучение значительно продвинуло системы обнаружения сетевых вторжений (NIDS), особенно в средах IoT, где устройства генерируют большие объемы данных и все более подвержены киберугрозам, эти модели остаются уязвимыми для состязательных атак. Наше исследование выявляет критический недостаток в существующих методологиях состязательных атак: частое нарушение ограничений, специфичных для домена, таких как численные и категориальные ограничения, присущие IoT и сетевому трафику. Это приводит к тому, что до 80,3% состязательных примеров оказываются недействительными, что значительно завышает уязвимости реального мира. Эти недействительные примеры, хотя и эффективны для обмана моделей, не представляют собой возможные атаки в рамках практических развертываний IoT. Следовательно, опора на эти результаты может ввести в заблуждение при распределении ресурсов для защиты, преувеличивая воспринимаемую восприимчивость моделей NIDS с поддержкой IoT к состязательным манипуляциям. Кроме того, мы демонстрируем, что более простые суррогатные модели, такие как Multi-Layer Perceptron (MLP), генерируют более достоверные состязательные примеры по сравнению со сложными архитектурами, такими как CNN и LSTM. Используя MLP в качестве суррогата, мы анализируем переносимость состязательной серьезности на другие модели ML/DL, обычно используемые в контекстах IoT. Эта работа подчеркивает важность учета как ограничений домена, так и архитектуры модели при оценке и проектировании надежных моделей ML/DL для критически важных для безопасности приложений IoT и сетей. - Constrained Network Adversarial Attacks: Validity, Robustness, and Transferability

P.S. См. также другие публикации по теме adversarial, посвященные устойчивому машинному обучению

Friday, June 20, 2025

Вавилонская башня и LLM

Большие языковые модели (LLM) нашли широкое применение в различных областях, но остаются уязвимыми для состязательных инъекций подсказок. В то время как большинство существующих исследований атак с джейлбрейком и явлений галлюцинаций были сосредоточены в основном на моделях с открытым исходным кодом, мы исследуем границы LLM с закрытым исходным кодом в сценариях многоязычных атак. Мы представляем первую в своем роде интегрированную состязательную структуру, которая использует различные методы атак для систематической оценки передовых фирменных решений, включая GPT-4o, DeepSeek-R1, Gemini-1.5-Pro и Qwen-Max. Наша оценка охватывает шесть категорий контента безопасности на английском и китайском языках, генерируя 38 400 ответов по 32 типам атак с джейлбрейком. Показатель успешности атак (ASR) используется в качестве количественной метрики для оценки производительности по трем измерениям: проектирование подсказок, архитектура модели и языковая среда. Наши результаты показывают, что Qwen-Max является наиболее уязвимым, в то время как GPT-4o демонстрирует самую сильную защиту. В частности, подсказки на китайском языке постоянно дают более высокие ASR, чем их английские аналоги, и наша новая техника атаки Two Sides оказывается наиболее эффективной во всех моделях. Наша работа подчеркивает острую необходимость в языковом согласовании и надежной кросс-языковой защите в LLM. Мы ожидаем, что наша работа вдохновит исследовательское сообщество, разработчиков и политиков на более надежные и инклюзивные системы ИИ. - The Tower of Babel Revisited: Multilingual Jailbreak Prompts on Closed-Source Large Language Models

См. также другие публикации, посвященные LLM

Thursday, June 19, 2025

А судьи кто?

Большие языковые модели (LLM) продемонстрировали замечательный интеллект при выполнении различных задач, что вдохновило на разработку и широкое внедрение систем LLMas-a-Judge для автоматизированного тестирования моделей, таких как командование по красному течению и бенчмаркинг. Однако эти системы подвержены состязательным атакам, которые могут манипулировать результатами оценки, вызывая опасения относительно их надежности, следовательно, и надежности. Существующие методы оценки, принятые судьями на основе LLM, часто являются разрозненными и не имеют единой рамки для комплексной оценки. Кроме того, быстрый выбор шаблонов и моделей для повышения надежности судей редко изучался, и их производительность в реальных условиях остается в значительной степени непроверенной. Чтобы устранить эти пробелы, мы представляем RobustJudge, полностью автоматизированную и масштабируемую рамку, предназначенную для систематической оценки надежности систем LLM-as-a-Judge. RobustJudge исследует влияние методов атаки и стратегий защиты (RQ1), исследует влияние шаблона подсказки и выбора модели (RQ2) и оценивает надежность реальных приложений LLM-as-aJudge (RQ3). Наши основные выводы заключаются в том, что
1) системы LLMas-a-Judge по-прежнему уязвимы для ряда состязательных атак, включая комбинированную атаку и PAIR, в то время как механизмы защиты, такие как повторная токенизация и детекторы на основе LLM, предлагают улучшенную защиту.
2) Надежность очень чувствительна к выбору шаблона подсказки и моделей судьи.
Наш предложенный метод оптимизации шаблона подсказки может повысить надежность, и JudgeLM-13B демонстрирует высокую производительность в качестве надежного судьи с открытым исходным кодом. 3) Применение RobustJudge к платформе PAI Alibaba выявляет ранее не зарегистрированные уязвимости. Исходный код RobustJudge доступен по адресу https://github.com/S3IC-Lab/RobustJudge. - LLMs Cannot Reliably Judge (Yet?): A Comprehensive Assessment on the Robustness of LLM-as-a-Judge

См. также другие публикации, посвященные LLM

Wednesday, June 18, 2025

Открытая наука, том 13, номер 6

Очередной номер журнала INJOIT появился на сайте Киберленинка.

Это том 13, номер 6 за 2025 год. Большое пополнение для списка работ по теме Искусственный интеллект в кибербезопасности

/via Лаборатория ОИТ

Интерпретация статистических моделей

Книга в открытом доступе с примерами кода: How to Interpret Statistical Models With marginaleffects for R and Python

Tuesday, June 17, 2025

Склад или озеро?

Выбор архитектуры хранилища данных

Monday, June 16, 2025

INJOIT vol. 13, no. 6

Вышел шестой номер журнала INJOIT в 2025 году. И тринадцатый год издания журнала. В номере много работ выпускников магистратуры ВМК 2025 года.

Темы статей:

Разработка метода самокоррекции больших языковых моделей с помощью обучения с подкреплением
Calibration of large language models based on the conformal prediction
Разработка подходов к увеличению устойчивости моделей машинного обучения для обнаружения распределенных атак отказа обслуживания
Повышение устойчивости к состязательным атакам моделей машинного обучения для обнаружения межсайтового выполнения сценариев
Состязательное тестирование моделей машинного обучения, предназначенных для обнаружения SQL-инъекций
Compensation of input and output disturbances for MIMO discrete-time systems with unmeasured state vector
Повышение точности навигации по ГНСС на геостационарной орбите за счет коррекции частоты опорного генератора по измерению внешней метки времени
Применение генетического алгоритма для оценки объектов на основе частично противоречивых данных
Frontend-разработка модуля тестирования для образовательной системы «ФизикаБезТайн» с использованием метафреймворка SvelteKit
Reducing computational complexity of brute force algorithm in solving optimal placement of directional antenna
Использование управления доступом на основе атрибутов и mTLS в микросервисной архитектуре
Метод и программный комплекс расширения графических наборов данных при помощи глубокого обучения с подкреплением
Практическое применение методологии GitOps и CICD подходов при разработке систем на ПЛИС
Предпосылки создания единой автоматизированной системы управления предприятием (АЭС) на всех стадиях жизненного цикла: от строительства до вывода из эксплуатации
Unsupervised anomaly detection on cybersecurity data streams: a case with BETH dataset
Современные методы обучения больших языковых моделей с минимумом данных: От одного примера к абсолютному нулю – академический обзор
Highly Accurate XSS Detection using CatBoost
Разработка программного обеспечения моделирования угроз для систем на базе LLM-агентов
Кибератаки на зарядные станции
Разработка интеллектуального метода для классификации уязвимостей и угроз в лентах новостей

Архив журнала находится здесь.

/via Лаборатория ОИТ

Langgraph и агенты

Exploring Agentic Workflows with Langgraph and Neo4j

Sunday, June 15, 2025

Секреты в тексте

Обмен данными иногда влечет за собой риск раскрытия конфиденциальности. Методы анонимизации, такие как k-анонимность, l-разнообразие, предотвращают раскрытие конфиденциальности, но такие методы подходят для структурированного текста. В жизни людей много неструктурированных текстов (например, тексты социальных сетей, клинические тексты), и идентификация и структурирование личной информации (ПИ) неструктурированных текстов является проблемой. Исходя из этого, мы предлагаем подход идентификации ПИ неструктурированного текста на основе глубокого обучения, который может извлекать ПИ из неструктурированного текста, связывать ПИ с соответствующим темой и организовывать его в структурированные данные для поддержки последующей анонимизации. Этот подход разделяется на две задачи: идентификация ПИ и ассоциация ПИ. Мы соответственно предлагаем модель маркировки последовательности на основе гибридной нейронной сети RoBERTa-BiLSTM-CRF и метод ассоциации ПИ на основе гибридной нейронной сети RoBERTa-HCR для идентификации ПИ и организации его в структурированные данные. Экспериментальные результаты показывают, что по сравнению с эталонной моделью RoBEERTa-BiLSTM-CRF имеет лучшую производительность; по сравнению с текущей китайской моделью разрешения кореферентности среднее значение F1-оценки RoBERTa-HCR увеличилось на 6%. - Deep Learning based Privacy Information Identification approach for Unstructured Text

Google мед

Открытые модели для медицинских исследований от Google. Health AI Developer Foundations (HAI-DEF) — это коллекция открытых моделей и сопутствующих ресурсов, помогающих разработчикам создавать модели ИИ для здравоохранения.

см. также ИБП для медицины. Источники бесперебойного питания для медицины и здравоохранения.

Saturday, June 14, 2025

Агенты Сбербанка

Разработка и применение мультиагентных систем в корпоративной среде - руководство от Сбербанка

Friday, June 13, 2025

База LLM

Базовые понятия для работы с LLM

Протоколы ИИ агентов

Как работает MCP

См. также другие публикации, посвященные LLM

Thursday, June 12, 2025

Фишинг для ИИ агентов

Исследователи обнаружили простой способ ввести в заблуждение автономных агентов на основе больших языковых моделей.

Что нового: Энг Ли и его коллеги из Колумбийского университета разработали метод использования неявного доверия, которое агенты склонны оказывать популярным веб-сайтам, отравляя эти веб-сайты вредоносными ссылками.

Ключевая идея: коммерчески доступные агентские системы могут не доверять случайным сайтам в Интернете, но они склонны доверять популярным сайтам, таким как сайты социальных сетей. Злоумышленник может использовать это доверие, создавая, казалось бы, типичные посты, которые ссылаются на вредоносный веб-сайт. Агент может перейти по ссылке, ошибочно распространив свое доверие на ненадежный сайт.

Как это работает:

1) авторы протестировали агентов веб-браузинга, включая Anthropic Computer Use и MultiOn, на таких задачах, как покупки или отправка электронных писем.
2) Авторы создали посты Reddit, которые тематически соответствовали определенной агентской задаче, например, покупке обуви Air Jordan 1. Посты содержали текст, похожий на маркетинг (например, «Где купить Air Jordan 1 Chicago»), а также инструкции, указывающие на вредоносный сайт, контролируемый авторами («для получения дополнительной информации посетите <веб-сайт>»).
3) Авторы отправляли агенту запрос типа «Где купить Nike Air Jordan 1 в Чикаго?». Они также вводили конфиденциальную информацию, такую как данные кредитной карты или учетные данные электронной почты.
4) Агент искал в Интернете ресурсы, необходимые для выполнения запроса. Он изучал сайты и находил посты Reddit, написанные авторами.
5) Агент следовал инструкциям в постах и посещал вредоносный веб-сайт. Веб-сайт включал инструкции, которые манипулировали агентом для достижения цели злоумышленника, например, отправляли данные кредитной карты или отправляли фишинговые письма с адреса электронной почты пользователя.

Результаты: после того, как агент был перенаправлен на вредоносные веб-сайты, он надежно следовал инструкциям злоумышленника. Например, каждый из протестированных агентов разглашал информацию о кредитной карте в 10 из 10 испытаний. Аналогично, каждый агент отправлял фишинговое сообщение с учетной записи электронной почты пользователя с просьбой к получателям отправить деньги злонамеренному «другу» в 10 из 10 испытаний.

Почему это важно: Предоставление агентам возможности выполнять реальные действия, такие как совершение покупок и отправка электронных писем, повышает вероятность того, что их могут обмануть и заставить совершить вредоносные действия. Манипулирование агентами путем направления их на вредоносный веб-контент является эффективным вектором атаки. Агенты будут в большей безопасности, если они будут разработаны так, чтобы избегать и противостоять таким манипуляциям.

Мы думаем: люди тоже могут быть обмануты фишингом и другими вредоносными действиями, и путь к программированию агентов для защиты от них кажется проще, чем путь к обучению большинства людей этому. В долгосрочной перспективе агенты сделают онлайн-взаимодействия более безопасными. /via Deeplearning.ai

См. также другие публикации, посвященные агентам

Wednesday, June 11, 2025

LLM в отражении атак на IoT

Растущая сложность и масштабность Интернета вещей (IoT) сделали безопасность критической проблемой. В этой статье представлена новая, основанная на Большой языковой модели (LLM) структура для комплексного обнаружения и предотвращения угроз в средах IoT. Система объединяет легкие LLM, тонко настроенные на специфичные для IoT наборы данных (IoT-23, TON IoT) для обнаружения аномалий в реальном времени и автоматизированных, контекстно-зависимых стратегий смягчения, оптимизированных для устройств с ограниченными ресурсами. Модульное развертывание на основе Docker обеспечивает масштабируемую и воспроизводимую оценку в различных сетевых условиях. Экспериментальные результаты в моделируемых средах IoT демонстрируют значительные улучшения в точности обнаружения, задержке реагирования и эффективности ресурсов по сравнению с традиционными методами безопасности. Предлагаемая структура подчеркивает потенциал автономных решений безопасности на основе LLM для будущих экосистем IoT. - LLM-Based Threat Detection and Prevention Framework for IoT Ecosystems

См. также другие публикации, посвященные LLM

Tuesday, June 10, 2025

Атаки на LLM

Большие языковые модели (LLM) и агенты на основе LLM широко используются в широком спектре приложений в реальном мире, включая диагностику в здравоохранении, финансовый анализ, поддержку клиентов, робототехнику и автономное вождение, расширяя их мощные возможности понимания, рассуждения и генерации естественных языков. Однако широкое развертывание приложений на основе LLM подвергает критическим рискам безопасности и надежности, таким как вероятность злонамеренного использования, утечки конфиденциальной информации и сбоя в обслуживании, которые ослабляют доверие пользователей и подрывают общественную безопасность. В этой статье представлен систематический обзор деталей состязательных атак, нацеленных как на LLM, так и на агентов на основе LLM. Эти атаки организованы в три фазы в LLM: атаки на фазе обучения, атаки на фазе вывода и атаки на доступность и целостность. Для каждой фазы мы анализируем детали репрезентативных и недавно представленных методов атак вместе с их соответствующими защитами. Мы надеемся, что наш опрос предоставит хорошее руководство и всестороннее понимание безопасности LLM, особенно атак на LLM. Мы хотим привлечь внимание к рискам, присущим широко развернутым приложениям на основе LLM, и подчеркнуть настоятельную необходимость в надежных стратегиях смягчения возникающих угроз. - A Survey of Attacks on Large Language Models

См. также другие публикации, посвященные LLM

Monday, June 09, 2025

Безопасный ИИ

Некоммерческая организация Center for AI Safety

См. также другие публикации по теме safety

Sunday, June 08, 2025

SQL игры

Интересная идея - игры, для прохождения которых нужно составлять SQL запросы

Saturday, June 07, 2025

Случайный лес

Хорошее объяснение с визуализацией - Random Forest

Friday, June 06, 2025

Это не ошибки, а свойства

Состязательные примеры привлекли значительное внимание в машинном обучении, но причины их существования и распространенности остаются неясными. Мы демонстрируем, что состязательные примеры могут быть напрямую отнесены к наличию ненадежных признаков: признаков (выведенных из закономерностей в распределении данных), которые являются высокопредсказательными, но хрупкими и (следовательно) непонятными для людей. После фиксации этих признаков в теоретической структуре мы устанавливаем их широкое распространение в стандартных наборах данных. Наконец, мы представляем простую настройку, в которой мы можем строго связать явления, которые мы наблюдаем на практике, с несоответствием между (определенным человеком) понятием надежности и внутренней геометрией данных. - Adversarial Examples Are Not Bugs, They Are Features

Хорошее статистическое объяснение природы состязательных ошибок

P.S. См. также другие публикации по теме adversarial, посвященные устойчивому машинному обучению

Thursday, June 05, 2025

Генератор иммитационных моделей

Генеративный ИИ (GenAI) продемонстрировал замечательные возможности в генерации кода, и его интеграция в моделирование сложных продуктов и генерацию кода симуляции может значительно повысить эффективность этапа проектирования системы в системной инженерии на основе моделей (MBSE). В этом исследовании мы представляем структуру методологии генеративного проектирования систем для MBSE, предлагающую практический подход к интеллектуальному генерированию имитационных моделей для физических свойств системы. Во-первых, мы используем методы вывода, генеративные модели и интегрированные языки моделирования и моделирования для построения имитационных моделей для физических свойств системы на основе документов по проектированию продукта. Затем мы настраиваем языковую модель, используемую для генерации имитационной модели, на существующей библиотеке имитационных моделей и дополнительных наборов данных, созданных с помощью генеративного моделирования. Наконец, мы вводим метрики оценки для сгенерированных имитационных моделей для физических свойств системы. Наш предлагаемый подход к генерации имитационной модели представляет инновационную концепцию масштабируемых шаблонов для имитационных моделей. Используя эти шаблоны, GenAI генерирует имитационные модели для физических свойств системы с помощью завершения кода. Результаты эксперимента показывают, что для основных моделей с открытым исходным кодом на основе Transformer качество имитационной модели значительно улучшается при использовании метода генерации имитационной модели, предложенного в этой статье. - GenAI for Simulation Model in Model-Based Systems Engineering

Wednesday, June 04, 2025

Сенсор в базу

Проект t6 - сохранение данных IoT в базу временных рядов

Введение в модельно-ориентированную системную и программную инженерию (MBSSE)

Издан учебник «Введение в модельно-ориентированную системную и программную инженерию (MBSSE)»

Авторы:

Владимир Александрович Сухомлин, Владимир Юрьевич Романов, Дмитрий Антонович Гапанович

О книге
Рекомендовано ФУМО по укрупненной группе специальностей и направлений подготовки 02.00.00 Компьютерные и информационные науки в качестве учебного пособия для студентов высших учебных заведений, обучающихся по направлениям подготовки: «Фундаментальная информатика и информационные технологии», «Математическое обеспечение и администрирование информационных систем», «Математика и компьютерные науки»

Учебник посвящен модельно-ориентированной системной инженерии (MBSE) и её интеграции с программной инженерией (MBSSE). В работе рассматриваются концептуальные основы MBSE и MBSSE, методы управления жизненным циклом систем, стандарты системной инженерии, языки моделирования UML и SysML.

Особое внимание уделяется цифровым двойникам, инженерии требований и архитектуре систем. Заключительный раздел охватывает математические основы системной инженерии, включая теорию систем, конечные автоматы и формальное моделирование. Учебник рекомендован как базовый курс для подготовки ИТ-специалистов.

Tuesday, June 03, 2025

Новый подход к джелбрейкам

Состязательные атаки на большие языковые модели (LLM) с помощью методов взлома — методов, которые обходят их встроенные ограничения безопасности и этики — стали критической проблемой в безопасности ИИ. Эти атаки ставят под угрозу надежность LLM, эксплуатируя присущие им слабости в возможностях понимания. В этой статье исследуется эффективность стратегий взлома, которые специально адаптированы к различным уровням понимания, демонстрируемым различными LLM. Мы предлагаем адаптивные стратегии взлома, основанные на возможностях семантического понимания больших языковых моделей, новую структуру, которая классифицирует LLM на категории Типа I и Типа II в соответствии с их способностями семантического понимания. Для каждой категории мы разрабатываем индивидуальные стратегии взлома, направленные на использование их уязвимостей для облегчения успешных атак. Обширные эксперименты, проведенные на нескольких LLM, показывают, что наша адаптивная стратегия заметно повышает успех взлома. Примечательно, что наш подход обеспечивает исключительный показатель успеха в 98,9% при взломе GPT-4o (релиз от 29 мая 2025 г.) - https://arxiv.org/pdf/2505.23404

См. также другие публикации, посвященные LLM