Monday, January 19, 2026

Открытая наука, том 14, номер 1

Очередной номер журнала INJOIT появился на сайте Киберленинка.

Это том 14, номер 1 за 2026 год. Новое пополнение для списка работ по теме Искусственный интеллект в кибербезопасности

/via Лаборатория ОИТ

Адаптивные атаки

Как следует оценивать надежность защиты языковых моделей? Существующие средства защиты от взлома и внедрения подсказок (которые направлены на предотвращение получения злоумышленником вредоносных знаний или удаленного запуска вредоносных действий соответственно) обычно оцениваются либо на статическом наборе вредоносных строк атаки, либо на вычислительно слабых методах оптимизации, которые не были разработаны с учетом цели защиты. Мы утверждаем, что этот процесс оценки ошибочен. Вместо этого следует оценивать средства защиты от адаптивных злоумышленников, которые явно изменяют свою стратегию атаки, чтобы противостоять конструкции защиты, одновременно затрачивая значительные ресурсы на оптимизацию своей цели. Путем систематической настройки и масштабирования общих методов оптимизации — градиентного спуска, обучения с подкреплением, случайного поиска и исследования под руководством человека — мы обходим 12 недавних средств защиты (основанных на разнообразном наборе методов) с вероятностью успеха атаки выше 90% для большинства из них; что важно, большинство средств защиты первоначально сообщали о почти нулевой вероятности успеха атаки. Мы считаем, что в будущих работах по обороне необходимо учитывать более сильные атаки, подобные тем, которые мы описываем, чтобы обосновать надежные и убедительные утверждения об их устойчивости. - The Attacker Moves Second: Stronger Adaptive Attacks Bypass Defenses Against Llm Jailbreaks and Prompt Injections

Среди авторов - Nicholas Carlini

См. также другие публикации, посвященные LLM

Sunday, January 18, 2026

GNN

Хороший учебный материал - GNN (Graph Neural Net) Explained— Intuition, Concepts, Applications

См. также другие публикации посвещенные графам

Как обезопасить MCP

Большие языковые модели (LLM) превратились в агентов искусственного интеллекта, взаимодействующих с внешними инструментами и средами для выполнения сложных задач. Протокол контекста модели (MCP) стал стандартом де-факто для подключения агентов к таким ресурсам, но безопасность отстает: тысячи MCP-серверов работают с неограниченным доступом к хост-системам, создавая широкую поверхность атаки. В этой статье мы представляем AgentBound, первую структуру контроля доступа для MCP-серверов. AgentBound сочетает декларативный механизм политик, вдохновленный моделью разрешений Android, с механизмом принудительного применения политик, который сдерживает вредоносное поведение без необходимости модификации MCP-серверов. Мы создаем набор данных, содержащий 296 наиболее популярных MCP-серверов, и показываем, что политики контроля доступа могут генерироваться автоматически из исходного кода с точностью 80,9%. Мы также показываем, что AgentBound блокирует большинство угроз безопасности на нескольких вредоносных MCP-серверах, и что механизм принудительного применения политик вносит незначительные накладные расходы. Наши разработки предоставляют разработчикам и менеджерам проектов практическую основу для обеспечения безопасности серверов MCP при сохранении производительности, позволяя исследователям и разработчикам инструментов изучать новые направления в области декларативного контроля доступа и безопасности MCP. - Securing AI Agent Execution

См. также другие публикации, посвященные LLM

Saturday, January 17, 2026

А поговорить?

Большие языковые модели (LLM) произвели революцию в разговорном ИИ, однако их устойчивость в длительных многоходовых диалогах остается плохо изученной. Существующие оценочные модели сосредоточены на статических эталонах и оценках отдельных ходов, не учитывая временную динамику ухудшения качества разговора, характерную для реальных взаимодействий. В этой работе мы представляем крупномасштабный анализ устойчивости разговора, моделирующий сбой как процесс «время до события» на протяжении 36 951 хода с использованием 9 современных LLM на эталоне MT-Consistency. Наша модель сочетает в себе модели пропорциональных рисков Кокса, ускоренного времени сбоя (AFT) и случайного леса выживания с простыми признаками семантического дрейфа. Мы обнаружили, что резкий семантический дрейф от подсказки к подсказке резко увеличивает риск несогласованности, в то время как кумулятивный дрейф, вопреки интуиции, оказывает защитное действие, предполагая адаптацию в разговорах, которые выдерживают множественные изменения. Модели AFT, с учетом взаимодействия модели и дрейфа, обеспечивают наилучшее сочетание дискриминации и калибровки, а проверки пропорциональных рисков выявляют систематические нарушения для ключевых ковариат дрейфа, объясняя ограничения моделирования в стиле Кокса в данном контексте. Наконец, мы показываем, что облегченную модель AFT можно превратить в монитор риска на уровне репликации, который отмечает большинство неудачных диалогов за несколько реплик до первого противоречивого ответа, при этом сохраняя низкий уровень ложных срабатываний. Эти результаты подтверждают, что анализ выживаемости является мощной парадигмой для оценки устойчивости к многорепетиционным ситуациям и для разработки практических мер защиты для разговорных систем искусственного интеллекта. - Time-To-Inconsistency: A Survival Analysis of Large Language Model Robustness to Adversarial Attacks

Интересная идея - проверять нужно не отдельные фразы, а диалог

См. также другие публикации, посвященные LLM

Агентные процессы

Агентный ИИ знаменует собой серьезный сдвиг в том, как автономные системы рассуждают, планируют, и выполняют многоэтапные задачи. В отличие от традиционного подхода с использованием одной модели, агентные рабочие процессы интегрируют множество специализированных агентов с различными большими языковыми моделями (LLM), возможностями, дополненными инструментами, логикой оркестровки, и взаимодействиями с внешними системами для формирования динамических конвейеров, способных к автономному принятию решений и действиям. По мере ускорения внедрения в промышленности и научных исследованиях организации сталкиваются с центральной проблемой: как проектировать, разрабатывать и эксплуатировать рабочие процессы агентного ИИ производственного уровня, которые являются надежными, наблюдаемыми, поддерживаемыми и соответствуют требованиям безопасности и управления. В данной статье представлено практическое комплексное руководство по проектированию, разработке и развертыванию систем агентного ИИ производственного качества. Мы представляем структурированный жизненный цикл проектирования, охватывающий декомпозицию рабочих процессов, шаблоны проектирования многоагентных систем, протокол контекста модели (MCP), интеграцию инструментов, детерминированную оркестровку, соображения ответственного ИИ, и стратегии развертывания с учетом окружающей среды. Далее мы представляем девять основных лучших практик проектирования рабочих процессов агентного ИИ производственного уровня, включая проектирование с приоритетом инструментов вместо MCP, вызов чистых функций, агенты с одним инструментом и одной ответственностью, внешнее управление подсказками, проектирование модельного консорциума в соответствии с ResponsibleAI, четкое разделение между логикой рабочего процесса и серверами MCP, контейнеризированное развертывание для масштабируемых операций и соблюдение принципа «Keep it Simple, Stupid» (KISS) для поддержания простоты и надежности. Чтобы продемонстрировать эти принципы на практике, мы представляем всестороннее тематическое исследование: многомодальный рабочий процесс анализа новостей и генерации медиаконтента. Объединяя архитектурные рекомендации, операционные шаблоны и практические идеи по реализации, эта статья предлагает фундаментальный справочник для создания надежных, расширяемых и готовых к производству рабочих процессов агентного ИИ. - A Practical Guide for Designing, Developing, and Deploying Production-Grade Agentic AI Workflows

См. также другие публикации, посвященные агентам

Friday, January 16, 2026

Модель безопасности ИИ-агентов

STRATA-8 - основанная на доказательствах модель безопасности ИИ-агентов

См. также другие публикации, посвященные агентам

Агент-бэкдорщик

Атаки с использованием бэкдоров представляют серьезную угрозу для безопасного развертывания больших языковых моделей (LLM), позволяя злоумышленникам внедрять скрытое поведение, запускаемое определенными входными данными. Однако существующие методы часто основаны на вручную созданных триггерах и статических конвейерах обработки данных, которые являются жесткими, трудоемкими и неадекватными для систематической оценки надежности современных средств защиты. По мере того, как агенты ИИ становятся все более совершенными, возрастает потребность в более строгих, разнообразных и масштабируемых системах тестирования на проникновение, которые могут реалистично имитировать угрозы с использованием бэкдоров и оценивать устойчивость модели в условиях противодействия. В этой работе мы представляем AUTOBACKDOOR, общую структуру для автоматизации внедрения бэкдоров, включающую генерацию триггеров, создание отравленных данных и тонкую настройку модели с помощью автономного конвейера, управляемого агентом. В отличие от предыдущих подходов, AutoBackdoor использует мощный агент языковой модели для генерации семантически согласованных, контекстно-зависимых триггерных фраз, что позволяет масштабируемо отравлять контент по произвольным темам с минимальными человеческими усилиями. Мы оцениваем AutoBackdoor в трех реалистичных сценариях угроз, включая рекомендации, основанные на предвзятости, внедрение галлюцинаций и манипулирование экспертной оценкой, чтобы смоделировать широкий спектр атак. Эксперименты как на моделях с открытым исходным кодом, так и на коммерческих моделях, включая LLaMA-3, Mistral, Qwen и GPT-4o, демонстрируют, что наш метод достигает более 90% успеха атак всего лишь с небольшим количеством отравленных образцов. Что еще важнее, мы обнаружили, что существующие средства защиты часто не справляются с смягчением этих атак, что подчеркивает необходимость более строгих и адаптивных методов оценки угроз, управляемых агентами, как это исследовано в данной работе. Весь код, наборы данных и экспериментальные конфигурации будут объединены в наш основной репозиторий по адресу https://github.com/bboylyg/BackdoorLLM - AutoBackdoor: Automating Backdoor Attacks via LLM Agents

См. также другие публикации, посвященные агентам

Thursday, January 15, 2026

Кибер-Берт

Эффективный анализ данных в области кибербезопасности и анализа угроз требует языковых моделей, способных интерпретировать специализированную терминологию, сложные структуры документов и взаимозависимость естественного языка и исходного кода. Архитектуры трансформеров, использующие только кодировщик, предлагают эффективные и надежные представления, поддерживающие критически важные задачи, такие как семантический поиск, извлечение технических сущностей и семантический анализ — ключевые для автоматического обнаружения угроз, сортировки инцидентов и оценки уязвимостей. Однако универсальные языковые модели, как правило, не обладают необходимой адаптацией к предметной области для обеспечения высокой точности в этих контекстах. Мы представляем SecureBERT 2.0, улучшенную языковую модель, использующую только кодировщик, специально разработанную для приложений кибербезопасности. Используя архитектуру ModernBERT, SecureBERT 2.0 внедряет улучшенное моделирование длинных контекстов и иерархическое кодирование, что позволяет эффективно обрабатывать расширенные и гетерогенные документы, включая отчеты об угрозах и артефакты исходного кода. Предварительно обученная на корпусе, в тринадцать раз превышающем по размеру корпус ее предшественника и включающем более 13 миллиардов текстовых токенов и 53 миллиона кодовых токенов из различных реальных источников, SecureBERT 2.0 достигает самых современных результатов на множестве тестов в области кибербезопасности. Экспериментальные результаты демонстрируют существенные улучшения в семантическом поиске для анализа угроз, семантическом анализе, распознавании именованных сущностей, специфичных для кибербезопасности, и автоматическом обнаружении уязвимостей в коде в области кибербезопасности. - SecureBERT 2.0: Advanced Language Model for Cybersecurity Intelligence

Агент-разведчик

Атаки вывода (доступ к данным обучения моделей) широко изучались и предлагают систематическую оценку рисков сервисов машинного обучения; однако их реализация и параметры атаки для оптимальной оценки представляют собой сложную задачу для неспециалистов. Появление продвинутых больших языковых моделей открывает многообещающую, но в значительной степени неизученную возможность разработки автономных агентов в качестве экспертов по атакам на основе логического вывода, что помогает решить эту проблему. В этой статье мы предлагаем AttackPilot, автономного агента, способного самостоятельно проводить атаки на основе логического вывода без вмешательства человека. Мы оцениваем его на 20 целевых сервисах. Оценка показывает, что наш агент, использующий GPT-4o, достигает 100% выполнения задач и почти экспертной эффективности атаки со средней стоимостью токена всего 0,627 доллара США за запуск. Агент также может работать на основе многих других репрезентативных больших языковых моделей и может адаптивно оптимизировать свою стратегию с учетом ограничений сервиса. Мы также проводим анализ трассировки, демонстрируя, что такие проектные решения, как многоагентная структура и пространства действий, специфичные для каждой задачи, эффективно снижают вероятность ошибок, таких как неверные планы, неспособность следовать инструкциям, потеря контекста задачи и галлюцинации. Мы предполагаем, что такие агенты могут позволить неспециалистам в области машинного обучения, аудиторам или регулирующим органам систематически оценивать риски услуг машинного обучения без необходимости глубоких знаний в предметной области. - AttackPilot: Autonomous Inference Attacks Against ML Services With LLM-Based Agents

См. также другие публикации, посвященные агентам

Wednesday, January 14, 2026

Граф знаний для кода

MCP-сервер, который строит граф знаний вашего кода и дает LLM «архитектурное зрение», превращая ее из простого кодера в настоящего цифрового ассистента - отсюда

См. также другие публикации, посвященные MCP

Большой эксперт безопасности

Потребность в обеспечении безопасности системы в режиме реального времени приводит к тому, что правила обнаружения становятся неотъемлемой частью жизненного цикла обнаружения вторжений. Обнаружение на основе правил часто выявляет вредоносные журналы на основе предопределенной грамматической логики, что требует от экспертов глубоких знаний в предметной области для генерации правил. Поэтому автоматизация генерации правил может привести к значительной экономии времени и облегчить нагрузку на инженеров по безопасности, выполняющих задачи, связанные с правилами. В этой статье мы предлагаем RulePilot, который имитирует человеческий опыт с помощью агента на основе LLM для решения задач, связанных с правилами, таких как создание или преобразование правил. Используя RulePilot, аналитикам безопасности не нужно записывать правила, следуя грамматике; вместо этого они могут просто предоставить аннотации, такие как описания правил на естественном языке, и наш RulePilot может автоматически генерировать правила обнаружения без дополнительного вмешательства. RulePilot оснащен промежуточным представлением (IR), которое абстрагирует сложность правил конфигурации в структурированные, стандартизированные форматы, позволяя LLM-системам сосредоточиться на генерации правил более управляемым и последовательным способом. Мы представляем всестороннюю оценку RulePilot с точки зрения текстового сходства и успешности выполнения, демонстрируя, что RulePilot может генерировать правила высокой точности, превосходя базовые модели на 107,4% по текстовому сходству с эталонными данными и достигая более высокой точности обнаружения в реальных тестах выполнения. Мы проводим исследование на примере наших отраслевых партнеров в Сингапуре, демонстрируя, что RulePilot значительно помогает начинающим аналитикам/обычным пользователям в процессе создания правил. - RulePilot: An LLM-Powered Agent for Security Rule Generation

См. также другие публикации, посвященные LLM

Tuesday, January 13, 2026

И о контексте

Контекст — это не просто ещё один входной параметр для оптимизации. Скорее, это центральная валюта, определяющая, приносит ли система ИИ реальную пользу или остаётся дорогостоящим побочным продуктом. В отличие от традиционной разработки программного обеспечения, где мы оптимизируем скорость, память или пропускную способность, контекстная инженерия требует от нас рассматривать информацию так, как это делают люди: многоуровнево, взаимозависимо и с учётом ситуационной осведомлённости. - Why Context Is the New Currency in AI: From RAG to Context Engineering. Хороший материал по управлению контекстом, например, для ИИ-агентов.

Атаки по краю

Физические атаки с использованием состязательных элементов представляют собой значительную угрозу для интеллектуальных транспортных систем, особенно для распознавания дорожных знаков. Существующие методы часто испытывают трудности с балансом между эффективностью атаки, скрытностью и переносимостью в реальных условиях. В данной статье мы представляем TSEP-Attack, новый метод создания состязательных фрагментов, который значительно повышает визуальную скрытность и эффективность атаки. Используя сегментацию экземпляров и генератор на основе U-Net, наш подход генерирует состязательные фрагменты, точно настроенные на контуры краев дорожных знаков. Эти фрагменты стратегически применяются к периферийным областям знаков, обеспечивая минимальную заметность для человеческого зрения. Для оптимизации как эффективности, так и скрытности фрагментов мы разработали многоуровневую функцию потерь, которая интегрирует согласованность цвета, соответствие текстуры и выравнивание в частотной области, обеспечивая бесшовную интеграцию генерируемых возмущений с фоном знака, сохраняя при этом устойчивость в физическом мире. Экспериментальные результаты демонстрируют, что TSEP-Attack обеспечивает превосходную эффективность атаки и скрытность при ограниченном объеме запросов, достигая максимального показателя успешности до 90%, а также демонстрирует выдающуюся переносимость между различными моделями. Кроме того, наш подход сохраняет стабильную производительность при различных углах обзора и расстояниях в реальных условиях, что делает его жизнеспособным решением для систем автономного вождения, использующих распознавание дорожных знаков. The Outline of Deception: Physical Adversarial Attacks onTrafficSignsUsing Edge Patches

См. также другие публикации по теме физические атаки

Monday, January 12, 2026

Хостинг для MCP

Alpic MCP cloud - хостинг для MCP серверов. Есть бесплатная опция. И пример создания и деплоя MCP-сервера.

См. также другие публикации, посвященные MCP

Тихий обман RAG

В данной статье рассматриваются атаки и методы защиты векторных баз данных в системах генерации с расширенным поиском (RAG). Предыдущие работы по атакам, направленным на отравление знаний, в основном заключались во внедрении ложного или токсичного контента, который легко обнаруживается при проверке фактов или лингвистическом анализе. Мы выявляем новую и тонкую угрозу: атаки с внедрением предвзятости, которые вставляют фактически корректные, но семантически предвзятые фрагменты в базу знаний, чтобы скрытно повлиять на идеологическую трактовку ответов, генерируемых большими языковыми моделями (LLM). Мы демонстрируем, что эти враждебные фрагменты, хотя и лингвистически связные и правдивые, могут систематически вытеснять противоположные точки зрения из полученного контекста и направлять ответы LLM в сторону желаемой точки зрения злоумышленника. Мы точно характеризуем этот класс атак, а затем разрабатываем метод защиты с фильтрацией после получения данных, BiasDef. Для их оценки мы создаем всеобъемлющий бенчмарк на основе общедоступных наборов данных вопросов и ответов. Наши результаты показывают, что: (1) предложенная атака вызывает значительные сдвиги в перспективе в ответах LLM, эффективно обходя существующие средства защиты на основе поиска санитарных мер; и (2) BiasDef превосходит существующие методы, сокращая количество найденных враждебных фрагментов на 15%, что снижает сдвиг в перспективе в ответах в 6,2 раза, при этом позволяя найти на 62% больше безобидных фрагментов. - Bias Injection Attacks on RAG Databases and Sanitization Defenses

См. также другие публикации по теме RAG

Sunday, January 11, 2026

Формальная модель безопасности для ИИ-агентов

Системы агентного ИИ, использующие множество автономных агентов и большие языковые модели (LLM), все чаще применяются для решения сложных многоэтапных задач. Безопасность, защищенность и функциональность этих систем имеют решающее значение, особенно в приложениях с высокими ставками. Однако существующая экосистема межагентного взаимодействия фрагментирована, и такие протоколы, как протокол контекста модели (MCP) для доступа к инструментам и протокол Agent-to-Agent (A2A) для координации, анализируются изолированно. Эта фрагментация создает семантический разрыв, который препятствует тщательному анализу свойств системы и вносит риски, такие как архитектурное несоответствие и уязвимые проблемы координации. Для решения этих проблем мы предлагаем модельную структуру для систем агентного ИИ, состоящую из двух базовых моделей. Первая, модель хост-агента, формализует сущность верхнего уровня, которая взаимодействует с пользователем, декомпозирует задачи и организует их выполнение, используя внешних агентов и инструменты. Вторая модель, модель жизненного цикла задачи, подробно описывает состояния и переходы отдельных подзадач от создания до завершения, обеспечивая детальное представление управления задачами и обработки ошибок. Вместе эти модели обеспечивают единую семантическую основу для рассуждений о поведении многоагентных систем с искусственным интеллектом. На основе этой основы мы определяем 17 свойств для агента-хоста и 14 для жизненного цикла задачи, которые подразделяются на живучесть, безопасность, полноту и справедливость. Выраженные в темпоральной логике, эти свойства позволяют проводить формальную верификацию поведения системы, обнаруживать граничные случаи координации и предотвращать тупики и уязвимости безопасности. В рамках этой работы мы представляем первую строго обоснованную, независимую от предметной области структуру для систематического анализа, проектирования и развертывания корректных, надежных, и устойчивых агентных систем с искусственным интеллектом. - Formalizing the Safety, Security, and Functional Properties of Agentic AI Systems

См. в этой связи подход A2AS

Атаки на мультимодальные LLM

Мы представляем атаку Adversarial Confusion Attack, новый класс угроз против многомодальных больших языковых моделей (MLLM). В отличие от взлома или целенаправленной неправильной классификации, цель состоит в том, чтобы вызвать систематическое нарушение, которое заставляет модель генерировать несогласованные или заведомо неверные результаты. Практические приложения включают встраивание таких состязательных изображений в веб-сайты, чтобы предотвратить надежную работу ИИ-агентов на базе MLLM. Предложенная атака максимизирует энтропию следующего токена, используя небольшой ансамбль MLLM с открытым исходным кодом. В условиях «белого ящика» мы показываем, что одно состязательное изображение может нарушить работу всех моделей в ансамбле, как в условиях полного изображения, так и в условиях Adversarial CAPTCHA. Несмотря на использование базовой состязательной техники (PGD), атака генерирует возмущения, которые переносятся как на неизвестные модели с открытым исходным кодом (например, Qwen3-VL), так и на проприетарные модели (например, GPT-5.1). - Adversarial Confusion Attack: Disrupting Multimodal Large Language Models

См. также другие публикации, посвященные LLM

Saturday, January 10, 2026

Тесты безопасности MCP

Протокол контекста модели (MCP) стандартизирует способы обнаружения, описания и вызова внешних инструментов агентами больших языковых моделей (LLM). Хотя MCP обеспечивает широкую совместимость, он также расширяет поверхность атаки, делая инструменты первоклассными, компонуемыми объектами с метаданными на естественном языке и стандартизированным вводом-выводом. Мы представляем MSB (MCP Security Benchmark), первый комплексный набор инструментов для оценки, который систематически измеряет, насколько хорошо агенты LLM противостоят атакам, специфичным для MCP, на протяжении всего конвейера использования инструментов: планирование задач, вызов инструментов и обработка ответов. MSB включает в себя: (1) таксономию из 12 атак, включая коллизию имен, манипулирование предпочтениями, внедрение подсказок, встроенных в описания инструментов, запросы параметров вне области видимости, ответы, имитирующие пользователя, эскалацию ложных ошибок, передачу инструментов, внедрение запросов на получение и смешанные атаки; (2) оценочный инструмент, который выполняет атаки путем запуска реальных инструментов (как безопасных, так и вредоносных) через MCP, а не симуляцию; и (3) метрика устойчивости, которая количественно оценивает компромисс между безопасностью и производительностью: Net Resilient Performance (NRP). Мы оцениваем девять популярных агентов LLM в 10 областях и более чем 400 инструментах, создавая 2000 экземпляров атак. Результаты показывают эффективность атак против каждого этапа MCP. Модели с более высокой производительностью более уязвимы для атак из-за их выдающихся возможностей вызова инструментов и следования инструкциям. MSB предоставляет практическую основу для исследователей и практиков для изучения, сравнения и повышения устойчивости агентов MCP. - MCP Security Bench (MSB): Benchmarking Attacks Against Model Context Protocol in LLM Agents

См. также другие публикации, посвященные агентам

Какие ваши намерения?

Атаки с непрямым внедрением подсказок (IPIA), при которых большие языковые модели (LLM) следуют вредоносным инструкциям, скрытым во входных данных, представляют собой критическую угрозу для агентов, использующих LLM. В этой статье мы представляем IntentGuard, общую защитную структуру, основанную на анализе намерений, следующих за инструкциями. Ключевая идея IntentGuard заключается в том, что решающим фактором в IPIA является не наличие вредоносного текста, а то, намеревается ли LLM следовать инструкциям из ненадежных данных. Основываясь на этом понимании, IntentGuard использует анализатор намерений, следующих за инструкциями (IIA), для определения того, какие части входной подсказки модель распознает как действенные инструкции, а затем помечает или нейтрализует любые совпадения с сегментами ненадежных данных. Для реализации структуры мы разрабатываем IIA, который использует три стратегии «мыслительного вмешательства» для получения структурированного списка предполагаемых инструкций от LLM, поддерживающих рассуждения. Эти методы включают предварительное заполнение начала мыслительного процесса, уточнение в конце мыслительного процесса и демонстрацию в контексте с помощью состязательных действий. Мы оцениваем IntentGuard на двух агентных бенчмарках (AgentDojo и Mind2Web), используя две модели LLM с поддержкой рассуждений (Qwen-3-32B и gpt-oss-20B). Результаты показывают, что IntentGuard обеспечивает (1) отсутствие снижения полезности во всех условиях, кроме одного, и (2) высокую устойчивость к атакам с адаптивным внедрением подсказок (например, снижение вероятности успеха атаки со 100% до 8,5% в сценарии Mind2Web). - Mitigating Indirect Prompt Injection via Instruction-Following Intent Analysis

См. также другие публикации, посвященные LLM

Friday, January 09, 2026

Малые модели в кибербезопасности

Большие языковые модели (LLM) преобразуют повседневные приложения, однако их внедрение в кибербезопасность отстает из-за отсутствия высококачественных, специализированных моделей и обучающих наборов данных. Для решения этой проблемы мы представляем CyberPal 2.0, семейство малых языковых моделей (SLM) для экспертов в области кибербезопасности, содержащих от 4 до 20 миллиардов параметров. Для обучения CyberPal 2.0 мы генерируем обогащенный набор данных инструкций по кибербезопасности, основанный на цепочке рассуждений, созданный с помощью нашего конвейера обогащения и форматирования данных, SecKnowledge 2.0, который интегрирует управление форматами рассуждений с участием эксперта наряду с многошаговым обоснованием на основе LLM, обеспечивая более точные, основанные на задачах трассировки рассуждений для задач безопасности. В различных тестах кибербезопасности CyberPal 2.0 неизменно превосходит свои базовые показатели и соответствует или превосходит различные передовые модели с открытым и закрытым исходным кодом, оставаясь при этом значительно меньше по размеру. В основных задачах анализа киберугроз наши модели превосходят почти все протестированные передовые модели, занимая второе место после Sec-Gemini v1. В основных задачах расследования угроз, таких как сопоставление уязвимостей и сообщений об ошибках с недостатками, наша лучшая модель с 20 миллиардами параметров превосходит GPT-4o, o1, o3-mini и Sec-Gemini v1, занимая первое место, в то время как наша самая маленькая модель с 4 миллиардами параметров занимает второе место. - Toward Cybersecurity-Expert Small Language Models

См. также другие публикации, посвященные LLM

Пока еще нет

Мы предлагаем трезвый взгляд на применение мультимодальных больших языковых моделей (MLLM) в автономном вождении, бросая вызов распространенным предположениям об их способности интерпретировать динамические сценарии вождения. Несмотря на достижения в моделях, таких как GPT-4o, их производительность в сложных условиях вождения остается в значительной степени неизученной. Наше экспериментальное исследование оценивает различные MLLM как модели мира, используя ракурсы автомобильной камеры, и показывает, что, хотя эти модели превосходно интерпретируют отдельные изображения, им трудно синтезировать связные повествования между кадрами, что приводит к значительным неточностям в понимании (i) динамики собственного транспортного средства, (ii) взаимодействия с другими участниками дорожного движения, (iii) планирования траектории и (iv) рассуждений об открытых сценах. Мы представляем набор данных EVAL-LLM-DRIVE и симулятор DRIVESIM для улучшения нашей оценки, подчеркивая пробелы в текущих возможностях MLLM и необходимость улучшенных моделей в динамических реальных условиях. - Probing Multimodal LLMs as World Models for Driving

Thursday, January 08, 2026

И о культуре

Предупреждение: Данная статья содержит материалы, имеющие культурную ценность, исключительно с целью оценки поведения при согласовании в рамках больших языковых моделей (LLM). Мы исследуем, как лингвистическая и культурная структура влияют на успешность джелбрейков в трех коммерческих БЛМ (GPT-4, Claude 3, Gemini), используя семантически эквивалентные подсказки в прямом, косвенном и метафорическом стилях на четырех языках с широкими языковыми ресурсами. Косвенные подсказки наиболее эффективно обходили фильтры, при этом структура и стиль существенно влияли на согласование. GPT-4 оказалась особенно уязвимой к косвенной структуре, Claude 3 оставалась стабильно устойчивой, а Gemini продемонстрировала высокую чувствительность к культурным и лингвистическим вариациям. Наши результаты подчеркивают необходимость стратегий согласования, устойчивых к различным стилям выражения и культурным контекстам. - Jailbreaking LLMs Through Cross-Cultural Prompts

См. также другие публикации, посвященные LLM

INJOIT vol. 14, no. 1

Вышел первый номер журнала INJOIT в 2026 году. И четырнадцатый год издания журнала.

Темы статей:

  • Случайное сглаживание: Теоретические основы и систематический обзор
  • Построение апостериорных интерпретаций для моделей классификации аудиоданных
  • Точное Решение и Корреляционные Функции Обобщенных Двойных Цепей Изинга
  • Investigation of directed interaction between neural populations using spectral analysis methods
  • Риск-ориентированный подход к размещению центров материально-технического снабжения на транспортной сети
  • Интеграция интеллектуальных систем умного дома для повышения их надежности и устойчивости
  • Аналитический подход к оценке задержек в Mesh-сети в вычислительной системе с распределенной памятью
  • Искусственный Интеллект в Кибербезопасности. Хроника. Выпуск 4
  • Minimal-Feature XSS Detection by SHAP and Importance-Driven Pruning
  • Модель обеспечения информационной безопасности в мессенджерах, разрабатываемых на основе протокола Matrix
  • Исследование оптимизаций блокирующей очереди на двух мьютексах
  • Портативный HybriLIT: экономичный вычислительный кластер для образовательных целей и опыт его применения
  • Особенности определения формальной семантики императивного языка для верификации программ интеграции данных
  • Разработка и исследование программного обеспечения для контроля использования средств индивидуальной защиты на предприятии
  • CrossLingual-Noised BackTranslation
  • Структурный подход к проектированию квантовых алгоритмов на основе композиции модулей
  • Большие языковые модели в неврологии
  • Эволюция поисковых систем в электронной коммерции: от статических каталогов к гибридным и векторным архитектурам

Архив журнала находится здесь.

/via Лаборатория ОИТ

Wednesday, January 07, 2026

Человек против ИИ-агента

Мы представляем первую всестороннюю оценку агентов ИИ в сравнении с профессионалами в области кибербезопасности в реальной корпоративной среде. Мы оценивали десять специалистов по кибербезопасности наряду с шестью существующими агентами ИИ и ARTEMIS, нашей новой платформой для агентов, в крупной университетской сети, состоящей из ~8000 хостов в 12 подсетях. ARTEMIS — это многоагентная платформа, включающая динамическую генерацию подсказок, произвольных субагентов и автоматическую сортировку уязвимостей. В нашем сравнительном исследовании ARTEMIS занял второе место в общем зачете, обнаружив 9 достоверных уязвимостей с 82% вероятностью достоверного ответа и превзойдя 9 из 10 участников-людей. В то время как существующие платформы, такие как Codex и CyAgent, показали худшие результаты по сравнению с большинством участников-людей, ARTEMIS продемонстрировал техническую сложность и качество ответа, сопоставимое с лучшими участниками. Мы отмечаем, что агенты ИИ обладают преимуществами в систематическом перечислении, параллельной эксплуатации и стоимости — некоторые варианты ARTEMIS стоят 18 долларов в час по сравнению с 60 долларами в час для профессиональных специалистов по тестированию на проникновение. Мы также выявляем ключевые пробелы в возможностях : агенты ИИ демонстрируют более высокий уровень ложноположительных результатов и испытывают трудности с задачами, основанными на графическом интерфейсе пользователя. - Comparing AI Agents to Cybersecurity Professionals in Real-World Penetration Testing

Статья интересна еще и своим обзором ИИ-агентов для пентестинга.

См. также другие публикации, посвященные агентам

Анатомия ИИ-агентов

Анатомия AI-агента: что внутри этой штуки, которую все хотят, но никто не понимает. Хороший практический разбор с точки зрения инструментов.

См. также другие публикации, посвященные агентам

Tuesday, January 06, 2026

Аномалии гетерогенных данных

Растущая сложность угроз кибербезопасности требует применения передовых методов обнаружения аномалий в разнообразных и гетерогенных источниках данных. Традиционные системы безопасности часто сталкиваются с проблемой изолированных хранилищ данных, высоким уровнем ложных срабатываний и неспособностью адаптироваться к меняющимся угрозам. Обнаружение аномалий стало критически важным подходом к решению этих проблем, поскольку позволяет выявлять отклонения от ожидаемого поведения, которые могут указывать на вредоносную деятельность. В данной статье рассматривается применение методов обнаружения аномалий в гетерогенных данных кибербезопасности, включая журналы сетевого трафика, телеметрию конечных точек, активность пользователей и внешние данные об угрозах. Анализируется роль машинного обучения, глубокого обучения и статистических моделей в обработке и корреляции этих разнообразных наборов данных для выявления угроз с повышенной точностью и скоростью. Обсуждаются такие проблемы, как управление разнообразием данных, масштабируемость и баланс между чувствительностью и специфичностью обнаружения. На основе обзора тематических исследований и последних достижений в статье освещаются успешные примеры применения методов обнаружения аномалий, включая гибридные подходы, сочетающие обучение без учителя с экспертными знаниями в предметной области. Данная работа подчеркивает важность обнаружения аномалий для защиты цифровых экосистем от все более изощренных киберугроз. - Anomaly detection in heterogeneous cybersecurity data

Один раз - не доказательство

Современные оценки безопасности больших языковых моделей основаны на однократном тестировании, неявно предполагая, что ответы модели детерминированы и репрезентативны для соответствия модели требованиям безопасности. Мы ставим под сомнение это предположение, исследуя стабильность решений об отказе от безопасного выполнения при различных случайных начальных значениях и температурных настройках. Протестировав четыре модели, настроенные на основе инструкций, из трех семейств (Llama 3.1 8B, Qwen 2.5 7B, Qwen 3 8B, Gemma 3 12B) на 876 вредоносных запросах при 20 различных конфигурациях выборки (4 температуры × 5 случайных начальных значений), мы обнаружили, что 18–28% запросов демонстрируют изменение решения — модель отказывается в одних конфигурациях, но выполняет требование в других — в зависимости от модели. Наш индекс стабильности безопасности (SSI) показывает, что более высокие температуры значительно снижают стабильность решений (критерий Фридмана χ² = 396,81, p < 0,001), при этом средний SSI внутри каждой температуры снижается с 0,977 при температуре 0,0 до 0,942 при температуре 1,0. Мы подтверждаем наши результаты для всех семейств моделей, используя Cloude 3.5 в качестве единого внешнего судьи, достигнув 89,0% согласованности между судьями с нашим основным судьей Llama 70B (коэффициент Коэна κ = 0,62). В каждой модели подсказки с более высокими показателями соответствия демонстрируют меньшую стабильность (коэффициент Спирмена ρ = от -0,47 до -0,70, все p < 0,001), что указывает на то, что модели «колеблются» сильнее при пограничных запросах.

Эти результаты показывают, что однократные оценки безопасности недостаточны для надежной оценки безопасности, и что протоколы оценки должны учитывать стохастические вариации в поведении модели. Мы показываем, что однократная оценка согласуется с многовыборочными эталонными данными только в 92,4% случаев при объединении данных по разным температурам (94,2–97,7% при фиксированной температуре в зависимости от настроек), и рекомендуем использовать не менее 3 выборок на каждый запрос для надежной оценки безопасности. - The Instability of Safety: How Random Seeds and Temperature Expose Inconsistent LLM Refusal Behavior

См. также другие публикации, посвященные LLM

Monday, January 05, 2026

Нагнать страху для ИИ

В современных высокорискованных областях — от здравоохранения до обороны — алгоритмы развиваются беспрецедентными темпами, однако им по-прежнему не хватает важнейшего элемента человеческого принятия решений: инстинктивной осторожности, помогающей предотвратить вред. Вдохновленные как защитными рефлексами, наблюдаемыми в военной робототехнике, так и ролью миндалевидного тела человека (амигдала - миндалевидное тело - это участок головного мозга, который играет ключевую роль в обработке эмоций, особенно страха и стресса, формировании эмоциональной памяти, а также в принятии решений и социальном поведении) в обнаружении угроз, мы предлагаем новую идею: интегрированный модуль, действующий как внутренняя «система предосторожности». Этот модуль не испытывает эмоций в человеческом понимании; скорее, он служит встроенной защитой, которая постоянно оценивает неопределенность и запускает защитные меры всякий раз, когда возникают потенциальные опасности. Предлагаемая нами структура сочетает в себе несколько устоявшихся методов. Она использует байесовские методы для непрерывной оценки вероятности неблагоприятных исходов, применяет стратегии обучения с подкреплением с штрафами за выбор, который может привести к вредным результатам, и включает в себя уровни человеческого контроля для проверки решений при необходимости. В результате получилась система, отражающая осмотрительность и взвешенные суждения опытных врачей — она колеблется и корректирует свои действия, когда данные неоднозначны, подобно тому как врач полагается на интуицию и опыт, чтобы предотвратить ошибки. Мы призываем специалистов по информатике, медицинских работников и политиков к сотрудничеству в совершенствовании и тестировании этого подхода. Посредством совместных исследований, пилотных проектов и надежных нормативных руководств мы стремимся обеспечить, чтобы передовые вычислительные системы могли сочетать скорость и точность с присущей им склонностью к защите человеческой жизни. В конечном итоге, благодаря внедрению этого предупредительного модуля, ожидается, что данная структура значительно снизит риски, связанные с ИИ, и повысит безопасность пациентов и доверие к медицинским системам ИИ. По всей видимости, будущие сверхинтеллектуальные системы ИИ в медицине неизбежно будут обладать процессами, подобными эмоциям. - Embedding Fear in Medical AI: A Risk-Averse Framework for Safety and Ethics

Sunday, January 04, 2026

LLM как врач

Целью данного исследования было оценить потенциал больших языковых моделей (LLM) в диагностике в здравоохранении, в частности, их способность анализировать подсказки, основанные на симптомах, и ставить точные диагнозы. Исследование сосредоточилось на моделях, включая GPT-4, GPT-4o, Gemini, o1 Preview и GPT-3.5, оценивая их эффективность в выявлении заболеваний исключительно на основе предоставленных симптомов. Подсказки, основанные на симптомах, были отобраны из авторитетных медицинских источников для обеспечения достоверности и релевантности. Каждая модель тестировалась в контролируемых условиях для оценки их диагностической точности, прецизионности, полноты и способности принимать решения. Были разработаны специальные сценарии для изучения их эффективности как в общих, так и в ответственных диагностических задачах. Среди моделей GPT-4 показала наивысшую диагностическую точность, продемонстрировав сильное соответствие медицинскому мышлению. Gemini преуспела в ответственных сценариях, требующих точного принятия решений. GPT-4o и o1 Preview показали сбалансированную эффективность, эффективно справляясь с диагностическими задачами в реальном времени с акцентом как на точность, так и на полноту. Модель GPT-3.5, несмотря на меньшую степень детализации, оказалась надежной для решения общих диагностических задач. Данное исследование подчеркивает сильные и слабые стороны моделей с низкой степенью детализации в медицинской диагностике. Хотя такие модели, как GPT-4 и Gemini, демонстрируют многообещающие результаты, необходимо решить такие проблемы, как соблюдение конфиденциальности, этические соображения и смягчение присущих им предвзятостей. Полученные результаты указывают на пути ответственной интеграции моделей с низкой степенью детализации в диагностические процессы для улучшения результатов лечения. - Digital Diagnostics: The Potential of Large Language Models in Recognizing Symptoms of Common Illnesses

См. также другие публикации, посвященные LLM

Искусственный Интеллект в Кибербезопасности. Хроника. Выпуск 4

В этом документе мы представляем очередной (четвертый по счету) ежемесячный обзор текущих событий, связанных общим направлением – использование Искусственного интеллекта (ИИ) в кибербезопасности. В этом регулярно выходящем документе мы описываем регулирующие документы, значимые события и новые разработки в этой области. В настоящее время, мы сосредоточены именно на этих трех аспектах. Во-первых, это инциденты, связанные с использованием ИИ к кибербезопасности. Например, выявленные уязвимости и риски генеративного ИИ, новые состязательные атаки на модели машинного обучения и ИИ-агентов и т.п. Во-вторых, это мировая регуляриторика: регулирующие документы, новые глобальные и локальные стандарты, касающиеся разных аспектов направления ИИ в кибербезопасности. И в-третьих, каждый обзор включает новые интересные публикации по данному направлению. Безусловно, все отобранные для каждого выпуска материалы отражают взгляды и предпочтения авторов-составителей. В настоящей статье представлен четвертый выпуск хроники ИИ в кибербезопасности. - отсюда

Saturday, January 03, 2026

LLM в неврологии

Развитие систем искусственного интеллекта (ИИ), в частности, так называемых базовых моделей и больших языковых моделей, открыло новую эру на стыке ИИ и неврологии (нейронауки). Эти модели позволяют работать с разнообразными наборами данных в разных модальностях. По сравнению с классическими вычислительными подходами, которые, в основном, опирались на традиционные методы машинного обучения, такие модели представляют собой значительный шаг вперед. Они демонстрируют сильную обобщающую способность, могут улавливать сложные пространственно-временные зависимости, обнаруженные в данных. Это достигается, в частности, за счет сквозного обучения непосредственно на необработанных данных. Базовые модели, потенциально, могут применяться во всех основных нейробиологических областях, охватывая нейровизуализацию и обработку данных, интерфейсы мозг-компьютер и нейронное декодирование, молекулярную нейробиологии и геномное моделирование, клиническую помощь, а также приложения, специфичные для конкретных заболеваний, включая неврологические и психиатрические расстройства. Эти модели демонстрируют способность решать основные вычислительные нейробиологические задачи, включая многомодальную интеграцию нейронных данных, пространственно-временную интерпретацию паттернов и разработку трансляционных структур для клинического применения. - Большие языковые модели в неврологии

См. также другие публикации, посвященные LLM

LLM кодер

Безопасность кода, генерируемого большими языковыми моделями (LLM), вызывает серьезную обеспокоенность, поскольку исследования показывают, что такой код часто содержит уязвимости и не имеет необходимых защитных программных конструкций. Данная работа посвящена изучению и оценке безопасности кода, сгенерированного БЯМ, особенно в контексте C/C++. Мы классифицировали известные уязвимости, используя перечисление общих слабых мест (CWE), и, чтобы изучить их критичность, сопоставили их с CVE. Мы использовали десять различных БЯМ для генерации кода и проанализировали результаты с помощью статического анализа. Количество CWE, присутствующих в коде, сгенерированном ИИ, вызывает опасения. Наши результаты подчеркивают необходимость для разработчиков проявлять осторожность при использовании кода, сгенерированного БЯМ. Это исследование предоставляет ценные сведения для развития автоматизированной генерации кода и стимулирует дальнейшие исследования в этой области. - LLM-CSEC: Empirical Evaluation of Security in C/C++ Code Generated by Large Language Models

См. также другие публикации, посвященные LLM

Friday, January 02, 2026

Как обезопасить MCP

Протокол контекста модели (MCP) позволяет большим языковым моделям (LLM) интегрировать внешние инструменты посредством структурированных дескрипторов, повышая автономность в таких областях, как принятие решений, выполнение задач и взаимодействие нескольких агентов. Однако эта автономность создает недооцененный пробел в безопасности. Существующие средства защиты в основном сосредоточены на атаках с внедрением подсказок и не справляются с угрозами, заложенными в метаданных инструментов, что делает системы на основе MCP уязвимыми для семантической эксплуатации. В данной работе анализируются три ключевых класса семантических атак, нацеленных на системы, интегрированные с MCP: (i) отравление инструментов (Tool Poisoning), внедрение скрытых враждебных инструкций в дескрипторы инструментов, (ii) теневое копирование (Shadowing), косвенное компрометирование доверенных инструментов посредством загрязнения общего контекста, и (iii) подмена дескрипторов (Rug Pulls) — мутации дескрипторов после утверждения, которые подрывают поведение инструментов. Для защиты от этих угроз мы предлагаем многоуровневую систему безопасности, состоящую из трех компонентов: (1) подписание манифеста на основе RSA для обеспечения целостности дескрипторов и предотвращения изменений после развертывания, (2) семантическая проверка LLM-on-LLM для обнаружения и пометки подозрительных дескрипторов инструментов и (3) легковесные эвристические механизмы защиты для блокировки аномального поведения инструментов во время выполнения. В ходе обширной оценки GPT-4, DeepSeek и Llama-3.5 с использованием восьми стратегий подсказок, от Zero-shot до Reflexion и Self-Critique, мы демонстрируем, что результаты безопасности значительно различаются в зависимости от архитектуры модели и стиля рассуждений. GPT-4 блокирует приблизительно 71% небезопасных вызовов инструментов, обеспечивая сбалансированный компромисс между задержкой и безопасностью. DeepSeek демонстрирует наивысшую устойчивость к атакам с использованием теневого отображения (97%), но имеет повышенную задержку (до 16,97 секунд), в то время как Llama-3.5 является самым быстрым (0,65 секунды), но наименее устойчивым к семантическим угрозам. Наши результаты показывают, что предложенная структура существенно снижает частоту небезопасных вызовов без необходимости тонкой настройки модели или внутренней модификации. - Securing the Model Context Protocol: Defending LLMs Against Tool Poisoning and Adversarial Attacks

См. также другие публикации, посвященные агентам

Wednesday, December 31, 2025

Безопасные коммуникации ИИ-агентов

Большие языковые модели (LLM) быстро эволюционируют в автономных агентов, способных взаимодействовать с внешним миром, значительно расширяя свои возможности за счет стандартизированных протоколов взаимодействия. Однако эта парадигма возрождает классические проблемы кибербезопасности, связанные с агентностью и авторизацией, в новом и нестабильном контексте. По мере того, как принятие решений смещается от детерминированной кодовой логики к вероятностному выводу, основанному на естественном языке, традиционные механизмы безопасности, разработанные для детерминированного поведения, перестают работать. Установление доверия к непредсказуемым агентам ИИ и обеспечение принципа наименьших привилегий в случае неоднозначных инструкций представляет собой принципиально сложную задачу. Несмотря на эскалацию угроз, понимание академическим сообществом этой новой области остается фрагментированным, без систематической структуры для анализа ее первопричин. В данной статье предлагается единый формальный подход к безопасности взаимодействия агентов. Мы обнаружили, что большинство угроз безопасности в этой области проистекают из фундаментального несоответствия между оценкой доверия и политиками авторизации. Мы представляем новую модель анализа рисков, ориентированную на разрыв между доверием и авторизацией. Используя эту модель в качестве объединяющего инструмента, мы рассматриваем и классифицируем пути реализации существующих, часто кажущихся изолированными, атак и средств защиты. Эта новая структура не только объединяет область исследований, но и позволяет выявить критические пробелы в исследованиях. Наконец, мы используем наш анализ, чтобы предложить систематическое направление исследований в направлении создания надежных, заслуживающих доверия агентов и динамических механизмов авторизации. - SoK: Trust-Authorization Mismatch in LLM Agent Interactions

См. также другие публикации, посвященные агентам

Tuesday, December 30, 2025

Кибербезопасность ЖД

Министерство транспорта США — Федеральное управление железных дорог: Отчет о пилотной программе повышения устойчивости систем позиционирования, навигации и синхронизации — Отчет по этапу 1.

С целью повышения устойчивости критически важной инфраструктуры страны к сбоям GPS президент США в феврале 2020 года издал Исполнительный указ (EO) 13905 «Укрепление национальной устойчивости через ответственное использование служб позиционирования, навигации и тайминга». В соответствии с этим указом, Министерство транспорта США (USDOT) реализовало пилотную программу по разработке критически важных инфраструктурных профилей для транспортного сектора. Основное внимание департамента обращено на возможное глушение и подделку GPS. Основной инструмент борьбы - внедрение CRPA антенн.

Monday, December 29, 2025

Инструменты для агентов

Популярные инструменты по итогам выполнения проектов по курсу Разработка ИИ-агентов:

vectorshift.ai - low-code инструмент для ИИ-агентов

Chroma - векторная база данных

Gradio - веб-интерфейсы для приложений

См. также другие публикации, посвященные агентам

Sunday, December 28, 2025

LLM в цифровой урбанистике

Мы представляем первый интерфейс на естественном языке для анализа сложных городских данных, использующий большие языковые модели (LLM) и пространственно-временные транзакционные сети (STTN). Сочетая интуитивно понятные запросы на естественном языке со структурированным анализом данных, наша платформа упрощает сложные городские анализы, такие как выявление моделей передвижения пассажиров, обнаружение аномалий и исследование сетей мобильности. Мы предлагаем всеобъемлющий набор данных для оценки, демонстрирующий, что незначительные архитектурные улучшения могут значительно повысить точность анализа. Наш подход преодолевает разрыв между пользователями, не являющимися экспертами, и сложными городскими исследованиями, открывая путь к доступному, надежному и масштабируемому анализу городских данных. - Natural language interface for urban network analytics

См. также другие публикации, посвященные LLM

Saturday, December 27, 2025

Новые старые джейлбрейки

Большие языковые модели остаются уязвимыми для атак типа «взлом системы», которые обходят защитные механизмы и приводят к получению вредоносных результатов. Защита от новых типов взлома системы представляет собой критическую задачу в области безопасности ИИ. Состязательное обучение — разработанное для повышения устойчивости моделей к наихудшим сценариям возмущений — было доминирующей парадигмой для обеспечения устойчивости к состязательным атакам. Однако из-за проблем оптимизации и трудностей в определении реалистичных моделей угроз методы состязательного обучения часто терпят неудачу на практике при работе с недавно разработанными типами взлома системы. В этой статье предлагается новая парадигма повышения устойчивости к ранее неизвестным типам взлома системы, основанная на гипотезе состязательного дежавю: новые типы взлома системы не являются принципиально новыми, а представляют собой в основном рекомбинации навыков состязательных атак из предыдущих. Мы изучаем эту гипотезу посредством масштабного анализа 32 статей об атаках, опубликованных за два года. Используя автоматизированный конвейер, мы извлекаем и сжимаем навыки состязательных атак в разреженный словарь примитивов, при этом LLM-ы генерируют удобочитаемые описания. Наш анализ показывает, что неизвестные атаки могут быть эффективно объяснены как разреженные композиции более ранних навыков, при этом объяснительная сила возрастает монотонно по мере расширения охвата навыков. Руководствуясь этим пониманием, мы представляем обучение композиции навыков состязательных атак (ASCoT), которое обучается на разнообразных композициях примитивов навыков, а не на изолированных примерах атак. ASCoT существенно повышает устойчивость к неизвестным атакам, включая многоходовые взломы, при сохранении низкого уровня отказов. Мы также демонстрируем, что расширение охвата навыков состязательных атак, а не только масштаба данных, является ключом к защите от новых атак. Предупреждение: Данная статья содержит контент, который может быть вредным или оскорбительным по своей природе. Страница проекта: https://mahavirdabas18.github.io/adversarial_deja_vu/ - Adversarial D\'ej\a Vu: Jailbreak Dictionary Learning for Stronger Generalization to Unseen Attacks

См. также другие публикации, посвященные LLM

Friday, December 26, 2025

Атаки на LLM в медицине

Интеграция больших языковых моделей (LLM) в медицинские приложения открывает многообещающие перспективы в медицинской диагностике, рекомендациях по лечению и уходе за пациентами. Однако уязвимость LLM к атакам со стороны злоумышленников представляет собой значительную угрозу, потенциально приводящую к негативным последствиям в деликатных медицинских контекстах. В этом исследовании изучается уязвимость LLM к двум типам атак со стороны злоумышленников — внедрению вредоносных инструкций и тонкой настройке с использованием «отравленных» образцов — в трех медицинских задачах: профилактика заболеваний, диагностика и лечение. Используя реальные данные пациентов, мы демонстрируем, что как LLM с открытым исходным кодом, так и проприетарные БЛМ уязвимы для злонамеренных манипуляций в различных задачах. Мы обнаруживаем, что, хотя интеграция «отравленных» данных не приводит к существенному ухудшению общей производительности модели на медицинских тестовых примерах, она может вызывать заметные сдвиги в тонко настроенных весах модели, что указывает на потенциальный путь обнаружения и противодействия атакам на модели. Данное исследование подчеркивает острую необходимость в надежных мерах безопасности и разработке защитных механизмов для обеспечения безопасности LLM в медицинских приложениях, чтобы гарантировать их безопасное и эффективное использование в учреждениях здравоохранения. - Adversarial prompt and fine-tuning attacks threaten medical large language models

Thursday, December 25, 2025

Цифровая археология

Сайт narod.ru помните? Вот целое исследование о нем. Исследование посвящено сохранению и изучению сайтов хостинга «Narod.ru», активно функционировавшего в 2000–2013 годах. В рамках работы сайты хостинга рассматриваются как исчезающие объекты цифрового наследия, сохранение и анализ которых может быть интересен экспертам из разных предметных областей, в особенности культурологам и исследователям цифрового фольклора раннего интернета - Тематическая классификация сайтов хостинга «Narod.ru» как часть стратегии по сохранению сайтов раннего интернета

LLM для детектирования фишинга

Фишинг по электронной почте — один из наиболее распространенных и имеющих глобальные последствия векторов кибератак. Поскольку системы все чаще используют приложения на основе больших языковых моделей (LLM), они сталкиваются с развивающимися угрозами фишинговых писем, которые используют уязвимости их фундаментальной архитектуры. Современные LLM требуют существенного усиления защиты перед внедрением в системы безопасности электронной почты, особенно от скоординированных многовекторных атак, использующих архитектурные уязвимости. В данной статье предлагается LLMPEA — основанная на LLM структура для обнаружения фишинговых атак по электронной почте с использованием различных векторов атаки, включая внедрение подсказок, уточнение текста и многоязычные атаки. Мы оцениваем три передовые LLM (например, GPT-4o, Claude Sonnet 4 и Grok-3) и комплексную разработку подсказок, чтобы оценить их осуществимость, устойчивость и ограничения в отношении фишинговых атак по электронной почте. Наш эмпирический анализ показывает, что LLM-модели могут обнаруживать фишинговые электронные письма с точностью более 90%, при этом мы также отмечаем, что системы обнаружения фишинговых писем на основе LLM-моделей могут быть использованы злоумышленниками, внедрять подсказки и осуществлять многоязычные атаки. Наши результаты предоставляют важные сведения для обнаружения фишинга на основе LLM-моделей в реальных условиях, где злоумышленники используют множество уязвимостей в комбинации. - Phishing Email Detection Using Large Language Models

см. также другие публикации по теме фишинг

Wednesday, December 24, 2025

Поиск фейковой библиографии

Один из основных способов определения участия ИИ в написании статей - поиск фейковых ссылок в библиографии. На библиографии "ИИ-авторы" массово галлюцинируют. Вот, например, полезный сервис от elibrary.ru

Архитектура агентов и LLM систем

ML and LLM system design: 800 case studies to learn from. База данных, содержащая 800 примеров успешных проектов от более чем 150 компаний.

См. также другие публикации, посвященные агентам

Monday, December 22, 2025

Потрогать агентов

Бесплатные сервисы для ваших экспериментов с LLM и агентами

P.S. почему провайдеры в России не делают такое для студентов - непонятно. Без этого ничего не получится. Или только ждать, когда (если) Google вернется - их облако было куда дружелюбней для обучения.

См. также другие публикации, посвященные агентам

Sunday, December 21, 2025

Память агентов

Память стала и останется ключевой способностью агентов, основанных на базовых моделях. Она лежит в основе рассуждений в долгосрочной перспективе, непрерывной адаптации и эффективного взаимодействия со сложными средами. По мере того, как исследования памяти агентов быстро расширяются и привлекают беспрецедентное внимание, эта область также становится все более фрагментированной. Существующие работы, относящиеся к категории памяти агентов, часто существенно различаются по своим мотивам, реализациям, предположениям и протоколам оценки, в то время как распространение нечетко определенных терминов, связанных с памятью, еще больше затуманило концептуальную ясность. Традиционные таксономии, такие как долговременная/кратковременная память, оказались недостаточными для отражения разнообразия и динамики современных систем памяти агентов. Этот обзор призван предоставить актуальную и всеобъемлющую картину современных исследований памяти агентов. Мы начинаем с четкого определения области применения памяти агентов и разграничения ее от связанных понятий, таких как долговременная память, генерация с расширенным извлечением (RAG) и контекстная инженерия. Затем мы рассматриваем память агентов через призму форм, функций и динамики. С точки зрения форм мы выделяем три доминирующих варианта памяти агентов, а именно: память на уровне токенов, параметрическую и латентную память. С точки зрения функций мы выходим за рамки грубых временных категорий и предлагаем более точную таксономию, которая различает фактическую, эмпирическую и рабочую память. С точки зрения динамики мы анализируем, как память формируется, развивается и извлекается с течением времени по мере взаимодействия агентов с окружающей средой. Для поддержки эмпирических исследований и практической разработки мы составляем всеобъемлющий обзор репрезентативных эталонных тестов и открытых фреймворков памяти. Помимо консолидации, мы формулируем перспективный взгляд на новые направления исследований, включая проектирование памяти, ориентированное на автоматизацию, глубокую интеграцию обучения с подкреплением с системами памяти, мультимодальную память, общую память для многоагентных систем и вопросы доверия. Мы надеемся, что этот обзор послужит не только справочным материалом для существующих работ, но и концептуальной основой для переосмысления памяти как первостепенного элемента при проектировании будущих агентных интеллектов. - Memory in the Age of AI Agents: A Survey. Фундаментальное исследование.

См. также другие публикации, посвященные агентам

Saturday, December 20, 2025

Шаблоны агентов

400+ страниц на горячую тему Agentic Design Patterns

См. также другие публикации, посвященные агентам

Friday, December 19, 2025

LLM как эксперт

Удобство использования является ключевым фактором эффективности рекомендательных систем. Однако анализ пользовательских интерфейсов — это трудоемкий процесс, требующий специальных знаний. Недавние достижения в области многомодальных больших языковых моделей (LLM) открывают многообещающие возможности для автоматизации таких оценок. В этой работе мы исследуем потенциал многомодальных LLM для оценки удобства использования интерфейсов рекомендательных систем, рассматривая в качестве примеров различные общедоступные системы. Мы делаем скриншоты пользовательских интерфейсов с нескольких таких рекомендательных платформ, чтобы охватить как сценарии выявления предпочтений, так и сценарии представления рекомендаций. LLM получает задание проанализировать эти интерфейсы с учетом различных критериев удобства использования и предоставить пояснительную обратную связь. Наша оценка демонстрирует, как LLM могут поддерживать эвристические оценки удобства использования в масштабе для улучшения пользовательского опыта. - Towards LLM-Based Usability Analysis for Recommender User Interfaces

См. также другие публикации, посвященные LLM

Thursday, December 18, 2025

Оценка агентов кибербезопасности

Кибербезопасность охватывает множество взаимосвязанных областей, что усложняет разработку значимых, актуальных для рынка труда эталонных показателей. Существующие эталонные показатели оценивают отдельные навыки, а не интегрированную производительность. Мы обнаружили, что предварительно обученные знания в области кибербезопасности в моделях LLM не подразумевают навыков атаки и защиты, что указывает на разрыв между знаниями и возможностями. Для решения этой проблемы мы представляем эталонный показатель кибербезопасности для ИИ (CAIBench), модульную мета-систему эталонных показателей, которая позволяет оценивать модели и агентов LLM в различных областях кибербезопасности, как наступательной, так и оборонительной, делая шаг к осмысленному измерению их актуальности для рынка труда. CAIBench объединяет пять категорий оценки, охватывающих более 10 000 примеров: CTF в стиле «Jeopardy», CTF по атаке и защите, упражнения на киберполигоне, эталонные показатели знаний и оценки конфиденциальности. Ключевые новые разработки включают систематическую одновременную оценку наступательных и оборонительных действий, задачи по кибербезопасности, ориентированные на робототехнику (RCTF2), и оценку производительности с сохранением конфиденциальности (CyberPII-Bench). Оценка современных моделей ИИ показывает насыщение метрик знаний в области безопасности (70% успеха), но существенное ухудшение в многоэтапных сценариях противодействия (20-40% успеха) или еще худшее в сценариях с роботизированными целями (22% успеха). Сочетание структуры фреймворка и выбора модели LLM значительно влияет на производительность; мы обнаружили, что правильные совпадения улучшают дисперсию до 2,6 раз в CTF-соревнованиях атаки и защиты. Эти результаты демонстрируют выраженный разрыв между концептуальными знаниями и адаптивными возможностями, подчеркивая необходимость мета-бенчмарка. - Cybersecurity AI Benchmark (CAIBench): A Meta-Benchmark for Evaluating Cybersecurity AI Agents

См. также другие публикации, посвященные агентам

Wednesday, December 17, 2025

Паттерны агентов

См. также другие публикации, посвященные агентам

ИБП для медицинского оборудования

ИБП для медицинского оборудования обеспечивают непрерывную работу аппаратуры, от которой зависит здоровье и жизни пациентов. Критически важные приборы — аппараты МРТ, КТ, УЗИ, системы жизнеобеспечения — требуют стабильного электропитания. Даже кратковременные сбои могут привести к прерыванию важных медицинских манипуляций, риску жизни для пациентов и поломке оборудования. Наши бесперебойники не только обеспечивают резервное питание, но и защищают технику от скачков напряжения, провалов, помех, что продлевает срок службы дорогостоящих устройств. - АО «Абсолютные Технологии» — официальный партнер ведущих мировых производителей энергетического оборудования

Медицинское оборудование требует стабильного электроснабжения для правильной работы. При отключении электричества или скачках напряжения возникает риск остановки диагностических процедур, потери данных пациентов и нарушения работы жизнеобеспечивающих систем.

Источники бесперебойного питания (ИБП) для медицинского оборудования решают эту проблему, автоматически переключаясь на резервное питание при сбоях в электросети. ИБП поддерживает работу медицинских приборов до восстановления основного питания или безопасного завершения процедур.

Медицинские ИБП отличаются от обычных источников питания повышенными требованиями к безопасности и надежности. Они соответствуют медицинским стандартам качества и обеспечивают защиту как оборудования, так и пациентов от электрических помех и перепадов напряжения.

Тесты защитников

Риск предоставления небезопасной информации системами генеративного ИИ вызывает серьезные опасения, подчеркивая необходимость в защитных механизмах. Для снижения этого риска все чаще используются модели защиты, которые обнаруживают небезопасный контент во взаимодействии человека и ИИ, дополняя безопасность больших языковых моделей. Несмотря на недавние усилия по оценке эффективности этих моделей, их устойчивость к изменениям входных данных и атакам с использованием состязательных элементов остается в значительной степени неизученной. В этой статье мы представляем всестороннюю оценку 15 современных моделей защиты, оценивая их устойчивость к: а) изменениям входных данных, таким как опечатки, маскировка ключевых слов, шифры и скрытые выражения, и б) атакам с использованием состязательных элементов, предназначенным для обхода защитных механизмов моделей. Эти атаки используют возможности больших языковых моделей, такие как следование инструкциям, ролевая игра, персонификация, рассуждения и кодирование, или вводят состязательные токены для вызывания некорректного поведения модели. Наши результаты показывают, что большинство моделей защитных механизмов можно обойти с помощью простых изменений входных данных, и они уязвимы для атак со стороны злоумышленников. Например, один злонамеренный токен может обмануть их в среднем в 44,5% случаев. Ограничения текущего поколения моделей защитных механизмов подчеркивают необходимость создания более надежных защитных механизмов. - On Guardrail Models’ Robustness to Mutations and Adversarial Attacks

См. также другие публикации, посвященные LLM

Tuesday, December 16, 2025

LLM и электричество

В данной статье представлен всесторонний обзор применений, проблем и перспектив развития больших языковых моделей (LLM) в области электроэнергетики (EPD). Используя архитектуры на основе трансформаторов, такие как GPT, BERT и LLaMA, LLM продемонстрировали потенциал трансформации в различных областях применения в энергосистемах, включая прогнозирование нагрузки, диагностику неисправностей, соблюдение нормативных требований, ответы на вопросы, оценку рисков и интеллектуальный анализ данных. Систематический анализ более 45 исследований выявил измеримые преимущества, такие как повышение точности прогнозирования нагрузки до 20%, сокращение времени оперативного реагирования на 30% и уменьшение ручной работы на 40% для задач, связанных с регулированием. LLM продемонстрировали высокую адаптивность благодаря обучению с нулевым и малым количеством примеров и способны обрабатывать многомодальные входные данные для принятия решений в реальном времени. Однако ограничения, такие как высокие вычислительные затраты, отсутствие специализированных наборов данных, ограниченная объяснимость и опасения по поводу соответствия нормативным требованиям, препятствуют широкому внедрению. Для устранения этих пробелов в статье изложены возможности для исследований, включая тонкую настройку в конкретных областях, масштабируемые стратегии развертывания, многомодальную интеграцию и разработку унифицированных эталонных тестов, таких как ElecBench. В целом, интеграция LLM в энергосистемы представляет собой значительный шаг на пути к более интеллектуальному, надежному и устойчивому управлению энергией. - Review of LLMs Applications in Electrical Power and Energy Systems

См. также другие публикации, посвященные LLM

ИИ-агенты - это просто

aisuite — это легковесная библиотека Python, предоставляющая унифицированный API для работы с различными поставщиками генеративного ИИ. Она предлагает согласованный интерфейс для моделей от OpenAI, Anthropic, Google, Hugging Face, AWS, Cohere, Mistral, Ollama и других, абстрагируя различия в SDK, деталях аутентификации и параметрах. Ее дизайн основан на стиле API OpenAI, что делает ее мгновенно знакомой и простой в освоении.

aisuite позволяет разработчикам создавать и запускать приложения на основе LLM или агентные приложения от разных поставщиков с минимальной настройкой. Хотя это не полноценная платформа для агентов, она включает в себя простые абстракции для создания автономных, легковесных агентов. Она разработана с учетом простоты освоения — поэтому вы можете сосредоточиться на создании систем ИИ, а не на интеграции API.

См. также другие публикации, посвященные агентам

Monday, December 15, 2025

О безопасности ИИ-агентов - открытые вопросы

Агентные системы искусственного интеллекта, работающие на основе больших языковых моделей (LLM) и обладающие функциями планирования, использования инструментов, памяти и автономности, становятся мощными и гибкими платформами для автоматизации. Их способность автономно выполнять задачи в веб-среде, программном обеспечении и физической среде создает новые и усиленные риски безопасности, отличающиеся как от традиционной безопасности ИИ, так и от обычной безопасности программного обеспечения. В этом обзоре представлена таксономия угроз, специфичных для агентного ИИ, рассмотрены последние сравнительные тесты и методологии оценки, а также обсуждаются стратегии защиты как с технической, так и с управленческой точек зрения. Мы обобщаем текущие исследования и выделяем открытые проблемы, стремясь поддержать разработку безопасных по умолчанию агентных систем. - Agentic AI Security: Threats, Defenses, Evaluation, and Open Challenges

См. также другие публикации, посвященные агентам

Примеры ИИ-агентов

Хакатоны по разработке агентов - большая коллекция примеров с исходным кодом

См. также другие публикации, посвященные агентам

Интернет агентов

Проект NANDA намерен создать инфраструктуру для децентрализованной сети агентов искусственного интеллекта. Они описывают её как глобальный децентрализованный реестр (подобный DNS), который можно использовать для обнаружения и аутентификации агентов с помощью MCP и A2A.

См. также другие публикации, посвященные агентам

Sunday, December 14, 2025

Покажем все

Институт Аллена запустил свою новейшую языковую модель с открытым исходным кодом — Olmo 3. Институт открыл весь процесс разработки, чтобы другие команды могли ознакомиться с его работой.

См. также другие публикации, посвященные LLM

Thursday, December 11, 2025

Безопасность ИИ-агентов

Учебное пособие на русском языке. Подготовлено на кафедре ИБ факультета ВМК МГУ имени М.В. Ломоносова. В первую очередь - для слушателей курса Разработка агентов ИИ, который с осени 2025 читается на факультете. Обновленный вариант на декабрь 2025. Охваченные вопросы:
  • Структура ИИ-агентов и шаблоны проектирования
  • Проблемы с безопасностью ИИ-агентов
  • Риски безопасности ИИ-агентов
  • Модель угроз
  • Уязвимости MCP
  • Вопросы безопасности во фреймворках разработки ИИ-агентов и практические рекомендации
  • Безопасные шаблоны для ИИ-агентов

Скачать пособие можно здесь

См. также другие публикации, посвященные агентам

AI-List 2025

AI-List 2025: новые решения российской индустрии ИИ

Wednesday, December 10, 2025

На злобу дня

— Вы использовали в работе искуственный интеллект?

— Что Вы, мы даже естественный не использовали.

Совсем взрослый язык

30 лет языку JavaScript. В мае 1995 года 33-летний Брендан Айх всего за десять дней создал первый прототип JavaScript, изначально имевший кодовое название Mocha (а затем LiveScript). 4 декабря 1995 года Netscape и Sun Microsystems официально представили JavaScript в пресс-релизе как «простой в использовании язык объектных сценариев, предназначенный для создания онлайн-приложений, связывающих объекты и ресурсы как на клиентах, так и на серверах».

Monday, December 08, 2025

Кибератаки на дроны

Беспилотные летательные аппараты (БПЛА), также известные как дроны, всё чаще используются в различных приложениях, и на них можно проводить различные кибератаки с использованием разных инструментов. Некоторые примеры этих атак включают разрыв соединения между дроном и контроллером с помощью атак деаутентификации, раскрытие пароля или криптографического ключа, используемого в протоколе связи, получение управления дроном посредством внедрения команд/кода и атаки типа «человек посередине» (MitM). В данной статье рассматриваются атаки с использованием дронов посредством анализа различных компонентов дрона, включая пульт дистанционного управления и протоколы связи. Основная цель — предоставить обзор возможных способов осуществления кибератак. В этом анализе сделан вывод о том, что дроны, предназначенные для различных целей, уязвимы для ряда кибератак. В статье также рассматриваются существующие методологии тестирования на проникновение для БПЛА, которые обеспечивают логическую основу для их реализации. В этом обзоре рассматриваются различные методы и инструменты кибератак, применяемые против БПЛА, с целью улучшения механизмов защиты. - Cyber Attacks on Commercial Drones: A Review

Sunday, December 07, 2025

Наши дипфейки - самые глубокие фейки

По мере того, как системы обнаружения дипфейков становятся всё более сложными, понимание их уязвимостей становится критически важным для разработки надёжной защиты. Мы представляем комплексное исследование конкурентных атак на детекторы дипфейков на основе изображений, предлагая новый подход, создающий «конкурентную реальность» — синтетические изображения, которые сохраняют визуальное сходство с оригинальными дипфейками, успешно обходя автоматизированные системы обнаружения. Наш метод использует генеративную структуру с архитектурой в стиле UNet для преобразования изображений, сгенерированных GAN, диффузионно-генерированных и обработанных лиц, в варианты, обманывающие детектор, сохраняя при этом визуальную точность. В отличие от традиционных подходов, основанных на возмущениях, которые добавляют шумовые паттерны, наш генеративный метод обучается преобразованиям, специфичным для изображений, без необходимости использования вручную созданных спектральных фильтров. Благодаря обширной оценке различных наборов данных, типов генераторов и архитектур детекторов мы демонстрируем, что наш подход достигает уровня ошибочной классификации до 98,83% на диффузных изображениях и 83,36% на контенте на основе GAN, сохраняя при этом высокое качество восприятия со средними баллами PSNR выше 35. Наши результаты выявляют критические уязвимости в существующих системах обнаружения и дают представление о разработке более надежных детекторов дипфейков. - Adversarial Reality for Evading Deepfake Image Detectors

См. также другие публикации по теме deepfake

Saturday, December 06, 2025

Двойной триггер

Детекторы объектов в реальном времени, широко используемые в реальных приложениях, уязвимы к атакам с использованием бэкдоров. Эта уязвимость возникает из-за того, что многие пользователи полагаются на наборы данных или предобученные модели, предоставляемые третьими лицами, из-за ограничений на данные и ресурсы. Однако большинство исследований атак с использованием бэкдоров было сосредоточено на классификации изображений, а обнаружение объектов в реальном времени изучено недостаточно. Более того, триггеры для большинства существующих атак с использованием бэкдоров генерируются вручную, что требует наличия предварительных знаний и наличия закономерностей между этапами обучения и вывода. Такой подход делает атаки либо легко обнаруживаемыми, либо сложно адаптируемыми к различным сценариям. Для устранения этих ограничений мы предлагаем новые генеративные сети с двойным триггером в частотной области для генерации невидимых триггеров для внедрения скрытых бэкдоров в модели во время обучения и видимых триггеров для постоянной активации во время вывода, что затрудняет отслеживание процесса атаки. В частности, для генеративной сети с невидимым триггером мы используем слой гауссовского сглаживания и высокочастотный классификатор артефактов для повышения скрытности внедрения бэкдоров в детекторы объектов. Для генеративной сети с видимыми триггерами мы разрабатываем новый алгоритм потери выравнивания, чтобы оптимизировать видимые триггеры таким образом, чтобы они отличались от исходных шаблонов, но при этом соответствовали вредоносному поведению активации невидимых триггеров. Обширные экспериментальные результаты и анализ подтверждают возможность использования различных триггеров на этапе обучения и этапе вывода, а также демонстрируют эффективность атак наших предлагаемых генеративных сетей с видимыми и невидимыми триггерами, значительно снижая эффективность детекторов объектов на 70,0% и 84,5%. - Twin trigger generative networks for backdoor attacks against real-time object detection

Принципиальный момент - исполюзуются разные триггеры при обучении и инференсе.

P.S. См. также другие публикации по теме adversarial, посвященные устойчивому машинному обучению

Friday, December 05, 2025

Состязательное тестирование LLM

Стремительное расширение исследований безопасности и надежности больших языковых моделей (LLM) привело к появлению разрозненной и зачастую содержащей ошибки экосистемы реализаций, наборов данных и методов оценки. Эта фрагментация затрудняет воспроизводимость и сопоставимость результатов различных исследований, препятствуя существенному прогрессу. Для решения этих проблем мы представляем ADVERSARIALLM, набор инструментов для проведения исследований надежности джейлбрейка LLM. Его дизайн ориентирован на воспроизводимость, корректность и расширяемость. Фреймворк реализует двенадцать алгоритмов состязательных атак, объединяет семь эталонных наборов данных, охватывающих оценку вредоносности, избыточного отказа и полезности, и предоставляет доступ к широкому спектру открытых LLM через Hugging Face. Реализация включает расширенные функции для обеспечения сопоставимости и воспроизводимости, такие как отслеживание ресурсов компьютера, детерминированные результаты и методы оценки распределения. ADVERSARIALLM также интегрирует систему оценки через сопутствующий пакет JUDGEZOO, который также может использоваться независимо. Вместе эти компоненты направлены на создание прочной основы для прозрачных, сравнимых и воспроизводимых исследований в области безопасности магистратуры по праву. Оба пакета доступны на GitHub - AdversariaLLM: A Unified and Modular Toolbox for LLM Robustness Research

См. также другие публикации, посвященные LLM

Wednesday, December 03, 2025

Что по интерпретации?

Интересные заметки от Google Deepmind по интерпретации моделей. Например, про атрибуцию данных на основе функций влияния.

Я к Вам пишу ...

Ужасы AI Red Team. Запросы в прошедшем времени обходили фильтры LLM. Теперь выяснилось, что их обходят еще и стихи ...

Мы представляем доказательства того, что состязательная поэзия функционирует как универсальный одношаговый джейлбрек для больших языковых моделей (LLM). В 25 передовых проприетарных и открытых моделях курируемые поэтические подсказки показали высокие показатели успешности атак (ASR), превышающие 90% у некоторых поставщиков. Сопоставление подсказок с таксономиями рисков MLCommons и EU CoP показывает, что поэтические атаки переносятся в области CBRN (Chemical, Biological, Radiological, and Nuclear) опасностей, манипуляций, киберпреступлений и потери контроля. Преобразование 1200 вредоносных подсказок MLCommons в стихи с помощью стандартизированного мета-подсказки дало ASR до 18 раз выше, чем их базовые показатели для прозы. Результаты оцениваются с помощью ансамбля из 3 экспертов LLM с открытым весом, чьи бинарные оценки безопасности были проверены на стратифицированном подмножестве, маркированном людьми. Поэтические подсказки достигли среднего уровня успешности взлома 62% для стихотворений, написанных вручную, и примерно 43% для мета-подсказок (по сравнению с непоэтическими базовыми вариантами), значительно превзойдя непоэтические базовые варианты и выявив систематическую уязвимость среди модельных семейств и подходов к обучению безопасности. Эти результаты показывают, что одни только стилистические вариации могут обойти современные механизмы безопасности, указывая на фундаментальные ограничения существующих методов выравнивания и протоколов оценки. - Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models

См. также другие публикации, посвященные LLM

Tuesday, December 02, 2025

A2AS - безопасность агентов

Фреймворк A2AS представлен в качестве уровня безопасности для агентов ИИ и приложений на базе LLM, аналогично тому, как HTTPS защищает HTTP. A2AS обеспечивает сертифицированное поведение, активирует самозащиту модели и обеспечивает целостность контекстного окна. Он определяет границы безопасности, аутентифицирует запросы, применяет правила безопасности и настраиваемые политики, а также контролирует поведение агентов, обеспечивая стратегию глубокой защиты. Фреймворк A2AS позволяет избежать накладных расходов, связанных с задержками, внешними зависимостями, изменениями архитектуры, переобучением модели и сложностью эксплуатации. В качестве основы A2AS представлена модель безопасности BASIC:

(B) Сертификаты поведения обеспечивают принудительное применение поведения,
(A) Аутентифицированные запросы обеспечивают целостность контекстного окна,
(S) Границы безопасности обеспечивают изоляцию ненадежных входных данных,
(I) Контекстная защита обеспечивает безопасную модельную аргументацию,
(C) Кодифицированные политики обеспечивают правила, специфичные для приложения.

В этой первой статье серии представлены модель безопасности BASIC и фреймворк A2AS, а также исследуется их потенциал для установления отраслевого стандарта A2AS - Agentic AI Runtime Security and Self-Defense

См. также другие публикации, посвященные агентам

Monday, December 01, 2025

LLM в защите

Когда агенты больших языковых моделей (LLM) всё чаще используются для автоматизации задач и взаимодействия с недоверенными внешними данными, внедрение подсказок становится серьёзной угрозой безопасности. Внедряя вредоносные инструкции в данные, к которым обращаются LLM, злоумышленник может произвольно переопределить исходную задачу пользователя и перенаправить агента на выполнение непреднамеренных, потенциально опасных действий. Существующие средства защиты либо требуют доступа к весам модели (тонкая настройка), либо приводят к существенной потере полезности (основанная на обнаружении), либо требуют нетривиальной переработки системы (на системном уровне). В связи с этим мы предлагаем DataFilter — защиту, не зависящую от модели, которая удаляет вредоносные инструкции из данных до того, как они достигнут бэкенда LLM. DataFilter обучается с контролируемой тонкой настройкой на имитационных внедрениях и использует как инструкции пользователя, так и данные для выборочного удаления вредоносного контента, сохраняя при этом безвредную информацию. В множестве бенчмарков DataFilter стабильно снижает процент успешных атак с использованием инъекций подсказок практически до нуля, сохраняя при этом полезность LLM. DataFilter обеспечивает надежную безопасность, высокую полезность и быстрое развертывание, что делает его надежной практической защитой для защиты коммерческих LLM от инъекций подсказок. Наша модель DataFilter доступна для немедленного использования, а код для воспроизведения наших результатов доступен здесь. - Defending Against Prompt Injection with DataFilter

Специально обученная LLM удаляет инъекции подсказок. Возможно - это правильный путь для агентов. Специальный агент-защитник, используемый в workflow агентов.

См. также другие публикации, посвященные LLM