Thursday, December 25, 2025

Цифровая археология

Сайт narod.ru помните? Вот целое исследование о нем. Исследование посвящено сохранению и изучению сайтов хостинга «Narod.ru», активно функционировавшего в 2000–2013 годах. В рамках работы сайты хостинга рассматриваются как исчезающие объекты цифрового наследия, сохранение и анализ которых может быть интересен экспертам из разных предметных областей, в особенности культурологам и исследователям цифрового фольклора раннего интернета - Тематическая классификация сайтов хостинга «Narod.ru» как часть стратегии по сохранению сайтов раннего интернета

LLM для детектирования фишинга

Фишинг по электронной почте — один из наиболее распространенных и имеющих глобальные последствия векторов кибератак. Поскольку системы все чаще используют приложения на основе больших языковых моделей (LLM), они сталкиваются с развивающимися угрозами фишинговых писем, которые используют уязвимости их фундаментальной архитектуры. Современные LLM требуют существенного усиления защиты перед внедрением в системы безопасности электронной почты, особенно от скоординированных многовекторных атак, использующих архитектурные уязвимости. В данной статье предлагается LLMPEA — основанная на LLM структура для обнаружения фишинговых атак по электронной почте с использованием различных векторов атаки, включая внедрение подсказок, уточнение текста и многоязычные атаки. Мы оцениваем три передовые LLM (например, GPT-4o, Claude Sonnet 4 и Grok-3) и комплексную разработку подсказок, чтобы оценить их осуществимость, устойчивость и ограничения в отношении фишинговых атак по электронной почте. Наш эмпирический анализ показывает, что LLM-модели могут обнаруживать фишинговые электронные письма с точностью более 90%, при этом мы также отмечаем, что системы обнаружения фишинговых писем на основе LLM-моделей могут быть использованы злоумышленниками, внедрять подсказки и осуществлять многоязычные атаки. Наши результаты предоставляют важные сведения для обнаружения фишинга на основе LLM-моделей в реальных условиях, где злоумышленники используют множество уязвимостей в комбинации. - Phishing Email Detection Using Large Language Models

см. также другие публикации по теме фишинг

Wednesday, December 24, 2025

Поиск фейковой библиографии

Один из основных способов определения участия ИИ в написании статей - поиск фейковых ссылок в библиографии. На библиографии "ИИ-авторы" массово галлюцинируют. Вот, например, полезный сервис от elibrary.ru

Архитектура агентов и LLM систем

ML and LLM system design: 800 case studies to learn from. База данных, содержащая 800 примеров успешных проектов от более чем 150 компаний.

Monday, December 22, 2025

Потрогать агентов

Бесплатные сервисы для ваших экспериментов с LLM и агентами

P.S. почему провайдеры в России не делают такое для студентов - непонятно. Без этого ничего не получится. Или только ждать, когда (если) Google вернется - их облако было куда дружелюбней для обучения.

См. также другие публикации, посвященные агентам

Sunday, December 21, 2025

Память агентов

Память стала и останется ключевой способностью агентов, основанных на базовых моделях. Она лежит в основе рассуждений в долгосрочной перспективе, непрерывной адаптации и эффективного взаимодействия со сложными средами. По мере того, как исследования памяти агентов быстро расширяются и привлекают беспрецедентное внимание, эта область также становится все более фрагментированной. Существующие работы, относящиеся к категории памяти агентов, часто существенно различаются по своим мотивам, реализациям, предположениям и протоколам оценки, в то время как распространение нечетко определенных терминов, связанных с памятью, еще больше затуманило концептуальную ясность. Традиционные таксономии, такие как долговременная/кратковременная память, оказались недостаточными для отражения разнообразия и динамики современных систем памяти агентов. Этот обзор призван предоставить актуальную и всеобъемлющую картину современных исследований памяти агентов. Мы начинаем с четкого определения области применения памяти агентов и разграничения ее от связанных понятий, таких как долговременная память, генерация с расширенным извлечением (RAG) и контекстная инженерия. Затем мы рассматриваем память агентов через призму форм, функций и динамики. С точки зрения форм мы выделяем три доминирующих варианта памяти агентов, а именно: память на уровне токенов, параметрическую и латентную память. С точки зрения функций мы выходим за рамки грубых временных категорий и предлагаем более точную таксономию, которая различает фактическую, эмпирическую и рабочую память. С точки зрения динамики мы анализируем, как память формируется, развивается и извлекается с течением времени по мере взаимодействия агентов с окружающей средой. Для поддержки эмпирических исследований и практической разработки мы составляем всеобъемлющий обзор репрезентативных эталонных тестов и открытых фреймворков памяти. Помимо консолидации, мы формулируем перспективный взгляд на новые направления исследований, включая проектирование памяти, ориентированное на автоматизацию, глубокую интеграцию обучения с подкреплением с системами памяти, мультимодальную память, общую память для многоагентных систем и вопросы доверия. Мы надеемся, что этот обзор послужит не только справочным материалом для существующих работ, но и концептуальной основой для переосмысления памяти как первостепенного элемента при проектировании будущих агентных интеллектов. - Memory in the Age of AI Agents: A Survey. Фундаментальное исследование.

См. также другие публикации, посвященные агентам

Saturday, December 20, 2025

Шаблоны агентов

400+ страниц на горячую тему Agentic Design Patterns

См. также другие публикации, посвященные агентам

Friday, December 19, 2025

LLM как эксперт

Удобство использования является ключевым фактором эффективности рекомендательных систем. Однако анализ пользовательских интерфейсов — это трудоемкий процесс, требующий специальных знаний. Недавние достижения в области многомодальных больших языковых моделей (LLM) открывают многообещающие возможности для автоматизации таких оценок. В этой работе мы исследуем потенциал многомодальных LLM для оценки удобства использования интерфейсов рекомендательных систем, рассматривая в качестве примеров различные общедоступные системы. Мы делаем скриншоты пользовательских интерфейсов с нескольких таких рекомендательных платформ, чтобы охватить как сценарии выявления предпочтений, так и сценарии представления рекомендаций. LLM получает задание проанализировать эти интерфейсы с учетом различных критериев удобства использования и предоставить пояснительную обратную связь. Наша оценка демонстрирует, как LLM могут поддерживать эвристические оценки удобства использования в масштабе для улучшения пользовательского опыта. - Towards LLM-Based Usability Analysis for Recommender User Interfaces

См. также другие публикации, посвященные LLM

Thursday, December 18, 2025

Оценка агентов кибербезопасности

Кибербезопасность охватывает множество взаимосвязанных областей, что усложняет разработку значимых, актуальных для рынка труда эталонных показателей. Существующие эталонные показатели оценивают отдельные навыки, а не интегрированную производительность. Мы обнаружили, что предварительно обученные знания в области кибербезопасности в моделях LLM не подразумевают навыков атаки и защиты, что указывает на разрыв между знаниями и возможностями. Для решения этой проблемы мы представляем эталонный показатель кибербезопасности для ИИ (CAIBench), модульную мета-систему эталонных показателей, которая позволяет оценивать модели и агентов LLM в различных областях кибербезопасности, как наступательной, так и оборонительной, делая шаг к осмысленному измерению их актуальности для рынка труда. CAIBench объединяет пять категорий оценки, охватывающих более 10 000 примеров: CTF в стиле «Jeopardy», CTF по атаке и защите, упражнения на киберполигоне, эталонные показатели знаний и оценки конфиденциальности. Ключевые новые разработки включают систематическую одновременную оценку наступательных и оборонительных действий, задачи по кибербезопасности, ориентированные на робототехнику (RCTF2), и оценку производительности с сохранением конфиденциальности (CyberPII-Bench). Оценка современных моделей ИИ показывает насыщение метрик знаний в области безопасности (70% успеха), но существенное ухудшение в многоэтапных сценариях противодействия (20-40% успеха) или еще худшее в сценариях с роботизированными целями (22% успеха). Сочетание структуры фреймворка и выбора модели LLM значительно влияет на производительность; мы обнаружили, что правильные совпадения улучшают дисперсию до 2,6 раз в CTF-соревнованиях атаки и защиты. Эти результаты демонстрируют выраженный разрыв между концептуальными знаниями и адаптивными возможностями, подчеркивая необходимость мета-бенчмарка. - Cybersecurity AI Benchmark (CAIBench): A Meta-Benchmark for Evaluating Cybersecurity AI Agents

См. также другие публикации, посвященные агентам

Wednesday, December 17, 2025

Паттерны агентов

См. также другие публикации, посвященные агентам

ИБП для медицинского оборудования

ИБП для медицинского оборудования обеспечивают непрерывную работу аппаратуры, от которой зависит здоровье и жизни пациентов. Критически важные приборы — аппараты МРТ, КТ, УЗИ, системы жизнеобеспечения — требуют стабильного электропитания. Даже кратковременные сбои могут привести к прерыванию важных медицинских манипуляций, риску жизни для пациентов и поломке оборудования. Наши бесперебойники не только обеспечивают резервное питание, но и защищают технику от скачков напряжения, провалов, помех, что продлевает срок службы дорогостоящих устройств. - АО «Абсолютные Технологии» — официальный партнер ведущих мировых производителей энергетического оборудования

Медицинское оборудование требует стабильного электроснабжения для правильной работы. При отключении электричества или скачках напряжения возникает риск остановки диагностических процедур, потери данных пациентов и нарушения работы жизнеобеспечивающих систем.

Источники бесперебойного питания (ИБП) для медицинского оборудования решают эту проблему, автоматически переключаясь на резервное питание при сбоях в электросети. ИБП поддерживает работу медицинских приборов до восстановления основного питания или безопасного завершения процедур.

Медицинские ИБП отличаются от обычных источников питания повышенными требованиями к безопасности и надежности. Они соответствуют медицинским стандартам качества и обеспечивают защиту как оборудования, так и пациентов от электрических помех и перепадов напряжения.

Тесты защитников

Риск предоставления небезопасной информации системами генеративного ИИ вызывает серьезные опасения, подчеркивая необходимость в защитных механизмах. Для снижения этого риска все чаще используются модели защиты, которые обнаруживают небезопасный контент во взаимодействии человека и ИИ, дополняя безопасность больших языковых моделей. Несмотря на недавние усилия по оценке эффективности этих моделей, их устойчивость к изменениям входных данных и атакам с использованием состязательных элементов остается в значительной степени неизученной. В этой статье мы представляем всестороннюю оценку 15 современных моделей защиты, оценивая их устойчивость к: а) изменениям входных данных, таким как опечатки, маскировка ключевых слов, шифры и скрытые выражения, и б) атакам с использованием состязательных элементов, предназначенным для обхода защитных механизмов моделей. Эти атаки используют возможности больших языковых моделей, такие как следование инструкциям, ролевая игра, персонификация, рассуждения и кодирование, или вводят состязательные токены для вызывания некорректного поведения модели. Наши результаты показывают, что большинство моделей защитных механизмов можно обойти с помощью простых изменений входных данных, и они уязвимы для атак со стороны злоумышленников. Например, один злонамеренный токен может обмануть их в среднем в 44,5% случаев. Ограничения текущего поколения моделей защитных механизмов подчеркивают необходимость создания более надежных защитных механизмов. - On Guardrail Models’ Robustness to Mutations and Adversarial Attacks

См. также другие публикации, посвященные LLM

Tuesday, December 16, 2025

LLM и электричество

В данной статье представлен всесторонний обзор применений, проблем и перспектив развития больших языковых моделей (LLM) в области электроэнергетики (EPD). Используя архитектуры на основе трансформаторов, такие как GPT, BERT и LLaMA, LLM продемонстрировали потенциал трансформации в различных областях применения в энергосистемах, включая прогнозирование нагрузки, диагностику неисправностей, соблюдение нормативных требований, ответы на вопросы, оценку рисков и интеллектуальный анализ данных. Систематический анализ более 45 исследований выявил измеримые преимущества, такие как повышение точности прогнозирования нагрузки до 20%, сокращение времени оперативного реагирования на 30% и уменьшение ручной работы на 40% для задач, связанных с регулированием. LLM продемонстрировали высокую адаптивность благодаря обучению с нулевым и малым количеством примеров и способны обрабатывать многомодальные входные данные для принятия решений в реальном времени. Однако ограничения, такие как высокие вычислительные затраты, отсутствие специализированных наборов данных, ограниченная объяснимость и опасения по поводу соответствия нормативным требованиям, препятствуют широкому внедрению. Для устранения этих пробелов в статье изложены возможности для исследований, включая тонкую настройку в конкретных областях, масштабируемые стратегии развертывания, многомодальную интеграцию и разработку унифицированных эталонных тестов, таких как ElecBench. В целом, интеграция LLM в энергосистемы представляет собой значительный шаг на пути к более интеллектуальному, надежному и устойчивому управлению энергией. - Review of LLMs Applications in Electrical Power and Energy Systems

См. также другие публикации, посвященные LLM

ИИ-агенты - это просто

aisuite — это легковесная библиотека Python, предоставляющая унифицированный API для работы с различными поставщиками генеративного ИИ. Она предлагает согласованный интерфейс для моделей от OpenAI, Anthropic, Google, Hugging Face, AWS, Cohere, Mistral, Ollama и других, абстрагируя различия в SDK, деталях аутентификации и параметрах. Ее дизайн основан на стиле API OpenAI, что делает ее мгновенно знакомой и простой в освоении.

aisuite позволяет разработчикам создавать и запускать приложения на основе LLM или агентные приложения от разных поставщиков с минимальной настройкой. Хотя это не полноценная платформа для агентов, она включает в себя простые абстракции для создания автономных, легковесных агентов. Она разработана с учетом простоты освоения — поэтому вы можете сосредоточиться на создании систем ИИ, а не на интеграции API.

См. также другие публикации, посвященные агентам

Monday, December 15, 2025

О безопасности ИИ-агентов - открытые вопросы

Агентные системы искусственного интеллекта, работающие на основе больших языковых моделей (LLM) и обладающие функциями планирования, использования инструментов, памяти и автономности, становятся мощными и гибкими платформами для автоматизации. Их способность автономно выполнять задачи в веб-среде, программном обеспечении и физической среде создает новые и усиленные риски безопасности, отличающиеся как от традиционной безопасности ИИ, так и от обычной безопасности программного обеспечения. В этом обзоре представлена таксономия угроз, специфичных для агентного ИИ, рассмотрены последние сравнительные тесты и методологии оценки, а также обсуждаются стратегии защиты как с технической, так и с управленческой точек зрения. Мы обобщаем текущие исследования и выделяем открытые проблемы, стремясь поддержать разработку безопасных по умолчанию агентных систем. - Agentic AI Security: Threats, Defenses, Evaluation, and Open Challenges

См. также другие публикации, посвященные агентам

Примеры ИИ-агентов

Хакатоны по разработке агентов - большая коллекция примеров с исходным кодом

См. также другие публикации, посвященные агентам

Интернет агентов

Проект NANDA намерен создать инфраструктуру для децентрализованной сети агентов искусственного интеллекта. Они описывают её как глобальный децентрализованный реестр (подобный DNS), который можно использовать для обнаружения и аутентификации агентов с помощью MCP и A2A.

См. также другие публикации, посвященные агентам

Sunday, December 14, 2025

Покажем все

Институт Аллена запустил свою новейшую языковую модель с открытым исходным кодом — Olmo 3. Институт открыл весь процесс разработки, чтобы другие команды могли ознакомиться с его работой.

См. также другие публикации, посвященные LLM

Thursday, December 11, 2025

Безопасность ИИ-агентов

Учебное пособие на русском языке. Подготовлено на кафедре ИБ факультета ВМК МГУ имени М.В. Ломоносова. В первую очередь - для слушателей курса Разработка агентов ИИ, который с осени 2025 читается на факультете. Обновленный вариант на декабрь 2025. Охваченные вопросы:
  • Структура ИИ-агентов и шаблоны проектирования
  • Проблемы с безопасностью ИИ-агентов
  • Риски безопасности ИИ-агентов
  • Модель угроз
  • Уязвимости MCP
  • Вопросы безопасности во фреймворках разработки ИИ-агентов и практические рекомендации
  • Безопасные шаблоны для ИИ-агентов

Скачать пособие можно здесь

См. также другие публикации, посвященные агентам

AI-List 2025

AI-List 2025: новые решения российской индустрии ИИ

Wednesday, December 10, 2025

На злобу дня

— Вы использовали в работе искуственный интеллект?

— Что Вы, мы даже естественный не использовали.

Совсем взрослый язык

30 лет языку JavaScript. В мае 1995 года 33-летний Брендан Айх всего за десять дней создал первый прототип JavaScript, изначально имевший кодовое название Mocha (а затем LiveScript). 4 декабря 1995 года Netscape и Sun Microsystems официально представили JavaScript в пресс-релизе как «простой в использовании язык объектных сценариев, предназначенный для создания онлайн-приложений, связывающих объекты и ресурсы как на клиентах, так и на серверах».

Monday, December 08, 2025

Кибератаки на дроны

Беспилотные летательные аппараты (БПЛА), также известные как дроны, всё чаще используются в различных приложениях, и на них можно проводить различные кибератаки с использованием разных инструментов. Некоторые примеры этих атак включают разрыв соединения между дроном и контроллером с помощью атак деаутентификации, раскрытие пароля или криптографического ключа, используемого в протоколе связи, получение управления дроном посредством внедрения команд/кода и атаки типа «человек посередине» (MitM). В данной статье рассматриваются атаки с использованием дронов посредством анализа различных компонентов дрона, включая пульт дистанционного управления и протоколы связи. Основная цель — предоставить обзор возможных способов осуществления кибератак. В этом анализе сделан вывод о том, что дроны, предназначенные для различных целей, уязвимы для ряда кибератак. В статье также рассматриваются существующие методологии тестирования на проникновение для БПЛА, которые обеспечивают логическую основу для их реализации. В этом обзоре рассматриваются различные методы и инструменты кибератак, применяемые против БПЛА, с целью улучшения механизмов защиты. - Cyber Attacks on Commercial Drones: A Review

Sunday, December 07, 2025

Наши дипфейки - самые глубокие фейки

По мере того, как системы обнаружения дипфейков становятся всё более сложными, понимание их уязвимостей становится критически важным для разработки надёжной защиты. Мы представляем комплексное исследование конкурентных атак на детекторы дипфейков на основе изображений, предлагая новый подход, создающий «конкурентную реальность» — синтетические изображения, которые сохраняют визуальное сходство с оригинальными дипфейками, успешно обходя автоматизированные системы обнаружения. Наш метод использует генеративную структуру с архитектурой в стиле UNet для преобразования изображений, сгенерированных GAN, диффузионно-генерированных и обработанных лиц, в варианты, обманывающие детектор, сохраняя при этом визуальную точность. В отличие от традиционных подходов, основанных на возмущениях, которые добавляют шумовые паттерны, наш генеративный метод обучается преобразованиям, специфичным для изображений, без необходимости использования вручную созданных спектральных фильтров. Благодаря обширной оценке различных наборов данных, типов генераторов и архитектур детекторов мы демонстрируем, что наш подход достигает уровня ошибочной классификации до 98,83% на диффузных изображениях и 83,36% на контенте на основе GAN, сохраняя при этом высокое качество восприятия со средними баллами PSNR выше 35. Наши результаты выявляют критические уязвимости в существующих системах обнаружения и дают представление о разработке более надежных детекторов дипфейков. - Adversarial Reality for Evading Deepfake Image Detectors

См. также другие публикации по теме deepfake

Saturday, December 06, 2025

Двойной триггер

Детекторы объектов в реальном времени, широко используемые в реальных приложениях, уязвимы к атакам с использованием бэкдоров. Эта уязвимость возникает из-за того, что многие пользователи полагаются на наборы данных или предобученные модели, предоставляемые третьими лицами, из-за ограничений на данные и ресурсы. Однако большинство исследований атак с использованием бэкдоров было сосредоточено на классификации изображений, а обнаружение объектов в реальном времени изучено недостаточно. Более того, триггеры для большинства существующих атак с использованием бэкдоров генерируются вручную, что требует наличия предварительных знаний и наличия закономерностей между этапами обучения и вывода. Такой подход делает атаки либо легко обнаруживаемыми, либо сложно адаптируемыми к различным сценариям. Для устранения этих ограничений мы предлагаем новые генеративные сети с двойным триггером в частотной области для генерации невидимых триггеров для внедрения скрытых бэкдоров в модели во время обучения и видимых триггеров для постоянной активации во время вывода, что затрудняет отслеживание процесса атаки. В частности, для генеративной сети с невидимым триггером мы используем слой гауссовского сглаживания и высокочастотный классификатор артефактов для повышения скрытности внедрения бэкдоров в детекторы объектов. Для генеративной сети с видимыми триггерами мы разрабатываем новый алгоритм потери выравнивания, чтобы оптимизировать видимые триггеры таким образом, чтобы они отличались от исходных шаблонов, но при этом соответствовали вредоносному поведению активации невидимых триггеров. Обширные экспериментальные результаты и анализ подтверждают возможность использования различных триггеров на этапе обучения и этапе вывода, а также демонстрируют эффективность атак наших предлагаемых генеративных сетей с видимыми и невидимыми триггерами, значительно снижая эффективность детекторов объектов на 70,0% и 84,5%. - Twin trigger generative networks for backdoor attacks against real-time object detection

Принципиальный момент - исполюзуются разные триггеры при обучении и инференсе.

P.S. См. также другие публикации по теме adversarial, посвященные устойчивому машинному обучению

Friday, December 05, 2025

Состязательное тестирование LLM

Стремительное расширение исследований безопасности и надежности больших языковых моделей (LLM) привело к появлению разрозненной и зачастую содержащей ошибки экосистемы реализаций, наборов данных и методов оценки. Эта фрагментация затрудняет воспроизводимость и сопоставимость результатов различных исследований, препятствуя существенному прогрессу. Для решения этих проблем мы представляем ADVERSARIALLM, набор инструментов для проведения исследований надежности джейлбрейка LLM. Его дизайн ориентирован на воспроизводимость, корректность и расширяемость. Фреймворк реализует двенадцать алгоритмов состязательных атак, объединяет семь эталонных наборов данных, охватывающих оценку вредоносности, избыточного отказа и полезности, и предоставляет доступ к широкому спектру открытых LLM через Hugging Face. Реализация включает расширенные функции для обеспечения сопоставимости и воспроизводимости, такие как отслеживание ресурсов компьютера, детерминированные результаты и методы оценки распределения. ADVERSARIALLM также интегрирует систему оценки через сопутствующий пакет JUDGEZOO, который также может использоваться независимо. Вместе эти компоненты направлены на создание прочной основы для прозрачных, сравнимых и воспроизводимых исследований в области безопасности магистратуры по праву. Оба пакета доступны на GitHub - AdversariaLLM: A Unified and Modular Toolbox for LLM Robustness Research

См. также другие публикации, посвященные LLM

Wednesday, December 03, 2025

Что по интерпретации?

Интересные заметки от Google Deepmind по интерпретации моделей. Например, про атрибуцию данных на основе функций влияния.

Я к Вам пишу ...

Ужасы AI Red Team. Запросы в прошедшем времени обходили фильтры LLM. Теперь выяснилось, что их обходят еще и стихи ...

Мы представляем доказательства того, что состязательная поэзия функционирует как универсальный одношаговый джейлбрек для больших языковых моделей (LLM). В 25 передовых проприетарных и открытых моделях курируемые поэтические подсказки показали высокие показатели успешности атак (ASR), превышающие 90% у некоторых поставщиков. Сопоставление подсказок с таксономиями рисков MLCommons и EU CoP показывает, что поэтические атаки переносятся в области CBRN (Chemical, Biological, Radiological, and Nuclear) опасностей, манипуляций, киберпреступлений и потери контроля. Преобразование 1200 вредоносных подсказок MLCommons в стихи с помощью стандартизированного мета-подсказки дало ASR до 18 раз выше, чем их базовые показатели для прозы. Результаты оцениваются с помощью ансамбля из 3 экспертов LLM с открытым весом, чьи бинарные оценки безопасности были проверены на стратифицированном подмножестве, маркированном людьми. Поэтические подсказки достигли среднего уровня успешности взлома 62% для стихотворений, написанных вручную, и примерно 43% для мета-подсказок (по сравнению с непоэтическими базовыми вариантами), значительно превзойдя непоэтические базовые варианты и выявив систематическую уязвимость среди модельных семейств и подходов к обучению безопасности. Эти результаты показывают, что одни только стилистические вариации могут обойти современные механизмы безопасности, указывая на фундаментальные ограничения существующих методов выравнивания и протоколов оценки. - Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models

См. также другие публикации, посвященные LLM

Tuesday, December 02, 2025

A2AS - безопасность агентов

Фреймворк A2AS представлен в качестве уровня безопасности для агентов ИИ и приложений на базе LLM, аналогично тому, как HTTPS защищает HTTP. A2AS обеспечивает сертифицированное поведение, активирует самозащиту модели и обеспечивает целостность контекстного окна. Он определяет границы безопасности, аутентифицирует запросы, применяет правила безопасности и настраиваемые политики, а также контролирует поведение агентов, обеспечивая стратегию глубокой защиты. Фреймворк A2AS позволяет избежать накладных расходов, связанных с задержками, внешними зависимостями, изменениями архитектуры, переобучением модели и сложностью эксплуатации. В качестве основы A2AS представлена модель безопасности BASIC:

(B) Сертификаты поведения обеспечивают принудительное применение поведения,
(A) Аутентифицированные запросы обеспечивают целостность контекстного окна,
(S) Границы безопасности обеспечивают изоляцию ненадежных входных данных,
(I) Контекстная защита обеспечивает безопасную модельную аргументацию,
(C) Кодифицированные политики обеспечивают правила, специфичные для приложения.

В этой первой статье серии представлены модель безопасности BASIC и фреймворк A2AS, а также исследуется их потенциал для установления отраслевого стандарта A2AS - Agentic AI Runtime Security and Self-Defense

См. также другие публикации, посвященные агентам

Monday, December 01, 2025

LLM в защите

Когда агенты больших языковых моделей (LLM) всё чаще используются для автоматизации задач и взаимодействия с недоверенными внешними данными, внедрение подсказок становится серьёзной угрозой безопасности. Внедряя вредоносные инструкции в данные, к которым обращаются LLM, злоумышленник может произвольно переопределить исходную задачу пользователя и перенаправить агента на выполнение непреднамеренных, потенциально опасных действий. Существующие средства защиты либо требуют доступа к весам модели (тонкая настройка), либо приводят к существенной потере полезности (основанная на обнаружении), либо требуют нетривиальной переработки системы (на системном уровне). В связи с этим мы предлагаем DataFilter — защиту, не зависящую от модели, которая удаляет вредоносные инструкции из данных до того, как они достигнут бэкенда LLM. DataFilter обучается с контролируемой тонкой настройкой на имитационных внедрениях и использует как инструкции пользователя, так и данные для выборочного удаления вредоносного контента, сохраняя при этом безвредную информацию. В множестве бенчмарков DataFilter стабильно снижает процент успешных атак с использованием инъекций подсказок практически до нуля, сохраняя при этом полезность LLM. DataFilter обеспечивает надежную безопасность, высокую полезность и быстрое развертывание, что делает его надежной практической защитой для защиты коммерческих LLM от инъекций подсказок. Наша модель DataFilter доступна для немедленного использования, а код для воспроизведения наших результатов доступен здесь. - Defending Against Prompt Injection with DataFilter

Специально обученная LLM удаляет инъекции подсказок. Возможно - это правильный путь для агентов. Специальный агент-защитник, используемый в workflow агентов.

См. также другие публикации, посвященные LLM